Back To Latihan UAS IF3170

Problem Set: Unsupervised Learning & Evaluation (Paket B)

Mata Kuliah: Inteligensi Artifisial

Topik: Clustering (K-Means, DBSCAN) & Model Evaluation Strategy

Sifat: Latihan Mandiri

Soal 1: Pengelompokan Data Logistik

Sebuah perusahaan logistik ingin mengelompokkan 6 gudang berdasarkan karakteristiknya. Data memiliki 3 fitur campuran: Tipe Gudang (Kat), Kapasitas (Num), dan Jarak ke Kota (Num).

IDTipe Gudang (C1​)Kapasitas (N1​)Jarak (N2​)
G1Besar (B)1005
G2Kecil (K)2030
G3Besar (B)1108
G4Kecil (K)2528
G5Besar (B)9515
G6Kecil (K)1535

Metode Jarak (Mixed Distance):

  • Bobot: (Kategorikal sangat penting), (Numerikal standar).

  • Jarak Kategorikal: Sama = 0, Beda = 1.

  • Jarak Numerikal: Euclidean 2D biasa.

Skenario Simulasi (5 Langkah):

Ikuti tabel di bawah ini untuk mensimulasikan proses K-Means.

LangkahInstruksi / PertanyaanJawaban & Perhitungan
1Inisialisasi Centroid ():



Pilih G1 sebagai Centroid 1 () dan G2 sebagai Centroid 2 (). Tuliskan koordinat awalnya.
: {Besar, 100, 5}



: {Kecil, 20, 30}
2Assignment Awal (Iterasi 1):



Hitung jarak G3 dan G4 ke kedua centroid. Tentukan cluster mereka.



Contoh Hitung G3 ke :











Total
Jarak G3 ke :



Jarak G3 ke : Masuk Cluster …



Jarak G4 ke :



Jarak G4 ke : Masuk Cluster …
3Update Centroid (Iterasi 1):



Asumsikan hasil assignment iterasi 1 menghasilkan:



C1 = {G1, G3, G5}, C2 = {G2, G4, G6}.



Hitung Centroid Baru ().



Catatan: Untuk Kategori, gunakan Modus (Majority Voting). Untuk Numerik, gunakan Mean.
: Kat=…, Kap=…, Jar=…



: Kat=…, Kap=…, Jar=…
4Constraint Twist (Data Baru):



Tiba-tiba masuk data G_Baru {Kecil, 50, 20}.



Hitung jarak G_Baru ke dan .



Ke mana ia akan masuk?
Jarak ke : …



Jarak ke : …



Cluster Tujuan: …
5Evaluasi Cluster (SSE):



Hitung Sum of Squared Errors (SSE) hanya untuk Cluster 2 (anggota: G2, G4, G6) terhadap centroid .



Rumus: .




Hasil: …

Soal 2: Kepadatan dan Validasi Kualitas

Diberikan dataset 2D sederhana (hanya fitur numerikal) dari soal sebelumnya untuk analisis DBSCAN:

  • G1(100, 5), G2(20, 30), G3(110, 8)

  • G4(25, 28), G5(95, 15), G6(15, 35)

Parameter DBSCAN: , .

Tugas A: Clusterisasi DBSCAN

  1. Buatlah Matriks Jarak Euclidean (segitiga bawah) antar semua titik.

  2. Tentukan status (Core, Border, Noise) untuk setiap titik.

  3. Tuliskan hasil akhir Cluster yang terbentuk (misal: Cluster 1 = {…, …}, Noise = { … }).

Tugas B: Validasi Eksternal (Purity)

Asumsikan kita memiliki Label Asli (Ground Truth) sebagai berikut:

  • Kelas A (Gudang Besar): {G1, G3, G5}

  • Kelas B (Gudang Kecil): {G2, G4, G6}

Berdasarkan hasil cluster DBSCAN Anda di Tugas A:

  1. Untuk setiap cluster yang terbentuk, tentukan Kelas Mayoritas-nya.

  2. Hitung nilai Purity total dari hasil clustering tersebut.

Tugas C: Validasi Internal (Silhouette Concept)

Ambil salah satu titik, misalnya G4 (yang berada di Cluster Kecil).

Misalkan hasil clustering Anda adalah:

Hitunglah komponen Silhouette Coefficient untuk titik G4:

  1. Cohesion (): Rata-rata jarak G4 ke anggota lain di cluster yang sama (G2, G6).

  2. Separation (): Rata-rata jarak G4 ke anggota cluster tetangga terdekat ().

  3. Silhouette Score (): Hitung nilai untuk G4.

  4. Interpretasi: Apa arti nilai tersebut terhadap posisi G4? (Apakah terkelompokkan dengan baik?)

Soal 3: Identifikasi Visual

Perhatikan gambar distribusi titik di bawah ini. Lingkaran menunjukkan radius . Syarat .

(Ilustrasi: Titik A di tengah kerumunan padat. Titik B di pinggir kerumunan, hanya punya 2 tetangga tapi salah satunya A. Titik C terpencil sendirian)

Instruksi:

Lingkari atau sebutkan status titik berikut:

  1. Titik A: … (Alasan: …)

  2. Titik B: … (Alasan: …)

  3. Titik C: … (Alasan: …)

Soal 4: Analisis Tabel

Lengkapi tabel perbandingan metode validasi berikut:

Skenario DataMetode Validasi TerbaikAlasan UtamaKelemahan Potensial
Data Kecil (< 50 sampel)BootstrappingMemaksimalkan data latih dengan sampling replacement.Bias optimis karena data uji tumpang tindih (overlap) dengan data latih.
Data Menengah (1000 - 10k)K-Fold Cross Validation
Data Sangat Besar (> 1 Juta)Hold-out Validation

Soal 5: Konsep Evaluasi

NoPernyataanB/SAlasan Singkat
1Nilai Cohesion (WSS) yang semakin besar menandakan cluster yang semakin baik dan padat.
2Jika nilai Purity = 1.0, itu selalu berarti algoritma clustering kita sempurna dan berguna, terlepas dari jumlah clusternya.
3McNemar Test digunakan untuk menguji signifikansi perbedaan performa antara dua model klasifikasi pada data uji yang sama.