Back To Latihan UAS IF3170
Problem Set: Unsupervised Learning & Evaluation (Paket B)
Mata Kuliah: Inteligensi Artifisial
Topik: Clustering (K-Means, DBSCAN) & Model Evaluation Strategy
Sifat: Latihan Mandiri
Soal 1: Pengelompokan Data Logistik
Sebuah perusahaan logistik ingin mengelompokkan 6 gudang berdasarkan karakteristiknya. Data memiliki 3 fitur campuran: Tipe Gudang (Kat), Kapasitas (Num), dan Jarak ke Kota (Num).
| ID | Tipe Gudang (C1) | Kapasitas (N1) | Jarak (N2) |
| G1 | Besar (B) | 100 | 5 |
| G2 | Kecil (K) | 20 | 30 |
| G3 | Besar (B) | 110 | 8 |
| G4 | Kecil (K) | 25 | 28 |
| G5 | Besar (B) | 95 | 15 |
| G6 | Kecil (K) | 15 | 35 |
Metode Jarak (Mixed Distance):
-
Bobot: (Kategorikal sangat penting), (Numerikal standar).
-
Jarak Kategorikal: Sama = 0, Beda = 1.
-
Jarak Numerikal: Euclidean 2D biasa.
Skenario Simulasi (5 Langkah):
Ikuti tabel di bawah ini untuk mensimulasikan proses K-Means.
| Langkah | Instruksi / Pertanyaan | Jawaban & Perhitungan |
| 1 | Inisialisasi Centroid (): Pilih G1 sebagai Centroid 1 () dan G2 sebagai Centroid 2 (). Tuliskan koordinat awalnya. | : {Besar, 100, 5} : {Kecil, 20, 30} |
| 2 | Assignment Awal (Iterasi 1): Hitung jarak G3 dan G4 ke kedua centroid. Tentukan cluster mereka. Contoh Hitung G3 ke : Total | Jarak G3 ke : … Jarak G3 ke : … Masuk Cluster … Jarak G4 ke : … Jarak G4 ke : … Masuk Cluster … |
| 3 | Update Centroid (Iterasi 1): Asumsikan hasil assignment iterasi 1 menghasilkan: C1 = {G1, G3, G5}, C2 = {G2, G4, G6}. Hitung Centroid Baru (). Catatan: Untuk Kategori, gunakan Modus (Majority Voting). Untuk Numerik, gunakan Mean. | : Kat=…, Kap=…, Jar=… : Kat=…, Kap=…, Jar=… |
| 4 | Constraint Twist (Data Baru): Tiba-tiba masuk data G_Baru {Kecil, 50, 20}. Hitung jarak G_Baru ke dan . Ke mana ia akan masuk? | Jarak ke : … Jarak ke : … Cluster Tujuan: … |
| 5 | Evaluasi Cluster (SSE): Hitung Sum of Squared Errors (SSE) hanya untuk Cluster 2 (anggota: G2, G4, G6) terhadap centroid . Rumus: . | Hasil: … |
Soal 2: Kepadatan dan Validasi Kualitas
Diberikan dataset 2D sederhana (hanya fitur numerikal) dari soal sebelumnya untuk analisis DBSCAN:
-
G1(100, 5), G2(20, 30), G3(110, 8)
-
G4(25, 28), G5(95, 15), G6(15, 35)
Parameter DBSCAN: , .
Tugas A: Clusterisasi DBSCAN
-
Buatlah Matriks Jarak Euclidean (segitiga bawah) antar semua titik.
-
Tentukan status (Core, Border, Noise) untuk setiap titik.
-
Tuliskan hasil akhir Cluster yang terbentuk (misal: Cluster 1 = {…, …}, Noise = { … }).
Tugas B: Validasi Eksternal (Purity)
Asumsikan kita memiliki Label Asli (Ground Truth) sebagai berikut:
-
Kelas A (Gudang Besar): {G1, G3, G5}
-
Kelas B (Gudang Kecil): {G2, G4, G6}
Berdasarkan hasil cluster DBSCAN Anda di Tugas A:
-
Untuk setiap cluster yang terbentuk, tentukan Kelas Mayoritas-nya.
-
Hitung nilai Purity total dari hasil clustering tersebut.
Tugas C: Validasi Internal (Silhouette Concept)
Ambil salah satu titik, misalnya G4 (yang berada di Cluster Kecil).
Misalkan hasil clustering Anda adalah:
Hitunglah komponen Silhouette Coefficient untuk titik G4:
-
Cohesion (): Rata-rata jarak G4 ke anggota lain di cluster yang sama (G2, G6).
-
Separation (): Rata-rata jarak G4 ke anggota cluster tetangga terdekat ().
-
Silhouette Score (): Hitung nilai untuk G4.
-
Interpretasi: Apa arti nilai tersebut terhadap posisi G4? (Apakah terkelompokkan dengan baik?)
Soal 3: Identifikasi Visual
Perhatikan gambar distribusi titik di bawah ini. Lingkaran menunjukkan radius . Syarat .
(Ilustrasi: Titik A di tengah kerumunan padat. Titik B di pinggir kerumunan, hanya punya 2 tetangga tapi salah satunya A. Titik C terpencil sendirian)
Instruksi:
Lingkari atau sebutkan status titik berikut:
-
Titik A: … (Alasan: …)
-
Titik B: … (Alasan: …)
-
Titik C: … (Alasan: …)
Soal 4: Analisis Tabel
Lengkapi tabel perbandingan metode validasi berikut:
| Skenario Data | Metode Validasi Terbaik | Alasan Utama | Kelemahan Potensial |
| Data Kecil (< 50 sampel) | Bootstrapping | Memaksimalkan data latih dengan sampling replacement. | Bias optimis karena data uji tumpang tindih (overlap) dengan data latih. |
| Data Menengah (1000 - 10k) | K-Fold Cross Validation | … | … |
| Data Sangat Besar (> 1 Juta) | Hold-out Validation | … | … |
Soal 5: Konsep Evaluasi
| No | Pernyataan | B/S | Alasan Singkat |
| 1 | Nilai Cohesion (WSS) yang semakin besar menandakan cluster yang semakin baik dan padat. | … | … |
| 2 | Jika nilai Purity = 1.0, itu selalu berarti algoritma clustering kita sempurna dan berguna, terlepas dari jumlah clusternya. | … | … |
| 3 | McNemar Test digunakan untuk menguji signifikansi perbedaan performa antara dua model klasifikasi pada data uji yang sama. | … | … |
# KUNCI JAWABAN
Jawaban Soal 1 (Simulasi K-Means)
Langkah 2 (Assignment G3 & G4):
G3 (Besar, 110, 8):
Ke (Besar, 100, 5): . .
Ke (Kecil, 20, 30): . .
Keputusan: Masuk Cluster 1.
G4 (Kecil, 25, 28):
Ke : . .
Ke : . .
Keputusan: Masuk Cluster 2.
Langkah 3 (Update Centroid):
(dari G1, G3, G5):
Kat: Modus{Besar, Besar, Besar} = Besar.
Kap: Mean(100, 110, 95) = 101.67.
Jar: Mean(5, 8, 15) = 9.33.
(dari G2, G4, G6):
Kat: Modus{Kecil, Kecil, Kecil} = Kecil.
Kap: Mean(20, 25, 15) = 20.
Jar: Mean(30, 28, 35) = 31.
Langkah 4 (Data Baru G_Baru {Kecil, 50, 20}):
Ke (Besar, 101.7, 9.3):
Kat Beda () + Num .
. .
Ke (Kecil, 20, 31):
Kat Sama () + Num .
. .
Keputusan: Masuk Cluster 2 (Lebih dekat).
Langkah 5 (Evaluasi SSE Cluster 2):
Anggota: G2(20,30), G4(25,28), G6(15,35). Centroid .
SSE Total = .
Jawaban Soal 2 (DBSCAN & Validasi)
A. Clusterisasi DBSCAN:
Jarak:
Grup 1 (G1, G3, G5): Jarak antar mereka dekat (< 15).
G1-G3: .
G3-G5: (>15, tidak direct).
G1-G5: .
Grup 2 (G2, G4, G6): Jarak dekat.
G2-G4: .
G4-G6: .
Antar Grup: Jauh (> 60).
Status:
G1 tetangga {G3, G5}. Total=3 Core.
G3 tetangga {G1}. Total=2 Core (MinPts=2).
G5 tetangga {G1}. Total=2 Core.
G2, G4, G6 saling bertetangga Core.
Hasil:
Cluster 1: {G1, G3, G5}
Cluster 2: {G2, G4, G6}
B. Purity:
Cluster 1 (3 data): Mayoritas Kelas A (3 data). Benar=3.
Cluster 2 (3 data): Mayoritas Kelas B (3 data). Benar=3.
Total Benar = 6. Total Data = 6.
Purity = (100%).
C. Silhouette (G4):
Cohesion : Rata-rata jarak ke G2 dan G6.
Separation : Rata-rata jarak ke Cluster 1 (G1, G3, G5).
(Hitungan kasar cukup, pasti jauh).
Ambil rata-rata kasar .
Score :
Interpretasi: Nilai sangat mendekati 1, berarti G4 terkelompokkan dengan sangat baik (rapat di cluster sendiri, jauh dari cluster lain).
Jawaban Soal 4 (Tabel Validasi)
K-Fold: Estimasi stabil/tidak bias (semua data terpakai jadi test). Kelemahan: Komputasi mahal (Training K kali).
Hold-out: Efisien secara komputasi (hanya 1x training). Kelemahan: Bergantung pada potongan acak (bisa bias).
Jawaban Soal 5 (Benar/Salah)
Salah. Cohesion (WSS) mengukur error/jarak dalam cluster. Semakin Kecil nilainya, semakin padat/baik clusternya.
Salah. Purity bisa dimanipulasi dengan membuat cluster sebanyak jumlah data (setiap data 1 cluster = Purity 100%), tapi itu solusi trivial yang tidak berguna.
Benar. McNemar test menggunakan tabel kontingensi untuk melihat apakah perbedaan prediksi benar/salah antara dua model signifikan secara statistik.