Back to Latihan UAS IF3170
Problem Set: Unsupervised Learning & Evaluation (Paket D)
Mata Kuliah: Inteligensi Artifisial
Topik: Clustering (K-Means with Elbow Analysis, DBSCAN) & Model Evaluation Strategy
Sifat: Latihan Mandiri
Soal 1: Segmentasi Pasar Berbasis WCSS
Diberikan dataset 6 produk dengan fitur campuran: Kategori (Kat) dan Harga (Num).
| ID | Kategori (C1) | Harga (N1) |
| P1 | Elektronik (E) | 10 |
| P2 | Fashion (F) | 2 |
| P3 | Elektronik (E) | 12 |
| P4 | Fashion (F) | 3 |
| P5 | Elektronik (E) | 11 |
| P6 | Fashion (F) | 1 |
Metode Jarak (Mixed Distance):
-
Bobot: (Kategori sangat penting), .
-
Jarak Hamming: Sama = 0, Beda = 1.
Tugas Simulasi (Langkah demi Langkah):
Anda akan mensimulasikan proses K-Means untuk dan guna menghitung WCSS (Within-Cluster Sum of Squares) dan melakukan analisis Elbow.
FASE A: Hitung WCSS untuk k=1
| Langkah | Instruksi / Pertanyaan | Jawaban & Perhitungan |
| 1 | Centroid Global (): Hitung centroid tunggal () untuk seluruh data (P1-P6). Aturan: Kat=Modus, Harga=Mean. | : Kat=…, Harga=… |
| 2 | Hitung SSE per Titik: Hitung jarak kuadrat () setiap titik ke . Ingat bobot . | … |
| 3 | Total WCSS (): Jumlahkan seluruh dari Langkah 2. Ini adalah nilai WCSS saat . |
FASE B: Hitung WCSS untuk k=2 (Iterasi K-Means)
| Langkah | Instruksi / Pertanyaan | Jawaban & Perhitungan |
| 4 | Inisialisasi (): Pilih P2 sebagai Centroid 1 () dan P5 sebagai Centroid 2 (). | : {Fashion, 2} : {Elektronik, 11} |
| 5 | Assignment (P1): Hitung jarak P1 ke dan . Tentukan clusternya. | Ke : … Ke : … Masuk … |
| 6 | Assignment (P3 & P4): Hitung jarak P3 dan P4 ke kedua centroid. | P3: … Masuk … P4: … Masuk … |
| 7 | Assignment (P6): Hitung jarak P6 ke kedua centroid. | P6: … Masuk … (P2 dan P5 sudah pasti masuk cluster sendiri sebagai centroid awal) |
| 8 | Update Centroid: Berdasarkan anggota cluster yang terbentuk di langkah 5-7, hitung centroid baru (). | : … : … |
| 9 | Hitung SSE per Cluster (): Hitung total jarak kuadrat anggota cluster ke centroid barunya masing-masing. | |
| 10 | Analisis Elbow: Hitung Total . Bandingkan dengan dari Langkah 3. Berapa persentase penurunan errornya? Apakah penambahan cluster dari 1 ke 2 signifikan? | Penurunan: … % Kesimpulan: … |
Soal 2: Kepadatan dan Matriks Jarak
Diberikan 5 titik numerikal 1D sederhana:
- A(1), B(2), C(5), D(6), E(15)
Parameter DBSCAN: , .
Tugas A: Simulasi DBSCAN
-
Buatlah Matriks Jarak (selisih absolut ) antar semua titik.
-
Tentukan status setiap titik (Core, Border, Noise) berdasarkan parameter.
-
Tuliskan hasil Cluster yang terbentuk.
Tugas B: Validasi Internal (Separation)
Hitung jarak antar cluster (Separation) menggunakan metode Single Linkage (jarak terdekat antar anggota cluster yang berbeda).
- Jika terbentuk Cluster 1 dan Cluster 2, berapa jarak terdekat antara anggota C1 dan C2?
Soal 3: Interpretasi Grafik Elbow
Perhatikan data fiktif hasil WCSS untuk berbagai nilai :
Tugas:
-
Gambarkan sketsa grafik Elbow sederhana (Sumbu X: k, Sumbu Y: WCSS).
-
Di titik manakah “siku” (elbow) berada? Mengapa Anda memilih titik tersebut sebagai jumlah cluster optimal? Jelaskan menggunakan konsep diminishing returns (penurunan hasil yang semakin kecil).
Soal 4: Analisis Tabel
Lengkapi tabel perbandingan metode validasi berikut:
| Kriteria | Stratified K-Fold | Leave-One-Out (LOOCV) |
| Cara Kerja | Membagi data jadi K bagian, tapi menjaga rasio kelas (misal 70:30) tetap sama di setiap fold. | K-Fold ekstrim di mana (jumlah data). Setiap iterasi hanya 1 data jadi test, sisanya train. |
| Kelebihan Utama | Sangat krusial untuk Data Imbalanced agar test set representatif. | Tidak bias (hampir seluruh data dipakai training). Deterministik (hasil selalu sama). |
| Kelemahan Utama | Sedikit lebih rumit implementasinya dibanding K-Fold biasa. | Sangat Mahal Komputasinya (Training N kali). Variance tinggi pada estimasi error. |
| Rekomendasi | Wajib untuk klasifikasi Fraud/Penyakit Langka. | Hanya untuk dataset Sangat Kecil (< 50) & model cepat. |
Soal 5: Konsep Evaluasi
| No | Pernyataan | B/S | Alasan Singkat |
| 1 | Dalam Elbow Method, kita selalu memilih nilai di mana WCSS bernilai paling kecil (minimum mutlak). | … | … |
| 2 | Algoritma DBSCAN tidak memiliki centroid yang eksplisit seperti K-Means, sehingga kita tidak bisa menghitung WCSS dengan cara yang sama persis. | … | … |
| 3 | Metrik Recall pada Confusion Matrix mengukur seberapa banyak prediksi Positif yang benar-benar Positif (akurasi tebakan positif). | … | … |
# KUNCI JAWABAN
Jawaban Soal 1 (K-Means & Elbow Simulation)
FASE A: WCSS k=1
Centroid Global: Modus Kat = {3E, 3F} (Ambil E misal). Mean Harga = .
SSE per Titik ():
P1(E, 10): .
P2(F, 2): .
P3(E, 12): .
P4(F, 3): .
P5(E, 11): .
P6(F, 1): .
Total WCSS (): .
FASE B: WCSS k=2
Inisialisasi: , .
Assign P1(E, 10): Ke . Ke . Masuk C2.
Assign P3(E, 12): Ke . Ke . Masuk C2.
Assign P4(F, 3): Ke . Ke . Masuk C1.
- Assign P6(F, 1): Ke . Ke . Masuk C1.
Hasil Cluster: C1 (F, Harga Rendah): {P2, P4, P6}. C2 (E, Harga Tinggi): {P1, P3, P5}.
Update Centroid:
: Modus=F, Mean=. .
: Modus=E, Mean=. .
SSE per Cluster ():
C1 (ke F, 2):
P2(F,2): .
P4(F,3): .
P6(F,1): .
Total SSE1 = 2.
C2 (ke E, 11):
P1(E,10): .
P3(E,12): .
P5(E,11): .
Total SSE2 = 2.
Analisis Elbow:
.
Penurunan: Dari 425.5 menjadi 4. Turun drastis (99%).
Kesimpulan: Penambahan cluster sangat signifikan. sangat bagus memisahkan data (Kategori Fashion-Murah vs Elektronik-Mahal terpisah sempurna).
Jawaban Soal 2 (DBSCAN 1D)
A. Simulasi:
Matriks Jarak:
A-B: 1.
B-C: 3.
C-D: 1.
D-E: 9.
Status:
A(1): Tetangga {B(2)} (Jarak 1 2). Total=2. ( MinPts 2) Core.
B(2): Tetangga {A(1)}. Total=2. Core. (B ke C jarak 3, >2).
C(5): Tetangga {D(6)}. Total=2. Core.
D(6): Tetangga {C(5)}. Total=2. Core.
E(15): Tidak ada tetangga . Total=1 (diri sendiri). Noise.
Cluster:
A dan B saling jangkau Cluster 1 {A, B}.
C dan D saling jangkau Cluster 2 {C, D}.
E Noise.
B. Validasi (Separation Single Linkage):
Jarak terdekat antara C1{1, 2} dan C2{5, 6} adalah jarak antara B(2) dan C(5).
Jarak = 3.
Jawaban Soal 3 (Interpretasi Elbow)
Sketsa: Grafik turun tajam dari k=1 ke k=2, lalu melandai.
Titik Siku: . Karena penurunan dari k=1 ke k=2 sangat besar (700 poin), sedangkan dari k=2 ke k=3 jauh lebih kecil (150 poin). Setelah k=2, penambahan cluster memberikan diminishing returns (biaya komputasi nambah, tapi gain penurunan error sedikit).
Jawaban Soal 5 (Benar/Salah)
Salah. Jika cari minimum mutlak, kita akan pilih (WCSS=0), tapi itu tidak berguna. Kita cari siku.
Benar. DBSCAN berbasis densitas dan konektivitas, bukan jarak ke pusat rata-rata.
Salah. Itu definisi Precision. Recall mengukur seberapa banyak Positif Asli yang berhasil ditebak (Sensitivity).