Back to Latihan UAS IF3170

Problem Set: Unsupervised Learning & Evaluation (Paket D)

Mata Kuliah: Inteligensi Artifisial

Topik: Clustering (K-Means with Elbow Analysis, DBSCAN) & Model Evaluation Strategy

Sifat: Latihan Mandiri

Soal 1: Segmentasi Pasar Berbasis WCSS

Diberikan dataset 6 produk dengan fitur campuran: Kategori (Kat) dan Harga (Num).

IDKategori (C1​)Harga (N1​)
P1Elektronik (E)10
P2Fashion (F)2
P3Elektronik (E)12
P4Fashion (F)3
P5Elektronik (E)11
P6Fashion (F)1

Metode Jarak (Mixed Distance):

  • Bobot: (Kategori sangat penting), .

  • Jarak Hamming: Sama = 0, Beda = 1.

Tugas Simulasi (Langkah demi Langkah):

Anda akan mensimulasikan proses K-Means untuk dan guna menghitung WCSS (Within-Cluster Sum of Squares) dan melakukan analisis Elbow.

FASE A: Hitung WCSS untuk k=1

LangkahInstruksi / PertanyaanJawaban & Perhitungan
1Centroid Global ():



Hitung centroid tunggal () untuk seluruh data (P1-P6).



Aturan: Kat=Modus, Harga=Mean.
: Kat=…, Harga=…
2Hitung SSE per Titik:



Hitung jarak kuadrat () setiap titik ke .



Ingat bobot .












3Total WCSS ():



Jumlahkan seluruh dari Langkah 2. Ini adalah nilai WCSS saat .

FASE B: Hitung WCSS untuk k=2 (Iterasi K-Means)

LangkahInstruksi / PertanyaanJawaban & Perhitungan
4Inisialisasi ():



Pilih P2 sebagai Centroid 1 () dan P5 sebagai Centroid 2 ().
: {Fashion, 2}



: {Elektronik, 11}
5Assignment (P1):



Hitung jarak P1 ke dan . Tentukan clusternya.
Ke : …



Ke : … Masuk …
6Assignment (P3 & P4):



Hitung jarak P3 dan P4 ke kedua centroid.
P3: … Masuk …



P4: … Masuk …
7Assignment (P6):



Hitung jarak P6 ke kedua centroid.
P6: … Masuk …



(P2 dan P5 sudah pasti masuk cluster sendiri sebagai centroid awal)
8Update Centroid:



Berdasarkan anggota cluster yang terbentuk di langkah 5-7, hitung centroid baru ().
: …



: …
9Hitung SSE per Cluster ():



Hitung total jarak kuadrat anggota cluster ke centroid barunya masing-masing.











10Analisis Elbow:



Hitung Total .



Bandingkan dengan dari Langkah 3.



Berapa persentase penurunan errornya? Apakah penambahan cluster dari 1 ke 2 signifikan?




Penurunan: … %



Kesimpulan: …

Soal 2: Kepadatan dan Matriks Jarak

Diberikan 5 titik numerikal 1D sederhana:

  • A(1), B(2), C(5), D(6), E(15)

Parameter DBSCAN: , .

Tugas A: Simulasi DBSCAN

  1. Buatlah Matriks Jarak (selisih absolut ) antar semua titik.

  2. Tentukan status setiap titik (Core, Border, Noise) berdasarkan parameter.

  3. Tuliskan hasil Cluster yang terbentuk.

Tugas B: Validasi Internal (Separation)

Hitung jarak antar cluster (Separation) menggunakan metode Single Linkage (jarak terdekat antar anggota cluster yang berbeda).

  • Jika terbentuk Cluster 1 dan Cluster 2, berapa jarak terdekat antara anggota C1 dan C2?

Soal 3: Interpretasi Grafik Elbow

Perhatikan data fiktif hasil WCSS untuk berbagai nilai :

Tugas:

  1. Gambarkan sketsa grafik Elbow sederhana (Sumbu X: k, Sumbu Y: WCSS).

  2. Di titik manakah “siku” (elbow) berada? Mengapa Anda memilih titik tersebut sebagai jumlah cluster optimal? Jelaskan menggunakan konsep diminishing returns (penurunan hasil yang semakin kecil).

Soal 4: Analisis Tabel

Lengkapi tabel perbandingan metode validasi berikut:

KriteriaStratified K-FoldLeave-One-Out (LOOCV)
Cara KerjaMembagi data jadi K bagian, tapi menjaga rasio kelas (misal 70:30) tetap sama di setiap fold.K-Fold ekstrim di mana (jumlah data). Setiap iterasi hanya 1 data jadi test, sisanya train.
Kelebihan UtamaSangat krusial untuk Data Imbalanced agar test set representatif.Tidak bias (hampir seluruh data dipakai training). Deterministik (hasil selalu sama).
Kelemahan UtamaSedikit lebih rumit implementasinya dibanding K-Fold biasa.Sangat Mahal Komputasinya (Training N kali). Variance tinggi pada estimasi error.
RekomendasiWajib untuk klasifikasi Fraud/Penyakit Langka.Hanya untuk dataset Sangat Kecil (< 50) & model cepat.

Soal 5: Konsep Evaluasi

NoPernyataanB/SAlasan Singkat
1Dalam Elbow Method, kita selalu memilih nilai di mana WCSS bernilai paling kecil (minimum mutlak).
2Algoritma DBSCAN tidak memiliki centroid yang eksplisit seperti K-Means, sehingga kita tidak bisa menghitung WCSS dengan cara yang sama persis.
3Metrik Recall pada Confusion Matrix mengukur seberapa banyak prediksi Positif yang benar-benar Positif (akurasi tebakan positif).