Back to Latihan UAS IF3170

Problem Set: Unsupervised Learning & Evaluation (Paket C)

Mata Kuliah: Inteligensi Artifisial

Topik: Clustering (K-Means, DBSCAN) & Advanced Model Evaluation

Sifat: Latihan Mandiri

Soal 1: Segmentasi Karyawan (Mixed Data & Dynamic Constraint)

Diberikan dataset 6 karyawan dengan fitur campuran: Divisi (Kat), Tingkat Pendidikan (Kat), Masa Kerja (Num), dan Gaji (Num).

IDDivisi (C1​)Pendidikan (C2​)Masa Kerja (N1​)Gaji (N2​)
K1ITS125
K2HRD386
K3ITS135
K4HRS1108
K5ITD344
K6HRS1129

Metode Jarak (Mixed Distance):

  • Bobot: , .

  • Jarak Kategorikal: Hamming (Beda=1, Sama=0).

  • Jarak Numerikal: Euclidean biasa.

Skenario Simulasi (Langkah demi Langkah):

LangkahInstruksi / PertanyaanJawaban & Perhitungan
1Inisialisasi Centroid ():



Pilih K1 sebagai Centroid 1 () dan K6 sebagai Centroid 2 (). Tuliskan koordinat awalnya.
: {IT, S1, 2, 5}



: {HR, S1, 12, 9}
2Assignment Awal (Iterasi 1):



Hitung jarak semua data ke dan . Tentukan cluster (C1/C2).



Contoh Hitung K2 ke :



Kat: (HRIT) + (D3S1) = . Bobot .



Num: .



Total .
K2 ke : 7.55, K2 ke : Masuk …



K3 ke : …, K3 ke : Masuk …



K4 ke : …, K4 ke : Masuk …



K5 ke : …, K5 ke : Masuk …
3Update Centroid (Iterasi 1):



Hitung Centroid Baru () dari anggota cluster hasil Langkah 2.



Aturan:



- Fitur Kategorikal: Gunakan Modus (Nilai terbanyak).



- Fitur Numerikal: Gunakan Mean (Rata-rata).
:



Divisi=…, Pend=…, MK=…, Gaji=…



:



Divisi=…, Pend=…, MK=…, Gaji=…
4Re-Assignment (Iterasi 2 - Distance Constraint):



Perusahaan menetapkan aturan ketat: “Data hanya boleh masuk cluster jika jaraknya ke centroid < 5.0”.



Cek kembali data K5. Hitung jaraknya ke dan .



Apakah K5 masuk ke Cluster 1, Cluster 2, atau menjadi Outlier (tidak masuk keduanya)?
Jarak K5 ke : …



Jarak K5 ke : …



Keputusan:
5Evaluasi (SSE Final):



Hitung SSE hanya untuk Cluster 1 (berdasarkan anggota final di langkah 4, tanpa K5 jika dia outlier).
Anggota C1: { … }



SSE = = …

Soal 2: Kepadatan dan Validasi Silang

Gunakan dataset numerikal sederhana berikut (Fitur ):

  • Cluster A (Pusat): A1(2,2), A2(2,3), A3(3,2), A4(3,3)

  • Cluster B (Jauh): B1(10,10), B2(10,11), B3(11,10)

  • Noise: N1(6,6)

Parameter DBSCAN: , .

Tugas A: Simulasi DBSCAN

  1. Buatlah Matriks Jarak Euclidean (fokus pada titik yang relevan/berdekatan saja).

  2. Tentukan status setiap titik (Core, Border, Noise).

  3. Tuliskan hasil Cluster yang terbentuk.

Tugas B: Validasi Eksternal (Purity)

Asumsikan label asli (ground truth) adalah:

  • Kelas 1: {A1, A2, A3, A4, N1} (Termasuk N1 yang sebenarnya noise secara visual).

  • Kelas 2: {B1, B2, B3}

Berdasarkan hasil cluster DBSCAN Anda (Noise dianggap sebagai cluster tersendiri atau “tidak terklasifikasi” - pilih salah satu strategi dan jelaskan):

  1. Hitung nilai Purity.

Tugas C: Validasi Internal (Analisis Metrik)

Hitunglah metrik berikut untuk mengevaluasi kualitas cluster:

  1. Cohesion (WSS): Hitung WSS (Sum of Squared Error) untuk Cluster B (B1, B2, B3) terhadap centroid-nya sendiri.

  2. Separation (BSS): Hitung jarak kuadrat antara Centroid Cluster A dan Centroid Cluster B.

  3. Silhouette Coefficient (untuk titik A1):

    • : Rata-rata jarak ke {A2, A3, A4}.

    • : Rata-rata jarak ke Cluster B {B1, B2, B3}.

    • Hitung .

Soal 3: Identifikasi Visual

Perhatikan gambar distribusi titik di bawah ini. Lingkaran menunjukkan radius . Syarat .

(Ilustrasi Abstrak: Titik X berada di jembatan tipis antara dua kepadatan besar. Titik Y berada di tengah kepadatan. Titik Z berada di pinggir kepadatan)

Instruksi:

Lingkari atau sebutkan status titik berikut:

  1. Titik X: … (Apakah dia Core/Border/Noise? Apakah dia menghubungkan dua cluster?)

  2. Titik Y: … (Alasan: …)

  3. Titik Z: … (Alasan: …)

Soal 4: Analisis Tabel

Lengkapi tabel perbandingan metode validasi berikut:

SkenarioMetode ValidasiAlasan UtamaRisiko/Kelemahan
Imbalanced Data (Fraud 1% vs Normal 99%)Stratified K-FoldMenjaga proporsi kelas yang sama di setiap fold latih & uji.
Time Series Data (Data Saham)Time Series Split (Forward Chaining)Data masa depan tidak boleh bocor ke masa lalu (data leakage).Data latihan awal sangat sedikit (pada fold pertama).
Hyperparameter TuningNested Cross-ValidationMemisahkan loop optimasi parameter dan loop evaluasi performa agar tidak bias.

Soal 5: Konsep Evaluasi

NoPernyataanB/SAlasan Singkat
1Silhouette Coefficient negatif menandakan bahwa sebuah titik data mungkin salah ditempatkan (lebih dekat ke cluster tetangga daripada cluster sendiri).
2Dalam K-Means, jika kita terus menambah jumlah cluster hingga , nilai SSE (Sum of Squared Errors) akan mencapai maksimum.
3Bootstrapping lebih disarankan daripada K-Fold Cross Validation jika dataset kita sangat besar (jutaan baris).