Back to Latihan UAS IF3170

Problem Set: Unsupervised Learning & Evaluation

Mata Kuliah: Inteligensi Artifisial

Topik: Clustering (K-Means, DBSCAN) & Model Evaluation Strategy

Sifat: Latihan Mandiri

Soal 1: Segmentasi Pelanggan Toko (Simulasi Iteratif)

Diberikan dataset 8 pelanggan dengan 4 fitur campuran: 2 Kategorikal (Gender, Member) dan 2 Numerikal (Usia, Skor Belanja).

IDGender (C1​)Member (C2​)Usia (N1​)Skor Belanja (N2​)
D1PriaGold2080
D2WanitaSilver2278
D3PriaSilver5020
D4WanitaGold5522
D5PriaGold2182
D6WanitaSilver5218
D7PriaSilver2379
D8WanitaGold5321

Ketentuan Jarak (Mixed Distance):

Gunakan rumus jarak campuran berikut:

  • Kategorikal (): Gunakan Hamming Distance (Jika beda = 1, Jika sama = 0).

  • Numerikal (): Gunakan selisih nilai biasa .

  • Contoh: Jarak antara D1 dan D3:

    • Gender (Pria vs Pria): 0

    • Member (Gold vs Silver): 1

    • Usia (20 vs 50): -30

    • Skor (80 vs 20): 60

Inisialisasi:

  • Jumlah Cluster .

  • Centroid Awal: Menggunakan data D1 (Cluster 1) dan D3 (Cluster 2).

Tugas:

a. Iterasi 1 K-Means:

Lakukan satu kali iterasi penugasan (assignment) data ke centroid terdekat.

  • Hitung jarak setiap data (D1 s.d D8) ke Centroid 1 (D1) dan Centroid 2 (D3).

  • Tentukan keanggotaan cluster untuk setiap data.

  • Constraint Berhenti: Anggap iterasi berhenti setelah 1 kali update keanggotaan ini (tidak perlu menghitung rata-rata centroid baru untuk iterasi ke-2). Tuliskan anggota final Cluster 1 dan Cluster 2.

b. Prediksi Data Baru:

Ada pelanggan baru: D_New (Pria, Silver, 22, 75).

Ke cluster manakah (C1 atau C2) pelanggan ini akan masuk berdasarkan centroid awal (D1 dan D3)?

c. Analisis Elbow Method:

Jika kita mengabaikan centroid awal dan mencoba menjalankan K-Means dengan hingga , jelaskan secara konseptual bagaimana Elbow Method bekerja untuk menentukan jumlah cluster terbaik. Apa sumbu X dan Y pada grafik Elbow? Kriteria apa yang menentukan “titik siku” tersebut?

Soal 2: Simulasi DBSCAN pada Fitur Numerikal

Gunakan kembali dataset pada Soal 1, namun HANYA perhatikan 2 fitur numerikalnya saja: Usia () dan Skor Belanja (). Abaikan fitur kategorikal.

Data Points:

  • D1(20, 80), D2(22, 78), D3(50, 20), D4(55, 22)

  • D5(21, 82), D6(52, 18), D7(23, 79), D8(53, 21)

Parameter DBSCAN:

  • Epsilon (): 5

  • MinPts: 3 (termasuk titik itu sendiri)

  • Jarak: Euclidean Distance pada 2D ().

Tugas:

a. Matriks Jarak (Distance Matrix):

Buatlah tabel matriks jarak (segitiga bawah cukup) antar semua titik. Hitunglah jarak Euclidean antar titik yang sekiranya berdekatan (kelompok muda dan kelompok tua).

  • Hint: Jarak antara (20, 80) dan (50, 20) pasti jauh (> ), tidak perlu dihitung detail. Fokus pada titik yang berdekatan.

b. Penentuan Status Titik & Cluster:

Berdasarkan parameter dan :

  1. Tentukan status setiap titik: Core Point, Border Point, atau Noise.

  2. Bentuklah Cluster-nya. Ada berapa cluster yang terbentuk? Sebutkan anggotanya.

Soal 3: Visualisasi DBSCAN

Perhatikan ilustrasi titik-titik 2D di bawah ini. Lingkaran di sekitar titik menggambarkan radius Epsilon ().

Diketahui parameter MinPts = 4.

(Ilustrasi Abstrak: Titik P punya 5 tetangga dalam radius. Titik Q punya 2 tetangga dalam radius, tapi salah satunya adalah P. Titik R sendirian jauh dari yang lain)

Tugas:

Gambarkan atau jelaskan status (Label) untuk titik P, Q, dan R berdasarkan logika DBSCAN:

  1. Titik P (punya 5 tetangga): Statusnya adalah … karena …

  2. Titik Q (punya 2 tetangga, bertetangga dengan P): Statusnya adalah … karena …

  3. Titik R (punya 0 tetangga): Statusnya adalah … karena …

Soal 4: Analisis Perbandingan Skema Validasi

Anda adalah seorang Data Scientist yang harus memilih metode validasi model. Isilah tabel perbandingan berikut untuk menentukan metode mana yang paling tepat digunakan berdasarkan ukuran data.

KriteriaHold-out Validation (Train/Test Split)K-Fold Cross ValidationBootstrapping
Cara Kerja SingkatMembagi data 1x menjadi set latih dan uji (misal 80:20).Sampling dengan pengembalian (replacement) sebanyak N kali.
Kelebihan UtamaEstimasi performa lebih stabil/tidak bias (semua data jadi test set bergantian).
Kelemahan UtamaSangat bergantung pada potongan acak (bias tinggi pada data kecil).Data test set tumpang tindih (overlap) tinggi, komputasi berulang.
Rekomendasi PenggunaanCocok untuk Data Besar (>100k baris).Cocok untuk Data …Cocok untuk Data Sangat Kecil.

Soal 5: Benar/Salah (Kritis)

Tentukan apakah pernyataan berikut Benar atau Salah, dan berikan Alasan singkat yang padat.

NoPernyataanB/SAlasan
1Dalam evaluasi Clustering tanpa label asli (ground truth), nilai Silhouette Coefficient mendekati 1 menunjukkan cluster yang buruk (tumpang tindih).
2Metrik Purity (Kemurnian) dalam clustering memiliki kelemahan: nilainya akan selalu meningkat (menjadi 100%) jika kita memecah data menjadi cluster sebanyak jumlah data ().
3Pada Confusion Matrix kasus medis (Deteksi Kanker), memperkecil False Negative (FN) lebih prioritas daripada memperkecil False Positive (FP), sehingga kita fokus menaikkan Recall.
4Jika dataset sangat imbalanced (99% Negatif, 1% Positif), model yang selalu memprediksi “Negatif” akan memiliki Akurasi tinggi tetapi F1-Score rendah (atau 0).