Back to IF3170 Inteligensi Artifisial

Problem Set DTL & kNN: Analisis Mendalam (30 Soal)

Level: Lanjutan (Membutuhkan Analisis Konsep dan Penerapan Formula)

Target: Mahasiswa Teknik/Sains Data (Fase Pemodelan & Evaluasi)

Estimasi Waktu: 100 - 120 menit

Tujuan Pembelajaran:

  1. Menguasai terminologi DTL (Entropy, Gain, Pruning) dan kNN (Lazy Learner, Curse of Dimensionality).

  2. Mampu menganalisis Trade-off desain model (Biaya Komputasi, Sensitivitas Noise).

  3. Mampu melakukan perhitungan DTL secara manual (Entropy, Gain, Gain Ratio).

  4. Mampu menerapkan kNN pada kasus missing value dan skala berbeda.

Bagian I: Teori dan Konsep (15 Soal)

A. True/False (5 Soal)

Instruksi: Tentukan apakah pernyataan berikut Benar (True) atau Salah (False) dan jelaskan secara singkat alasannya.

No.PernyataanJawaban (T/F)
I.1Algoritma k-Nearest Neighbor (kNN) tidak memerlukan Feature Scaling jika semua fitur numerik telah diubah menjadi nilai kategori menggunakan teknik Binning.
I.2Information Gain (IG) memiliki bias untuk memilih atribut dengan banyak nilai unik. Solusi untuk bias ini adalah mengganti IG dengan metrik Gini Impurity.
I.3Dalam DTL, strategi Pre-Pruning (penghentian awal) umumnya dianggap lebih sukses dalam praktik dibandingkan Post-Pruning (pangkas setelah overfit).
I.4Curse of Dimensionality pada kNN menyebabkan jarak antar semua titik data cenderung semakin jauh dan sama, yang merusak konsep kedekatan.
I.5Log Conditional Likelihood (LCL) adalah fungsi biaya (Cost Function) utama yang digunakan untuk melatih DTL.

B. Multiple Choice Multiple Answer (MCMA) (5 Soal)

Instruksi: Pilih minimal dua (2) jawaban yang paling tepat.

I.6. (DTL & Overfitting)

Pilih tiga (3) faktor utama yang menyebabkan sebuah Decision Tree sangat rentan terhadap overfitting.

A. Model hanya menghasilkan batas keputusan linear. B. Pohon diizinkan tumbuh hingga semua leaf node menjadi pure (murni) atau hanya memiliki sedikit data. C. Model tidak memiliki asumsi tentang distribusi probabilitas data. D. Adanya noise atau outlier di dalam data latih. E. Penggunaan Reduced Error Pruning (REP) terlalu dini.

I.7. (kNN Weaknesses)

Pilih tiga (3) kelemahan struktural k-Nearest Neighbor (kNN).

A. Biaya prediksi testing sangat tinggi pada dataset besar. B. Sangat rentan terhadap masalah Imbalanced Data. C. Menggunakan Harmonic Mean (F1-Score) yang bias. D. Semua fitur (relevan atau tidak) berkontribusi sama pada perhitungan jarak. E. Tidak mampu menangani klasifikasi multi-kelas.

I.8. (Strategi Pruning)

Pilih dua (2) teknik Post-Pruning yang digunakan untuk menentukan ukuran tree akhir.

A. Menggunakan Validation Set (seperti pada Reduced Error Pruning). B. Menghentikan pertumbuhan node jika Gain-nya di bawah batas (epsilon). C. Menggunakan Rule Post-Pruning (C4.5). D. Menggunakan Minimum Description Length (MDL) untuk menyeimbangkan kompleksitas model dan error.

I.9. (Distance Metrics)

Pilih dua (2) pernyataan yang benar mengenai Jarak Manhattan () dibandingkan Jarak Euclidean () dalam konteks kNN.

A. Jarak Manhattan lebih sensitif terhadap outlier ekstrem. B. Jarak Euclidean merefleksikan jarak garis lurus (geometris). C. Jarak Manhattan memberikan pembobotan yang linear pada selisih fitur. D. Jarak Manhattan dapat menghasilkan Decision Boundary yang non-linear.

I.10. (Missing Values in DTL)

Pilih dua (2) strategi yang digunakan algoritma DTL (C4.5) untuk menangani nilai atribut yang hilang (missing values) selama perhitungan Information Gain.

A. Mengisi nilai yang hilang dengan nilai yang paling umum di node tersebut. B. Menganggap nilai hilang sebagai kategori unik tersendiri. C. Menghitung Gain hanya berdasarkan proporsi data yang nilainya diketahui (known values). D. Memecah instans dengan nilai hilang secara fraksional ke semua cabang yang mungkin.

C. Matching (5 Soal)

Instruksi: Pasangkan istilah di Kiri dengan definisi atau konsep terbaik di Kanan.

IstilahKonsep yang Cocok
I.11. Euclidean DistanceJarak yang paling efektif meminimalkan False Negative (FN).
I.12. Lazy LearnerSebuah metrik yang menormalkan Information Gain untuk mengatasi bias.
I.13. F1-ScoreJarak yang digunakan kNN ketika data berdimensi tinggi dan tidak dinormalisasi.
I.14. Gain RatioAlgoritma yang menunda komputasi hingga fase prediksi.
I.15. RecallRata-rata harmonik dari Precision dan Recall.

Bagian II: Perhitungan dan Analisis Kasus (15 Soal)

D. Perhitungan DTL (6 Soal)

Gunakan dataset berikut (total 9 data) yang mengandung 3 missing values (ditandai ’?’). Catatan: Asumsi yang digunakan sesuai dengan aturan kelas.

Atr1Atr2Atr3Class
A700Yes
A901No
B901Yes
B950Yes
C750Yes
C851No
?881No
A72?Yes
B?0No

II.1. Tentukan proporsi data berkelas “Yes” dan “No” untuk semua 9 data (termasuk yang missing).

II.2. Hitunglah nilai Entropy awal () untuk semua 9 data (S) tersebut.

II.3. Tentukan jumlah data yang diketahui (known) dan yang hilang (missing) untuk atribut Atr1.

II.4. Hitunglah Information Gain (Gain) untuk atribut Atr1 (), dengan asumsi missing value dihitung berdasarkan proporsi known value pada Gain keseluruhan (sesuai C4.5).

II.5. Hitunglah Split Information () untuk atribut Atr1 (dengan atau tanpa mengabaikan data yang hilang).

II.6. Hitunglah Gain Ratio ().

E. Simulasi kNN & Analisis (4 Soal)

Diberikan 4 data latih (D1-D4) dan 1 data uji (D_new). Kita ingin memprediksi Kelas target (A/B) menggunakan Jarak Euclidean.

No.UmurGaji (juta)StatusKelas
D12510MenikahA
D2305LajangB
D34015MenikahA
D4508LajangB
D_new3512Menikah?

II.7. Jelaskan mengapa Anda tidak bisa langsung menggunakan fitur Gaji dan Umur pada perhitungan Jarak Euclidean. II.8. Lakukan Feature Scaling sederhana (Min-Max Normalization) untuk fitur Umur dan Gaji pada D_new (gunakan rentang min/max dari D1-D4). Tuliskan nilai scaled untuk D_new. II.9. Menggunakan Hamming Distance untuk fitur Status dan Scaled Euclidean Distance dari II.8 untuk fitur Umur dan Gaji, hitunglah jarak total (Manhattan-like summation) antara D_new dan D3. II.10. Berdasarkan II.9, jika k=3, dan Anda tahu D1 dan D4 adalah tetangga lain yang paling dekat, manakah kelas prediksi untuk D_new? (Asumsi Jarak D_new-D1 = 0.5; Jarak D_new-D4 = 1.0; Jarak D_new-D3 dari II.9).

F. Esai Analisis Kasus Kritis (5 Soal)

II.11. (Analisis Konsep DTL & Outlier) Jelaskan mengapa DTL dianggap lebih robust (tahan banting) terhadap outlier pada fitur input numerik dibandingkan dengan Regresi Linear. Hubungkan jawaban Anda dengan cara DTL memecah data (split) dan cara Regresi Linear mencari garis terbaik.

II.12. (Justifikasi Pruning) Jelaskan perbedaan mendasar antara tujuan Pre-Pruning dan Post-Pruning. Mengapa Post-Pruning yang menggunakan Validation Set seringkali merupakan strategi yang lebih disukai dalam praktik?

II.13. (Efek Nilai k pada kNN) Anda melatih kNN dengan dua nilai k: k=1 dan k=21. Jelaskan dampak utama dari k=1 dan k=21 terhadap Bias-Variance Tradeoff dan sensitivitas model terhadap noise.

II.14. (Cost-Sensitive Learning) Dalam masalah diagnosis medis, cost (biaya) untuk mendapatkan hasil tes (tes darah) jauh lebih rendah daripada cost untuk tes (MRI). Bagaimana algoritma DTL harus dimodifikasi untuk memastikan tree yang dihasilkan lebih memilih split pada di root node? (Gunakan konsep penyesuaian Gain).

II.15. (Implikasi Pemilihan Jarak) Anda memiliki data dimana fitur-fiturnya tidak dinormalisasi. Anda menggunakan Jarak Euclidean (). Jelaskan apa yang terjadi jika salah satu fitur memiliki unit pengukuran 1000 kali lebih besar daripada fitur lainnya. (Hubungkan dengan konsep dominasi fitur).