Back to IF3170 Inteligensi Artifisial

Problem Set: Supervised Learning - 1 (kNN, DTL, & Metrics)

Level: Menengah-Lanjutan

Estimasi Waktu: 60 - 75 menit

Tujuan Pembelajaran:

  1. Mampu menjelaskan karakteristik fundamental dari algoritma k-NN dan Decision Tree.

  2. Mampu menganalisis isu-isu kritis dalam Decision Tree Learning (DTL), seperti overfitting dan bias Information Gain.

  3. Mampu menerapkan dan menginterpretasikan metrik evaluasi klasifikasi (Precision, Recall, F1-Score) dalam konteks bisnis/nyata.

  4. Mampu membandingkan dan menjustifikasi strategi pra-pemodelan (seperti Feature Scaling dan Pruning).

Bagian A: Soal Dasar (4 soal)

Tipe Soal: True/False

No.Pernyataan (Benar/Salah)Jawaban (True/False)
A.1k-Nearest Neighbor (kNN) dikategorikan sebagai Eager Learner karena ia menghabiskan sebagian besar waktu komputasi untuk membangun model hipotesis yang eksplisit selama fase pelatihan (training).
A.2Atribut StudentID seringkali menghasilkan Information Gain yang sangat tinggi dan oleh karena itu, merupakan kandidat yang sangat baik untuk menjadi root node pertama dalam Decision Tree, karena menunjukkan kemampuan prediksi yang kuat.

Tipe Soal: Definisi Singkat

Soal 3 (Definisi: Confusion Matrix)

Dalam konteks Klasifikasi Biner, definisikan secara jelas apa yang dimaksud dengan False Negative (FN). Berikan satu contoh situasi di dunia nyata (selain deteksi penyakit) di mana terjadinya FN memiliki konsekuensi biaya kerugian yang sangat tinggi (misal: finansial, operasional, atau keamanan).

Soal 4 (Konsep: Entropy)

Jelaskan arti dari dua nilai ekstrem Entropy dalam Decision Tree Learning (DTL):

a. .

b. (untuk kasus klasifikasi biner).

Bagian B: Soal Menengah (3 soal)

Tipe Soal: Multiple Choice Multiple Answer (MCMA) dan Aplikasi Hitungan

Soal 5 (MCMA: kNN)

Pilih dua pernyataan yang merupakan kelemahan kritis dari algoritma k-Nearest Neighbor (kNN) dan yang memerlukan langkah-langkah pre-processing khusus untuk diatasi. (Pilih 2 Jawaban)

A. kNN menghasilkan hipotesis yang terlalu sederhana (underfitting) untuk dataset non-linear. B. Biaya komputasi untuk prediksi data baru (testing) menjadi sangat tinggi pada dataset yang besar. C. Rentan terhadap Curse of Dimensionality, di mana konsep jarak menjadi tidak bermakna pada fitur yang sangat banyak. D. Secara bawaan (default), kNN memperlakukan fitur numerik dengan skala besar (misal: gaji) dan skala kecil (misal: umur) secara adil.

Soal 6 (MCMA: DTL Issues)

Algoritma Decision Tree Learning (DTL) sangat rentan terhadap overfitting, terutama ketika pohon tumbuh terlalu dalam dan pure node dicapai dengan hanya sedikit contoh data. Dari pasangan solusi berikut, manakah dua pasangan yang benar-benar merupakan strategi pruning yang valid untuk mengatasi overfitting? (Pilih 2 Jawaban)

A. Pre-Pruning dan Reduced Error Pruning B. Information Gain dan Gain Ratio C. Split Information dan Cost-Sensitive Learning D. Post-Pruning dan Rule Post-Pruning (seperti pada C4.5)

Soal 7 (Aplikasi: Prediction Measurement)

Sebuah model klasifikasi dikembangkan untuk memprediksi apakah seorang pelanggan akan churn (berhenti berlangganan). Kelas Positif adalah ‘Churn’. Setelah pengujian pada 1.000 data:

  • True Positive () = 80
  • True Negative () = 880
  • False Positive () = 20
  • False Negative () = 20

a. Hitung Precision model tersebut (dalam bentuk desimal, 2 angka di belakang koma). b. Hitung Recall model tersebut (dalam bentuk desimal, 2 angka di belakang koma). c. Jika tujuan bisnis utama perusahaan adalah memastikan tidak ada pelanggan yang churn tanpa terdeteksi (meminimalkan kerugian), manakah dari dua metrik (Precision atau Recall) yang harus diutamakan dan mengapa?

Bagian C: Soal Lanjutan (3 soal)

Tipe Soal: Esai Analisis dan Sintesis

Soal 8 (Analisis Konsep: kNN vs DTL)

Jelaskan perbedaan mendasar antara algoritma k-Nearest Neighbor (kNN) dan Decision Tree Learning (DTL) dari perspektif “Proses Belajar (Learning Process)“. Sertakan istilah kunci Lazy Learner dan Explicit Model dalam penjelasan Anda.

Soal 9 (Sintesis: Feature Scaling)

Mengapa Feature Scaling (Normalisasi/Standardisasi) merupakan langkah pre-processing yang wajib dilakukan pada algoritma kNN, tetapi tidak krusial (bahkan opsional) pada algoritma Decision Tree Learning (DTL)? Fokuskan penjelasan Anda pada bagaimana perbedaan mekanisme perhitungan jarak/split antara kedua algoritma tersebut dipengaruhi oleh skala fitur.

Soal 10 (Analisis DTL: Atribut Kontinu)

Algoritma ID3 dasar dirancang untuk atribut kategorikal. Jelaskan bagaimana DTL (seperti C4.5) menangani atribut bernilai kontinu (misal: Temperatur=) saat mencari atribut terbaik untuk split di suatu node. Uraikan secara singkat langkah-langkah kuncinya untuk menemukan threshold terbaik.

Tips untuk Yang Sedang Mengerjakan

  1. Fokus pada Kata Kunci: Saat menjawab soal DTL dan kNN, pastikan menyertakan istilah teknis seperti Lazy Learner, Instance-Based, Greedy Search, Entropy, Information Gain, dan Overfitting untuk menunjukkan pemahaman yang mendalam.

  2. Visualisasikan Metrik: Untuk Soal 7, bayangkan skenario Confusion Matrix di pikiran Anda. Ketahui bahwa Recall adalah fokus vertikal (Kolom ‘Realitas Positif’) dan Precision adalah fokus horizontal (Baris ‘Prediksi Positif’).

  3. Justifikasi Konsekuensi: Dalam soal esai, jangan hanya menyatakan ‘ya’ atau ‘tidak’. Selalu jelaskan mengapa - bagaimana mekanisme internal algoritma (perhitungan jarak, atau perhitungan Gain) dipengaruhi oleh faktor-faktor luar (skala, jumlah nilai unik, noise).