Back to IF3170 Inteligensi Artifisial

Problem Set Lanjutan: kNN & Prediction Measurement

Level: Lanjutan (Advanced)

Estimasi Waktu: 75 - 90 menit

Tujuan Pembelajaran:

  1. Menganalisis implikasi komputasi dan statistik dari sifat Lazy Learner kNN.

  2. Memahami dan menjelaskan Curse of Dimensionality dan solusinya dalam konteks kNN.

  3. Menghitung dan menafsirkan metrik Precision, Recall, dan F1-Score pada kasus Imbalanced Data.

  4. Mampu menjustifikasi pemilihan metrik yang tepat berdasarkan konteks dan biaya kesalahan (FP/FN) bisnis.

Bagian A: Soal Dasar & True/False (4 soal)

Tipe Soal: True/False dengan Analisis Kritis

No.Pernyataan (Benar/Salah)Jawaban (True/False)
A.1Feature Scaling (Normalisasi/Standardisasi) adalah langkah pre-processing yang hanya penting untuk atribut numerik tetapi tidak diperlukan untuk atribut simbolik (kategorikal) saat menggunakan kNN.
A.2Accuracy Paradox terjadi ketika model memiliki akurasi yang tinggi (misal 98%), namun model tersebut masih dianggap gagal dalam mencapai tujuan bisnis, ini biasanya terjadi pada kasus Imbalanced Dataset.
A.3Dalam konteks deteksi fraud, di mana kelas ‘Fraud’ (Positif) hanya 0.1% dari total data, meningkatkan Recall model seringkali berarti harus menoleransi sedikit penurunan Precision.
A.4Jarak Manhattan () secara umum memberikan bobot yang lebih besar pada perbedaan fitur yang besar dibandingkan dengan Jarak Euclidean ().

Bagian B: Soal Menengah & Multiple Choice Multiple Answer (4 soal)

Tipe Soal: Multiple Choice Multiple Answer (Pilih > 1)

Soal 5 (MCMA: Karakteristik kNN Lanjutan)

Pilih tiga (3) karakteristik yang secara tepat mendefinisikan k-Nearest Neighbor (kNN) sebagai sebuah algoritma.

A. Membangun batas keputusan (Decision Boundary) secara eksplisit selama pelatihan (training). B. Komputasi training yang rendah, namun komputasi testing yang tinggi. C. Rentan terhadap noise data ketika nilai sangat kecil ( atau ). D. Menggunakan Maximum Likelihood Estimator (MLE) sebagai fungsi biaya (Cost Function). E. Sering memerlukan teknik Dimensionality Reduction (misal: PCA) untuk mengatasi Curse of Dimensionality.

Soal 6 (MCMA: Metrik dan Biaya Kesalahan)

Dalam skenario apa saja Recall menjadi metrik evaluasi yang paling krusial (harus diutamakan)? (Pilih 2 Jawaban)

A. Filter Spam Email, di mana kita tidak ingin email non-spam (Negatif) salah diklasifikasikan sebagai spam (Positif/FP). B. Diagnosis medis kanker, di mana kita tidak ingin pasien yang benar-benar sakit (Positif) didiagnosis sehat (Negatif/FN). C. Sistem Pengenalan Wajah untuk otentikasi, di mana kita tidak ingin orang asing (Negatif) diberi akses (Positif/FP). D. Prediksi kegagalan mesin (Positive = Failure), di mana kegagalan yang tidak terdeteksi (FN) menyebabkan kerugian operasional yang fatal.

Soal 7 (Aplikasi Hitungan & Analisis)

Anda memiliki data uji 500 email. Model pendeteksi email Phishing (‘Positif’) menghasilkan Confusion Matrix berikut:

RealitasPrediksi: Phishing (Positif)Prediksi: Aman (Negatif)
Phishing (Positif)100 (TP)20 (FN)
Aman (Negatif)30 (FP)350 (TN)

a. Hitung F1-Score model tersebut (dalam bentuk desimal, 2 angka di belakang koma).

b. Tentukan metrik mana (Precision atau Recall) yang lebih perlu ditingkatkan untuk model ini jika biaya utama dari Phishing adalah kerusakan sistem (diakibatkan oleh email Phishing yang lolos). Jelaskan mengapa.

Soal 8 (Teknik Jarak kNN)

Anda sedang bekerja dengan data numerik yang mengandung banyak outlier ekstrem (nilai-nilai yang sangat jauh dari rata-rata). Teknik pengukuran jarak manakah yang secara umum lebih robust (tahan banting) terhadap outlier tersebut?

A. Minkowski Distance dengan parameter .

B. Euclidean Distance (Minkowski dengan ).

C. Manhattan Distance (Minkowski dengan ).

D. Hamming Distance (Khusus untuk data kategorikal).

Bagian C: Soal Lanjutan (2 soal)

Tipe Soal: Esai Analisis Mendalam

Soal 9 (Esai: Lazy Learner dan Komputasi)

Jelaskan mengapa sifat kNN sebagai Lazy Learner (Pembelajar Malas) menjadi kelemahan komputasi terbesar ketika model sudah dilatih dan beralih ke lingkungan produksi (deployment) dengan volume data yang sangat besar. Bandingkan dengan algoritma Eager Learner (seperti Decision Tree), jelaskan perbedaan fundamental dalam Cost of Prediction (Biaya Prediksi).

Soal 10 (Esai: Curse of Dimensionality)

Uraikan secara rinci fenomena Curse of Dimensionality dan bagaimana ia secara spesifik merusak kinerja algoritma kNN. Selain Feature Selection, jelaskan satu metode Dimensionality Reduction (Reduksi Dimensi) yang umum digunakan untuk mengatasi masalah ini, dan mengapa metode tersebut efektif.