Back to Latihan UAS IF3170

Problem Set: Probabilistic & Tree-Based Models (Eksplorasi Pruning)

Mata Pelajaran: Inteligensi Artifisial (IF3170)

Topik: Supervised Learning (Bayes, DTL) & Probabilistic Reasoning (BN)

Estimasi Waktu: 75 Menit

Total Nilai: 40 Poin

Tujuan Pembelajaran

  1. Menganalisis dampak Missing Values pada perhitungan probabilitas Naive Bayes.

  2. Mendemonstrasikan proses Reduced Error Pruning (REP) secara manual untuk mengatasi overfitting pada Decision Tree.

  3. Menganalisis independensi kondisional pada struktur Bayesian Network yang memiliki loop (secara visual) atau struktur diamond.

Petunjuk Umum

  • Gunakan dataset “Kredit Mikro” di bawah ini. Dataset dibagi menjadi Training Set (untuk membangun model) dan Validation Set (untuk evaluasi/pruning).

  • Tuliskan langkah perhitungan secara eksplisit.

  • Bulatkan hasil akhir hingga 3 angka di belakang koma.

Dataset “Kredit Mikro”

Dataset ini digunakan untuk memprediksi kelayakan pemberian kredit (Layak / Risiko).

A. Training Set (12 Data)

Digunakan untuk membangun Pohon Keputusan awal.

NoSkor_KreditPendapatanJaminanLayak (Target)
1TinggiStabilAdaLayak
2TinggiStabilTidakLayak
3TinggiTidakAdaLayak
4TinggiTidakTidakRisiko
5RendahStabilAdaLayak
6RendahStabilTidakRisiko
7RendahTidakAdaRisiko
8RendahTidakTidakRisiko
9TinggiStabilAdaLayak
10RendahTidakTidakRisiko
11RendahStabilTidakRisiko
12TinggiTidakAdaLayak

B. Validation Set (4 Data)

Digunakan untuk menguji generalisasi dan melakukan pruning.

IDSkor_KreditPendapatanJaminanLayak (Target)
V1RendahStabilAdaRisiko
V2RendahStabilTidakRisiko
V3TinggiStabilTidakLayak
V4TinggiTidakTidakRisiko

Soal 1. Naive Bayes: Handling Unknowns (10 Poin)

Fokus: Dampak data latih yang “bersih” terhadap data uji yang memiliki nilai atribut tak terduga (noise/missing).

Gunakan Training Set (12 data) untuk melatih model Naive Bayes.

Terdapat nasabah baru dengan data: X = <Skor_Kredit=Rendah, Pendapatan=?, Jaminan=Ada>.

(Nilai Pendapatan hilang/tidak diketahui).

Pertanyaan:

a. (Skenario “Missing at Prediction”) Jika kita mengabaikan atribut Pendapatan (hanya menggunakan Skor_Kredit dan Jaminan), hitung prediksi kelas untuk nasabah X menggunakan Naive Bayes (gunakan Laplace Smoothing agar aman).

b. (Skenario “Imputasi”) Jika kita memutuskan untuk mengisi nilai ? pada Pendapatan dengan nilai Modus (nilai terbanyak muncul) dari atribut Pendapatan di Training Set, apakah prediksi kelasnya akan berubah? Tunjukkan perhitungannya.

c. (Analisis) Bandingkan kedua pendekatan di atas. Pendekatan mana yang menurut Anda lebih berisiko dalam konteks pemberian kredit? Mengapa?

Soal 2. Decision Tree & Reduced Error Pruning (12 Poin)

Fokus: Membuktikan bahwa pohon yang lebih pendek (pruned) bisa lebih akurat daripada pohon lengkap.

Pertanyaan:

a. (Konstruksi Pohon Penuh) Bangunlah sebuah Decision Tree menggunakan algoritma ID3 berdasarkan Training Set.

  • Gunakan Skor_Kredit sebagai Root Node.

  • Lanjutkan percabangan hingga semua leaf node murni (Entropy=0) atau atribut habis.

  • Hint: Perhatikan cabang “Rendah” “Stabil”. Pastikan cabang ini dipecah jika tidak murni.

  • Gambarkan pohon hasil training tersebut.

b. (Evaluasi Pohon Penuh) Gunakan Validation Set (V1, V2, V3, V4) untuk menguji akurasi pohon penuh yang Anda buat di poin (a).

  • Telusuri pohon untuk setiap data validasi.

  • Hitung berapa banyak prediksi yang BENAR dan SALAH.

  • Hitung Akurasi Validasi (Jumlah Benar / 4).

c. (Reduced Error Pruning) Lakukan analisis pruning pada node cabang “Skor_Kredit=Rendah Pendapatan=Stabil”.

  1. Tentukan Mayoritas: Apa kelas mayoritas dari data Training yang sampai di node ini? (Jadikan ini prediksi jika node dijadikan leaf).

  2. Evaluasi Pruning: Jika node ini dipangkas (diganti menjadi Leaf Node berisi kelas mayoritas), hitung ulang prediksi untuk data validasi yang relevan (V1 dan V2).

  3. Keputusan: Apakah akurasi validasi meningkat, menurun, atau tetap setelah pemangkasan? Haruskah pruning dilakukan?

Soal 3. Bayesian Network: The “Diamond” Structure (8 Poin)

Fokus: Analisis independensi pada struktur yang memiliki jalur ganda (multiple paths).

Perhatikan struktur BN berikut:

graph TD;
    A[Ekonomi Makro] --> B[Kinerja Perusahaan];
    A --> C[Sentimen Pasar];
    B --> D[Harga Saham];
    C --> D;

(Struktur Diamond: A mempengaruhi B dan C. B dan C bersama-sama mempengaruhi D).

Pertanyaan:

  1. Analisis Jalur: Sebutkan ada berapa jalur yang menghubungkan node Ekonomi Makro (A) dan Harga Saham (D)? Sebutkan node perantara di setiap jalurnya.

  2. Independensi (Blocking):

    • Apakah Kinerja Perusahaan (B) dan Sentimen Pasar (C) independen jika Ekonomi Makro (A) TIDAK DIKETAHUI? Jelaskan.

    • Apakah Kinerja Perusahaan (B) dan Sentimen Pasar (C) independen jika Ekonomi Makro (A) DIKETAHUI? Jelaskan dampaknya terhadap aliran informasi dari B ke C (apakah terblokir di A?).

  3. V-Structure Effect:

    • Jika Harga Saham (D) DIKETAHUI (Observed), bagaimana status hubungan antara Kinerja Perusahaan (B) dan Sentimen Pasar (C)? Apakah mereka menjadi dependen? Jelaskan fenomena Explaining Away dalam konteks harga saham ini.

Soal 4. Isu DTL: Atribut Kontinu & Split Point (6 Poin)

Fokus: Memahami bagaimana algoritma menentukan titik potong.

Misalkan kita punya atribut kontinu tambahan Usia dengan data training terurut dan kelasnya sebagai berikut:

22(R), 24(R), 25(L), 28(L), 30(L), 35(R), 40(R)

(R=Risiko, L=Layak).

  1. Identifikasi Kandidat Split: Sebutkan nilai-nilai threshold (titik tengah) yang akan dievaluasi oleh algoritma C4.5 sebagai kandidat splitting point.

  2. Evaluasi Lokal: Tanpa menghitung Gain lengkap, threshold mana yang menurut Anda paling buruk untuk dipilih? Mengapa? (Tinjau dari sisi pemisahan kelompok mayoritas).

Soal 5. Konsep Dasar (4 Poin)

Fokus: Pemahaman fundamental.

  1. Pernyataan: Post-Pruning selalu menghasilkan pohon yang ukurannya lebih kecil atau sama dengan pohon awal, tidak mungkin lebih besar.

    • Jawaban: ________

    • Alasan: ________

  2. Pernyataan: Jika dua variabel A dan B memiliki nilai Covariance nol, maka mereka pasti Independen dalam konteks Probabilitas Bayesian.

    • Jawaban: ________

    • Alasan: ________