Back to Latihan UAS IF3170

Problem Set: Probabilistic & Tree-Based Models (Variasi Eksplorasi)

Mata Pelajaran: Inteligensi Artifisial (IF3170)

Topik: Supervised Learning (Bayes, DTL) & Probabilistic Reasoning (BN)

Estimasi Waktu: 75 Menit

Total Nilai: 40 Poin

Tujuan Pembelajaran

Setelah menyelesaikan set soal ini, mahasiswa diharapkan dapat:

  1. Menganalisis dampak Prior Probability pada Naive Bayes dalam kondisi dataset tidak seimbang.

  2. Menerapkan mekanisme penanganan atribut numerik dan Missing Values pada algoritma C4.5.

  3. Mengidentifikasi Markov Blanket dan independensi kondisional pada struktur Bayesian Network yang kompleks.

Petunjuk Umum

  • Gunakan dataset “Seleksi Beasiswa” di bawah ini untuk mengerjakan Soal 1 dan Soal 2.

  • Tuliskan langkah perhitungan secara eksplisit (rumus substitusi angka hasil).

  • Bulatkan hasil akhir hingga 3 angka di belakang koma.

Dataset “Seleksi Beasiswa” (Untuk Soal 1 & 2)

Dataset ini berisi data pelamar beasiswa prestasi di sebuah universitas. Terdapat 12 data pelamar.

  • Fitur Numerik: IPK (Skala 4.0).

  • Fitur Kategorikal: Ekonomi (Mampu/Kurang), Organisasi (Aktif/Pasif), Sertifikat (Ada/Tidak).

  • Target: Lolos (Ya/Tidak).

  • Catatan: Tanda ? menunjukkan nilai yang hilang (missing value).

NoIPKEkonomiOrganisasiSertifikatLolos (Target)
13.8MampuAktifAdaYa
22.9KurangPasifTidakTidak
33.5KurangAktifAdaYa
43.2MampuPasifAdaTidak
53.9MampuAktifTidakYa
62.8MampuPasifTidakTidak
73.6KurangPasifAdaYa
83.1KurangAktifTidakTidak
93.7MampuPasifAdaYa
103.0KurangPasifTidakTidak
11?KurangAktifAdaYa
123.4?PasifAdaTidak

Soal 1. Naive Bayes: Prior Sensitivity & Smoothing (10 Poin)

Fokus: Dampak probabilitas Prior pada dataset seimbang vs tidak seimbang dan Laplace Smoothing.

Diketahui pelamar baru dengan profil: X = <Ekonomi=Kurang, Organisasi=Pasif, Sertifikat=Tidak>. (Abaikan atribut IPK untuk soal ini).

Pertanyaan:

a. (Analisis Prior dengan Missing Values) Hitung probabilitas Prior dan dari total 12 data di atas. Apakah penambahan 2 data baru mengubah keseimbangan dataset dibanding 10 data awal?

b. (Perhitungan Smoothing) Hitung prediksi untuk data X menggunakan Naive Bayes dengan Laplace Smoothing ().

  • Hitung Likelihood untuk setiap atribut (Ekonomi, Organisasi, Sertifikat).

  • Catatan: Untuk perhitungan Likelihood, abaikan baris yang nilai atributnya ? (missing). Contoh: Jika menghitung , data No. 12 tidak diikutsertakan dalam penyebut maupun pembilang atribut Ekonomi.

  • Hitung Posterior Probability dan tentukan keputusan akhirnya.

c. (Interpretasi Risiko) Dalam kasus beasiswa ini, manakah yang lebih “mahal” (berisiko) secara etika: False Positive (Memoloskan yang tidak layak) atau False Negative (Menolak yang sebenarnya layak)? Hubungkan jawaban Anda dengan selisih probabilitas posterior yang Anda dapatkan.

Soal 2. DTL Construction: Numeric & Missing Values (12 Poin)

Fokus: Penanganan atribut numerik (C4.5) dan konsep penanganan Missing Values secara konkret.

Pertanyaan:

a. (ID3 - Root Analysis) Hitung Information Gain untuk atribut Organisasi dan Sertifikat menggunakan 12 data tersebut. Manakah yang lebih baik dijadikan Root Node?

b. (C4.5 - Numeric Split) Fokus pada atribut numerik IPK.

  • Urutkan data berdasarkan IPK (abaikan Data No. 11 yang IPK-nya ?).

  • Identifikasi titik potong (thresholds) terbaik yang memisahkan kelas Target dengan Gain tertinggi.

  • Gambarkan stump (pohon 1 tingkat) dari threshold terbaik tersebut.

c. (Handling Missing Values - Konseptual) Perhatikan Data No. 12 (Ekonomi=?, Target=Tidak).

  1. Jika atribut Ekonomi dipilih sebagai node keputusan, bagaimana algoritma C4.5 menghitung Information Gain atribut ini dengan keberadaan missing value? Jelaskan formulanya secara konsep (penggunaan bobot ).

  2. Setelah pohon terbentuk, jika Data No. 12 digunakan sebagai data Testing dan masuk ke node Ekonomi, ke cabang manakah data ini akan dilewatkan?

Soal 3. Bayesian Network: Markov Blanket (8 Poin)

Fokus: Konsep Markov Blanket dan Independensi dalam struktur kompleks.

Perhatikan struktur BN berikut mengenai faktor kelulusan beasiswa:

graph TD;
    A[Kecerdasan - A] --> B[IPK - B];
    A --> C[Hasil Tes Tulis - C];
    D[Kondisi Ekonomi - D] --> E[Kebutuhan Bantuan - E];
    B --> F[Skor Akhir - F];
    C --> F;
    E --> F;
    F --> G[Keputusan Beasiswa - G];

Pertanyaan:

  1. Markov Blanket: Tentukan himpunan node yang membentuk Markov Blanket untuk node Skor Akhir (F). Sebutkan siapa saja Parents, Children, dan Children’s Parents-nya.

  2. Independensi: Tentukan status hubungan pasangan berikut:

    • IPK (B) dan Hasil Tes Tulis (C), jika Kecerdasan (A) TIDAK DIKETAHUI.

    • IPK (B) dan Hasil Tes Tulis (C), jika Skor Akhir (F) DIKETAHUI. (Jelaskan fenomena V-Structure yang terjadi di sini).

    • Kecerdasan (A) dan Kebutuhan Bantuan (E), jika Skor Akhir (F) DIKETAHUI.

Soal 4. Isu DTL: Gini Index vs Entropy (6 Poin)

Fokus: Perbandingan metrik splitting.

Algoritma CART menggunakan Gini Index, sedangkan ID3/C4.5 menggunakan Entropy.

  1. Hitung Gini: Hitung Gini Impurity untuk simpul akar (sebelum di-split) pada dataset Beasiswa (12 data). Rumus: .

  2. Analisis Komparatif: Jelaskan satu perbedaan karakteristik utama antara Gini Index dan Entropy. Mengapa Gini Index sering dikatakan lebih efisien secara komputasi dibandingkan Entropy?

Soal 5. Konsep Dasar (4 Poin)

Fokus: Pemahaman konseptual algoritma.

Jawablah Benar/Salah beserta alasannya.

  1. Pernyataan: Dalam K-Means Clustering, hasil akhir klasterisasi bersifat deterministik (selalu sama setiap kali dijalankan) asalkan datasetnya tidak berubah.

    • Jawaban: ________

    • Alasan: ________

  2. Pernyataan: Mengetahui nilai atribut Leaf Node pada Decision Tree memberikan Information Gain sebesar 0.

    • Jawaban: ________

    • Alasan: ________