Back to Latihan UAS IF3170

Problem Set: Probabilistic & Tree-Based Models

Mata Pelajaran: Inteligensi Artifisial (IF3170)

Topik: Supervised Learning (Bayes, DTL) & Probabilistic Reasoning (BN)

Estimasi Waktu: 60 Menit

Total Nilai: 40 Poin

Tujuan Pembelajaran

Setelah menyelesaikan bagian ini, mahasiswa diharapkan dapat:

  1. Menghitung probabilitas posterior menggunakan Naive Bayes dan Standard Bayes.

  2. Membangun dan menganalisis struktur Decision Tree menggunakan algoritma ID3, CART, dan C4.5.

  3. Menganalisis aliran informasi (independensi) dalam Bayesian Network.

  4. Mengevaluasi isu-isu kritis dalam DTL seperti overfitting dan bias atribut.

Petunjuk Umum

  • Jawablah pertanyaan secara berurutan.

  • Untuk soal hitungan, tuliskan rumus yang digunakan dan langkah-langkah perhitungannya.

  • Bulatkan hasil akhir hingga 3 angka di belakang koma.

BAGIAN I: Probabilistic & Tree-Based Models

Deskripsi Dataset (Untuk Soal 1 & 2)

Anda diberikan dataset kecil mengenai penerimaan karyawan di perusahaan startup teknologi “TechCorp” berdasarkan 4 fitur: IPK (Numerik), Portfolio (Bagus/Biasa), Wawancara (Bagus/Biasa/Buruk), dan Alumni (Ya/Tidak - apakah pelamar dari kampus ternama).

NoIPKPortfolioWawancaraAlumniDiterima (Target)
13.8BagusBiasaYaYa
22.8BiasaBurukTidakTidak
33.9BagusBagusYaYa
43.2BiasaBiasaTidakTidak
53.5BagusBiasaYaYa
62.9BurukBurukTidakTidak

Soal 1. Analisis Sentimen Startup (Naive Bayes vs Standard Bayes) (10 Poin)

Fokus: Naive Bayes Classifier, Joint Probability, Zero Frequency Problem.

Gunakan dataset “TechCorp” di atas. Terdapat pelamar baru dengan data: X = <Portfolio=Bagus, Wawancara=Buruk, Alumni=Tidak>. (Abaikan atribut IPK untuk soal ini).

Pertanyaan:

a. (Naive Bayes) Hitung prediksi kelas untuk data X menggunakan algoritma Naive Bayes. Tuliskan probabilitas Prior dan Likelihood untuk setiap atribut (Portfolio, Wawancara, Alumni). Tentukan kelas akhirnya.

b. (Standard Bayes) Hitung prediksi kelas untuk data X menggunakan prinsip Standard Bayes (Joint Probability murni tanpa asumsi independensi). Gunakan rumus .

c. (Analisis) Bandingkan hasil dari (a) dan (b). Mengapa hasilnya bisa berbeda (atau sama)? Jelaskan kelemahan Standard Bayes yang terlihat dari kasus ini jika data latih terbatas.

Soal 2. Konstruksi Pohon Keputusan Lengkap (12 Poin)

Fokus: DTL Algorithms (ID3, CART, C4.5), Information Gain, Gini Index, Gain Ratio, dan Struktur Pohon Lengkap.

Gunakan dataset “TechCorp” yang sama.

Pertanyaan:

a. (ID3 - Pohon Lengkap) Abaikan atribut IPK dan No. Gunakan atribut Portfolio, Wawancara, dan Alumni.

  • Hitung Information Gain untuk menentukan Root Node.

  • Lanjutkan perhitungan secara rekursif hingga terbentuk Pohon Keputusan Lengkap (sampai semua leaf node murni atau atribut habis).

  • Gambarkan pohon hasil akhirnya.

b. (C4.5 - Handling Numeric & Unique)

  1. Atribut Numerik (IPK): Jelaskan langkah C4.5 menangani atribut kontinu IPK. Tentukan threshold (titik potong) terbaik berdasarkan perhitungan Gain.

  2. Gain Ratio: Jika atribut No (ID Unik) dimasukkan dalam perhitungan, jelaskan mengapa C4.5 tidak akan memilihnya sebagai root node meskipun Information Gain-nya maksimal.

Soal 3. Analisis Jaringan Bayesian (Diagramming & Reasoning) (8 Poin)

Fokus: Struktur DAG, D-Separation, Conditional Independence.

Perhatikan struktur Bayesian Network berikut yang memodelkan kejadian di sebuah rumah pintar:

graph TD;
    A[Hujan] --> B[Atap Bocor];
    C[Pipa Pecah] --> B;
    B --> D[Lantai Basah];
    A --> E[Taman Becek];

Pertanyaan: Tentukan status independensi (Independen / Dependen) antara pasangan node berikut, beserta alasan teknisnya (sebutkan tipe koneksi: Serial, Diverging, atau Converging):

  1. Pipa Pecah dan Hujan, jika kondisi Atap Bocor TIDAK DIKETAHUI.

  2. Pipa Pecah dan Hujan, jika kondisi Lantai Basah DIKETAHUI (True). Jelaskan fenomena apa yang terjadi di sini.

  3. Lantai Basah dan Taman Becek, jika kondisi Atap Bocor DIKETAHUI (True).

Soal 4. Isu Kritis DTL: Pruning Strategy (Tabel Komparatif) (6 Poin)

Fokus: Overfitting, Pre-Pruning, Post-Pruning.

Dalam pengembangan Decision Tree, overfitting adalah musuh utama. Isilah tabel perbandingan strategi penanganan overfitting berikut:

Aspek PerbandinganPre-Pruning (Early Stopping)Post-Pruning (e.g., Reduced Error Pruning)
Mekanisme Utama(Jelaskan kapan proses berhenti)(Jelaskan apa yang dilakukan setelah tree jadi)
Kelebihan
Risiko Utama(Terkait Underfitting/Optimality)(Terkait Komputasi)

Soal 5. Konsep Probabilitas & Logika (4 Poin)

Fokus: Pemahaman Konseptual.

Tentukan apakah pernyataan berikut BENAR atau SALAH, dan berikan alasan singkat (maksimal 2 kalimat).

  1. Pernyataan: Dalam Naive Bayes, jika sebuah nilai atribut pada data uji tidak pernah muncul pada data latih (frekuensi 0), maka probabilitas posterior kelas tersebut akan menjadi 0, mengabaikan bukti dari atribut lain.

    • Jawaban: ________

    • Alasan: ________

  2. Pernyataan: DTL dengan kedalaman tak terbatas (unlimited depth) akan selalu memiliki Training Error yang lebih tinggi dibandingkan DTL dengan kedalaman terbatas (misal depth=3).

    • Jawaban: ________

    • Alasan: ________