Back to Latihan UAS IF3170

Problem Set: Probabilistic & Tree-Based Models (Final)

Mata Pelajaran: Inteligensi Artifisial (IF3170)

Topik: Supervised Learning (Bayes, DTL) & Probabilistic Reasoning (BN)

Estimasi Waktu: 75 Menit

Total Nilai: 40 Poin

Tujuan Pembelajaran

Setelah menyelesaikan set soal ini, mahasiswa diharapkan dapat:

  1. Menerapkan teknik Laplace Smoothing pada dataset yang lebih besar untuk mengatasi masalah probabilitas nol.

  2. Membangun Pohon Keputusan Bertingkat (kedalaman > 1) dengan menganalisis atribut yang menyebabkan impurity.

  3. Menganalisis aliran probabilitas dan independensi pada struktur Deep Bayesian Network.

Petunjuk Umum

  • Gunakan dataset “E-Shop Loyalty” di bawah ini untuk mengerjakan Soal 1 dan Soal 2.

  • Tuliskan langkah perhitungan secara eksplisit (rumus substitusi angka hasil).

  • Bulatkan hasil akhir hingga 3 angka di belakang koma.

Dataset “E-Shop Loyalty” (Untuk Soal 1 & 2)

Dataset ini berisi data pelanggan toko online untuk memprediksi apakah pelanggan tersebut Loyal atau tidak.

  • Fitur Numerik: Total_Belanja (Juta Rupiah).

  • Fitur Kategorikal: Membership (Gold/Silver/Bronze), Frekuensi (Sering/Jarang), Metode_Bayar (Kartu/E-Wallet/Transfer).

  • Target: Loyal (Ya/Tidak).

NoTotal_BelanjaMembershipFrekuensiMetode_BayarLoyal (Target)
15.5GoldSeringKartuYa
21.2BronzeJarangTransferTidak
38.0GoldSeringE-WalletYa
42.5BronzeJarangE-WalletTidak
54.0SilverSeringKartuYa
69.5GoldJarangKartuYa
71.5BronzeJarangTransferTidak
83.0SilverJarangE-WalletTidak
97.5GoldSeringTransferYa
106.0SilverSeringE-WalletTidak

Soal 1. Naive Bayes dengan Laplace Smoothing (10 Poin)

Fokus: Menangani Zero Frequency Problem pada dataset yang lebih variatif.

Diketahui pelanggan baru dengan data: X = <Membership=Silver, Frekuensi=Jarang, Metode_Bayar=Kartu>. (Abaikan atribut Total_Belanja untuk soal ini).

Pertanyaan:

a. (Naive Bayes Murni) Hitung probabilitas likelihood dan tanpa smoothing. Identifikasi atribut mana yang menyebabkan probabilitas menjadi 0 (jika ada).

b. (Laplace Smoothing) Hitung ulang prediksi untuk data X dengan menerapkan Laplace Smoothing ().

  • Gunakan rumus: .

  • adalah jumlah variasi nilai unik pada masing-masing atribut (misal: Membership punya 3 nilai unik).

  • Tentukan kelas akhirnya (Ya/Tidak) berdasarkan hasil smoothing.

c. (Analisis) Bandingkan hasil poin (a) dan (b). Mengapa metode Naive Bayes Murni sangat rentan “menyerah” (memberikan nilai 0) pada atribut Metode_Bayar untuk kelas tertentu, padahal atribut Membership memberikan sinyal yang cukup kuat?

Soal 2. Konstruksi Pohon Keputusan Lengkap (12 Poin)

Fokus: Membangun pohon keputusan bertingkat yang menangani mixed nodes.

Instruksi: Gunakan dataset “E-Shop Loyalty” di atas. Abaikan kolom No.

Pertanyaan:

a. (ID3 - Root Analysis) Hitung Entropy(Total) dari dataset. Kemudian hitung Information Gain hanya untuk atribut kategorikal: Membership, Frekuensi, dan Metode_Bayar. Tentukan atribut mana yang menjadi Root Node.

b. (ID3 - Level 2 Split) Berdasarkan Root Node yang terpilih di poin (a):

  • Tentukan cabang mana yang sudah Murni (Pure) dan langsung menjadi Leaf Node.

  • Tentukan cabang mana yang masih Tidak Murni (Impure).

  • Lakukan perhitungan Information Gain ulang pada cabang yang tidak murni tersebut untuk menentukan node level selanjutnya.

  • Gambarkan Pohon Keputusan Lengkap hasil akhirnya.

c. (C4.5 - Numeric Handling) Gunakan atribut numerik Total_Belanja.

  • Urutkan data berdasarkan Total_Belanja.

  • Identifikasi semua kandidat threshold (titik potong) di mana target kelas berubah dari “Tidak” ke “Ya” (atau sebaliknya).

  • Pilih satu threshold terbaik yang memisahkan data dengan error paling sedikit.

Soal 3. Deep Bayesian Network Analysis (8 Poin)

Fokus: Analisis independensi pada jalur panjang (Deep Structure) dan kausalitas sistem.

Perhatikan struktur Bayesian Network berikut yang memodelkan kegagalan sistem server:

graph TD;
    A[Serangan DDoS] --> B[High CPU Load];
    C[Lonjakan User] --> B;
    B --> D[Server Lambat];
    D --> E[Timeout Error];
    F[Hardware Rusak] --> G[Disk Corrupt];
    G --> H[Database Error];
    E --> I[System Crash];
    H --> I;

Pertanyaan:

Analisis hubungan independensi variabel berikut (Blocked/Active):

  1. Serangan DDoS dan Lonjakan User, jika High CPU Load TIDAK DIKETAHUI.

  2. Serangan DDoS dan Lonjakan User, jika System Crash DIKETAHUI (True). (Jelaskan alasannya!).

  3. High CPU Load dan Database Error, jika System Crash TIDAK DIKETAHUI.

  4. Hardware Rusak dan System Crash, jika Database Error DIKETAHUI.

Soal 4. Isu Kritis DTL: Gain Ratio vs Info Gain (6 Poin)

Fokus: Bias seleksi atribut.

Misalkan kita menambahkan atribut baru bernama Kode_Transaksi (unik untuk setiap baris, misal: TRX001, TRX002, dst) ke dalam dataset.

  1. Analisis ID3: Jika kita menghitung Information Gain untuk Kode_Transaksi, berapakah nilai Entropi pada setiap cabangnya? Apa dampaknya terhadap pemilihan Root Node?

  2. Analisis C4.5: Bagaimana rumus Gain Ratio mencegah Kode_Transaksi terpilih sebagai root node? Jelaskan peran variabel Split Information dalam rumus tersebut.

Soal 5. Konsep & Eksplorasi (4 Poin)

Fokus: Pemahaman algoritma.

Jawablah Benar/Salah beserta alasannya.

  1. Pernyataan: Dalam algoritma CART (Classification and Regression Trees), sebuah node atribut yang memiliki 3 nilai unik (misal: Gold, Silver, Bronze) akan dipecah menjadi 3 cabang sekaligus.

    • Jawaban: ________

    • Alasan: ________

  2. Pernyataan: Menambah kedalaman pohon (depth) pada Decision Tree akan selalu menurunkan Training Error, tetapi bisa meningkatkan Testing Error.

    • Jawaban: ________

    • Alasan: ________