Back to IF3170 Inteligensi Artifisial

Topic: Learning BN from Data

Questions/Cues

  • Mengapa perlu Learning?

  • Masalah Expert

  • Parameter Estimation

  • Masalah Probabilitas 0

  • Smoothing (Laplace)

  • Structure Learning

  • Causal vs Data-driven

Reference Points

  • File: 29. IF3170_Materi12_Seg03_04...pdf

  • Halaman: 10-17

1. Mengapa “Learning from Data”?

Membangun BN manual dari pakar (human expert) memiliki masalah:

  • Knowledge Bottleneck: Sulit mengekstrak pengetahuan dari pakar.

  • Subjective: Estimasi probabilitas seringkali tidak akurat atau bias.

Solusi: Gunakan data untuk mengisi angka (Numerical Parameters) dan bahkan menentukan struktur. “Manusia bagus di struktur, Data bagus di angka”.

2. Parameter Estimation (Mengisi CPT)

Jika struktur BN sudah diketahui, kita tinggal menghitung probabilitas dari dataset .

  • Node tanpa parent ():

  • Node dengan parent ( punya parent ):

3. Smoothing (Menangani Zero Probability)

Jika dalam data latih sebuah kejadian tidak pernah muncul (count = 0), probabilitasnya menjadi 0. Ini berbahaya karena jika dikalikan dalam Chain Rule, akan menolkan seluruh prediksi.

  • Solusi: Laplace Smoothing (+1).

    Menambahkan angka 1 pada pembilang dan menyesuaikan penyebut.

    (Penyebut +2 karena variabel biner punya 2 kemungkinan: T/F).

4. Constructing BN Structure (Structure Learning)

Bagaimana jika struktur graf belum ada?

  • Langkah Umum:

    1. Tentukan himpunan variabel.

    2. Tentukan urutan variabel.

    3. Tambahkan node satu per satu, dan tentukan parents-nya.

  • Pendekatan:

    • Causal Knowledge: Menggunakan logika sebab-akibat (Misal: Hujan menyebabkan Basah, bukan sebaliknya).

    • Data-Driven: Menggunakan tes independensi statistik pada data.

      • Cek apakah ? Jika ya, A bukan parent C.

      • Cek apakah ? Jika ya, A ridak relevan jika B diketahui.

  • Pentingnya Urutan: Urutan penambahan node yang berbeda dapat menghasilkan struktur jaringan yang berbeda (dan mungkin lebih kompleks/kurang efisien). Urutan terbaik adalah Cause Effect.

Summary

Learning pada BN mengatasi keterbatasan subjektivitas pakar. Parameter Learning dilakukan dengan menghitung frekuensi kejadian di data, dilengkapi dengan Smoothing untuk mencegah probabilitas nol. Structure Learning melibatkan penentuan topologi graf, yang idealnya didasarkan pada hubungan kausal (sebab-akibat) untuk menghasilkan jaringan yang paling sederhana dan representatif.