Back to IF3170 Inteligensi Artifisial

Problem Set DTL & Isu Kritis: Lanjutan

Estimasi Waktu: 100 - 120 menit

Tujuan Pembelajaran:

  1. Mampu menguasai metrik Information Gain, Gain Ratio, dan Entropy pada kasus kompleks (termasuk missing values).

  2. Mampu menganalisis dan menjustifikasi solusi untuk overfitting (Pruning) dan bias (Gain Ratio).

  3. Mampu menerapkan konsep Cost-Sensitive Learning dan Discretization dalam perhitungan.

  4. Memahami peran Validation Set dalam proses Post-Pruning.

Bagian I: Teori dan Konsep (15 Soal)

A. True/False (5 Soal)

Instruksi: Tentukan apakah pernyataan berikut Benar (True) atau Salah (False) dan jelaskan secara singkat alasannya.

No.PernyataanJawaban (T/F)
I.1Rule Post-Pruning (C4.5) meningkatkan interpretability model karena aturan (rules) dapat dipangkas secara independen, yang tidak mungkin dilakukan pada cabang (branches) Decision Tree.
I.2Algoritma ID3 menggunakan Information Gain yang cenderung bias memilih atribut Ordinal karena mereka memiliki urutan yang jelas.
I.3Pre-Pruning adalah pendekatan yang lebih aman terhadap risiko overfitting karena menghentikan pertumbuhan tree berdasarkan ambang batas statistik, tanpa perlu Validation Set.
I.4Dalam Cost-Sensitive Learning, jika Cost perolehan atribut sangat tinggi, maka nilai akan meningkat, sehingga tetap diutamakan.
I.5Atribut dengan nilai kontinu (misal: usia) yang telah di-Discretization menjadi atribut biner (Usia < 40 vs. Usia ) dapat menghasilkan Information Gain yang berbeda untuk threshold yang berbeda.

B. Multiple Choice Multiple Answer (MCMA) (5 Soal)

Instruksi: Pilih minimal dua (2) jawaban yang paling tepat.

I.6. (Pruning Kritis)

Pilih tiga (3) pernyataan yang mendeskripsikan tujuan dan cara kerja Reduced Error Pruning (REP).

A. REP dilakukan setelah tree tumbuh sempurna (Post-Pruning). B. REP menggunakan Validation Set untuk mengukur efektivitas pemangkasan. C. REP mencoba memangkas node yang paling meningkatkan akurasi training set. D. REP mengganti subtree dengan leaf node yang merepresentasikan PLURALITY-VALUE dari Validation Set. E. REP hanya memangkas tree jika akurasi training set menurun.

I.7. (Isu Kritis Gain Ratio)

Pilih dua (2) pernyataan yang benar mengenai kelemahan dan solusi Gain Ratio.

A. Gain Ratio dapat menghasilkan nilai tak terhingga (sangat tinggi) jika Split Information bernilai nol. B. Gain Ratio hanya bisa digunakan untuk atribut kontinu. C. Gain Ratio dapat menimbulkan bias pada atribut dengan Information Gain di bawah rata-rata. D. Solusi heuristiknya adalah hanya mempertimbangkan atribut yang memiliki Gain di atas rata-rata Gain dari semua atribut.

I.8. (Penanganan Missing Values - C4.5)

Pilih tiga (3) hal yang dilakukan DTL (C4.5) dalam menghadapi missing values.

A. Menghitung hanya menggunakan proporsi data yang nilainya diketahui (known). B. Membagi instans yang missing secara fraksional ke semua cabang yang mungkin. C. Saat prediksi, mengirim data missing ke cabang yang paling populer. D. Mengisi nilai yang hilang dengan nilai yang paling umum dari atribut tersebut. E. Menyesuaikan pembobotan pada leaf node untuk memperhitungkan fraksi data yang masuk.

I.9. (Tipe Atribut dan DTL)

Pilih tiga (3) pasangan tipe atribut dan sifatnya yang benar dalam konteks DTL.

A. Ordinal: DTL tidak dapat menggunakannya karena jarak antar nilainya tidak bermakna. B. Ratio-Scaled: Memiliki titik nol mutlak dan harus di-Discretization sebelum digunakan. C. Nominal: Cocok digunakan ID3 karena nilainya diskrit dan tidak memiliki urutan. D. Binary Asymmetric: Salah satu kelasnya (positif/langka) memiliki bobot atau kepentingan yang lebih tinggi. E. Interval-Scaled: Dapat dioperasikan secara matematis (penambahan/pengurangan) dan DTL harus mencari threshold terbaik.

I.10. (Minimal Description Length - MDL)

Pilih dua (2) komponen yang dicari untuk diminimalkan oleh prinsip Minimum Description Length (MDL) untuk memilih ukuran tree yang optimal.

A. Panjang (kompleksitas) tree itu sendiri. B. Panjang noise yang harus di-encode oleh tree. C. Gain Ratio dari root node. D. Jumlah total leaf node yang pure.

C. Matching (5 Soal)

Instruksi: Pasangkan istilah di Kiri dengan isu atau kriteria DTL terbaik di Kanan.

IstilahKonsep Kritis DTL
I.11. Information GainMetrik yang cenderung biased memilih atribut dengan high cardinality.
I.12. Entropy = 0Menghasilkan Bias tinggi dan Variance rendah pada model.
I.13. Pre-PruningKondisi leaf node yang tidak memerlukan split lebih lanjut.
I.14. Gini ImpurityAlternatif Information Gain yang digunakan oleh algoritma CART.
I.15. Small Leaf SizeMenghentikan pertumbuhan tree berdasarkan ambang batas .

Bagian II: Perhitungan dan Analisis Kasus (15 Soal)

D. Perhitungan DTL dan Isu (6 Soal)

Gunakan dataset berikut (Total ). Atr1 adalah kategorikal dan Atr4 adalah kontinu.

No.Atr1Atr2Atr3Atr4 (Kontinu)Class (Y/N)
1A70020Yes
2A90130No
3B90145Yes
4B95060Yes
5C75070Yes
6C85185No
7?88195No
8A72?100Yes
9B?0110No

II.1. Hitunglah nilai Entropy awal () untuk semua 9 data (S) tersebut.

II.2. Hitunglah Split Information () untuk atribut Atr1, dengan Missing Included (sebagai kategori terpisah).

II.3. Hitunglah Information Gain () untuk atribut Atr1, dengan prosedur C4.5 (proporsi known value).

II.4. Hitunglah Gain Ratio ().

II.5. Lakukan Discretization pada atribut Atr4 (Kontinu). Tentukan dua (2) kandidat threshold yang harus diuji.

II.6. Hitung untuk threshold yang Anda anggap terbaik di II.5. (Asumsikan ).

E. Analisis Kasus & Cost-Sensitive Learning (5 Soal)

Asumsikan atribut Atr5 (MRI) memiliki Cost = 30 dan atribut Atr6 (Blood Test) memiliki Cost = 5.

  • Diketahui: dan .

  • Bobot (importance of cost) = 0.5.

II.7. Berdasarkan Information Gain saja, atribut mana yang akan dipilih sebagai root node?

II.8. Hitung skor bobot menggunakan formula untuk Atr5 dan Atr6. Atribut mana yang akan dipilih?

II.9. Hitung skor bobot menggunakan formula (dengan ) untuk Atr5 dan Atr6. Atribut mana yang akan dipilih?

II.10. Jelaskan apa interpretasi dari dalam formula II.9 tersebut.

II.11. Mengapa menggunakan kuadrat (II.8) lebih disukai daripada hanya ?

F. Analisis Pruning & Validation Set (4 Soal)

Sebuah Decision Tree dilatih pada Training Set (900 data) dan diuji pada Validation Set (300 data).

NodeTotal DataPrediksi MayoritasAcc. di Val Set sebelum pangkasAcc. di Val Set setelah pangkasKeputusan Pruning
R (Root)300Yes78%N/AJangan pangkas
A (Anak R)120No85%88%?
B (Anak R)180Yes82%80%?
C (Anak A)50No85%N/APangkas
D (Anak A)70Yes75%N/APangkas

II.12. Jelaskan apa keputusan Pruning yang harus diambil pada Node A dan Node B (menggunakan teknik Reduced Error Pruning).

II.13. Jika Node A dipangkas, apa yang akan terjadi pada subtree di bawahnya (C dan D), dan apa label akhir dari Node A?

II.14. Jelaskan secara singkat mengapa kita tidak boleh menggunakan akurasi dari Training Set (900 data) untuk memutuskan apakah akan memangkas Node A.

II.15. Jelaskan mengapa Rule Post-Pruning (C4.5) seringkali tidak memerlukan Validation Set yang terpisah untuk setiap aturan.