Back to IF3170 Inteligensi Artifisial

Topic: Comparative Analysis & Error Analysis (Pengukuran Kinerja Model - Part 3)

Questions/Cues

  • Dampak Imbalanced Data

  • Studi Kasus Churn

  • Analisis Error (Error Analysis)

  • Uji Statistik McNemar

  • Hipotesis Null (H0)

  • P-value & Critical Value

  • Chi-Square Statistic

Reference Points

  • Slides: 20-29

  • Topik: Analisis Hasil

1. Studi Kasus: Balanced vs Representative Dataset

Membandingkan Classifier A dan B pada kasus prediksi Churn (Pelanggan berhenti).

  • Situasi: Rasio Churn (Positif) banding Tidak Churn (Negatif) di dunia nyata adalah 1:9 (10% churn).

  • Skenario Pelatihan: Kedua model dilatih pada data yang diseimbangkan (Balanced: 50% pos, 50% neg) dan keduanya mencapai akurasi 80% pada data latih.

  • Masalah:

    • Model A: Salah memprediksi Negatif sebagai Positif (Banyak False Positive).

    • Model B: Salah memprediksi Positif sebagai Negatif (Banyak False Negative).

  • Pengujian di Data Asli (Representative):

    • Model B ternyata memiliki akurasi jauh lebih tinggi (93%) dibanding A (37%) karena Model B lebih jago menebak kelas mayoritas (Negatif).

    • Pelajaran: Evaluasi pada dataset yang seimbang bisa menyesatkan jika distribusi populasi asli sangat timpang. Selalu uji pada data representatif.

2. Uji Statistik: McNemar Test

Digunakan untuk memastikan apakah perbedaan kinerja antara dua model klasifikasi itu signifikan secara statistik atau hanya kebetulan.

  • Langkah:

    1. Buat Contingency Table berdasarkan hasil prediksi kedua model pada data uji yang sama.

      • : Model 1 Benar, Model 2 Salah.

      • : Model 1 Salah, Model 2 Benar.

    2. Hitung statistik (Chi-Square):

    3. Bandingkan dengan tabel distribusi Chi-Square pada tingkat signifikansi (misal 0.05).

  • Keputusan: Jika nilai statistik > nilai kritis tabel, maka tolak Hipotesis Null (). Artinya perbedaan model signifikan.

3. Analisis Error (Error Analysis)

Jangan berhenti pada angka metrik. Lihatlah data yang salah diklasifikasikan.

  • Contoh (Cat Classifier):

    Dari 1000 gambar, model salah 50 kali. Kita periksa 50 gambar tersebut.

    • Ternyata 18% error karena kucing putih (sulit dibedakan background).

    • 40% error karena background gelap.

  • Tindakan: Informasi ini digunakan untuk memperbaiki model, misalnya dengan menambah data latih khusus kucing putih atau augmentasi gambar gelap. Ini lebih efektif dibanding “mencoba algoritma lain secara buta”.

Summary

Angka akurasi saja tidak cukup. Perilaku model pada dataset tidak seimbang harus diuji pada data yang merepresentasikan populasi asli. Untuk membandingkan dua model secara ilmiah, gunakan Uji Statistik (seperti McNemar) untuk membuktikan signifikansi perbedaan. Terakhir, lakukan Analisis Error manual pada sampel kesalahan untuk menemukan pola kelemahan model dan memprioritaskan perbaikan yang paling berdampak.