Back to IF3170 Inteligensi Artifisial

Topic: Evaluation Metrics (Pengukuran Kinerja Model - Part 2)

Questions/Cues

  • Metrik Klasifikasi Utama

  • Perbedaan Precision vs Recall

  • Kapan pakai F1-Score?

  • Makna ROC-AUC

  • Confusion Matrix (TP, FP, TN, FN)

  • Metrik Regresi (MSE, MAE)

  • Metrik Clustering

Reference Points

  • Slides: 11-19

  • Topik: Metrik Evaluasi

1. Metrik Klasifikasi: Confusion Matrix

Dasar evaluasi klasifikasi adalah Confusion Matrix yang terdiri dari 4 komponen:

  • TP (True Positive): Prediksi Positif, Kenyataan Positif (Benar).

  • TN (True Negative): Prediksi Negatif, Kenyataan Negatif (Benar).

  • FP (False Positive): Prediksi Positif, Kenyataan Negatif (Salah - Tipe I Error).

  • FN (False Negative): Prediksi Negatif, Kenyataan Positif (Salah - Tipe II Error).

2. Metrik Turunan Klasifikasi

  • Akurasi: . Persentase total prediksi yang benar. Hati-hati pada data tidak seimbang.

  • Precision: . Seberapa akurat saat model bilang “Positif”. Penting jika biaya FP mahal (misal: deteksi spam, jangan sampai email penting masuk spam).

  • Recall (Sensitivity): . Seberapa banyak kasus positif asli yang berhasil ditangkap. Penting jika biaya FN mahal (misal: deteksi kanker, jangan sampai ada pasien sakit dibilang sehat).

  • F1-Score: . Rata-rata harmonik. Digunakan untuk menyeimbangkan Precision dan Recall.

3. ROC-AUC (Receiver Operating Characteristic)

Kurva yang memplot kinerja model pada berbagai threshold klasifikasi.

  • Sumbu Y: True Positive Rate (Recall).

  • Sumbu X: False Positive Rate ().

  • AUC (Area Under Curve): Luas area di bawah kurva ROC.

    • AUC = 1.0: Model Sempurna.

    • AUC = 0.5: Model Acak (tebak-tebakan).

    • Keunggulan: Tidak bergantung pada satu threshold tertentu, bagus untuk melihat performa model secara keseluruhan.

4. Metrik Regresi

Digunakan saat memprediksi nilai kontinu (angka).

  • MAE (Mean Absolute Error): Rata-rata selisih mutlak error. . Mudah diinterpretasi.

  • MSE (Mean Squared Error): Rata-rata kuadrat error. . Menghukum error besar lebih berat.

  • RMSE (Root MSE): Akar dari MSE. Mengembalikan satuan ke skala asli data.

  • R-squared (): Seberapa baik variansi data dijelaskan oleh model.

  • MAPE (Mean Absolute Percentage Error): Error dalam bentuk persentase, memudahkan perbandingan antar skala data berbeda.

Summary

Pemilihan metrik bergantung pada masalah bisnis. Akurasi seringkali menipu pada data imbalanced. Precision fokus meminimalkan False Positive, sedangkan Recall fokus meminimalkan False Negative. F1-Score adalah jalan tengah keduanya. ROC-AUC mengukur kemampuan pemisahan kelas di berbagai threshold. Untuk regresi, RMSE dan MAE mengukur besaran error prediksi, di mana RMSE lebih sensitif terhadap error ekstrem (outlier).