Back to IF3170 Inteligensi Artifisial
Regresi Logistik (Konsep, Klasifikasi, dan Logit)
Questions/Cues
Apa masalah regresi linear untuk klasifikasi?
Bagaimana cara menggunakan Regresi Linear untuk klasifikasi?
Apa itu Linear Classifier?
Apa itu Linear Discriminant Function?
Apa itu ?
Apa itu Aturan Keputusan (Decision Rule)?
Apa itu Decision Surface?
Apa itu Hyperplane?
Apa perbedaan utama Regresi Linear vs Logistik?
Apa itu Fungsi Logistik (Sigmoid)?
Kenapa output-nya antara 0 dan 1?
Apa itu “Odds”?
Apa itu “Log Odds” (Logit)?
Apa hubungan Log Odds dengan Regresi Linear?
Bagaimana menginterpretasi koefisien Regresi Logistik?
Reference Points
IF3170 - 12 - Log-Regression (Slide 1-12)
Walpole, R. E., et al. (2012)
Duda, R. O., et al. (2001)
1. Masalah: Regresi Linear untuk Klasifikasi
Masalah: Regresi Linear memprediksi nilai kontinu (misal: 1.5, -0.4, 100.2), sedangkan klasifikasi memprediksi kategori diskrit (misal: 0 atau 1, “Yes” atau “No”).
Solusi Sederhana (Flawed): Kita bisa menggunakan Regresi Linear + Threshold (nilai ambang batas).
Contoh: Untuk memprediksi apakah siswa masuk “honors class” (1) atau tidak (0).
Kita buat model linear: .
Kita tetapkan threshold 0.5.
Aturan: JIKA , prediksi “honors class” (1), JIKA TIDAK, prediksi “not honors” (0).
Model ini disebut Linear Classifier atau Linear Discriminant Function.
2. Linear Discriminant Function & Hyperplane
Ini adalah fungsi yang mengkombinasikan input secara linear untuk membuat keputusan.
Formula: .
(dimana dan adalah bias atau intercept)
Aturan Keputusan (Decision Rule):
Putuskan kelas (misal: 1) jika .
Putuskan kelas (misal: 0) jika .
Decision Surface (Permukaan Keputusan):
Ini adalah batas di mana model “bingung”.
Batas ini didefinisikan oleh persamaan .
Dalam ruang 2D, ini adalah sebuah garis.
Dalam ruang 3D atau lebih, ini disebut Hyperplane.
Hyperplane ini memisahkan ruang fitur menjadi dua wilayah (misal di mana dan di mana ).
3. Solusi: Regresi Logistik
Regresi Linear + Threshold memiliki masalah (misal: sensitif terhadap outlier, outputnya bukan probabilitas). Regresi Logistik adalah pendekatan yang lebih baik untuk klasifikasi.
Perbedaan Utama:
Fitur Regresi Linear Regresi Logistik Tujuan Prediksi nilai kontinu Estimasi probabilitas kelas (0 s/d 1) Output (Garis lurus) (Kurva ‘S’) Varians Error Konstan (Homoscedasticity) Tidak konstan Estimator Least Squares (LSE) Maximum Likelihood (MLE) Fungsi Logistik (Sigmoid):
Regresi Logistik mengambil output dari model linear () dan memasukkannya ke dalam fungsi logistik (sigmoid).
Formula:
Fungsi ini “memaksa” output apapun (dari sampai ) menjadi nilai antara 0 dan 1, yang bisa diinterpretasikan sebagai probabilitas.
Jika , kita prediksi kelas 1. Jika , kita prediksi kelas 0.
4. Log Odds (Logit)
Bagaimana koefisien () diinterpretasikan?
Koefisien tidak memiliki hubungan linear dengan probabilitas , tetapi memiliki hubungan linear dengan Log Odds.
Probability (p): Peluang sukses, . (Nilai: 0 s/d 1)
Odds: Rasio peluang sukses terhadap peluang gagal. (Nilai: 0 s/d )
.
Jika , Odds = 0.8/0.2 = 4 (sukses 4x lipat dari gagal).
Log Odds (Logit): Logaritma natural dari Odds. (Nilai: s/d )
Jika kita membalik formula fungsi logistik, kita mendapatkan:
Interpretasi Emas:
Regresi Logistik adalah model linear untuk Log Odds.
Koefisien (pada contoh “write score”) berarti: setiap kenaikan 1 poin pada “write score” akan meningkatkan log-odds untuk masuk “honors class” sebesar 0.08.
Regresi Logistik adalah sebuah model linear untuk klasifikasi biner, mengatasi kelemahan Regresi Linear + Threshold. Model ini memprediksi probabilitas (antara 0 dan 1) dengan cara memasukkan output dari fungsi diskriminan linear () ke dalam fungsi logistik (sigmoid). Model ini secara fundamental memodelkan log-odds () sebagai kombinasi linear dari fitur-fitur input. Batas keputusan () yang memisahkan kelas-kelas ini disebut sebagai hyperplane.
Additional Information (Technical Deep Dive)
Latihan: Prediksi
write score = 65(Slide 11)Diberikan data:
Model Linear:
Model Logistik:
Threshold: 0.5
1. Prediksi dengan Regresi Linear:
Karena (threshold), model linear memprediksi “honors class” (1).
2. Prediksi dengan Regresi Logistik:
Pertama, hitung log-odds (ini adalah ):
Kedua, ubah kembali menjadi probabilitas () menggunakan fungsi sigmoid:
Karena probabilitas (threshold), model logistik memprediksi “not honors class” (0).
Kesimpulan: Kedua model memberikan prediksi yang berbeda. Regresi Logistik umumnya lebih dapat diandalkan untuk masalah klasifikasi karena outputnya adalah probabilitas yang terkalibrasi.