Back to IF3170 Inteligensi Artifisial

Regresi Logistik (Konsep, Klasifikasi, dan Logit)

Questions/Cues

  • Apa masalah regresi linear untuk klasifikasi?

  • Bagaimana cara menggunakan Regresi Linear untuk klasifikasi?

  • Apa itu Linear Classifier?

  • Apa itu Linear Discriminant Function?

  • Apa itu ?

  • Apa itu Aturan Keputusan (Decision Rule)?

  • Apa itu Decision Surface?

  • Apa itu Hyperplane?

  • Apa perbedaan utama Regresi Linear vs Logistik?

  • Apa itu Fungsi Logistik (Sigmoid)?

  • Kenapa output-nya antara 0 dan 1?

  • Apa itu “Odds”?

  • Apa itu “Log Odds” (Logit)?

  • Apa hubungan Log Odds dengan Regresi Linear?

  • Bagaimana menginterpretasi koefisien Regresi Logistik?

Reference Points

  • IF3170 - 12 - Log-Regression (Slide 1-12)

  • Walpole, R. E., et al. (2012)

  • Duda, R. O., et al. (2001)

1. Masalah: Regresi Linear untuk Klasifikasi

Masalah: Regresi Linear memprediksi nilai kontinu (misal: 1.5, -0.4, 100.2), sedangkan klasifikasi memprediksi kategori diskrit (misal: 0 atau 1, “Yes” atau “No”).

Solusi Sederhana (Flawed): Kita bisa menggunakan Regresi Linear + Threshold (nilai ambang batas).

  • Contoh: Untuk memprediksi apakah siswa masuk “honors class” (1) atau tidak (0).

  • Kita buat model linear: .

  • Kita tetapkan threshold 0.5.

  • Aturan: JIKA , prediksi “honors class” (1), JIKA TIDAK, prediksi “not honors” (0).

  • Model ini disebut Linear Classifier atau Linear Discriminant Function.

2. Linear Discriminant Function & Hyperplane

Ini adalah fungsi yang mengkombinasikan input secara linear untuk membuat keputusan.

  • Formula: .

    (dimana dan adalah bias atau intercept)

  • Aturan Keputusan (Decision Rule):

    • Putuskan kelas (misal: 1) jika .

    • Putuskan kelas (misal: 0) jika .

  • Decision Surface (Permukaan Keputusan):

    • Ini adalah batas di mana model “bingung”.

    • Batas ini didefinisikan oleh persamaan .

    • Dalam ruang 2D, ini adalah sebuah garis.

    • Dalam ruang 3D atau lebih, ini disebut Hyperplane.

    • Hyperplane ini memisahkan ruang fitur menjadi dua wilayah (misal di mana dan di mana ).

3. Solusi: Regresi Logistik

Regresi Linear + Threshold memiliki masalah (misal: sensitif terhadap outlier, outputnya bukan probabilitas). Regresi Logistik adalah pendekatan yang lebih baik untuk klasifikasi.

Perbedaan Utama:

FiturRegresi LinearRegresi Logistik
TujuanPrediksi nilai kontinuEstimasi probabilitas kelas (0 s/d 1)
Output (Garis lurus) (Kurva ‘S’)
Varians ErrorKonstan (Homoscedasticity)Tidak konstan
EstimatorLeast Squares (LSE)Maximum Likelihood (MLE)

Fungsi Logistik (Sigmoid):

Regresi Logistik mengambil output dari model linear () dan memasukkannya ke dalam fungsi logistik (sigmoid).

  • Formula:

  • Fungsi ini “memaksa” output apapun (dari sampai ) menjadi nilai antara 0 dan 1, yang bisa diinterpretasikan sebagai probabilitas.

  • Jika , kita prediksi kelas 1. Jika , kita prediksi kelas 0.

4. Log Odds (Logit)

Bagaimana koefisien () diinterpretasikan?

Koefisien tidak memiliki hubungan linear dengan probabilitas , tetapi memiliki hubungan linear dengan Log Odds.

  1. Probability (p): Peluang sukses, . (Nilai: 0 s/d 1)

  2. Odds: Rasio peluang sukses terhadap peluang gagal. (Nilai: 0 s/d )

    • .

    • Jika , Odds = 0.8/0.2 = 4 (sukses 4x lipat dari gagal).

  3. Log Odds (Logit): Logaritma natural dari Odds. (Nilai: s/d )

Jika kita membalik formula fungsi logistik, kita mendapatkan:

Interpretasi Emas:

  • Regresi Logistik adalah model linear untuk Log Odds.

  • Koefisien (pada contoh “write score”) berarti: setiap kenaikan 1 poin pada “write score” akan meningkatkan log-odds untuk masuk “honors class” sebesar 0.08.

Summary

Regresi Logistik adalah sebuah model linear untuk klasifikasi biner, mengatasi kelemahan Regresi Linear + Threshold. Model ini memprediksi probabilitas (antara 0 dan 1) dengan cara memasukkan output dari fungsi diskriminan linear () ke dalam fungsi logistik (sigmoid). Model ini secara fundamental memodelkan log-odds () sebagai kombinasi linear dari fitur-fitur input. Batas keputusan () yang memisahkan kelas-kelas ini disebut sebagai hyperplane.