Pelatihan Regresi Logistik

Back to IF3170 Inteligensi Artifisial

Pelatihan Regresi Logistik: MLE & Stochastic Gradient Ascent (SGA)

Questions/Cues

Apa tujuan dari “pelatihan” model?

Apa yang dicari saat pelatihan? (Bobot $b$ )

Apa perbedaan LSE vs MLE?

Apa itu Maximum Likelihood Estimator (MLE)?

Apa tujuan MLE?

Apa itu LCL (Log Conditional Likelihood)?

Kenapa menggunakan log likelihood?

Bagaimana cara memaksimalkan LCL?

Apa itu Gradient Ascent?

Kenapa “Ascent” bukan “Descent”?

Apa itu Stochastic Gradient Ascent (SGA)?

Apa itu $η$ (learning rate)?

Apa formula update bobot SGA?

Apa algoritma SGA?

Apa itu “epoch”?

Reference Points

IF3170 - 12 - Log-Regression (Slide 13-19)

Elkan, C. (2014). Maximum Likelihood, Logistic Regression, and Stochastic Gradient Training.

1. Model Regresi Logistik (Review)

Model Regresi Logistik adalah sebuah diagram yang mengubah input fitur $x$ menjadi prediksi kelas.

Input: Vektor fitur $x = (1, x_{1}, ..., x_{d})$ . (Input $x_{0} = 1$ selalu ditambahkan untuk bobot $b_{0}$ atau bias).

Parameter (Model): Vektor bobot $b = (b_{0}, b_{1}, ..., b_{d})$ . Ini adalah nilai-nilai yang ingin kita “pelajari”.

Kombinasi Linear: Input dan bobot dikalikan dan dijumlahkan: $Σ = b^{T} x$ .

Fungsi Logistik: Hasil $Σ$ dimasukkan ke fungsi sigmoid untuk mendapatkan probabilitas $p$ .

$p = P (y = 1∣ x, b) = \frac{1}{1 + e ^{- b^{T} x}}$ .

Output (Kelas): $p$ dibandingkan dengan threshold (misal 0.5) untuk menghasilkan kelas (0 atau 1).

2. Estimasi Parameter: Maximum Likelihood (MLE)

Pertanyaan: Bagaimana kita menemukan nilai $b$ terbaik?

Pada Regresi Linear, kita menggunakan LSE (meminimalkan error kuadrat).

Pada Regresi Logistik, kita menggunakan Maximum Likelihood Estimator (MLE).

Prinsip MLE:

Tujuannya adalah menemukan parameter $b$ yang memaksimalkan probabilitas gabungan (likelihood) dari data training yang kita observasi. Dengan kata lain: “Dari semua kemungkinan $b$ , $b$ mana yang membuat data training yang kita miliki paling mungkin terjadi?”

Kita ingin memaksimalkan Log Conditional Likelihood (LCL), yang merupakan jumlah dari log-likelihood setiap contoh training.

Formula LCL:

$L C L = \sum_{i = 1}^{n} lo g L (θ; y_{i} ∣ x_{i})$

$L C L = \sum_{i = 1; y_{i} = 1}^{n} lo g p_{i} + \sum_{i = 1; y_{i} = 0}^{n} lo g (1 - p_{i})$

(Di mana $p_{i}$ adalah probabilitas prediksi $P (y = 1)$ untuk contoh $x_{i}$ )

Kita menggunakan log karena mengubah perkalian probabilitas (yang sangat kecil) menjadi penjumlahan, yang lebih mudah dioptimasi secara numerik dan tidak underflow.

3. Optimasi: Stochastic Gradient Ascent (SGA)

Tidak ada solusi analitis (rumus langsung) untuk memaksimalkan LCL. Kita harus menggunakan metode optimasi iteratif.

Gradient Ascent: Metode untuk mencari puncak (maksimum) dari sebuah fungsi. (Berbeda dengan Gradient Descent yang mencari lembah/minimum). Karena tujuan kita adalah memaksimalkan LCL, kita “mendaki” (ascend) gradiennya.

Stochastic (Acak): Alih-alih menghitung gradien (turunan) dari LCL berdasarkan seluruh dataset (yang mahal), kita menghitungnya berdasarkan satu contoh acak pada satu waktu. Ini jauh lebih cepat dan seringkali bisa lolos dari local maxima yang buruk.

Algoritma SGA:

Inisialisasi bobot $b$ (misal: semua 0).

Loop untuk $T$ iterasi (disebut epochs). Satu epoch adalah satu kali melewati seluruh dataset.

Di dalam setiap epoch, acak urutan data.

Untuk setiap contoh $⟨ x_{i}, y_{i} ⟩$ dalam data:

a. Hitung prediksi probabilitas $p_{i} = \frac{1}{1 + e ^{- b^{T} x_{i}}}$ menggunakan $b$ saat ini.

b. Hitung “error”: $(y_{i} - p_{i})$ (nilai target asli - nilai prediksi).

c. Perbarui setiap bobot $b_{j}$ sesuai aturan update.

Kembalikan $b$ .

Aturan Update SGA:

Turunan LCL terhadap satu bobot $b_{j}$ adalah $\frac{\partial L C L}{\partial b _{j}} = \sum_{i} (y_{i} - p_{i}) x_{ij}$ .

Aturan update stochastic (untuk satu contoh $i$ ) adalah:

$b_{j} = b_{j} + η (y_{i} - p_{i}) x_{ij}$

$b_{j}$ : Bobot untuk fitur ke-j (yang sedang di-update).

$η$ (learning rate): Seberapa besar langkah yang kita ambil (misal: 0.1).

$(y_{i} - p_{i})$ : Error. Jika prediksi benar ( $p_{i} \approx y_{i}$ ), error kecil, update kecil.

$x_{ij}$ : Nilai fitur ke-j dari contoh $i$ .

Summary

Pelatihan model Regresi Logistik bertujuan menemukan vektor bobot $b$ terbaik dengan menggunakan Maximum Likelihood Estimator (MLE), bukan LSE. Tujuannya adalah untuk memaksimalkan Log Conditional Likelihood (LCL), yaitu probabilitas (log) gabungan dari data training yang diamati. Karena tidak ada solusi analitis, ini diselesaikan secara iteratif menggunakan Stochastic Gradient Ascent (SGA), sebuah metode optimasi yang memperbarui bobot $b$ selangkah demi selangkah untuk setiap contoh data $⟨ x_{i}, y_{i} ⟩$ , “naik” menuju nilai LCL yang maksimum menggunakan aturan update $b_{j} = b_{j} + η (y_{i} - p_{i}) x_{ij}$ .

Additional Information (Technical Deep Dive)

Contoh Perhitungan SGA (1 Epoch) (Slide 16)

Data $D = {⟨[52, 41], 0 ⟩, ⟨[62, 58], 1 ⟩}$

$T = 1$ (1 epoch), $η = 0.1$ (learning rate)

Input $x$ ditambahi $x_{0} = 1$ , misal: $⟨ x_{i} = [1, 52, 41], y_{i} = 0 ⟩$ dan $⟨ x_{i} = [1, 62, 58], y_{i} = 1 ⟩$

1. Inisialisasi: $b = [b_{0}, b_{1}, b_{2}] = [0, 0, 0]$

2. Mulai $t = 1$ :

Contoh A (dipilih acak): $⟨ x_{i} = [1, 62, 58], y_{i} = 1 ⟩$

Hitung $Σ = b^{T} x = (0 \times 1) + (0 \times 62) + (0 \times 58) = 0$

Hitung $p_{i} = \frac{1}{1 + e ^{- Σ}} = \frac{1}{1 + e ^{- 0}} = 0.5$

Hitung error: $(y_{i} - p_{i}) = (1 - 0.5) = 0.5$

Update bobot: $b_{j} = b_{j} + η \times (error) \times x_{ij}$

$b_{0} = 0 + 0.1 \times (0.5) \times 1 = 0.05$

$b_{1} = 0 + 0.1 \times (0.5) \times 62 = 3.1$

$b_{2} = 0 + 0.1 \times (0.5) \times 58 = 2.9$

Bobot $b$ sekarang: $[0.05, 3.1, 2.9]$

Contoh B: $⟨ x_{i} = [1, 52, 41], y_{i} = 0 ⟩$

Hitung $Σ = b^{T} x = (0.05 \times 1) + (3.1 \times 52) + (2.9 \times 41)$

$Σ = 0.05 + 161.2 + 118.9 = 280.15$

Hitung $p_{i} = \frac{1}{1 + e ^{- 280.15}} \approx 1.0$ (karena $e^{- 280.15}$ sangat kecil)

Hitung error: $(y_{i} - p_{i}) = (0 - 1.0) = - 1.0$

Update bobot:

$b_{0} = 0.05 + 0.1 \times (- 1.0) \times 1 = - 0.05$

$b_{1} = 3.1 + 0.1 \times (- 1.0) \times 52 = 3.1 - 5.2 = - 2.1$

$b_{2} = 2.9 + 0.1 \times (- 1.0) \times 41 = 2.9 - 4.1 = - 1.2$

3. Selesai Epoch 1.

Model $b$ final: $[- 0.05, - 2.1, - 1.2]$

Prediksi (Setelah 1 Epoch) (Slide 17)

Untuk x1=[52,41] (target 0): $Σ = - 0.05 - 2.1 * 52 - 1.2 * 41 = - 158.45$ . $p \approx 1.53 \times 1 0^{- 69}$ . Prediksi $\to$ kelas 0. (BENAR)

Untuk x2=[62,58] (target 1): $Σ = - 0.05 - 2.1 * 62 - 1.2 * 58 = - 199.85$ . $p \approx 1.61 \times 1 0^{- 87}$ . Prediksi $\to$ kelas 0. (SALAH)

Akurasi Training: 1/2 = 50%. (Model ini masih sangat buruk, perlu lebih banyak epoch untuk konvergen).

IF Notes

Explorer

Pelatihan Regresi Logistik

Questions/Cues

Reference Points

1. Model Regresi Logistik (Review)

2. Estimasi Parameter: Maximum Likelihood (MLE)

3. Optimasi: Stochastic Gradient Ascent (SGA)

Contoh Perhitungan SGA (1 Epoch) (Slide 16)

Prediksi (Setelah 1 Epoch) (Slide 17)

Graph View

Table of Contents

Backlinks