Back to IF3170 Inteligensi Artifisial

Problem Set: Regresi Logistik dan Pelatihan Model

Mata Pelajaran: IF3170 Intelegensi Artifisial

Estimasi Waktu: 90 menit

Total Nilai: 100 poin

Tujuan Pembelajaran

Setelah menyelesaikan problem set ini, mahasiswa diharapkan dapat:

Menganalisis secara kritis keterbatasan Regresi Linear untuk masalah klasifikasi.
Menjelaskan hubungan konseptual antara Linear Discriminant Function, Hyperplane, Sigmoid, Odds, dan Log Odds (Logit).
Menginterpretasikan koefisien ( $b_{j}$ ) dari model Regresi Logistik dalam konteks Log Odds.
Membandingkan secara mendalam perbedaan fundamental antara Least Square Estimator (LSE) dan Maximum Likelihood Estimator (MLE).
Menjelaskan tujuan dan derivasi konseptual dari fungsi Log Conditional Likelihood (LCL) untuk klasifikasi biner.
Menganalisis dan menerapkan algoritma Stochastic Gradient Ascent (SGA), termasuk menurunkan dan mengaplikasikan aturan pembaruan bobotnya ( $b_{j}$ ).
Melakukan perhitungan manual untuk prediksi (menggunakan Logit) dan satu epoch pelatihan (menggunakan SGA).

Petunjuk Umum

Problem set ini dirancang untuk menguji pemahaman analitis, bukan hanya hafalan.
Baca setiap soal dengan teliti. Banyak soal saling terkait.
Tuliskan semua langkah perhitungan dan justifikasi Anda dengan jelas untuk soal esai dan studi kasus.
Alokasikan waktu Anda dengan bijak; Bagian II dan III memiliki bobot nilai yang lebih tinggi.

BAGIAN I: Soal Fundamental (30 poin)

Fokus: Recall dan Comprehension - Menguji pemahaman konsep inti.

Soal 1. (1-10) Konsep Inti (Format Benar/Salah) (10 poin, @1 poin)

Tentukan apakah pernyataan berikut Benar atau Salah.


No	Pernyataan	Benar	Salah
1	Regresi Linear adalah pilihan yang baik untuk klasifikasi biner karena outputnya selalu antara 0 dan 1.
2	Linear Discriminant Function ( $g (x) = w^{T} x$ ) adalah model yang sama dengan Regresi Linear.
3	Decision Surface atau Hyperplane dalam Regresi Logistik didefinisikan oleh persamaan $g (x) = 0.5$ .
4	Fungsi Sigmoid mengubah output dari Linear Discriminant Function (yang berkisar $- \infty$ s/d $+ \infty$ ) menjadi probabilitas (0 s/d 1).
5	”Odds” ( $p / (1 - p)$ ) merepresentasikan rasio probabilitas sukses terhadap probabilitas gagal, dengan rentang nilai [0, 1].
6	”Logit” adalah nama lain untuk Log Odds, dan Regresi Logistik pada dasarnya adalah model linear untuk Logit.
7	Regresi Logistik menggunakan LSE (Least Square Estimator) untuk menemukan parameternya, sama seperti Regresi Linear.
8	Kita menggunakan Gradient Ascent (bukan Descent) karena kita ingin memaksimalkan Log Conditional Likelihood (LCL).
9	Satu “Epoch” dalam pelatihan SGA berarti model memperbarui bobotnya menggunakan satu sampel data acak.
10	SGA dijamin lebih cepat konvergen ke optimum global daripada full-batch Gradient Ascent.

Soal 2. (11-15) Klasifikasi Konsep (Format Matrix) (20 poin, @4 poin)

Pasangkan deskripsi di kolom “Isi Soal” dengan konsep yang paling tepat. Pilih satu jawaban per baris.

No	Isi Soal	A. Sigmoid $\frac{1}{1 + e ^{- z}}$	B. Logit $lo g (\frac{p}{1 - p} )$	C. LCL $\sum lo g L (...)$	D. Aturan Update SGA $b_{j} = ... + η (y_{i} - p_{i} ) x_{ij} $
11	Mekanisme iteratif untuk memperbarui parameter model berdasarkan error dari satu sampel.
12	Fungsi yang dioptimalkan (dimaksimalkan) oleh MLE untuk menemukan parameter $b$ terbaik.
13	Fungsi yang “memaksa” output linear $z = b^{T} x$ menjadi probabilitas $p$ .
14	Transformasi yang menghubungkan probabilitas $p$ dengan model linear ( $b^{T} x$ ).
15	Tujuan dari fungsi ini adalah untuk menemukan $b$ yang membuat data training yang terobservasi menjadi paling mungkin terjadi.

BAGIAN II: Soal Aplikasi & Analisis (35 poin)

Fokus: Application dan Analysis - Menerapkan konsep ke skenario dan analisis teoritis.

Soal 16. (16-18) Alur Konseptual (Format Isian Terstruktur) (9 poin)

Jelaskan alur kerja Regresi Logistik dengan melengkapi tiga konsep kunci berikut:

16. Kombinasi Linear ( $z$ ):
- Persamaan: $z = b^{T} x = b_{0} + b_{1} x_{1} + ...$
- Tujuan / Peran: _________________________________________________
17. Fungsi Sigmoid ( $p$ ):
- Persamaan: $p = 1/ (1 + e^{- z})$
- Tujuan / Peran: _________________________________________________
18. Fungsi Logit (Log-Odds):
- Persamaan: $lo g (p / (1 - p))$
- Tujuan / Peran (Mengapa ini penting?): _________________________________________________

Soal 17. (19-22) Studi Kasus: Prediksi Linear vs Logistik (12 poin)

Diberikan dua model untuk memprediksi kelulusan “honors class” (1=Ya, 0=Tidak) berdasarkan write_score (x). Threshold keputusan adalah 0.5.

Model Linear (LSE): $\overset{y}{^} = 0.03 x - 1.35$
Model Logistik (MLE): $log-odds = 0.07 x - 4.85$

Seorang siswa memiliki write_score = 65.

a. (3 poin) Berapakah prediksi $\overset{y}{^}$ dari Model Linear? Apa keputusan kelasnya (0 atau 1)?

b. (3 poin) Berapakah nilai log-odds ( $z$ ) dari Model Logistik?

c. (3 poin) Berdasarkan nilai $z$ dari (b), hitung probabilitas $p$ (Gunakan $e^{0.30} \approx 1.35$ jika perlu).

d. (3 poin) Berapakah keputusan kelas (0 atau 1) dari Model Logistik? Bandingkan hasilnya dengan (a).

Soal 18. (23) Analisis Metode Estimasi (Format Uraian Analitis) (7 poin)

Regresi Linear menggunakan LSE, sedangkan Regresi Logistik menggunakan MLE. Jelaskan secara mendalam mengapa LSE (meminimalkan SSE) BUKAN pilihan yang tepat untuk melatih model Regresi Logistik.

(Hint: Pikirkan tentang asumsi LSE, bentuk fungsi biaya (cost function) yang dihasilkan, dan sifat dari variabel target Y).

Soal 19. (24) Analisis Fungsi Objektif (Format Uraian Analitis) (7 poin)

Jelaskan fungsi Log Conditional Likelihood (LCL) untuk klasifikasi biner.

Mengapa kita menggunakan Logaritma (Log)? Dan mengapa formula LCL memiliki dua bagian: $\sum_{y_{i} = 1} lo g p_{i}$ dan $\sum_{y_{i} = 0} lo g (1 - p_{i})$ ?

BAGIAN III: Soal Sintesis & Evaluasi (35 poin)

Fokus: Synthesis dan Evaluation - Menganalisis proses pelatihan (SGA).

Soal 20. (25-29) Dekonstruksi Aturan Update SGA (Format Isian Terstruktur) (10 poin)

Aturan pembaruan bobot untuk Stochastic Gradient Ascent (SGA) adalah:

$b_{j} = b_{j} + η (y_{i} - p_{i}) x_{ij}$

Jelaskan peran dari setiap komponen berikut dalam proses pembelajaran:

25. $η$ (learning rate): _________________________________________________
26. $(y_{i} - p_{i})$ (error term): _________________________________________________
27. $x_{ij}$ (nilai fitur): _________________________________________________
28. Mengapa operasinya Penjumlahan (+), bukan Pengurangan (-)? _________________________________________________
29. Apa arti “Stochastic” dalam konteks aturan update ini? _________________________________________________

Soal 21. (30-35) Studi Kasus: Pelatihan SGA (Format Step-by-Step Scaffolding) (15 poin)

Anda akan mensimulasikan satu epoch pelatihan SGA pada dataset dengan 2 sampel.

Data $D = {⟨ x^{(A)}, y^{(A)} ⟩, ⟨ x^{(B)}, y^{(B)} ⟩}$
Sampel A: $x^{(A)} = [62, 58]$
$y^{(A)} = 1$
Sampel B: $x^{(B)} = [52, 41]$
$y^{(B)} = 0$
Parameter: $η = 0.1$
(Ingat: tambahkan $x_{0} = 1$ untuk bias. $x^{(A)} \to [1, 62, 58]$ )

Ikuti langkah-langkah berikut (data diproses dalam urutan A, lalu B):

Langkah	Instruksi	Jawaban
30.	Inisialisasi bobot $b$ (epoch 0).	$b = [b_{0}, b_{1}, b_{2}] = [0, 0, 0]$
31.	Proses Sampel A: Hitung $z = b^{T} x^{(A)}$ Hitung $p^{(A)}$ Hitung error $(y^{(A)} - p^{(A)})$	$z = ...$ $p^{(A)} = ...$ $er r^{(A)} = ...$
32.	Update Bobot (setelah A): $b_{0} = b_{0} + η (er r^{(A)}) x_{0}^{(A)}$ $b_{1} = b_{1} + η (er r^{(A)}) x_{1}^{(A)}$ $b_{2} = b_{2} + η (er r^{(A)}) x_{2}^{(A)}$	$b_{0} = ...$ $b_{1} = ...$ $b_{2} = ...$ $b_{n e w} = [..., ..., ...]$
33.	Proses Sampel B (Gunakan $b_{n e w}$ dari langkah 32): Hitung $z = b_{n e w}^{T} x^{(B)}$ Hitung $p^{(B)}$ Hitung error $(y^{(B)} - p^{(B)})$	$z = ...$ $p^{(B)} = ...$ $er r^{(B)} = ...$
34.	Update Bobot (setelah B): $b_{0} = b_{0} + η (er r^{(B)}) x_{0}^{(B)}$ $b_{1} = b_{1} + η (er r^{(B)}) x_{1}^{(B)}$ $b_{2} = b_{2} + η (er r^{(B)}) x_{2}^{(B)}$	$b_{0} = ...$ $b_{1} = ...$ $b_{2} = ...$
35.	Tulis bobot final $b$ setelah 1 epoch.	$b_{f ina l} = [..., ..., ...]$

Soal 22. (36) Analisis Metode Optimasi (Format Uraian Analitis) (5 poin)

Bandingkan Stochastic Gradient Ascent (SGA) dengan Full-Batch Gradient Ascent. Mengapa SGA sering lebih disukai dalam praktik meskipun noise (fluktuatif)?

Soal 23. (37) Interpretasi Koefisien (Format Uraian Analitis) (5 poin)

Misalkan setelah pelatihan penuh, model Anda untuk kelulusan “honors class” (1=Ya, 0=Tidak) memiliki koefisien $b_{1} = 0.08$ untuk fitur write_score. Berikan interpretasi yang presisi secara teknis dari arti nilai $0.08$ ini. (Jangan hanya katakan “jika $x$ naik maka $y$ naik”).

Kunci Jawaban & Rubrik Penilaian

Bagian I

Soal 1 (B/S) (10 poin):

Salah. Output Regresi Linear tidak dijamin [0, 1].

Salah. $g (x)$ adalah input untuk Sigmoid. Regresi Linear adalah $\overset{y}{^} = w^{T} x$ . Keduanya linear, tapi tujuannya beda.

Salah. Hyperplane didefinisikan oleh $g (x) = 0$
yang ekuivalen dengan probabilitas $p = 0.5$ .

Benar.

Salah. Rentang “Odds” adalah [0, $+ \infty$ ).

Benar.

Salah. Menggunakan MLE.

Benar.

Salah. Satu epoch berarti melewati seluruh dataset, bukan satu sampel.

Salah. SGA tidak dijamin konvergen ke optimum global (bisa terjebak di lokal) dan pergerakannya noisy.

Soal 2 (Matrix) (20 poin):

D. Aturan Update SGA. Ini adalah mekanisme pembaruan bobot per-sampel.

C. LCL. Ini adalah fungsi objektif (likelihood) yang dimaksimalkan oleh MLE.

A. Sigmoid. Ini adalah perannya: mengubah $z$ (skor linear) menjadi $p$ (probabilitas).

B. Logit. Ini adalah “jembatan” yang memetakan probabilitas $p$ ke model linear $z = b^{T} x$ .

C. LCL. Ini adalah definisi konseptual dari prinsip Maximum Likelihood.

Bagian II

Soal 16 (Isian Terstruktur) (9 poin):

Tujuan: Mengagregasi semua fitur input ( $x$ ) dan bobotnya ( $b$ ) menjadi satu skor linear tunggal ( $z$ ).

Tujuan: Memetakan skor linear ( $z$ ) yang memiliki rentang tak terbatas ( $- \infty, + \infty$ ) ke rentang probabilitas yang valid [0, 1].

Tujuan: Mentransformasi probabilitas ( $p$ ) yang non-linear kembali ke domain linear ( $z$ ). Ini penting karena membuktikan bahwa Regresi Logistik adalah model linear, tetapi untuk Log-Odds, bukan untuk $p$ itu sendiri.

Soal 17 (Studi Kasus Prediksi) (12 poin):

a. $\overset{y}{^} = 0.03 (65) - 1.35 = 1.95 - 1.35 = 0.60$ . Karena $0.60 > 0.5$
Prediksi = 1 (Honors).

b. $z = 0.07 (65) - 4.85 = 4.55 - 4.85 = - 0.30$ .

c. $p = 1/ (1 + e^{- (- 0.30)}) = 1/ (1 + e^{0.30}) \approx 1/ (1 + 1.35) = 1/2.35 \approx 0.4255$ .

d. Karena $p \approx 0.4255 < 0.5$
Prediksi = 0 (Not Honors). Hasilnya berbeda; Regresi Logistik (yang lebih tepat) memprediksi 0 sementara Regresi Linear memprediksi 1.

Soal 18 (Uraian LSE vs MLE) (7 poin):

Poin Kunci: (1) LSE bertujuan meminimalkan $\sum (y - \overset{y}{^})^{2}$ . (2) Dalam klasifikasi biner, $y$ adalah 0 atau 1. (3) Output $\overset{y}{^}$ dari Regresi Logistik adalah probabilitas $p$ (non-linear). (4) Fungsi biaya LSE ( $\sum (y - p)^{2}$ ) menjadi non-convex untuk Regresi Logistik, yang berarti optimasi (seperti Gradient Descent) bisa terjebak di local minima yang buruk. (5) MLE, di sisi lain, yang memaksimalkan LCL (berdasarkan asumsi distribusi Bernoulli), menghasilkan fungsi biaya yang convex (specifically, negative LCL-nya convex), sehingga menjamin konvergensi ke global optimum.

Soal 19 (Uraian LCL) (7 poin):

Poin Kunci: (1) Mengapa Log? Likelihood gabungan adalah perkalian probabilitas $\prod L_{i}$ . Perkalian angka yang sangat kecil (probabilitas) dapat menyebabkan numerical underflow (hasilnya jadi 0 di komputer). Logaritma mengubah perkalian menjadi penjumlahan ( $\sum lo g L_{i}$ ), yang secara numerik jauh lebih stabil. (2) Mengapa Dua Bagian? Ini adalah cara cerdas untuk menulis likelihood Bernoulli dalam satu formula.

Jika $y_{i} = 1$
bagian kedua ( $lo g (1 - p)$ ) menjadi $lo g (1 - p)^{0} = 0$
menyisakan $lo g p_{i}$ . Kita ingin memaksimalkan $p_{i}$ (prediksi 1).

Jika $y_{i} = 0$
bagian pertama ( $lo g p_{i}$ ) menjadi $lo g p_{i}^{0} = 0$
menyisakan $lo g (1 - p_{i})$ . Kita ingin memaksimalkan $(1 - p_{i})$ (prediksi 0).

Keduanya memaksimalkan probabilitas dari ground truth yang benar.

Bagian III

Soal 20 (Isian SGA) (10 poin):

$η$ : Mengontrol seberapa besar langkah yang diambil untuk memperbarui bobot. Jika terlalu besar, bisa overshoot; jika terlalu kecil, pelatihan lambat.

$(y_{i} - p_{i})$ : Ini adalah error atau residual prediksi untuk satu sampel. Ini adalah sinyal yang memberi tahu seberapa salah prediksi ( $p_{i}$ ) dari target ( $y_{i}$ ).

$x_{ij}$ : Menskalakan pembaruan. Fitur dengan nilai $x_{ij}$ besar akan mendapat pembaruan bobot yang lebih besar. Ini menghubungkan error $(y - p)$ kembali ke fitur spesifik yang menyebabkannya.

Penjumlahan (+): Karena kita melakukan Gradient Ascent (mendaki/naik). Kita ingin bergerak searah dengan gradien (turunan positif) untuk memaksimalkan LCL. (Gradient Descent menggunakan Pengurangan untuk meminimalkan).

Stochastic: Berarti pembaruan ini dihitung menggunakan gradien dari hanya satu sampel ( $i$ ) pada satu waktu, bukan dari seluruh dataset.

Soal 21 (Studi Kasus SGA) (15 poin):

$b = [0, 0, 0]$

Proses A: $x^{(A)} = [1, 62, 58]$
$y^{(A)} = 1$

$z = (0 * 1) + (0 * 62) + (0 * 58) = 0$

$p^{(A)} = 1/ (1 + e^{- 0}) = 0.5$

$er r^{(A)} = 1 - 0.5 = 0.5$

Update A:

$b_{0} = 0 + 0.1 (0.5) (1) = 0.05$

$b_{1} = 0 + 0.1 (0.5) (62) = 3.1$

$b_{2} = 0 + 0.1 (0.5) (58) = 2.9$

$b_{n e w} = [0.05, 3.1, 2.9]$

Proses B: $x^{(B)} = [1, 52, 41]$
$y^{(B)} = 0$ (Gunakan $b_{n e w}$ )

$z = (0.05 * 1) + (3.1 * 52) + (2.9 * 41) = 0.05 + 161.2 + 118.9 = 280.15$

$p^{(B)} = 1/ (1 + e^{- 280.15}) \approx 1.0$ (karena $e^{- 280.15}$ sangat kecil)

$er r^{(B)} = 0 - 1.0 = - 1.0$

Update B:

$b_{0} = 0.05 + 0.1 (- 1.0) (1) = - 0.05$

$b_{1} = 3.1 + 0.1 (- 1.0) (52) = 3.1 - 5.2 = - 2.1$

$b_{2} = 2.9 + 0.1 (- 1.0) (41) = 2.9 - 4.1 = - 1.2$

$b_{f ina l} = [- 0.05, - 2.1, - 1.2]$

Soal 22 (Uraian SGA vs Batch) (5 poin):

Poin Kunci: (1) Full-Batch menghitung gradien dari seluruh dataset sebelum mengambil satu langkah update. Ini sangat mahal secara komputasi jika dataset besar. (2) SGA menghitung gradien dari satu sampel. Ini jauh lebih cepat per-update dan memungkinkan progres yang cepat. (3) Noise pada SGA (pergerakan yang fluktuatif) sebenarnya bisa menjadi keuntungan, karena memungkinkannya “melompat” keluar dari local optima (minimum/maksimum lokal) yang buruk, yang mungkin menjebak full-batch.

Soal 23 (Uraian Interpretasi Koefisien) (5 poin):

Jawaban Presisi: “Setiap kenaikan 1 poin pada write_score (misal, dari 65 ke 66), log-odds untuk masuk ‘honors class’ diprediksi akan meningkat sebesar 0.08.”

(Rubrik: Harus menyebut ‘log-odds’ atau ‘logit’. Menyebut ‘probabilitas’ secara langsung adalah salah, karena hubungannya tidak linear. Menyebut ‘odds’ juga bisa diterima, tetapi ‘log-odds’ adalah yang paling tepat).

Tips Pengerjaan untuk Peserta

Strategi Umum:

Baca Semuanya: Baca soal Bagian III terlebih dahulu. Soal-soal tersebut (terutama Soal 20) memberikan clue untuk memahami materi di Bagian II.
Fokus pada “Mengapa”: Soal esai berfokus pada “mengapa” (Mengapa MLE? Mengapa Logit? Mengapa SGA?). Jangan hanya menghafal formula, pahami tujuannya.
Alokasi Waktu: Bagian I (15-20 menit). Bagian II (35 menit). Bagian III (35 menit).

Strategi Per Bagian:

Bagian I: Hati-hati dengan false friends. Pernyataan di B/S No. 2, 3, 5, 9, 10 dirancang untuk menjebak.
Bagian II: Untuk Soal 18 & 19, susun argumen Anda langkah demi langkah. Mulai dari “Apa tujuannya?” (misal: LSE) → “Apa asumsinya?” → “Mengapa asumsi itu dilanggar oleh Regresi Logistik?“.
Bagian III: Untuk Soal 21 (SGA), kerjakan dengan sangat teliti, baris per baris. Kesalahan di “Update A” akan menyebabkan kesalahan di “Proses B”. Gunakan kalkulator Anda.

Red Flags untuk Dihindari:

❌ Menulis bahwa $b_{1}$ (koefisien) adalah “peningkatan probabilitas”. SALAH. $b_{1}$ adalah peningkatan Log-Odds.
❌ Tertukar antara Gradient Ascent (Maksimalkan, tambah) dan Gradient Descent (Minimalkan, kurang).
❌ Lupa menggunakan bobot $b_{n e w}$ yang baru di-update saat memproses sampel data berikutnya (Soal 21, langkah 33).
❌ Lupa menambahkan fitur bias $x_{0} = 1$ dalam perhitungan $z = b^{T} x$ .

Sumber Belajar yang Direkomendasikan

Materi UAS/Regresi Logistik.md
Materi UAS/Pelatihan Regresi Logistik.md

IF Notes

Explorer

Latihan Kuis 2 - 8