Back to IF3170 Inteligensi Artifisial

Problem Set: Regresi Logistik dan Pelatihan Model

Mata Pelajaran: IF3170 Intelegensi Artifisial

Estimasi Waktu: 90 menit

Total Nilai: 100 poin

Tujuan Pembelajaran

Setelah menyelesaikan problem set ini, mahasiswa diharapkan dapat:

  1. Menganalisis secara kritis keterbatasan Regresi Linear untuk masalah klasifikasi.

  2. Menjelaskan hubungan konseptual antara Linear Discriminant Function, Hyperplane, Sigmoid, Odds, dan Log Odds (Logit).

  3. Menginterpretasikan koefisien () dari model Regresi Logistik dalam konteks Log Odds.

  4. Membandingkan secara mendalam perbedaan fundamental antara Least Square Estimator (LSE) dan Maximum Likelihood Estimator (MLE).

  5. Menjelaskan tujuan dan derivasi konseptual dari fungsi Log Conditional Likelihood (LCL) untuk klasifikasi biner.

  6. Menganalisis dan menerapkan algoritma Stochastic Gradient Ascent (SGA), termasuk menurunkan dan mengaplikasikan aturan pembaruan bobotnya ().

  7. Melakukan perhitungan manual untuk prediksi (menggunakan Logit) dan satu epoch pelatihan (menggunakan SGA).

Petunjuk Umum

  • Problem set ini dirancang untuk menguji pemahaman analitis, bukan hanya hafalan.

  • Baca setiap soal dengan teliti. Banyak soal saling terkait.

  • Tuliskan semua langkah perhitungan dan justifikasi Anda dengan jelas untuk soal esai dan studi kasus.

  • Alokasikan waktu Anda dengan bijak; Bagian II dan III memiliki bobot nilai yang lebih tinggi.

BAGIAN I: Soal Fundamental (30 poin)

Fokus: Recall dan Comprehension - Menguji pemahaman konsep inti.

Soal 1. (1-10) Konsep Inti (Format Benar/Salah) (10 poin, @1 poin)

Tentukan apakah pernyataan berikut Benar atau Salah.

NoPernyataanBenarSalah
1Regresi Linear adalah pilihan yang baik untuk klasifikasi biner karena outputnya selalu antara 0 dan 1.
2Linear Discriminant Function () adalah model yang sama dengan Regresi Linear.
3Decision Surface atau Hyperplane dalam Regresi Logistik didefinisikan oleh persamaan .
4Fungsi Sigmoid mengubah output dari Linear Discriminant Function (yang berkisar s/d ) menjadi probabilitas (0 s/d 1).
5”Odds” () merepresentasikan rasio probabilitas sukses terhadap probabilitas gagal, dengan rentang nilai [0, 1].
6”Logit” adalah nama lain untuk Log Odds, dan Regresi Logistik pada dasarnya adalah model linear untuk Logit.
7Regresi Logistik menggunakan LSE (Least Square Estimator) untuk menemukan parameternya, sama seperti Regresi Linear.
8Kita menggunakan Gradient Ascent (bukan Descent) karena kita ingin memaksimalkan Log Conditional Likelihood (LCL).
9Satu “Epoch” dalam pelatihan SGA berarti model memperbarui bobotnya menggunakan satu sampel data acak.
10SGA dijamin lebih cepat konvergen ke optimum global daripada full-batch Gradient Ascent.

Soal 2. (11-15) Klasifikasi Konsep (Format Matrix) (20 poin, @4 poin)

Pasangkan deskripsi di kolom “Isi Soal” dengan konsep yang paling tepat. Pilih satu jawaban per baris.

NoIsi SoalA. Sigmoid B. Logit C. LCL D. Aturan Update SGA
11Mekanisme iteratif untuk memperbarui parameter model berdasarkan error dari satu sampel.
12Fungsi yang dioptimalkan (dimaksimalkan) oleh MLE untuk menemukan parameter terbaik.
13Fungsi yang “memaksa” output linear menjadi probabilitas .
14Transformasi yang menghubungkan probabilitas dengan model linear ().
15Tujuan dari fungsi ini adalah untuk menemukan yang membuat data training yang terobservasi menjadi paling mungkin terjadi.

BAGIAN II: Soal Aplikasi & Analisis (35 poin)

Fokus: Application dan Analysis - Menerapkan konsep ke skenario dan analisis teoritis.

Soal 16. (16-18) Alur Konseptual (Format Isian Terstruktur) (9 poin)

Jelaskan alur kerja Regresi Logistik dengan melengkapi tiga konsep kunci berikut:

  • 16. Kombinasi Linear ():

    • Persamaan:

    • Tujuan / Peran: _________________________________________________

  • 17. Fungsi Sigmoid ():

    • Persamaan:

    • Tujuan / Peran: _________________________________________________

  • 18. Fungsi Logit (Log-Odds):

    • Persamaan:

    • Tujuan / Peran (Mengapa ini penting?): _________________________________________________

Soal 17. (19-22) Studi Kasus: Prediksi Linear vs Logistik (12 poin)

Diberikan dua model untuk memprediksi kelulusan “honors class” (1=Ya, 0=Tidak) berdasarkan write_score (x). Threshold keputusan adalah 0.5.

  • Model Linear (LSE):

  • Model Logistik (MLE):

Seorang siswa memiliki write_score = 65.

a. (3 poin) Berapakah prediksi dari Model Linear? Apa keputusan kelasnya (0 atau 1)?

b. (3 poin) Berapakah nilai log-odds () dari Model Logistik?

c. (3 poin) Berdasarkan nilai dari (b), hitung probabilitas (Gunakan jika perlu).

d. (3 poin) Berapakah keputusan kelas (0 atau 1) dari Model Logistik? Bandingkan hasilnya dengan (a).

Soal 18. (23) Analisis Metode Estimasi (Format Uraian Analitis) (7 poin)

Regresi Linear menggunakan LSE, sedangkan Regresi Logistik menggunakan MLE. Jelaskan secara mendalam mengapa LSE (meminimalkan SSE) BUKAN pilihan yang tepat untuk melatih model Regresi Logistik.

(Hint: Pikirkan tentang asumsi LSE, bentuk fungsi biaya (cost function) yang dihasilkan, dan sifat dari variabel target Y).

Soal 19. (24) Analisis Fungsi Objektif (Format Uraian Analitis) (7 poin)

Jelaskan fungsi Log Conditional Likelihood (LCL) untuk klasifikasi biner.

Mengapa kita menggunakan Logaritma (Log)? Dan mengapa formula LCL memiliki dua bagian: dan ?

BAGIAN III: Soal Sintesis & Evaluasi (35 poin)

Fokus: Synthesis dan Evaluation - Menganalisis proses pelatihan (SGA).

Soal 20. (25-29) Dekonstruksi Aturan Update SGA (Format Isian Terstruktur) (10 poin)

Aturan pembaruan bobot untuk Stochastic Gradient Ascent (SGA) adalah:

Jelaskan peran dari setiap komponen berikut dalam proses pembelajaran:

  • 25. (learning rate): _________________________________________________

  • 26. (error term): _________________________________________________

  • 27. (nilai fitur): _________________________________________________

  • 28. Mengapa operasinya Penjumlahan (+), bukan Pengurangan (-)? _________________________________________________

  • 29. Apa arti “Stochastic” dalam konteks aturan update ini? _________________________________________________

Soal 21. (30-35) Studi Kasus: Pelatihan SGA (Format Step-by-Step Scaffolding) (15 poin)

Anda akan mensimulasikan satu epoch pelatihan SGA pada dataset dengan 2 sampel.

  • Data

  • Sampel A:

  • Sampel B:

  • Parameter:

  • (Ingat: tambahkan untuk bias. )

Ikuti langkah-langkah berikut (data diproses dalam urutan A, lalu B):

LangkahInstruksiJawaban
30.Inisialisasi bobot (epoch 0).
31.Proses Sampel A:
Hitung
Hitung
Hitung error


32.Update Bobot (setelah A):





33.Proses Sampel B (Gunakan dari langkah 32):
Hitung
Hitung
Hitung error


34.Update Bobot (setelah B):




35.Tulis bobot final setelah 1 epoch.

Soal 22. (36) Analisis Metode Optimasi (Format Uraian Analitis) (5 poin)

Bandingkan Stochastic Gradient Ascent (SGA) dengan Full-Batch Gradient Ascent. Mengapa SGA sering lebih disukai dalam praktik meskipun noise (fluktuatif)?

Soal 23. (37) Interpretasi Koefisien (Format Uraian Analitis) (5 poin)

Misalkan setelah pelatihan penuh, model Anda untuk kelulusan “honors class” (1=Ya, 0=Tidak) memiliki koefisien untuk fitur write_score. Berikan interpretasi yang presisi secara teknis dari arti nilai ini. (Jangan hanya katakan “jika naik maka naik”).

Tips Pengerjaan untuk Peserta

Strategi Umum:

  1. Baca Semuanya: Baca soal Bagian III terlebih dahulu. Soal-soal tersebut (terutama Soal 20) memberikan clue untuk memahami materi di Bagian II.

  2. Fokus pada “Mengapa”: Soal esai berfokus pada “mengapa” (Mengapa MLE? Mengapa Logit? Mengapa SGA?). Jangan hanya menghafal formula, pahami tujuannya.

  3. Alokasi Waktu: Bagian I (15-20 menit). Bagian II (35 menit). Bagian III (35 menit).

Strategi Per Bagian:

  • Bagian I: Hati-hati dengan false friends. Pernyataan di B/S No. 2, 3, 5, 9, 10 dirancang untuk menjebak.

  • Bagian II: Untuk Soal 18 & 19, susun argumen Anda langkah demi langkah. Mulai dari “Apa tujuannya?” (misal: LSE) “Apa asumsinya?” “Mengapa asumsi itu dilanggar oleh Regresi Logistik?“.

  • Bagian III: Untuk Soal 21 (SGA), kerjakan dengan sangat teliti, baris per baris. Kesalahan di “Update A” akan menyebabkan kesalahan di “Proses B”. Gunakan kalkulator Anda.

Red Flags untuk Dihindari:

  • ❌ Menulis bahwa (koefisien) adalah “peningkatan probabilitas”. SALAH. adalah peningkatan Log-Odds.

  • ❌ Tertukar antara Gradient Ascent (Maksimalkan, tambah) dan Gradient Descent (Minimalkan, kurang).

  • ❌ Lupa menggunakan bobot yang baru di-update saat memproses sampel data berikutnya (Soal 21, langkah 33).

  • ❌ Lupa menambahkan fitur bias dalam perhitungan .

Sumber Belajar yang Direkomendasikan

  • Materi UAS/Regresi Logistik.md

  • Materi UAS/Pelatihan Regresi Logistik.md