Back to IF3170 Inteligensi Artifisial
Problem Set Ujian: Model Regresi Linear dan Logistik
Mata Pelajaran: IF3170 Intelegensi Artifisial
Estimasi Waktu: 120 menit
Total Nilai: 100 poin
Tujuan Pembelajaran
Setelah menyelesaikan problem set ini, mahasiswa diharapkan dapat:
-
Membedakan secara analitis kasus penggunaan, asumsi, dan formulasi matematis antara Regresi Linear dan Regresi Logistik.
-
Menerapkan metode Least Square Estimator (LSE) secara komputasi untuk menurunkan parameter model Regresi Linear.
-
Mengevaluasi performa model Regresi Linear menggunakan metrik MAE, SSE, dan R2-Score.
-
Menganalisis secara kritis keterbatasan LSE dan keunggulan Maximum Likelihood Estimator (MLE) untuk masalah klasifikasi.
-
Menjelaskan alur konseptual Regresi Logistik, dari Logit (Log-Odds) hingga fungsi Sigmoid dan Log Conditional Likelihood (LCL).
-
Menerapkan algoritma Stochastic Gradient Ascent (SGA) secara komputasi untuk melatih model Regresi Logistik selama satu epoch.
-
Mensintesis dan membandingkan hasil prediksi dari model Linear vs Logistik pada dataset klasifikasi biner.
Petunjuk Umum
-
Baca setiap soal dengan sangat teliti.
-
Jawaban yang tidak disertai justifikasi atau langkah perhitungan (jika diminta) tidak akan mendapat poin penuh.
-
Dilarang menggunakan library
sklearnatau sejenisnya; semua perhitungan LSE dan SGA harus dilakukan secara manual. -
Semua soal disajikan terlebih dahulu. Kunci Jawaban dan Rubrik Penilaian terdapat di bagian akhir dokumen.
BAGIAN I: Konsep Fundamental (20 poin)
Fokus: Recall & Comprehension - Menguji pemahaman konsep inti dan perbedaannya.
Soal 1-10. Klasifikasi Konsep (Format Matrix) (10 poin, @1 poin)
Pasangkan deskripsi di kolom “Isi Soal” dengan konsep yang paling tepat. Pilih satu jawaban per baris.
| No | Isi Soal | A. Regresi Linear (SLR/MLR) | B. Regresi Logistik | C. LSE | D. MLE | E. R2-Score | F. Logit | G. Sigmoid | H. SGA |
|---|---|---|---|---|---|---|---|---|---|
| 1 | Tujuan utamanya adalah memprediksi nilai kontinu (misal: harga, suhu). | ||||||||
| 2 | Tujuan utamanya adalah memprediksi probabilitas kelas biner (0 atau 1). | ||||||||
| 3 | Metode optimasi yang bertujuan meminimalkan . | ||||||||
| 4 | Metode optimasi yang bertujuan memaksimalkan Log Conditional Likelihood (LCL). | ||||||||
| 5 | Fungsi yang memetakan nilai (dari s/d ) ke rentang [0, 1]. | ||||||||
| 6 | Metrik evaluasi yang mengukur proporsi varians yang dijelaskan oleh . | ||||||||
| 7 | Nama lain dari “Log-Odds” (), yang memiliki hubungan linear dengan . | ||||||||
| 8 | Metode optimasi iteratif yang memperbarui bobot berdasarkan gradien satu sampel. | ||||||||
| 9 | Model yang mengasumsikan hubungan . | ||||||||
| 10 | Batas keputusan (hyperplane) didefinisikan oleh , yang ekuivalen dengan . |
Soal 11-20. Analisis Konsep (Format Benar/Salah) (10 poin, @1 poin)
Tentukan apakah pernyataan berikut Benar atau Salah.
| No | Pernyataan | Benar | Salah |
|---|---|---|---|
| 11 | Dalam Regresi Linear, . | ||
| 12 | Dalam Regresi Linear, . | ||
| 13 | Mean Squared Error (MSE) lebih robust terhadap outlier daripada Mean Absolute Error (MAE). | ||
| 14 | Menggunakan Regresi Linear untuk klasifikasi biner (0/1) adalah valid karena outputnya pasti antara 0 dan 1. | ||
| 15 | Regresi Logistik mengasumsikan hubungan linear antara fitur dan probabilitas . | ||
| 16 | Rentang nilai dari “Odds” () adalah dari s/d . | ||
| 17 | Rentang nilai dari “Logit” () adalah dari s/d . | ||
| 18 | Dalam aturan update SGA, adalah error term yang menggerakkan pembaruan bobot. | ||
| 19 | Learning rate () yang sangat besar selalu mempercepat konvergensi dan direkomendasikan. | ||
| 20 | Satu “Epoch” dalam pelatihan SGA berarti model telah memproses seluruh data latih satu kali. |
BAGIAN II: Aplikasi & Analisis (40 poin)
Fokus: Application & Analysis - Perhitungan LSE dan analisis komparatif metode.
Soal 21-28. Studi Kasus 1: Regresi Linear & LSE (24 poin)
Anda ditugaskan memodelkan Nilai Ujian (Y) berdasarkan Jam Belajar (X).
Data Latih (N=4):
-
(X=1, Y=60)
-
(X=2, Y=70)
-
(X=4, Y=75)
-
(X=5, Y=95)
A. Pelatihan Model (LSE “From Scratch”)
-
(4 poin) Hitung nilai rata-rata dan dari data latih.
-
(4 poin) Hitung (Numerator ) dan (Denominator ).
-
(4 poin) Hitung slope () dan intercept ().
-
(2 poin) Tuliskan hipotesis (persamaan) final Anda.
B. Evaluasi Model
Gunakan model Anda dari (24) untuk dievaluasi pada Data Uji (N=2) berikut:
-
(X=3, Y_aktual=80)
-
(X=6, Y_aktual=90)
-
Data Tambahan: Rata-rata aktual dari data uji adalah .
-
(4 poin) Hitung nilai prediksi untuk setiap data uji.
-
(2 poin) Hitung Mean Absolute Error (MAE) pada data uji.
-
(2 poin) Hitung Sum of Squared Errors (SSE) pada data uji.
-
(2 poin) Diberikan , hitung R2-Score model Anda.
Soal 29-31. Uraian Analitis (16 poin)
-
(5 poin) Jelaskan secara kritis minimal dua alasan utama mengapa menggunakan Regresi Linear (LSE) untuk masalah klasifikasi biner (target 0/1) adalah pendekatan yang buruk dan tidak dianjurkan.
-
(6 poin) Bandingkan LSE vs MLE. Jelaskan mengapa LSE adalah fungsi biaya yang cocok untuk Regresi Linear, tetapi mengapa MLE (dengan Log Conditional Likelihood) diperlukan untuk Regresi Logistik. (Hint: Bahas asumsi dan bentuk cost function).
-
(5 poin) Jelaskan formula Log Conditional Likelihood (LCL) untuk klasifikasi biner. Mengapa kita menggunakan Logaritma? Dan mengapa formulanya memiliki dua bagian (satu untuk dan satu untuk )?
BAGIAN III: Sintesis & Evaluasi (40 poin)
Fokus: Synthesis & Evaluation - Perbandingan komputasi LSE vs. SGA (MLE).
Soal 32-42. Studi Kasus 2: Klasifikasi (LSE vs. SGA) (40 poin)
Anda ingin memprediksi Lulus (1=Ya, 0=Tidak) berdasarkan Skor (X).
Data Latih (N=4):
-
Sampel 1: (X=40, Y=0)
-
Sampel 2: (X=50, Y=0)
-
Sampel 3: (X=70, Y=1)
-
Sampel 4: (X=80, Y=1)
Data Uji: (X=60)
A. Pendekatan Naif: Regresi Linear (LSE)
-
(8 poin) Terapkan metode LSE “From Scratch” (seperti di Soal 21-23) pada 4 data latih di atas untuk menemukan dan . (Tunjukkan perhitungan ).
-
(2 poin) Tuliskan persamaan linear yang dihasilkan.
-
(2 poin) Gunakan untuk memprediksi Data Uji (X=60). Berapa nilai ? (Jangan gunakan threshold).
B. Pendekatan Tepat: Regresi Logistik (SGA)
Anda akan melatih model Regresi Logistik menggunakan SGA selama satu epoch.
-
Gunakan .
-
Inisialisasi bobot: .
-
Ingat: menjadi (misal: ).
-
Proses data latih secara berurutan (Sampel 1, 2, 3, 4).
-
(4 poin) Proses Sampel 1 (X=40, Y=0): Hitung .
-
(3 poin) Update Bobot (setelah S1): Hitung dan yang baru.
-
(4 poin) Proses Sampel 2 (X=50, Y=0): (Gunakan dari S36). Hitung .
-
(3 poin) Update Bobot (setelah S2): Hitung dan yang baru.
-
(4 poin) Proses Sampel 3 (X=70, Y=1): (Gunakan dari S38). Hitung .
-
(3 poin) Update Bobot (setelah S3): Hitung dan yang baru.
-
(4 poin) Proses Sampel 4 (X=80, Y=1): (Gunakan dari S40). Hitung . (Bobot final tidak perlu dihitung).
C. Analisis dan Perbandingan
- (3 poin) Bandingkan hasil prediksi Anda untuk X=60: dari Soal 34 (Linear) vs dari Soal 39 (Logistic, setelah memproses ). Manakah yang lebih masuk akal sebagai “probabilitas kelulusan” dan mengapa?
Bagian I
Soal 1-10 (Matrix) (10 poin):
A. Regresi Linear (SLR/MLR): Memprediksi nilai kontinu.
B. Regresi Logistik: Memprediksi probabilitas.
C. LSE: Metode minimasi error kuadrat.
D. MLE: Metode maksimasi likelihood (LCL).
G. Sigmoid: Fungsi pemetaan ke [0, 1].
E. R2-Score: Metrik proporsi varians.
F. Logit: Nama lain Log-Odds, hubungannya linear .
H. SGA: Optimasi iteratif per-sampel.
A. Regresi Linear (SLR/MLR): adalah asumsi dasarnya.
B. Regresi Logistik: adalah hyperplane di mana dan .
Soal 11-20 (B/S) (10 poin):
Benar. .
Benar. adalah mean yang disesuaikan oleh mean terkali slope.
Salah. MSE (kuadrat) jauh lebih sensitif terhadap outlier daripada MAE (absolut).
Salah. Outputnya tidak dijamin [0, 1] dan asumsi LSE dilanggar.
Salah. Hubungan linearnya adalah antara dan Log-Odds (Logit), bukan .
Salah. Rentang Odds adalah [0, ).
Benar. Logaritma dari [0, ) adalah [).
Benar.
Salah. terlalu besar dapat menyebabkan overshooting dan gagal konvergen.
Benar.
Bagian II
Soal 21-28 (Studi Kasus 1: LSE) (24 poin)
(4 poin)
(4 poin)
(4 poin)
- (2 poin) (atau
Nilai = 52.5 + 7.5 * Jam Belajar)
(4 poin)
(X=3):
(X=6):
(2 poin)
(2 poin)
(2 poin)
(Rubrik: Nilai R2 negatif menunjukkan model performanya lebih buruk daripada hanya menebak nilai rata-rata )
Soal 29-31 (Uraian Analitis) (16 poin)
(5 poin) Rubrik:
Output Tidak Terbatas: Output dari Regresi Linear adalah , bukan [0, 1] yang dibutuhkan untuk probabilitas. Prediksi bisa atau , yang tidak bermakna.
Pelanggaran Asumsi LSE: LSE mengasumsikan terdistribusi normal (Homoscedasticity). dalam klasifikasi biner terdistribusi Bernoulli, bukan Normal.
(Bonus) Sensitivitas Outlier: Outlier (data X yang jauh) dapat sangat menggeser garis regresi (hyperplane) dan mengubah klasifikasi data lain secara drastis.
(6 poin) Rubrik:
LSE (Linear): Cocok karena LSE meminimalkan error kuadrat. Asumsi Regresi Linear adalah error terdistribusi normal. Meminimalkan SSE secara analitis (solusi ) setara dengan MLE jika error-nya Normal. Fungsi biayanya () berbentuk convex (parabola).
MLE (Logistic): Dibutuhkan karena adalah Bernoulli (0/1). Kita tidak bisa meminimalkan error secara langsung.
Mengapa LSE Gagal di Logistik: Jika kita paksakan LSE (), fungsi biayanya menjadi non-convex (bergelombang, banyak local minima).
Solusi MLE: MLE memaksimalkan likelihood (LCL) . Menggunakan Log (LCL) mengubahnya menjadi fungsi yang concave (atau negative LCL yang convex), sehingga Gradient (Ascent/Descent) dijamin menemukan global optimum.
(5 poin) Rubrik:
Mengapa Log? Likelihood gabungan adalah perkalian probabilitas . Perkalian angka kecil (<1) berulang kali menyebabkan numerical underflow (hasilnya 0). Logaritma mengubah perkalian menjadi penjumlahan (), yang numeriknya stabil.
Mengapa Dua Bagian? Ini adalah trik aljabar untuk fungsi Bernoulli.
- Jika $y_i=1$, formula LCL menjadi $\log(p_i)$ (karena $\log(1-p_i)$ dikali 0). Kita ingin memaksimalkan $p_i$. - Jika $y_i=0$, formula LCL menjadi $\log(1-p_i)$ (karena $\log(p_i)$ dikali 0). Kita ingin memaksimalkan $(1-p_i)$ (probabilitas gagal). - Dalam kedua kasus, kita memaksimalkan probabilitas dari hasil yang _sebenarnya_ terjadi (ground truth).Bagian III
Soal 32-42 (Studi Kasus 2: LSE vs. SGA) (40 poin)
A. Pendekatan Naif: Regresi Linear (LSE)
(8 poin) Data: (40,0), (50,0), (70,1), (80,1)
- (2 poin)
(2 poin)
B. Pendekatan Tepat: Regresi Logistik (SGA)
(4 poin) S1 (X=40, Y=0): ,
(3 poin) Update S1:
(4 poin) S2 (X=50, Y=0):
(Sangat kecil)
(3 poin) Update S2: (Error , update )
(4 poin) S3 (X=70, Y=1):
(Sangat kecil)
(3 poin) Update S3:
(4 poin) S4 (X=80, Y=1):
C. Analisis dan Perbandingan
(3 poin) Rubrik:
Hasil Linear (Soal 34): .
Hasil Logistic (Soal 39): .
Analisis: Hasil dari LSE (Soal 34) adalah ambigu (tepat di threshold) dan salah (setelah melihat data X=70 dan X=80, X=60 harusnya lebih dekat ke 0). Hasil dari SGA (Soal 39) jauh lebih masuk akal; model logistik (setelah melihat S3) belajar bahwa adalah 1, sehingga (yang jauh dari 70) harusnya memiliki probabilitas 1 yang sangat rendah.
Kesimpulan: Model Logistik (SGA) menghasilkan prediksi (setelah S3) yang jauh lebih intuitif dan bermakna sebagai “probabilitas” (sangat rendah) dibandingkan dari Regresi Linear.