Back to IF3170 Inteligensi Artifisial

Problem Set Ujian: Model Regresi Linear dan Logistik

Mata Pelajaran: IF3170 Intelegensi Artifisial

Estimasi Waktu: 120 menit

Total Nilai: 100 poin

Tujuan Pembelajaran

Setelah menyelesaikan problem set ini, mahasiswa diharapkan dapat:

  1. Membedakan secara analitis kasus penggunaan, asumsi, dan formulasi matematis antara Regresi Linear dan Regresi Logistik.

  2. Menerapkan metode Least Square Estimator (LSE) secara komputasi untuk menurunkan parameter model Regresi Linear.

  3. Mengevaluasi performa model Regresi Linear menggunakan metrik MAE, SSE, dan R2-Score.

  4. Menganalisis secara kritis keterbatasan LSE dan keunggulan Maximum Likelihood Estimator (MLE) untuk masalah klasifikasi.

  5. Menjelaskan alur konseptual Regresi Logistik, dari Logit (Log-Odds) hingga fungsi Sigmoid dan Log Conditional Likelihood (LCL).

  6. Menerapkan algoritma Stochastic Gradient Ascent (SGA) secara komputasi untuk melatih model Regresi Logistik selama satu epoch.

  7. Mensintesis dan membandingkan hasil prediksi dari model Linear vs Logistik pada dataset klasifikasi biner.

Petunjuk Umum

  • Baca setiap soal dengan sangat teliti.

  • Jawaban yang tidak disertai justifikasi atau langkah perhitungan (jika diminta) tidak akan mendapat poin penuh.

  • Dilarang menggunakan library sklearn atau sejenisnya; semua perhitungan LSE dan SGA harus dilakukan secara manual.

  • Semua soal disajikan terlebih dahulu. Kunci Jawaban dan Rubrik Penilaian terdapat di bagian akhir dokumen.

BAGIAN I: Konsep Fundamental (20 poin)

Fokus: Recall & Comprehension - Menguji pemahaman konsep inti dan perbedaannya.

Soal 1-10. Klasifikasi Konsep (Format Matrix) (10 poin, @1 poin)

Pasangkan deskripsi di kolom “Isi Soal” dengan konsep yang paling tepat. Pilih satu jawaban per baris.

NoIsi SoalA. Regresi Linear (SLR/MLR)B. Regresi LogistikC. LSED. MLEE. R2-ScoreF. LogitG. SigmoidH. SGA
1Tujuan utamanya adalah memprediksi nilai kontinu (misal: harga, suhu).
2Tujuan utamanya adalah memprediksi probabilitas kelas biner (0 atau 1).
3Metode optimasi yang bertujuan meminimalkan .
4Metode optimasi yang bertujuan memaksimalkan Log Conditional Likelihood (LCL).
5Fungsi yang memetakan nilai (dari s/d ) ke rentang [0, 1].
6Metrik evaluasi yang mengukur proporsi varians yang dijelaskan oleh .
7Nama lain dari “Log-Odds” (), yang memiliki hubungan linear dengan .
8Metode optimasi iteratif yang memperbarui bobot berdasarkan gradien satu sampel.
9Model yang mengasumsikan hubungan .
10Batas keputusan (hyperplane) didefinisikan oleh , yang ekuivalen dengan .

Soal 11-20. Analisis Konsep (Format Benar/Salah) (10 poin, @1 poin)

Tentukan apakah pernyataan berikut Benar atau Salah.

NoPernyataanBenarSalah
11Dalam Regresi Linear, .
12Dalam Regresi Linear, .
13Mean Squared Error (MSE) lebih robust terhadap outlier daripada Mean Absolute Error (MAE).
14Menggunakan Regresi Linear untuk klasifikasi biner (0/1) adalah valid karena outputnya pasti antara 0 dan 1.
15Regresi Logistik mengasumsikan hubungan linear antara fitur dan probabilitas .
16Rentang nilai dari “Odds” () adalah dari s/d .
17Rentang nilai dari “Logit” () adalah dari s/d .
18Dalam aturan update SGA, adalah error term yang menggerakkan pembaruan bobot.
19Learning rate () yang sangat besar selalu mempercepat konvergensi dan direkomendasikan.
20Satu “Epoch” dalam pelatihan SGA berarti model telah memproses seluruh data latih satu kali.

BAGIAN II: Aplikasi & Analisis (40 poin)

Fokus: Application & Analysis - Perhitungan LSE dan analisis komparatif metode.

Soal 21-28. Studi Kasus 1: Regresi Linear & LSE (24 poin)

Anda ditugaskan memodelkan Nilai Ujian (Y) berdasarkan Jam Belajar (X).

Data Latih (N=4):

  • (X=1, Y=60)

  • (X=2, Y=70)

  • (X=4, Y=75)

  • (X=5, Y=95)

A. Pelatihan Model (LSE “From Scratch”)

  1. (4 poin) Hitung nilai rata-rata dan dari data latih.

  2. (4 poin) Hitung (Numerator ) dan (Denominator ).

  3. (4 poin) Hitung slope () dan intercept ().

  4. (2 poin) Tuliskan hipotesis (persamaan) final Anda.

B. Evaluasi Model

Gunakan model Anda dari (24) untuk dievaluasi pada Data Uji (N=2) berikut:

  • (X=3, Y_aktual=80)

  • (X=6, Y_aktual=90)

  • Data Tambahan: Rata-rata aktual dari data uji adalah .

  1. (4 poin) Hitung nilai prediksi untuk setiap data uji.

  2. (2 poin) Hitung Mean Absolute Error (MAE) pada data uji.

  3. (2 poin) Hitung Sum of Squared Errors (SSE) pada data uji.

  4. (2 poin) Diberikan , hitung R2-Score model Anda.

Soal 29-31. Uraian Analitis (16 poin)

  1. (5 poin) Jelaskan secara kritis minimal dua alasan utama mengapa menggunakan Regresi Linear (LSE) untuk masalah klasifikasi biner (target 0/1) adalah pendekatan yang buruk dan tidak dianjurkan.

  2. (6 poin) Bandingkan LSE vs MLE. Jelaskan mengapa LSE adalah fungsi biaya yang cocok untuk Regresi Linear, tetapi mengapa MLE (dengan Log Conditional Likelihood) diperlukan untuk Regresi Logistik. (Hint: Bahas asumsi dan bentuk cost function).

  3. (5 poin) Jelaskan formula Log Conditional Likelihood (LCL) untuk klasifikasi biner. Mengapa kita menggunakan Logaritma? Dan mengapa formulanya memiliki dua bagian (satu untuk dan satu untuk )?

BAGIAN III: Sintesis & Evaluasi (40 poin)

Fokus: Synthesis & Evaluation - Perbandingan komputasi LSE vs. SGA (MLE).

Soal 32-42. Studi Kasus 2: Klasifikasi (LSE vs. SGA) (40 poin)

Anda ingin memprediksi Lulus (1=Ya, 0=Tidak) berdasarkan Skor (X).

Data Latih (N=4):

  • Sampel 1: (X=40, Y=0)

  • Sampel 2: (X=50, Y=0)

  • Sampel 3: (X=70, Y=1)

  • Sampel 4: (X=80, Y=1)

Data Uji: (X=60)

A. Pendekatan Naif: Regresi Linear (LSE)

  1. (8 poin) Terapkan metode LSE “From Scratch” (seperti di Soal 21-23) pada 4 data latih di atas untuk menemukan dan . (Tunjukkan perhitungan ).

  2. (2 poin) Tuliskan persamaan linear yang dihasilkan.

  3. (2 poin) Gunakan untuk memprediksi Data Uji (X=60). Berapa nilai ? (Jangan gunakan threshold).

B. Pendekatan Tepat: Regresi Logistik (SGA)

Anda akan melatih model Regresi Logistik menggunakan SGA selama satu epoch.

  • Gunakan .

  • Inisialisasi bobot: .

  • Ingat: menjadi (misal: ).

  • Proses data latih secara berurutan (Sampel 1, 2, 3, 4).

  1. (4 poin) Proses Sampel 1 (X=40, Y=0): Hitung .

  2. (3 poin) Update Bobot (setelah S1): Hitung dan yang baru.

  3. (4 poin) Proses Sampel 2 (X=50, Y=0): (Gunakan dari S36). Hitung .

  4. (3 poin) Update Bobot (setelah S2): Hitung dan yang baru.

  5. (4 poin) Proses Sampel 3 (X=70, Y=1): (Gunakan dari S38). Hitung .

  6. (3 poin) Update Bobot (setelah S3): Hitung dan yang baru.

  7. (4 poin) Proses Sampel 4 (X=80, Y=1): (Gunakan dari S40). Hitung . (Bobot final tidak perlu dihitung).

C. Analisis dan Perbandingan

  1. (3 poin) Bandingkan hasil prediksi Anda untuk X=60: dari Soal 34 (Linear) vs dari Soal 39 (Logistic, setelah memproses ). Manakah yang lebih masuk akal sebagai “probabilitas kelulusan” dan mengapa?