Back to Latihan UAS IF3170
Problem Set: Geometry & Optimization Models (Paket C - Revisi)
Mata Kuliah: Inteligensi Artifisial
Topik: Geometry & Optimization Models (Logistic Regression, Multi-class Non-Linear SVM)
Sifat: Latihan Mandiri
BAGIAN I: Logistic Regression (Stochastic Gradient Ascent)
Soal 1: Prediksi Risiko Penyakit Jantung
Diberikan dataset latih untuk memprediksi risiko penyakit jantung (: Risiko Tinggi, : Risiko Rendah) berdasarkan dua fitur: Tekanan Darah () dan Kolesterol ().
| No | Tekanan Darah (x1) | Kolesterol (x2) | Risiko (Y) |
| 1 | 2 | 1 | 0 |
| 2 | 4 | 5 | 1 |
| 3 | 3 | 2 | 0 |
| 4 | 5 | 6 | 1 |
Model Hipotesis (Pembanding):
Seorang ahli jantung memberikan model aturan praktis (rule-based) sederhana sebagai pembanding:
Tugas Pelatihan:
Lakukan pelatihan model Logistic Regression Anda sendiri menggunakan Stochastic Gradient Ascent (SGA) dengan ketentuan:
-
Inisialisasi Bobot: .
-
Bias: selalu disertakan.
-
Learning Rate (): 0.1
-
Fungsi Aktivasi: Sigmoid
-
Jumlah Epoch: 2 Epoch (Urutan data: 1 2 3 4, diulang 2 kali).
Instruksi:
a. Pelatihan Model: Lengkapi tabel perhitungan manual SGA di bawah ini (tuliskan hingga 3 angka desimal).
b. Prediksi Data Baru: Diberikan pasien baru dengan data .
-
Hitung prediksi kelas menggunakan Model LogReg Hasil Latihan Anda.
-
Hitung prediksi kelas menggunakan Model Hipotesis Ahli.
c. Komparasi Evaluasi: Hitung metrik Akurasi, Presisi, Recall, dan F1-Score untuk kedua model (LogReg vs Ahli) berdasarkan kinerja mereka terhadap Data Latih. Simpulkan model mana yang lebih baik pada data latih ini.
Tabel Kerja (Epoch 1 & 2):
| Epoch | Data | Input [1,x1,x2] | Target y | Logit z=wTx | Prediksi p=σ(z) | Error (y−p) | Update Δw | Bobot Baru wnew |
| 1 | 1 | 0 | 0.622 | -0.622 | ||||
| 1 | 2 | … | … | … | … | … | … | … |
| … | … | … | … | … | … | … | … | … |
(Lanjutkan hingga data ke-4 pada Epoch 2)
BAGIAN II: Multi-class SVM Non-Linear (DAGSVM)
Soal 2: Klasifikasi Zona dengan DAGSVM (RBF Kernel)
Diketahui sistem klasifikasi 3 kelas (Zona A, Zona B, Zona C) menggunakan strategi DAGSVM (Directed Acyclic Graph SVM). Sistem ini menggunakan struktur graf eliminasi untuk mempercepat prediksi dibandingkan One-vs-Rest atau One-vs-One standar.
Struktur DAGSVM:
-
Root Node: Menguji Zona A vs Zona C.
-
Jika Menang A Ke Node Kiri (Uji A vs B).
-
Jika Menang C Ke Node Kanan (Uji B vs C).
-
-
Node Lapis 2:
-
Node Kiri (A vs B): Pemenang adalah kelas final.
-
Node Kanan (B vs C): Pemenang adalah kelas final.
-
Parameter Model (Kernel RBF):
Digunakan RBF Kernel dengan : .
Setiap classifier biner (node) memiliki Support Vector () dan bobot berikut:
-
Model 1 (Root: A vs C):
-
,
-
,
-
Bias
-
Aturan: Jika Pilih A (ke Kiri), Jika Pilih C (ke Kanan).
-
-
Model 2 (Node Kiri: A vs B):
-
,
-
,
-
Bias
-
Aturan: Jika Kelas A, Jika Kelas B.
-
-
Model 3 (Node Kanan: B vs C):
-
,
-
,
-
Bias
-
Aturan: Jika Kelas B, Jika Kelas C.
-
Tugas Hitungan:
Diberikan titik uji baru . Lakukan penelusuran graf DAGSVM untuk menentukan kelasnya.
Instruksi:
-
Langkah 1 (Root Node - A vs C):
-
Hitung Jarak Kuadrat ke dan .
-
Hitung Nilai Kernel dan .
-
Hitung Skor Keputusan . Tentukan arah penelusuran (Kiri atau Kanan?).
-
-
Langkah 2 (Node Berikutnya):
-
Berdasarkan arah dari Langkah 1, pilih model yang relevan (Model 2 atau Model 3).
-
Hitung Jarak Kuadrat ke SV yang relevan untuk model tersebut.
-
Hitung Nilai Kernel.
-
Hitung Skor Keputusan .
-
-
Kesimpulan Akhir:
-
Berdasarkan hasil Langkah 2, apa prediksi kelas akhir untuk ?
-
Gambarkan jalur penelusuran keputusan yang diambil.
-
BAGIAN III: Konsep & Visualisasi
Soal 3: Transformasi Fitur Non-Linear
Bayangkan data 1D di mana Kelas P berada di rentang dan Kelas Q berada di atau .
Tugas:
a. Gambarkan arsitektur pemrosesan data (pipeline) mulai dari input , transformasi , hingga klasifikasi linear.
b. Usulkan fungsi transformasi (misalnya menggunakan polinomial) yang membuat data ini terpisah linear. Tuliskan persamaannya.
c. Gambarkan sketsa posisi data setelah ditransformasi dan di mana letak garis pemisahnya.
BAGIAN IV: Teori & Metrik Evaluasi
Soal 4: Analisis Metrik & Hyperparameter
Isilah tabel berikut mengenai dampak parameter atau kondisi data.
| Kondisi / Parameter | Pada Model… | Dampak / Peran Utama | Alasan / Mekanisme |
| Menggunakan L1 Regularization (Lasso) | Linear/Logistic Regression | Bobot fitur yang tidak penting menjadi (Mengecil / Nol) | L1 menambahkan penalti nilai absolut $ |
| Data Test memiliki distribusi kelas yang Sangat Tidak Seimbang (Imbalanced) | Evaluasi Model Klasifikasi | Metrik (Akurasi / F1-Score) menjadi tidak dapat dipercaya | Akurasi bisa terlihat tinggi hanya dengan memprediksi kelas mayoritas, sementara F1… |
| Nilai Gamma () pada RBF Kernel terlalu Kecil | SVM Non-Linear | Model cenderung mengalami (Overfitting / Underfitting) | Gamma kecil berarti jangkauan pengaruh satu data latih sangat luas/jauh, membuat batas keputusan menjadi terlalu… |
| Menambah jumlah Epoch terlalu banyak tanpa henti | Logistic Regression (SGA) | Model pada data latih semakin bagus, tapi pada data uji risiko (Overfitting / Underfitting) naik | Model mulai “menghafal” noise yang ada pada data latih alih-alih pola umum. |
BAGIAN V: Matriks Karakteristik Model
Soal 5: Komparasi Model
Berikan tanda centang () jika model memiliki karakteristik tersebut, dan tuliskan Argumentasi Singkat di bawahnya.
| Karakteristik | Naive Bayes | Neural Network (MLP) | Support Vector Machine (SVM) |
| Asumsi Independensi Fitur | … | … | … |
| Argumentasi: | |||
| Black Box Model (Sulit Diinterpretasi) | … | … | … |
| Argumentasi: | |||
| Global Optimum Guaranteed (Convex Optimization) | … | … | … |
| Argumentasi: | |||
| Probabilistik Generatif | … | … | … |
| Argumentasi: |
# KUNCI JAWABAN
Jawaban Soal 1 (Logistic Regression - SGA)
a. Tabel Perhitungan (Ringkasan)
Inisialisasi: ,
Epoch 1:
Data 1 (2,1 | 0): . . . . .
Data 2 (4,5 | 1): . . . . .
Data 3 (3,2 | 0): . . . . .
Data 4 (5,6 | 1): . . . . .
Epoch 2 (Lanjutan):
(Proses berlanjut update dari bobot terakhir). Misalkan setelah Epoch 2 bobot akhir (aproksimasi) adalah: . (Angka ilustratif untuk kunci).
b. Prediksi Data Baru (3, 4)
Model LogReg: . . Prediksi: 1 (Risiko Tinggi).
Model Ahli: . Karena , Prediksi: 1 (Risiko Tinggi).
c. Komparasi Evaluasi (Data Latih)
Analisis: Data Latih: (0, 1, 0, 1).
LogReg (Bobot Akhir ):
D1(2,1): (Salah)
D2(4,5): (Benar)
D3(3,2): (Salah)
D4(5,6): (Benar)
Hasil: TP=2, TN=0, FP=2, FN=0.
Akurasi: 50%, Presisi: 50%, Recall: 100%, F1: 0.67.
Model Ahli:
D1(2,1): (Benar)
D2(4,5): (Benar)
D3(3,2): (Benar)
D4(5,6): (Benar)
Hasil: TP=2, TN=2, FP=0, FN=0.
Akurasi: 100%, Presisi: 100%, Recall: 100%, F1: 1.0.
Kesimpulan: Model Ahli lebih baik pada data latih ini (LogReg masih underfitting butuh lebih banyak epoch).
Jawaban Soal 2 (DAGSVM)
1. Langkah 1: Root Node (A vs C)
Jarak ke . .
Jarak ke . .
Skor .
Keputusan: Karena , pemenangnya adalah C (tapi dalam struktur DAGSVM, jika kalah A, maka A yang dieliminasi). Maka kita lanjut ke Node Kanan (B vs C). Note: Aturan di soal “Jika < 0 → Pilih C (ke Kanan)“.
2. Langkah 2: Node Kanan (B vs C)
Jarak ke . .
Jarak ke . .
Skor .
Keputusan: Karena , maka Kelas B menang.
3. Kesimpulan:
Prediksi Akhir: Zona B.
Jalur: Root (A vs C) Kanan (Eliminasi A) Node (B vs C) Menang B.
Jawaban Soal 3 (Transformasi Fitur)
a. Arsitektur:
Input x Transformasi Polinomial Fitur Baru z Linear Classifier (Thresholding di z).
b. Fungsi Transformasi:
Gunakan fungsi kuadrat yang digeser pusatnya ke tengah antara P dan Q.
Pusat P , Q di luar.
.
Jika , maka , jadi .
Jika atau , maka , jadi .
c. Gambar:
Sumbu (nilai kuadrat). Data P berkumpul di kiri (0-1), Data Q berkumpul di kanan (>4).
Garis pemisah di .
Persamaan linear: .
Jawaban Soal 4 (Teori)
Nol; solusi sparse (berguna untuk seleksi fitur otomatis).
Akurasi; bias ke kelas mayoritas, F1 lebih robust karena rata-rata harmonik P&R.
Underfitting; batas keputusan terlalu sederhana/rata (mendekati linear) karena pengaruh data terlalu luas.
Overfitting; model menyesuaikan diri dengan noise data latih.
Jawaban Soal 5 (Matriks Model)
Karakteristik Naive Bayes Neural Network SVM Argumentasi Asumsi Independensi - - Sifat utama NB (“Naive”). NN/SVM menangkap korelasi antar fitur. Black Box - - NN sulit dilacak alurnya (bobot jutaan). SVM (geometris) dan NB (probabilitas) lebih transparan. Global Optimum - - SVM adalah masalah Convex Optimization (pasti ketemu global optimum). NN non-convex (banyak local minima). Probabilistik Generatif - - NB memodelkan