Back to IF3170 Inteligensi Artifisial
Regresi Linear (Dasar, LSE, & Evaluasi)
Questions/Cues
Apa itu Regresi?
Apa tujuan dari regresi?
Istilah: Variabel Dependen vs Independen?
Apa itu Regresi Linear Sederhana (SLR)?
Apa itu (intercept) dan (slope)?
Apa itu Regresi Linear Multivariat (MLR)?
Bagaimana cara mengestimasi parameter (, )?
Apa itu LSE (Least Square Estimator)?
Apa tujuan LSE?
Formula (slope) “from scratch”?
Formula (intercept) “from scratch”?
Bagaimana regresi dilihat sebagai Supervised Learning?
Apa itu hipotesis ?
Bagaimana cara menguji/evaluasi model regresi?
Apa itu MAE (Mean Absolute Error)?
Apa itu MSE (Residual Sum of Squares)?
Apa itu R2-Score?
Apa itu Fungsi Biaya ?
Solusi Analitis vs Iteratif?
Reference Points
IF3170 - 11a - Regression (Slide 1-15)
DTS - Thematic Academy 2021
1. Pengantar Regresi
Regresi adalah sebuah teknik supervised learning. Tujuannya adalah untuk menemukan sebuah formula atau fungsi yang dapat memprediksi nilai output kontinu (misalnya harga) berdasarkan satu atau lebih fitur input.
Contoh: Memprediksi harga rumah (output) berdasarkan jumlah kamar (fitur).
2. Konsep Regresi Linear
Model ini mengasumsikan ada hubungan linear (“lurus”) antara input dan output.
Variabel Dependen (Y): Respons atau output yang ingin kita prediksi (misal:
Price,CO2EMISSIONS).Variabel Independen (x): Regressor atau predictor, yaitu fitur yang kita gunakan untuk memprediksi (misal:
Number of rooms,ENGINESIZE).Regresi Linear Sederhana (SLR):
Hanya menggunakan satu variabel independen (x).
Formula: .
(Intercept): Nilai dasar ketika adalah 0. Titik di mana garis memotong sumbu Y.
(Slope): Kemiringan. Menunjukkan seberapa besar berubah untuk setiap 1 unit perubahan pada .
Contoh:
Emisi CO2 = 124.41 + 39.43 * (Ukuran Mesin).Regresi Linear Multivariat (MLR):
Menggunakan lebih dari satu variabel independen ().
Formula: .
Contoh:
Emisi CO2 = 64.98 + 11.37*(EngineSize) + 7.26*(Cylinders) + 9.58*(FuelConsumption).3. Estimasi Parameter: Least Square Estimator (LSE)
Tujuan: Menemukan nilai terbaik untuk parameter ( dan ) yang paling “pas” dengan data training. Garis terbaik adalah yang memiliki error terkecil.
Metode: Least Square Estimator (LSE) adalah metode yang bertujuan untuk meminimalkan Sum of Squares of the Residuals/Errors (SSE).
Error/Residual (): Selisih (jarak vertikal) antara nilai asli dan nilai yang diprediksi model ().
Formula SSE: .
4. Regresi sebagai Supervised Learning
Prosesnya adalah supervised learning:
Training: Kita memberikan data ber-label (
<data, label>, misal:<EngineSize, CO2Emission>) ke algoritma LSE.Learning: Algoritma LSE “belajar” dan menghasilkan sebuah Hipotesis (model/fungsi). (Contoh: ).
Prediction: Hipotesis ini kemudian digunakan untuk memprediksi label pada data baru yang tak terlihat.
5. Evaluasi Model (Testing)
Setelah training, kita perlu mengukur seberapa baik model kita bekerja pada data testing.
Mean Absolute Error (MAE): Rata-rata dari nilai absolut error. Mudah diinterpretasi (misal: “rata-rata, prediksi kami meleset 22.50 unit”).
- .
Residual Sum of Squares (MSE): Rata-rata dari kuadrat error. Memberi “hukuman” lebih besar pada error yang besar.
- .
R2-Score (Coefficient of Determination): Mengukur seberapa banyak variasi yang bisa dijelaskan oleh menggunakan model. Nilainya antara 0-1 (semakin dekat ke 1, semakin baik).
. (Membandingkan error model kita dengan error model “bodoh” yang hanya memprediksi nilai rata-rata ).
Pada contoh CO2, model MLR (R2=0.87) lebih baik daripada model SLR (R2=0.73).
6. Ringkasan LSE
Hipotesis : Fungsi linear .
Fungsi Biaya : Fungsi yang kita minimalkan. Untuk LSE, ini adalah SSE ().
Goal: Cari parameter yang meminimalkan ().
Solusi:
Analitis: Menemukan dengan turunan (seperti pada LSE).
Iteratif: Jika solusi analitis tidak bisa ditemukan, gunakan metode numerik seperti gradient descent.
Regresi Linear adalah teknik supervised learning untuk memprediksi nilai output kontinu (variabel dependen) dengan menemukan hubungan linear terhadap satu (SLR) atau beberapa (MLR) fitur input (variabel independen). Metode paling umum untuk menemukan parameter (bobot/koefisien ) adalah Least Square Estimator (LSE), yang bekerja dengan cara meminimalkan total kuadrat error (SSE) antara prediksi dan nilai sebenarnya. Parameter (intercept) dan (slope) dapat ditemukan secara analitis melalui turunan parsial, yang disederhanakan menjadi formula berbasis mean, variance, dan covariance. Kualitas model dievaluasi menggunakan data testing dengan metrik seperti MAE (Mean Absolute Error), MSE (Mean Squared Error), dan R2-Score.
Additional Information (Technical Deep Dive)
Penurunan Rumus LSE (Finding and )
Kita ingin meminimalkan . Ini dilakukan dengan mengambil turunan parsial terhadap dan , lalu menyamakannya dengan 0 (mencari titik minimum).
Turunan terhadap :
(mean Y - b1 * mean X)
Turunan terhadap :
(Setelah substitusi dan penyederhanaan aljabar yang panjang)
Implementasi “From Scratch” (Formula Statistik)
Rumus secara esensial adalah .
Variance (): Ukuran sebaran data dari meannya.
- .
Covariance (): Ukuran bagaimana dua variabel berubah bersama-sama.
.
Ini memungkinkan kita menghitung dan secara langsung:
b1 = train.CO2EMISSIONS.cov(train.ENGINESIZE) / train.ENGINESIZE.var()
b0 = train.CO2EMISSIONS.mean() - b1 * train.ENGINESIZE.mean()Hasil dari
sklearndan “from scratch” identik, membuktikan bahwasklearnmenggunakan LSE.