Regresi Linear

Back to IF3170 Inteligensi Artifisial

Regresi Linear (Dasar, LSE, & Evaluasi)

Questions/Cues

Apa itu Regresi?

Apa tujuan dari regresi?

Istilah: Variabel Dependen vs Independen?

Apa itu Regresi Linear Sederhana (SLR)?

Apa itu $β_{0}$ (intercept) dan $β_{1}$ (slope)?

Apa itu Regresi Linear Multivariat (MLR)?

Bagaimana cara mengestimasi parameter ( $b_{0}$ , $b_{1}$ )?

Apa itu LSE (Least Square Estimator)?

Apa tujuan LSE?

Formula $b_{1}$ (slope) “from scratch”?

Formula $b_{0}$ (intercept) “from scratch”?

Bagaimana regresi dilihat sebagai Supervised Learning?

Apa itu hipotesis $h$ ?

Bagaimana cara menguji/evaluasi model regresi?

Apa itu MAE (Mean Absolute Error)?

Apa itu MSE (Residual Sum of Squares)?

Apa itu R2-Score?

Apa itu Fungsi Biaya $J (θ)$ ?

Solusi Analitis vs Iteratif?

Reference Points

IF3170 - 11a - Regression (Slide 1-15)

DTS - Thematic Academy 2021

1. Pengantar Regresi

Regresi adalah sebuah teknik supervised learning. Tujuannya adalah untuk menemukan sebuah formula atau fungsi yang dapat memprediksi nilai output kontinu (misalnya harga) berdasarkan satu atau lebih fitur input.

Contoh: Memprediksi harga rumah (output) berdasarkan jumlah kamar (fitur).

2. Konsep Regresi Linear

Model ini mengasumsikan ada hubungan linear (“lurus”) antara input dan output.

Variabel Dependen (Y): Respons atau output yang ingin kita prediksi (misal: Price, CO2EMISSIONS).

Variabel Independen (x): Regressor atau predictor, yaitu fitur yang kita gunakan untuk memprediksi (misal: Number of rooms, ENGINESIZE).

Regresi Linear Sederhana (SLR):

Hanya menggunakan satu variabel independen (x).

Formula: $Y = β_{0} + β_{1} X$ .

$β_{0}$ (Intercept): Nilai dasar $Y$ ketika $x$ adalah 0. Titik di mana garis memotong sumbu Y.

$β_{1}$ (Slope): Kemiringan. Menunjukkan seberapa besar $Y$ berubah untuk setiap 1 unit perubahan pada $x$ .

Contoh: Emisi CO2 = 124.41 + 39.43 * (Ukuran Mesin).

Regresi Linear Multivariat (MLR):

Menggunakan lebih dari satu variabel independen ( $x_{1}, x_{2}, ..., x_{n}$ ).

Formula: $h_{θ} (x) = θ_{0} + θ_{1} x_{1} + ... + θ_{n} x_{n} = θ^{T} x$ .

Contoh: Emisi CO2 = 64.98 + 11.37*(EngineSize) + 7.26*(Cylinders) + 9.58*(FuelConsumption).

3. Estimasi Parameter: Least Square Estimator (LSE)

Tujuan: Menemukan nilai terbaik untuk parameter ( $b_{0}$ dan $b_{1}$ ) yang paling “pas” dengan data training. Garis terbaik adalah yang memiliki error terkecil.

Metode: Least Square Estimator (LSE) adalah metode yang bertujuan untuk meminimalkan Sum of Squares of the Residuals/Errors (SSE).

Error/Residual ( $e_{i}$ ): Selisih (jarak vertikal) antara nilai $y$ asli dan nilai $\overset{y}{^}$ yang diprediksi model ( $y_{i} - \overset{y}{^}_{i}$ ).

Formula SSE: $SSE = \sum_{i = 1}^{n} e_{i}^{2} = \sum_{i = 1}^{n} (y_{i} - \overset{y}{^}_{i})^{2} = \sum_{i = 1}^{n} (y_{i} - b_{0} - b_{1} x_{i})^{2}$ .

4. Regresi sebagai Supervised Learning

Prosesnya adalah supervised learning:

Training: Kita memberikan data ber-label (<data, label>, misal: <EngineSize, CO2Emission>) ke algoritma LSE.

Learning: Algoritma LSE “belajar” dan menghasilkan sebuah Hipotesis $h$ (model/fungsi). (Contoh: $h (x) = 124.41 + 39.43 x$ ).

Prediction: Hipotesis $h$ ini kemudian digunakan untuk memprediksi label $y$ pada data baru yang tak terlihat.

5. Evaluasi Model (Testing)

Setelah training, kita perlu mengukur seberapa baik model kita bekerja pada data testing.

Mean Absolute Error (MAE): Rata-rata dari nilai absolut error. Mudah diinterpretasi (misal: “rata-rata, prediksi kami meleset 22.50 unit”).

$M A E = \frac{1}{n} \sum ∣ y_{i} - \overset{y}{^}_{i} ∣$ .

Residual Sum of Squares (MSE): Rata-rata dari kuadrat error. Memberi “hukuman” lebih besar pada error yang besar.

$MSE = \frac{1}{n} \sum (y_{i} - \overset{y}{^}_{i})^{2}$ .

R2-Score (Coefficient of Determination): Mengukur seberapa banyak variasi $Y$ yang bisa dijelaskan oleh $X$ menggunakan model. Nilainya antara 0-1 (semakin dekat ke 1, semakin baik).

$R 2 = 1 - \frac{\sum ( y _{i} - y ^ _{i} ) ^{2}}{\sum ( y _{i} - y ˉ ) ^{2}}$ . (Membandingkan error model kita dengan error model “bodoh” yang hanya memprediksi nilai rata-rata $\overset{y}{ˉ}$ ).

Pada contoh CO2, model MLR (R2=0.87) lebih baik daripada model SLR (R2=0.73).

6. Ringkasan LSE

Hipotesis $h$ : Fungsi linear $h_{θ} (x) = θ^{T} \cdot x$ .

Fungsi Biaya $J (θ)$ : Fungsi yang kita minimalkan. Untuk LSE, ini adalah SSE ( $J (θ) = SSE$ ).

Goal: Cari parameter $θ^{*}$ yang meminimalkan $J (θ)$ ( $θ^{*} = argmin J (θ)$ ).

Solusi:

Analitis: Menemukan $θ$ dengan turunan $\nabla J (θ) = 0$ (seperti pada LSE).

Iteratif: Jika solusi analitis tidak bisa ditemukan, gunakan metode numerik seperti gradient descent.

Summary

Regresi Linear adalah teknik supervised learning untuk memprediksi nilai output kontinu (variabel dependen) dengan menemukan hubungan linear terhadap satu (SLR) atau beberapa (MLR) fitur input (variabel independen). Metode paling umum untuk menemukan parameter (bobot/koefisien $β$ ) adalah Least Square Estimator (LSE), yang bekerja dengan cara meminimalkan total kuadrat error (SSE) antara prediksi dan nilai sebenarnya. Parameter $b_{0}$ (intercept) dan $b_{1}$ (slope) dapat ditemukan secara analitis melalui turunan parsial, yang disederhanakan menjadi formula berbasis mean, variance, dan covariance. Kualitas model dievaluasi menggunakan data testing dengan metrik seperti MAE (Mean Absolute Error), MSE (Mean Squared Error), dan R2-Score.

Additional Information (Technical Deep Dive)

Penurunan Rumus LSE (Finding $b_{0}$ and $b_{1}$ )

Kita ingin meminimalkan $SSE = \sum_{i = 1}^{n} (y_{i} - b_{0} - b_{1} x_{i})^{2}$ . Ini dilakukan dengan mengambil turunan parsial terhadap $b_{0}$ dan $b_{1}$ , lalu menyamakannya dengan 0 (mencari titik minimum).

Turunan terhadap $b_{0}$ :

$\frac{\partial ( SSE )}{\partial b _{0}} = - 2 \sum_{i = 1}^{n} (y_{i} - b_{0} - b_{1} x_{i}) = 0$

$\sum y_{i} - n b_{0} - b_{1} \sum x_{i} = 0$

$n b_{0} = \sum y_{i} - b_{1} \sum x_{i}$

$b_{0} = \frac{\sum y _{i}}{n} - b_{1} \frac{\sum x _{i}}{n}$

$b_{0} = \overline{y} - b_{1} \overline{x}$ (mean Y - b1 * mean X)

Turunan terhadap $b_{1}$ :

$\frac{\partial ( SSE )}{\partial b _{1}} = - 2 \sum_{i = 1}^{n} (y_{i} - b_{0} - b_{1} x_{i}) x_{i} = 0$

(Setelah substitusi $b_{0}$ dan penyederhanaan aljabar yang panjang)

$b_{1} = \frac{n \sum x _{i} y _{i} - ( \sum x _{i} ) ( \sum y _{i} )}{n \sum x _{i}^{2} - ( \sum x _{i} ) ^{2}} = \frac{\sum _{i = 1}^{n} ( x _{i} - x ) ( y _{i} - y )}{\sum _{i = 1}^{n} ( x _{i} - x ) ^{2}}$

Implementasi “From Scratch” (Formula Statistik)

Rumus $b_{1}$ secara esensial adalah $\frac{Covariance ( X , Y )}{Variance ( X )}$ .

Variance ( $σ^{2}$ ): Ukuran sebaran data dari meannya.

$σ^{2} = E [(X - μ)^{2}]$ .

Covariance ( $σ_{X Y}$ ): Ukuran bagaimana dua variabel berubah bersama-sama.

$σ_{X Y} = E [(X - μ_{X}) (Y - μ_{Y})]$ .

Ini memungkinkan kita menghitung $b_{1}$ dan $b_{0}$ secara langsung:

b1 = train.CO2EMISSIONS.cov(train.ENGINESIZE) / train.ENGINESIZE.var()

b0 = train.CO2EMISSIONS.mean() - b1 * train.ENGINESIZE.mean()

Hasil dari sklearn dan “from scratch” identik, membuktikan bahwa sklearn menggunakan LSE.

IF Notes

Explorer

Regresi Linear

Questions/Cues

Reference Points

1. Pengantar Regresi

2. Konsep Regresi Linear

3. Estimasi Parameter: Least Square Estimator (LSE)

4. Regresi sebagai Supervised Learning

5. Evaluasi Model (Testing)

6. Ringkasan LSE

Penurunan Rumus LSE (Finding $b_{0}$ and $b_{1}$ )

Implementasi “From Scratch” (Formula Statistik)

Graph View

Table of Contents

Backlinks

IF Notes

Explorer

Regresi Linear

Questions/Cues

Reference Points

1. Pengantar Regresi

2. Konsep Regresi Linear

3. Estimasi Parameter: Least Square Estimator (LSE)

4. Regresi sebagai Supervised Learning

5. Evaluasi Model (Testing)

6. Ringkasan LSE

Penurunan Rumus LSE (Finding b0​ and b1​)

Implementasi “From Scratch” (Formula Statistik)

Graph View

Table of Contents

Backlinks

Penurunan Rumus LSE (Finding $b_{0}$ and $b_{1}$ )