Back to IF3170 Inteligensi Artifisial

Topic

Questions/Cues

  • Apa itu Eksplorasi Data (EDA)?

  • Apa saja contoh grafik univariat?

  • Apa saja contoh grafik bi/multivariat?

  • Apa tujuan verifikasi kualitas data?

  • Apa saja masalah kualitas data yang umum?

  • Apa itu outlier?

  • Bagaimana cara mendeteksi outlier?

  • Apa itu data tidak berimbang?

Reference Points

  • IF3170-Data-Understanding-and-Preparation.pdf (Slide 40-57)

Mengeksplorasi Data (Exploratory Data Analysis - EDA)

Eksplorasi Data adalah proses menggunakan visualisasi dan ringkasan statistik untuk menemukan pola, anomali, menguji hipotesis, dan memeriksa asumsi. Tujuannya adalah untuk mendapatkan “feel” terhadap data sebelum melakukan pemodelan formal.

Grafik Univariat (Analisis Satu Variabel):

  • Pie Chart & Bar Chart: Berguna untuk menampilkan distribusi frekuensi data nominal atau ordinal. Bar chart umumnya lebih disukai karena lebih mudah membandingkan panjang bar daripada luas area pie.

  • Histogram: Mirip bar chart, tetapi untuk data interval atau rasio. Menampilkan distribusi frekuensi data numerik dengan mengelompokkannya ke dalam interval (bins).

Grafik Bi/Multivariat (Analisis Hubungan Antar Variabel):

  • Box Plot (Whisker Plot): Menampilkan ringkasan lima angka (minimum, Q1, median, Q3, maksimum) dari data numerik. Sangat efektif untuk membandingkan distribusi antar kategori dan mengidentifikasi outlier.

  • Scatter Plot: Menampilkan hubungan antara dua variabel numerik. Berguna untuk melihat pola korelasi (positif, negatif, tidak ada), klaster, dan outlier.

  • Heatmap: Menggunakan warna untuk merepresentasikan nilai dalam matriks. Sangat berguna untuk memvisualisasikan matriks korelasi antar banyak variabel.

Memverifikasi Kualitas Data

Tujuan dari langkah ini adalah untuk memeriksa apakah data “cukup baik” untuk pemodelan. Ini melibatkan identifikasi berbagai masalah yang dapat merusak kinerja model.

Masalah Kualitas Data yang Umum:

  1. Missing Values: Adanya data yang hilang atau kosong.

  2. Inconsistent Data: Data yang mengandung kontradiksi. Contoh: Usia: 18, Tanggal Lahir: 30 Juni 2020 atau nilai rating yang menggunakan skala berbeda (‘A’, ‘B’, ‘1’, ‘3.5’).

  3. Noisy Data & Errors: Kesalahan entri (salah ketik), pelanggaran constraint (misal: usia negatif), atau format yang salah.

  4. Duplicate Data: Adanya baris data yang sama persis.

  5. Outliers (Pencilan): Nilai data yang sangat berbeda dari sebagian besar data lainnya. Outlier bisa jadi merupakan error, tetapi bisa juga merupakan data yang valid dan menarik.

  6. Imbalanced Data (Data Tidak Berimbang): Distribusi kelas pada label sangat tidak merata. Contoh: dalam deteksi fraud, 99.9% transaksi adalah ‘tidak fraud’ dan hanya 0.1% yang ‘fraud’. Ini bisa membuat model cenderung memprediksi kelas mayoritas saja.

Deteksi Outlier

Ada dua metode umum untuk mendeteksi outlier secara statistik:

  1. Menggunakan Interquartile Range (IQR):

    • Hitung IQR = Q3 - Q1.

    • Sebuah nilai dianggap outlier jika:

      • Nilai < Q1 - 1.5 * IQR (Low Outlier)

      • Nilai > Q3 + 1.5 * IQR (High Outlier)

    • Metode ini divisualisasikan dengan baik oleh Box Plot.

  2. Menggunakan Standard Deviation (STD):

    • Untuk data yang terdistribusi normal, sebuah nilai dianggap outlier jika berada di luar 3 standar deviasi dari mean.

    • x < (mean - 3 * STD) atau x > (mean + 3 * STD)

Summary

Setelah data dideskripsikan, eksplorasi data (EDA) dilakukan menggunakan visualisasi seperti histogram dan scatter plot untuk menemukan pola dan hubungan awal. Secara paralel, kualitas data diverifikasi dengan memeriksa masalah umum seperti nilai yang hilang, inkonsistensi, duplikasi, dan terutama outlier (yang dapat dideteksi menggunakan aturan IQR atau standar deviasi) serta data yang tidak berimbang, yang semuanya dapat berdampak negatif pada pemodelan.