Back to IF3170 Inteligensi Artifisial

Topic

Questions/Cues

  • Apa tujuan dari fase Persiapan Data?

  • Apa saja 4 proses utama dalam persiapan data?

  • Bagaimana prioritas penanganan missing values?

  • Apa itu Record Selection (Sampling)?

  • Apa itu Feature Selection?

  • Mengapa Feature Selection penting?

  • Apa itu metode Filter dalam feature selection?

Reference Points

  • IF3170-Data-Understanding-and-Preparation.pdf (Slide 58-72, 75-88)

Gambaran Umum Fase Persiapan Data

Ini adalah fase yang seringkali memakan waktu paling banyak dalam proyek data science (sering disebut 50-80% dari total waktu). Tujuannya adalah mengubah data mentah hasil dari fase sebelumnya menjadi data final yang bersih dan terformat baik, yang siap untuk dimasukkan ke dalam algoritma pemodelan. “Garbage in, garbage out” adalah prinsip utamanya.

Proses utamanya meliputi:

  1. Pemilihan Data (Select Data): Memilih baris dan kolom yang relevan.

  2. Pembersihan Data (Clean Data): Menangani masalah kualitas.

  3. Konstruksi Data (Construct Data): Membuat fitur baru atau transformasi.

  4. Integrasi Data (Integrate Data): Menggabungkan beberapa sumber data.

Pembersihan Data (Data Cleaning)

Ini adalah proses memperbaiki atau menghapus data yang salah, korup, tidak diformat dengan benar, duplikat, atau tidak lengkap.

Penanganan Missing Values (Nilai Hilang)

Ada urutan prioritas dalam menanganinya:

  1. Isi dengan Nilai Sebenarnya: Jika memungkinkan, lakukan validasi manual atau programatik untuk menemukan nilai aslinya. Contoh: jika usia kosong, hitung dari tanggal lahir.

  2. Imputasi (Isi dengan Nilai Paling Mungkin): Jika nilai asli tidak bisa ditemukan, isi dengan nilai statistik.

    • Data Numerik: Gunakan mean (jika tidak ada outlier) atau median (jika ada outlier).

    • Data Kategorikal: Gunakan modus.

    • Imputasi bisa dilakukan berdasarkan keseluruhan data atau kelompok data yang lebih spesifik (misal: isi gaji kosong berdasarkan gaji rata-rata untuk level pekerjaan yang sama).

  3. Hapus: Jika tidak bisa diperbaiki dan jumlah data masih sangat banyak, baris (atau kolom) yang memiliki nilai hilang dapat dihapus. Ini adalah pilihan terakhir.

Penanganan Outlier & Error:

  • Sama seperti missing values, prioritasnya adalah memperbaiki jika itu adalah kesalahan entri.

  • Jika outlier itu valid, keputusannya bisa jadi mempertahankannya, mentransformasinya (misal: log-transform), atau menghapusnya jika sangat ekstrem dan mengganggu model.

Pemilihan Data (Data Selection)

  1. Record Selection (Pemilihan Baris / Sampling):

    • Proses memilih subset representatif dari populasi data yang besar. Ini dilakukan jika data terlalu besar untuk diproses.

    • Metode: Probability Sampling (setiap sampel punya peluang sama untuk dipilih, misal: acak sederhana) dan Non-Probability Sampling (berdasarkan penilaian subjektif).

  2. Feature Selection (Pemilihan Kolom / Atribut):

    • Proses mengurangi jumlah variabel input untuk model.

    • Tujuan:

      • Mengurangi biaya komputasi dan kompleksitas model.

      • Mencegah overfitting dan terkadang meningkatkan performa model dengan menghapus fitur yang tidak relevan atau redundan.

    • Teknik Filter: Menggunakan ukuran statistik untuk memberi skor pada setiap fitur dan memilih fitur dengan skor tertinggi. Penilaian dilakukan secara independen dari model machine learning.

      • Numerik vs. Numerik: Korelasi Pearson (linear), Spearman (non-linear).

      • Numerik vs. Kategorikal: ANOVA.

      • Kategorikal vs. Kategorikal: Chi-Squared Test, Mutual Information.

Summary

Fase Persiapan Data adalah proses krusial untuk mengubah data mentah menjadi dataset yang siap dimodelkan, dimulai dengan Data Cleaning untuk menangani masalah seperti missing values (dengan prioritas: perbaiki, imputasi, atau hapus) dan outlier. Selanjutnya, Data Selection dilakukan untuk memilih subset data yang paling relevan, baik melalui record sampling untuk mengurangi jumlah baris maupun melalui feature selection dengan metode Filter untuk memilih kolom/fitur yang paling informatif berdasarkan korelasi statistik dengan target.