Back to IF3170 Inteligensi Artifisial

Topic

Questions/Cues

  • Apa 4 tugas di fase Data Understanding?

  • Apa itu data terstruktur vs. tidak terstruktur?

  • Apa saja sumber & metode pengumpulan data?

  • Apa pentingnya pelabelan data?

  • Apa itu data berlabel?

  • Apa saja 4 tipe data/skala pengukuran?

  • Apa itu statistik deskriptif?

Reference Points

  • IF3170-Data-Understanding-and-Preparation.pdf (Slide 3-39)

Gambaran Umum Fase Pemahaman Data

Fase Data Understanding dimulai setelah tujuan bisnis ditetapkan. Tujuannya adalah untuk mengakuisisi data, membiasakan diri dengannya, mengidentifikasi masalah kualitas, dan menemukan wawasan awal. Fase ini sangat iteratif.

Empat tugas utamanya adalah:

  1. Mengumpulkan Data Awal (Collect Initial Data)

  2. Mendeskripsikan Data (Describe Data)

  3. Mengeksplorasi Data (Explore Data)

  4. Memverifikasi Kualitas Data (Verify Data Quality)

Mengumpulkan Data Awal

Proses ini melibatkan identifikasi kebutuhan data dan cara memperolehnya. Kebutuhan data sangat bergantung pada task pemodelan yang ditentukan di fase sebelumnya.

  • Klasifikasi: Butuh data berlabel dengan kelas diskrit (misal: ‘lancar’, ‘macet’).

  • Regresi: Butuh data berlabel dengan nilai kontinu (misal: harga rumah).

  • Clustering: Tidak butuh data berlabel.

Sumber Data bisa berasal dari:

  • Dataset publik (misal: Kaggle, UCI Machine Learning Repository).

  • Data observasi internal (misal: log aktivitas, rekap transaksi).

  • Pelabelan manual oleh manusia (annotator).

Pelabelan Data (Data Labeling)

Label (atau target) adalah atribut yang ingin kita prediksi. Data berlabel adalah data yang sudah memiliki nilai target ini. Proses pelabelan bisa dilakukan secara manual oleh pakar (hasilnya strong label) atau otomatis oleh mesin/program (hasilnya weak label), yang masing-masing memiliki implikasi pada biaya, waktu, dan akurasi.

Mendeskripsikan Data

Ini adalah proses untuk memahami properti dasar dari data yang telah dikumpulkan.

  1. Struktur Data:

    • Data Terstruktur: Data tabular yang rapi, terdiri dari baris (objek data/sampel) dan kolom (atribut/fitur). Contoh: tabel penjualan di database.

    • Data Tidak Terstruktur: Data yang tidak memiliki format yang jelas. Contoh: teks dari email, gambar, audio.

  2. Tipe Data Atribut (Skala Pengukuran Stevens):

    • Nominal: Kategori tanpa urutan. Contoh: jenis kelamin (Pria, Wanita), warna (Merah, Biru).

    • Ordinal: Kategori dengan urutan, tapi jarak antar kategori tidak bermakna. Contoh: tingkat pendidikan (SD, SMP, SMA), skala Likert (Sangat Setuju, Setuju, …).

    • Interval: Numerik dengan urutan dan jarak yang bermakna, tapi tidak memiliki titik nol mutlak. Contoh: suhu dalam Celcius, skor IQ.

    • Rasio: Numerik dengan semua properti interval dan memiliki titik nol mutlak. Contoh: tinggi badan, berat badan, harga.

  3. Statistik Deskriptif:

    • Merupakan rangkuman numerik dari karakteristik data.

    • Ukuran Pemusatan: Menjelaskan titik pusat data.

      • Mean (rata-rata): Untuk data interval/rasio.

      • Median (nilai tengah): Untuk data ordinal, interval, rasio. Tahan terhadap outlier.

      • Mode (modus): Nilai yang paling sering muncul. Untuk semua tipe data.

    • Ukuran Variabilitas: Menjelaskan sebaran data.

      • Range (kisaran): max - min.

      • Variance & Standard Deviation: Seberapa jauh data tersebar dari mean.

      • Quartiles & Interquartile Range (IQR): Membagi data menjadi empat bagian.

Summary

Fase Pemahaman Data dimulai dengan mengumpulkan data yang relevan sesuai task pemodelan, termasuk proses pelabelan jika diperlukan untuk supervised learning. Langkah selanjutnya adalah mendeskripsikan data secara fundamental, yaitu dengan mengidentifikasi strukturnya (terstruktur/tidak), memahami tipe setiap atribut (nominal, ordinal, interval, rasio), dan menghitung statistik deskriptif untuk mendapatkan rangkuman numerik awal tentang pemusatan dan sebaran data.