Fase Pemahaman Data (Bagian A)

Back to IF3170 Inteligensi Artifisial

Topic

Questions/Cues

Apa 4 tugas di fase Data Understanding?

Apa itu data terstruktur vs. tidak terstruktur?

Apa saja sumber & metode pengumpulan data?

Apa pentingnya pelabelan data?

Apa itu data berlabel?

Apa saja 4 tipe data/skala pengukuran?

Apa itu statistik deskriptif?

Reference Points

IF3170-Data-Understanding-and-Preparation.pdf (Slide 3-39)

Gambaran Umum Fase Pemahaman Data

Fase Data Understanding dimulai setelah tujuan bisnis ditetapkan. Tujuannya adalah untuk mengakuisisi data, membiasakan diri dengannya, mengidentifikasi masalah kualitas, dan menemukan wawasan awal. Fase ini sangat iteratif.

Empat tugas utamanya adalah:

Mengumpulkan Data Awal (Collect Initial Data)

Mendeskripsikan Data (Describe Data)

Mengeksplorasi Data (Explore Data)

Memverifikasi Kualitas Data (Verify Data Quality)

Mengumpulkan Data Awal

Proses ini melibatkan identifikasi kebutuhan data dan cara memperolehnya. Kebutuhan data sangat bergantung pada task pemodelan yang ditentukan di fase sebelumnya.

Klasifikasi: Butuh data berlabel dengan kelas diskrit (misal: ‘lancar’, ‘macet’).

Regresi: Butuh data berlabel dengan nilai kontinu (misal: harga rumah).

Clustering: Tidak butuh data berlabel.

Sumber Data bisa berasal dari:

Dataset publik (misal: Kaggle, UCI Machine Learning Repository).

Data observasi internal (misal: log aktivitas, rekap transaksi).

Pelabelan manual oleh manusia (annotator).

Pelabelan Data (Data Labeling)

Label (atau target) adalah atribut yang ingin kita prediksi. Data berlabel adalah data yang sudah memiliki nilai target ini. Proses pelabelan bisa dilakukan secara manual oleh pakar (hasilnya strong label) atau otomatis oleh mesin/program (hasilnya weak label), yang masing-masing memiliki implikasi pada biaya, waktu, dan akurasi.

Mendeskripsikan Data

Ini adalah proses untuk memahami properti dasar dari data yang telah dikumpulkan.

Struktur Data:

Data Terstruktur: Data tabular yang rapi, terdiri dari baris (objek data/sampel) dan kolom (atribut/fitur). Contoh: tabel penjualan di database.

Data Tidak Terstruktur: Data yang tidak memiliki format yang jelas. Contoh: teks dari email, gambar, audio.

Tipe Data Atribut (Skala Pengukuran Stevens):

Nominal: Kategori tanpa urutan. Contoh: jenis kelamin (Pria, Wanita), warna (Merah, Biru).

Ordinal: Kategori dengan urutan, tapi jarak antar kategori tidak bermakna. Contoh: tingkat pendidikan (SD, SMP, SMA), skala Likert (Sangat Setuju, Setuju, …).

Interval: Numerik dengan urutan dan jarak yang bermakna, tapi tidak memiliki titik nol mutlak. Contoh: suhu dalam Celcius, skor IQ.

Rasio: Numerik dengan semua properti interval dan memiliki titik nol mutlak. Contoh: tinggi badan, berat badan, harga.

Statistik Deskriptif:

Merupakan rangkuman numerik dari karakteristik data.

Ukuran Pemusatan: Menjelaskan titik pusat data.

Mean (rata-rata): Untuk data interval/rasio.

Median (nilai tengah): Untuk data ordinal, interval, rasio. Tahan terhadap outlier.

Mode (modus): Nilai yang paling sering muncul. Untuk semua tipe data.

Ukuran Variabilitas: Menjelaskan sebaran data.

Range (kisaran): max - min.

Variance & Standard Deviation: Seberapa jauh data tersebar dari mean.

Quartiles & Interquartile Range (IQR): Membagi data menjadi empat bagian.

Summary

Fase Pemahaman Data dimulai dengan mengumpulkan data yang relevan sesuai task pemodelan, termasuk proses pelabelan jika diperlukan untuk supervised learning. Langkah selanjutnya adalah mendeskripsikan data secara fundamental, yaitu dengan mengidentifikasi strukturnya (terstruktur/tidak), memahami tipe setiap atribut (nominal, ordinal, interval, rasio), dan menghitung statistik deskriptif untuk mendapatkan rangkuman numerik awal tentang pemusatan dan sebaran data.

Additional Information

Metadata dan Data Dictionary

Saat mendeskripsikan data, praktik terbaik adalah membuat Data Dictionary. Ini adalah dokumen terpusat yang berisi metadata (data tentang data). Isinya mencakup:

Nama Atribut: Nama kolom yang digunakan di dataset.

Tipe Data: Tipe teknis (misal: INTEGER, VARCHAR, FLOAT) dan tipe skala pengukuran (Nominal, Ordinal, dll.).

Deskripsi: Penjelasan dalam bahasa manusia tentang arti atribut tersebut. Contoh: cust_id - “ID unik untuk setiap pelanggan yang terdaftar”.

Contoh Nilai: Beberapa contoh nilai valid, misal: status_order - (“pending”, “shipped”, “delivered”).

Keterangan: Informasi tambahan seperti sumber data, apakah nilai bisa null, atau batasan lainnya.

Data dictionary sangat krusial untuk kolaborasi tim dan memastikan semua orang memiliki pemahaman yang sama tentang data.

Metode Pengumpulan Data Teknis

Akses Database Langsung: Menggunakan kueri SQL (SELECT ... FROM ... WHERE ...) untuk menarik data dari basis data relasional (misal: PostgreSQL, MySQL).

API (Application Programming Interface): Banyak layanan web (seperti Twitter, Kaggle) menyediakan API yang memungkinkan kita mengambil data secara terprogram. Biasanya data dikembalikan dalam format JSON.

Web Scraping: Teknik mengekstrak data dari halaman web ketika API tidak tersedia. Ini dilakukan dengan membuat program (scraper) yang “membaca” kode HTML halaman web dan mengambil informasi yang relevan.

Tools dan Software

SQL Clients: DBeaver, pgAdmin, MySQL Workbench untuk berinteraksi dengan database.

Python Libraries:

pandas: Pustaka fundamental untuk manipulasi dan analisis data terstruktur. Fungsi df.describe() dan df.info() sangat berguna di fase ini.

requests: Untuk berinteraksi dengan API.

BeautifulSoup, Scrapy: Untuk web scraping.

Platform Pelabelan Data: Amazon SageMaker Ground Truth, Labelbox, V7 Labs. Platform ini menyediakan antarmuka untuk mempermudah proses pelabelan data (terutama gambar dan teks) oleh manusia.

IF Notes

Explorer

Fase Pemahaman Data (Bagian A)

Questions/Cues

Reference Points

Gambaran Umum Fase Pemahaman Data

Mengumpulkan Data Awal

Pelabelan Data (Data Labeling)

Mendeskripsikan Data

Metadata dan Data Dictionary

Metode Pengumpulan Data Teknis

Tools dan Software

Graph View

Table of Contents

Backlinks