Back to IF3170 Inteligensi Artifisial

Topic

Questions/Cues

  • Apa itu Konstruksi Data?

  • Apa itu Reduksi Data?

  • Apa bedanya Feature Selection dan Feature Extraction?

  • Apa itu PCA?

  • Apa itu Transformasi Data?

  • Apa itu Binning?

  • Apa itu Normalisasi?

  • Kapan menggunakan Normalisasi?

Reference Points

  • IF3170-Data-Understanding-and-Preparation.pdf (Slide 90-107)

Konstruksi Data (Data Construction)

Ini adalah proses menurunkan atribut baru dari atribut yang sudah ada. Tujuannya adalah untuk membuat data lebih informatif dan mudah dipahami oleh model. Ini sering disebut sebagai Feature Engineering.

Reduksi Data (Data Reduction)

Tujuannya adalah mendapatkan representasi data yang lebih kecil volumenya tapi tetap memberikan hasil analitis yang sama.

  1. Reduksi Dimensi (Dimensionality Reduction): Mengurangi jumlah kolom/atribut.

    • Feature Selection: Telah dibahas sebelumnya. Memilih subset fitur terbaik.

    • Feature Extraction: Menciptakan set fitur baru yang lebih kecil dari kombinasi fitur asli. Contoh paling populer adalah Principal Component Analysis (PCA), yang mengubah fitur-fitur yang berkorelasi menjadi satu set fitur baru yang tidak berkorelasi (disebut principal components), lalu kita bisa membuang komponen yang paling tidak signifikan. Perbedaannya, fitur hasil PCA tidak lagi bisa diinterpretasikan seperti fitur asli.

  2. Pengurangan Data (Numerosity Reduction): Mengurangi jumlah baris/sampel.

    • Sampling: Telah dibahas sebelumnya.

    • Clustering: Mengelompokkan data yang mirip dan mengganti semua data dalam satu klaster dengan satu titik representatif (misalnya, centroid).

    • Model Parametrik: Mengganti data aktual dengan parameter dari sebuah model. Contoh: sekelompok titik data yang membentuk garis lurus bisa digantikan hanya dengan parameter slope dan intercept dari model regresi.

Transformasi Data (Data Transformation)

Ini adalah proses mengubah format, struktur, atau nilai data.

  1. Data Smoothing (Binning/Discretization):

    • Mengelompokkan nilai-nilai data kontinu ke dalam interval atau “bin” yang lebih kecil.

    • Contoh: Mengubah atribut usia (numerik) menjadi kategori muda, paruh baya, tua (ordinal).

    • Berguna untuk mengurangi noise dan membuat model lebih robust, tapi mengorbankan informasi detail.

  2. Attribute Construction:

    • Membuat fitur baru dari fitur yang ada.

    • Contoh: Membuat atribut luas_bangunan dari panjang dan lebar. Atau membuat rasio_utang_pendapatan dari dua kolom terpisah.

  3. Aggregation:

    • Menggabungkan beberapa data menjadi satu ringkasan.

    • Contoh: Mengubah data penjualan_harian menjadi penjualan_bulanan.

  4. Normalization (Normalisasi):

    • Teknik penskalaan untuk mengubah rentang nilai data numerik. Ini sangat penting untuk algoritma yang sensitif terhadap skala fitur, seperti SVM, k-NN, dan regresi dengan regularisasi.

    • Min-Max Normalization: Menskalakan data ke rentang [0, 1]. Formulanya: Xnorm​=(X−Xmin​)/(Xmax​−Xmin​).

    • Standardization (Z-score Normalization): Menskalakan data sehingga memiliki mean = 0 dan standard deviation = 1. Formulanya: Xstd​=(X−mean)/std_dev.

Summary

Setelah data dibersihkan dan dipilih, proses persiapan dilanjutkan dengan Data Construction, di mana fitur-fitur baru dapat dibuat (feature engineering) atau volume data dikurangi melalui Reduksi Dimensi (seperti PCA) dan Reduksi Jumlah (seperti clustering). Terakhir, Data Transformation dilakukan untuk mengubah data ke format yang lebih sesuai untuk model, seperti Binning untuk diskritisasi dan Normalization (Min-Max atau Standardization) untuk menyamakan skala fitur, yang merupakan langkah wajib bagi banyak algoritma machine learning.