Back to IF3170 Inteligensi Artifisial

Topic

Questions/Cues

  • Apa tujuan fase Pemodelan?

  • Apa saja 3 bagian skenario pemodelan?

  • Mengapa data perlu dibagi (split)?

  • Apa itu data latih & data uji?

  • Mengapa perlu eksperimen?

  • Prinsip “No Free Lunch”?

  • Apa itu proses pelatihan (training)?

  • Apa itu proses pengujian (testing)?

  • Apa tujuan fase Evaluasi?

Reference Points

  • IF3170-data-science.pdf (Slide 22-28)

Fase 4: Pemodelan (Modeling)

Pada fase ini, berbagai teknik pemodelan dipilih dan diterapkan, dan parameternya diatur untuk mendapatkan hasil yang optimal. Fase ini sangat bersifat teknis dan iteratif.

Membangun Skenario Pemodelan

Sebelum melatih model, kita perlu membuat strategi yang jelas.

  1. Memilih Algoritma:

    • Pilihan algoritma disesuaikan dengan Tugas Analitik yang telah ditentukan di fase Business Understanding (Klasifikasi, Regresi, Clustering).

    • Prinsip “No Free Lunch”: Tidak ada satu algoritma pun yang selalu menjadi yang terbaik untuk semua masalah. Oleh karena itu, praktik terbaik adalah mencoba beberapa algoritma yang berbeda.

    • Contoh algoritma: k-NN, Naïve Bayes, Regresi Linear/Logistik, SVM, Decision Tree, Random Forest, Deep Learning.

  2. Membagi Data (Data Splitting):

    • Data yang sudah bersih dibagi menjadi (minimal) dua set:

      • Data Latih (Training Set): Digunakan untuk “mengajari” atau “melatih” model agar ia belajar pola dari data.

      • Data Uji (Test Set): Digunakan untuk menguji seberapa baik model yang sudah dilatih dapat melakukan generalisasi pada data baru yang belum pernah dilihat sebelumnya. Data ini “disembunyikan” dari model selama pelatihan.

    • Pembagian ini krusial untuk mencegah overfitting dan untuk mendapatkan estimasi performa model yang jujur.

  3. Menentukan Langkah Eksperimen:

    • Proses mencari kombinasi algoritma dan hyperparameter terbaik.

    • Pendekatan bisa bervariasi dari Best Guess (coba-coba), One Factor at a Time, hingga pendekatan sistematis seperti Grid Search (mencoba semua kemungkinan kombinasi hyperparameter).

Membangun Model

  • Proses Pelatihan (Training): Algoritma machine learning dijalankan pada Data Latih. Algoritma akan menyesuaikan parameter internalnya untuk meminimalkan error atau memaksimalkan tujuannya, sehingga menghasilkan sebuah Model (misalnya, sebuah pohon keputusan, set bobot neural network, atau garis regresi).

  • Proses Pengujian (Testing): Model yang sudah jadi kemudian digunakan untuk membuat prediksi pada Data Uji. Hasil prediksi ini kemudian dibandingkan dengan label sebenarnya dari Data Uji untuk diukur performanya.

Fase 5: Evaluasi (Evaluation)

Pada tahap ini, kita secara menyeluruh menilai model yang telah dibangun.

  1. Mengevaluasi Hasil Model:

    • Mengukur performa model menggunakan metrik teknis yang relevan (yang dipilih di fase Business Understanding). Contoh metrik untuk klasifikasi: Accuracy, Precision, Recall, F1-Score.

    • Membandingkan performa beberapa model yang telah dicoba dan memilih yang terbaik.

  2. Review Proses:

    • Menilai apakah ada batasan atau kekurangan dari model yang dibangun. Apakah ada asumsi yang dilanggar?
  3. Menentukan Langkah Selanjutnya:

    • Berdasarkan evaluasi, kita memutuskan apakah model sudah cukup baik untuk di-deploy, atau kita perlu kembali ke fase sebelumnya (misalnya, perlu feature engineering lagi atau mencoba algoritma lain).

Summary

Fase Modeling adalah inti teknis dari data science, di mana data yang telah disiapkan dibagi menjadi set latih dan uji, lalu berbagai algoritma machine learning dilatih pada data latih untuk menghasilkan model. Selanjutnya, pada fase Evaluation, performa model-model tersebut diukur secara objektif menggunakan data uji dan metrik yang relevan. Hasil evaluasi ini menentukan apakah model siap untuk deployment ataukah proses perlu diulang kembali untuk perbaikan lebih lanjut.