METODOLOGI DATA SCIENCE

METODOLOGI DATA SCIENCE 

Mtodologi data science adalah langkah-langkah untuk menjawab pertanyaan mengenai suatu masalah dalam proyek data science agar mendapatkan suatu hasil yang optimal.

JENIS METEDOLOGI DATA SCIENCE

Umumnya metedologi data science dibagi menjadi 2 jenis yaitu metodologi kegiatan teknis dan metodologi kegiatan bisnis (lengkap).

Metodologi kegiatan teknis

Metodologi teknis yaitu proses dimana perubahan suatu data menjadi suatu pola yang berguna. Contoh dari metodologi teknis yaitu Metodologi Knowledge Discovery and Data MIning (KDD) dan Metodologi Sample, Emplore, Modify, Model and Assess (SEMMA).

Knowledge Discovery in Database Process (KDD) 

Metodologi KDD

adalah salah satu metode yang menggunakan pemanfaatan data mining untuk mengekstraksi pengetahuan sesuai dengan ukuran atau threshold yang ditentukan. Proses dimulai dengan adanya sekumpulan data (dataset) yang akan mengalami serangkaian proses sebagai berikut

  • Selection: Pemilihan data (data target) yang akan menjadi sampel untuk proses selanjutnya.
  • Preprocessing data: Melakukan serangkaian proses untuk melengkapi data dan menjaga konsistensi data.
  • Transformation: Mengubah representasi data untuk mempermudah dan memperbaiki agar sesuai dengan Teknik data mining yang akan dipergunakan
  • Data Mining: Kegiatan pengembangan model untuk mencari pola dari data yang diberikan
  • Evaluation: Proses interpretasi dan evaluasi pola yang diperoleh apakah pola yang menarik, berguna atau relevan.
Modify, Model and Assess (SEMMA).
metodologi semma

Sample, Emplore, Modify, Model dan Assess (SEMMA) merupakan suatu proses data mining yang dapat digunakan dengan mudah dan mudah dipahami. SEMMA umumnya melakukan serangkaian kegiatan yang bersifat berulang. Sesuai namanya memiliki 5 tahapan diantaranya
  • Sample, Proses ekstraksi data untuk mendapatkan dataset yang cukup untuk mendapatkan informasi signifikan namun tidak terlalu besar sehingga mudah untuk diproses selanjutnya.
  • Explore, Proses untuk mengeksplorasi data dengan mencari trend dan anomali untuk mendapatkan pemahaman tentang data
  • Modify, Proses modifikasi data dengan membuat, memilih dan transformasi variable untuk proses pemodelan
  • Model, Proses pemodelan dari data dengan mencari secara otomatis kombinasi data yang dapat dipakai untuk prediksi
  • Assess, Mengevaluasi pola yang ditemukan apakah berguna dan cukup andal

PERSAMAAN DAN PERBEDAAN KDD DAN SEMMA
Umumnya metodologi KDD dan SEMMA terdapat banyak persamaan salah satunya kedua metodologi banyak dimodifikasi sesuai perkembangannya. Sedangakan perbedaan kedua metodologi ini dapat dilihat pada tabel dibawah ini


Metodologi Kegiatan Bisnis
dikenal juga dengan sebutan Metodologi Lengkap. Metodologi ini merupakan kelompok metodologi yang menempatkan kegiatan data science sebagai kegiatan awall dari pemahaman masalah bisnis (bussines understanding/ideation). Metodologi ini terbagi menjadi 4 diantaranya

Cross-Industry Standard Process for Data Mining (CRISP-DM)

Metodologi CRISP-DM

adalah salah satu model proses datamining (datamining framework). apan proses dalam CRISP-DM ada 6 tahapan yang bersifat adaptif dan terurut, dimana output dari setiap tahapan yang ada dalam metode ini saling mempengaruhi satu sama lain, dalam kata lain tahap sebelumnya akan mempengaruhi tahap selanjutnya yang ada dalam proses CRISP-DM.
  • Business Understanding: Kegiatan untuk menentukan tujuan dan persyaratan dengan jelas secara keseluruhan. 
  • Data Understanding, memberikan fondasi analitik untuk sebuah penelitian denagn membuat ringkasan serrta mengidentifikasi potensi masalah.
  • Data Preparation, tahapan untuk memperbaiki masalah dalam data dan membuat variabel derived. Terbagi menjadi dua yaitu data training dan data testing.
  • Modeling: Pengembangan model yang meliputi feature engineering, model fitting, dan model evaluation. Melakukan in
  • Evaluation, Melakukan interpetasi terhadap hasil dari data mining yang dihasilkan sebelumnya.
  • Deployment, Perancangan Development atau Pemasangan model ke dalam aplikasi intelijen, suatu web service atau objek pada model store. Proses diakhiri dengan UAT (Customer Acceptance)

IBM Data Science
IBM DATA SCIENCE

Tujuan dari metodologi data science adalah untuk berbagi metodologi yang dapat digunakan dalam data science, untuk memastikan bahwa data yang digunakan dalam pemecahan masalah adalah relevan dan dimanipulasi dengan benar untuk menjawab pertanyaan.
  • Business Understanding: memahami apakah tujuan bisnis untuk meningkatkan efisiensi kegiatan atau untuk menambah jenis kegiatan.
  • Analytic Understanding: Berdasarkan pemahaman bisnis sebelumnya, kita harus
    memutuskan pendekatan analitis mana yang harus diikuti, yaitu:
    - Deskriptif → status saat ini dan informasi yang diberikan.
    Diagnostik → analisis statistik, apa yang terjadi dan mengapa itu terjadi.
    - Prediktif → meramalkan tren atau kemungkinan kejadian di masa depan.
    Preskriptif → bagaimana masalah harus diselesaikan
  • Data Requirements: Metode analisis yang telah dipilih sebelumnya menunjukkan isi, format, dan sumber data yang diperlukan untuk dikumpulkan. Selama proses kebutuhan data, kita harus menemukan jawaban atas pertanyaan-pertanyaan seperti apa, dimana, kapan, mengapa, bagaimana, siapa.
  • Data Collenction: Data yang dikumpulkan dapat diperoleh dalam format acak, selanjutnya data yang dikumpulkan harus divalidasi. Dengan demikian, jika diperlukan, seseorang dapat mengumpulkan lebih banyak data atau membuang data yang tidak relevan.
  • Data Understanding: mengumpulkan data berdasarkan masalah yang akan dipecahkan
  • Data Preparation: melakukan pembersihan data dan pemilihan data.
  • Modelling: Pada tahap ini Data Scientist menentukan apakah data yang disiapkan sudah sesuai atau membutuhkan lebih banyak finishing dan bumbu dengan menggunakan pengembangan model deskriptif atau prediktif.
  • Evaluation: Evaluasi model dilakukan selama proses pengembangan model apakah memenuhi persyaratan yang diberikan oleh stakeholder atau tidak.
  • Deployment: Pada tahap ini, Data Scientist akan bekerja sama dengan para backend dan frontend engineer untuk mengimplementasikan model yang telah dibuat agar mudah digunakan oleh para stakeholder.
  • Feedback: Setelah proses penyebaran model, stakeholder akan mendapatkan feedback tentang kinerja model. Menganalisis umpan balik memungkinkan Data Scientist untuk menyempurnakan model dan meningkatkan akurasi dan kegunaannya.

Microsoft’s Team Data Science Proces
metodologi data science life cycle
adalah metodologi data science yang tangkas dan berulang untuk memberikan solusi analisis prediktif dan aplikasi cerdas secara efisien. TDSP mencakup praktik dan struktur terbaik dari Microsoft untuk membantu keberhasilan implementasi inisiatif data science. Tujuannya adalah untuk membantu perusahaan sepenuhnya mendapatkan manfaat dari program analitik mereka. Tahapan pada metodologi ini terdiri dari
  • Business Understanding: Kegiatan untuk memahami masalah yang dihadapi
  • Data Acquisition and Understanding: Kegiatan yang meliputi proses pengumpuilan dan
    eksplorasi data. Data bisa diambil dari data internal (on promise) ataupun dari cloud dan
    bisa berupa database ataupun file flat. Proses dilakukan melalui pipeline, yang dapat berupa proses batch atau streaming. Eksplorasi (data wrangling) meliputi pembersihan data, validasi dan visualisasi.
  • Modeling: Pengembangan model yang meliputi feature engineering, model fitting, dan
    model evaluation.
  • Deployment: Pemasangan model ke dalam aplikasi intelijen, suatu web service atau objek pada model store. Proses diakhiri dengan UAT (Customer Acceptance)

Domino DataLab Methodology
adalah fitur untuk membuat pekerjaan mereka lebih efisien, dan alat untuk mempublikasikan hasil dan menerapkan model dengan cepat untuk orang lain. 
  • Ideation adalah pemahaman terhadap masalah pada proses bisnis serta identifikasi objektif bisnisnya. Langkah berikutnya adalah melakukan perhitungan terhadap objektif bisnis tersebut beserta Cost-Benefit Analysis.
  • Data Acquisition and Preparation: Menentukan data yang diperlukan baik yang berasal dari sistem internal ataupun eksternal. 
  • Research and Development: Pemodelan dilakukan sebagai suatu kegiatan pembuktian
    hipotesa dan pemodelan. Jika hasil sudah dianggap cukup maka dilakukan kegiatan berikutnya sementara jika belum dilakukan perbaikan data atau perubahan hipotesa. Dalam proses eksperimen, selaain metrik statistic dipergunhakan juga KPI organisasi.
  • Validation: Model yang sudah dibuat divalidasi dari sudut bisnis dan teknis sebelum dipasang
  • Delivery: Deployment yang dimulai dengan perencanaan, lalu pemasangan dan perawatan sistem. Dalam proses ini juga dilakukan UAT (User Acceptance Testing)
PERSAMAAN DAN PERBEDAAN METODE LENGKAP
ke empat metodologi lengkap memiliki persamaan seperti halnya keempat metodologi sama sama membantu memudahkan data science khususnya dalam kerangka bisnis. Selain itu setiap metodologi mempercepat kita dalam menghasilkan prediksi akurat pada data. Perbedaan dari keempat metodologi yaitu pada kegunaannya. Pada metodologi  CRISP-DM terfokus pada analisis keberlanjutan suatu proyek, metodologi IBM Data Science terfokus pada pemecahan solusi dari masalah yang ada dalam hal bidang bisnis, Metodologi Microsoft Team Data Science terfokus pada kerja sama tim serta kolaborasi dalam suatu proses data science, Sedangkan metodologi domino datalab umumnya terfokus pada mempercepat suatu kerja sama atau kolaborasi serta alat untuk mempublikasikan suatu model yang telah kita buat dengan cepat.

Komentar