Data mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge) secara otomatis.
Operasi Data Mining
Operasi data mining menurut sifatnya dibedakan menjadi dua, yaitu bersifat :
- Prediksi (prediction driven) untuk menjawab pertanyaan apa dan sesuatu yang bersifat remang-remang atau transparan.0perasi prediksi digunakan untuk validasi hipotesis, querying dan pelaporan (misal : spreadsheet dan pivot tabel), analisis multidimensi (dimensional summary); OLAP (Online Analytic Processing) serta analisis statistik.
- Penemuan (discovery driven)bersifat transparan dan untuk menjawab pertanyaan “mengapa?". Operasi penemuan digunakan untuk analisis data eksplorasi, pemodelan prediktif, segmentasi database, analisis keterkaitan (link analysis) dan deteksi deviasi.
Tahapan Proses Data Mining
Tahapan proses dalam penggunaan data mining yang merupakan proses Knowledge Discovery in Databases (KDD) seperti yang terlihat pada Gambar 1.2 dapat diuraikan sebagai berikut :
- Memahami domain aplikasi untuk mengetahui dan menggali pengetahuan awal serta apa sasaran pengguna.
- Membuat target data-set yang meliputi pemilihan data dan fokus pada sub-set data.
- Pembersihan dan transformasi data meliputi eliminasi derau, outliers, missing value serta pemilihan fitur dan reduksi dimensi.
- Penggunaan algoritma data mining yang terdiri dari asosiasi, sekuensial, klasifikasi, klasterisasi. dll.
- Interpretasi. evaluasi dan visualisasi pola untuk melihat apakah ada sesuatu yang baru dan menarik dan dilakukan iterasi jika diperlukan.
Tidak ada komentar:
Posting Komentar