Data mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge) secara otomatis.
Permasalahan Pada Data Mining
Sistem data mining berdasar pada basis data yang menyediakan data mentah dan ini memunculkan permasalahan dalam basis data yang cenderung dinamis, tidak lengkap, ber-noise dan besar. Permasalahan lain muncul sebagai akibat dari kecukupan dan relevansi dari informasi yang disimpan.
Sumber Gambar: ilmuskripi.com
Baca Juga: Model dan Struktur Data Warehouse pada Data Mining
Basis data biasanya dicemari oleh error sedemikian hingga tidak dapat diasumsikan bahwa data secara keseluruhan benar.Atribut-'atribut yang ada pada subyek atau pertimbangan ukuran dapat memunculkan kesalahan (error) sedemikian hingga beberapa contoh mungkin menjadi mis-klasifikasi.Error dalam salah satu nilai atribut atau informasi kelas dikenal sebagai noise. Secara nyata'ada kemungkinan kita perlu sekali untuk menghilangkan noise dari informasi klasifikasi saat hal ini mempengaruhi akurasi aturan yang dibangkitkan secara keseluruhan.
Data yang hilang dapat dibenahi dengan Sistem penemuan dalam berbagai cara, seperti :
- Secara sederhana dengan mengabaikan nilai-nilai yang hilang.
- Menghilangkan record yang berhubungan.
- Menebak nilai yang hilang dari nilai-nilai yang diketahui.
- Memperlakukan data .yang hilang sebagai sebuah nilai khusus yang dimasukkan sebagai tambahan dalam domain atribut. .
- Atau menghitung rata-rata nilai yang hilang menggunakan teknik Bayesian.
Ketidakjelasan (uncertainty) menunjuk kepada kepelikan error dan tingkat noise dalam data. Presisi data merupakan saah satu pertimbangan penting dalam sistem penemuan.
Baca Juga: Perbedaan Data Warehouse dan Sistem OLTP pada Data Mining
Basis data cenderung menjadi besar dan dinamis dalam hal isinya yang selalu berubah saat informasi ditambahkan, dimodifikasi atau dihapus. Permasalahan dalam hal ini dari sudut pandang data mining adalah bagaimana menjamin bahwa aturan-aturan tersebut up-to-date dan konsisten dengan informasi paling terkini. luga sistem pembelajaran mempunyai time-sensitive saat beberapa nilai data berubah terhadap waktu dan system penemuan dipengaruhi oleh ketepatan waktu dari data tersebut.
Tidak ada komentar:
Posting Komentar