Selasa, 21 Juni 2011

Teknik-Teknik Data Mining

* Kaidah asosiasi (Association rules)
- Mendeteksi kumpulan-kumpulan attribut yang muncul bersamaan (co-occur) dalam frekuensi yang sering, dan membentuk sejumlah kaidah dari kumpulan-kumpulan tersebut.
- Contoh, 90% dari orang yang berbelanja di suatu supermarket yang membeli roti juga memberli selai, dan 60% dari semua orang yang berbelanja membeli keduanya.

* Pencarian pola sekuensial (Sequence Mining)
- Mencari urutan sejumlah events yang secara umum terjadi bersama-sama.
- Contoh, dalam satu set urutan-urutan DNA, ACGTC diikuti oleh GTCA setelah suatu celah selebar 9 dengan probabilitas sebesar 30%.

* Klassifikasi dan Regresi

- Menentukan sebuah record data baru ke salah satu dari beberapa kategori (atau klas) yang telah didefinisikan sebelumnya.
- Regresi berkaitan dengan prediksi fields bernilai real.
- Disebut juga “supervised learning”.


* Klasterisasi (Clustering)

- Mempartisi dataset menjadi beberapa subset atau kelompok sedemikian rupa sehingga elemen-elemen dari suatu kelompok tertentu memiliki set properti yang dishare bersama, dengan tingkat similaritas yang tinggi dalam satu kelompok dan tingkat similaritas antar-kelompok yang rendah.
- Disebut juga “unsupervised leraning”.

* Pelacakan similaritas

- Untuk suatu database dari sejumlah objek dan sebuah “query” terhadap objek yang diberikan, dapatkan objek-objek yang berada dalam jarak yang ditentukan pengguna dari objek yang dilakukan query.

* Deteksi deviasi
- Dapatkan record(s) yang yang paling berbeda dari records lainnya; atau dengan kata lain dapatkan semua “ouliers”. Outliers ini dapat diabaikan sebagai derau atau mungkin merupakan informasi yang “menarik”.

* Terdapat beberapa metode lainnya, seperti
- Neural networks
- Genetic algorithms
- Hidden Markov models
- Time series
- Bayesian networks
- Fuzzy sets

Memilih Teknik Data Mining

- Apakah pembelajarannya supervised atau unsupervised ?
- Apakah diperlukan penjelasan yang jelas mengenai keterkaitan yang ada dalam data ?
- Apakah terdapat satu set input attributes dan sayu set output attributes, atau dapatkah terjadi interaksi antar attributes ?
- Apakah input data bersifat kategorikal, numeric, atau kombinasi dari keduanya ?
- Jika pembelajarannya adalah supervised, apakah output terdiri satu attribute atau beberapa attribute ? Juga apakah output attibutes bersifat kategorikal atau numeric atau keduanya ?
- Apakah kita tahu distribusi dari data ?
- Apakah kita tahu attribut yang mana yang terbaik untuk digunakan mendefinisikan data yang akan dimodelkan ?
- Apakah data berisikan beberapa “missing values” ?
- Apakah waktu komputasi merupakan issue penting ?
- Teknik data mining yang mana yang sebaiknya digunakan untuk memberikan hasil klassifikasi akurasi yang tinggi ?

Tidak ada komentar:

Posting Komentar