Selasa, 21 Juni 2011

P e n g a n t a r D a t a M i n i n g


Data Mining adalah Proses yang mempekerjakan satu atau lebih teknik-teknik pembelajaran komputer (machine learning) untuk menganalisis dan menfekstraksi pengetahuan (knowledge) secara otomatis

Beberapa definisi terkait lainnya:

Pembelajaran berbasis Induksi (Induction-based Learning) adalah proses pembentukan definisi-definisi konsep yang umum yang dilakukan dengan cara mengobservasi contoh-contoh spesifik dari konsep-konsep yang akan dipelajari

Knowledge Discovery in Databases (
KDD) adalah penerapan metode saintifik pada data mining. Dalam konteks ini, data mining merupakan satu langkah dari proses KDD

Data Mining merupakan proses iteratif dan interaktif untuk menemukan pola atau model yang sahih, baru, bermanfaat, dan dapat dimengerti dalam suatu database yang sangat besar (massive databases)

Sahih: dapat digeneralisasi untuk masa yang akan datang
Baru: apa yang tidak sedang diketahui
Bermanfaat: dapat digunakan untuk melakukan suatu tindakan
Iteratif: memerlukan sejumlah proses yang diulang
Interaktif: memerlukan interaksi manusia dalam prosesnya

Goals dari Data Mining
Prediksi
- Apa ?
- Bersifat remang-remang (tidak transparan)

Deskripsi
- Mengapa ?
- Bersifat transparan

Operasi Data Mining
Prediksi (prediction driven)
- Validasi hipotesis
- Querying dan pelaporan (misal, spreadsheet dan pivot tables)
- Analisis multidimensi (dimensional summaries); OLAP
- Analsis statistik

Penemuan (discovery driven)
- Analisis data eksplorasi
- Pemodelan prediktif
- Segmentasi database
- Analisis keterkaitan (link analysis)
- Deteksi deviasi

Asal-Muasal Data Mining

* Mengambil ide dari machine learning/AI, pengenalan pola, statistik, dayabase systems, dan visualisasi data

* Teknik-teknik tradisional mungkin tidak sesuai
- Membludaknya data (enormity of data)
- Dimensi data yang tinggi (high dimensionality of data)
- Heterogenitas dan sifat data yang tersebar (heterogeneous, distributed nature of data)

Tantangan Utama dari KDD

* Skalabilitas
- Sampling yang efisien dan memadai
- Pemrosesan “in-memory” v.s. “disk-based”
- Komputasi berkinerja tinggi (komputasi paralel)

* Otomasi

- Mudah digunakan
- Penggunaan pengetahuan awal (prior knowledge)

Tidak ada komentar:

Posting Komentar