Selasa, 21 Juni 2011

Data Mining - Klassifikasi


Klassifikasi adalah proses penentuan objek-objek baru pada satu set kategori atau klas yang telah didefinisikan sebelumnya
Diberikan satu set records berlabel sebagai masukan
Bangun semuah model (misal, decision tree)
Memprediksi label untuk records tidak berlabel setelah model dibangun


Pembelajaran Klassifikasi

* Supervised learning (label diketahui)

* Contoh dijelaskan dalam bentuk attributes
- Kategorikal (nilai-nilai simbolik tidak terurut)
- Numerik (integer, real)

* Klas (attribute luaran/yang diprediksi):
- Kategorikal untuk klassifikasi, numerik untuk regresi\

* Training set:
- Satu set contoh, dimana setiap contoh adalah sebuah vektor fitur (satu set passangan (attribute, nilai)) disertai dengan klas yang diasosiasikan dengan contoh tersebut. Model dibangun dengan menggunakan training set

* Test set:
- Satu set contoh yang terpisah (disjoint) dari training set, yang digunakan untuk melakukan pengujian keakuratan dari model


Model-Model Klassifikasi

* Beberapa model lebih baik dari lainnya
- Keakuratan
- Kemudahan untuk dimengerti

* Model-model yang ada tersedia mulai dari yang mudah dimengerti hingga yang sulit dimengerti
- Decision trees
- Rule induction
- Regression models
- Neural networks


From Tree to Rules
1. IF Age > 43 THEN Life Insurance Promotion = No
2. F Age <=43 & Sex = Femal THEN Life Insurance Promotion = Yes
3. IF Age <=43 & Sex = Male & Credit Card Insurance = No THEN Life Insurance Promotion = No
4.IF Age <=43 & Sex = Male & Credit Card Insurance = Yes THEN Life Insurance Promotion = Yes


Algoritma Klassifikasi

* Bangun Tree
- Mulai dengan data pada simpul root
- Pilih sebuah attribut dan formulasikan sebuah logical test pada attribut tersebut
- Lakukan pencabangan pada setiap hasil dari test, dan terus bergerak ke subset dari contoh yang memenuhi hasil dari simpul anak cabang yang bersesuaian
- Lakukan proses rekursi pada setiap simpul anak cabang
- Ulangi hingga dahan-dahan dari tree memiliki contoh dari satu klas tertentu (“pure leaves”), atau memiliki contoh-contoh yang mewakili mayoritas dari klas yang sama (“nearly pure leaves”)

* Lakukan pemotongan pada tree (tree prunning)
- Hapus subtress yang tidak meningkatkan akurasi klassifikasi


Keuntungan Decision Tree
- Mudah dimengerti
- Dapat dipetakan secara baik ke satu set production rules
- Dapat diaplikasikan pada persoalan-persoalan nyata
- Tidak diperlukan asumsi awal mengenai data
- Data memproses baik data numerik maupun data kategorikal

Kekurangan Decision Tree
- Attribut luaran harus berupa data kategorikal
- Terbatas hanya untuk satu attribut luaran
- Algoritma-algoritma decision tree tidak stabil
- Tree yang dibangun dari dataset numerik dapat menjadi komplek

1 komentar:

  1. saya bingung untuk menentukan grade umur bisa jadi kurang dari 43 dan lebih dari 43 gimana caranya?

    BalasHapus