My Weblog

Just another WordPress.com weblog

Text Mining- Text Preprocessing

Text Mining : Proses menggali, mengolah, mengatur informasi dengan cara meng analisa hubungn-nya, pola-nya, aturan-aturan yang ada di pada data tekstual semi terstruktur atau tidak terstruktur.

Proses nya antara lain yaitu peringkasan teks (Summarization text), pengkategorisasian teks (text categorization) dan pengelompokan teks (text clustering)

Tasks on a collection of documents

  1. Document Retrieval ( Temu- Kembali)
  2. Document Clustering (Pengelompokan)
  3. Document Categorization ( Kategori/ kelas)

1. Document Retrieval (Temu-Kembali)

Menemukan kembali informasi-informasi yang relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi secara otomatis. Salah satu aplikasi umum dari sistem temu kembali informasi adalah search-engine atau mesin pencarian yang terdapat pada jaringan internet. Pengguna dapat mencari halaman-halaman Web yang dibutuhkannya melalui mesin tersebut dengan cara meng inputkan query berupa berupa kata, frasa, kalimat, halaman web yang relevan akan muncul

2. Document Clustering (Pengelompokan)

Pengelompokan, mengelompokkan data berdasarkan informasi yang diperoleh dari data yang menjelaskan hubungan antar objek dengan prinsip untuk memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster. Tujuannya menemukan cluster yang berkualitas dalam waktu yang layak. Clustering dalam data mining berguna untuk menemukan pola distribusi di dalam sebuah data set yang berguna untuk proses analisa data. Kesamaan objek biasanya diperoleh dari kedekatan nilai-nilai atribut yang menjelaskan objek-objek data, sedangkan objek-objek data biasanya direpresentasikan sebagai sebuah titik dalam ruang multidimensi. (Multidimension Space)

Hasil dari clustering ini belum pasti, bisa 5,10,20, etc kelompok

3. Document Categorization ( Kategori/ Kelas)

Proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Mmengelompokkan document kedalam 1,2,3 atau lebih kategori tergantung kepada isi document, Pada kategorisasi teks, diberikan sekumpulan kategori (label) dan koleksi dokumen yang berfungsi sebagai data latih, yaitu data yang digunakan untuk membangun model, dan kemudian dilakukan proses untuk menemukan kategori yang tepat untuk dokumen test, yaitu dokumen yang digunakan untuk menentukan akurasi dari model. Misalkan ada sebuah dokumen x sebagai inputan, maka output yang dihasilkan oleh model tersebuat adalah kelas atau kategori y dari beberapa kategori tertentu yang telah didefinisikan sebelumnya (y1,…,yk). Adapun contoh dari pemanfaatan kategorisasi teks adalah pengkategorisasian berita ke dalam beberapa kategori seperti bisnis, teknologi, kesehatan dan lain sebagainya; pengkategorisasian email sebagai spam atau bukan; pengkategorisasian kilasan film sebagai film favorit, netral atau tidak favorit; pengkategorisasian paper yang menarik dan tidak menarik; dan penggunaan dari kategorisasi teks yang paling umum adalah kategorisasi otomatis dari web pages yang dimanfaatkan oleh portal Internet seperti Yahoo. Kategorisasi otomatis ini memudahkan proses browsing artikel berdasarkan topik tertentu yang dilakukan oleh user. Salah satu algoritma kategorisasi yang sering digunakan adalah algoritma Naive bayes multinomial. Algoritma ini merupakan algoritma yang menerapkan metode probabilistic learning method.

Kategori / Kelas di tentukn dahulu sebelum me assign data ke dalam kategori

All these task required text preprocessing


steps-in-text-processing

  • Dokumenting : mendokumentasikan teks
  • Identifikasi all unique words ( tokenisasi), memecah kata jadi satu-satu.
  • Removal stop words ( menghapus stop words, stop words : kata yang tidak informative, relevan seperti : the, end, etc),  stop words can cause problems when using a search engine to search for phrases that include them, particularly in names such as ‘The Who’, ‘The The’, or ‘Take That’.
  • Words stemming: Proses untuk menemukan kata dasar dari sebuah kata. Menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan (prefixes), sisipan (infixes), akhiran (suffixes) dan confixes (kombinasi dari awalan dan akhiran) pada kata turunan. Stemming digunakan untuk mengganti bentuk dari suatu kata menjadi kata dasar dari kata tersebut yang sesuai dengan struktur morfologi Bahasa yang baik dan benar.
  • Bersambung .. ngantuk zzzz..zzzz

source : http://www.ittelkom.ac.id/library/, google.com

One response to “Text Mining- Text Preprocessing

  1. lit November 15, 2009 at 3:05 pm

    makasih artikelnya…
    ada algoritma text mining yang lgkp gak?
    mksh sblmnya…

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: