Dataset adalah Data untuk Data Mining
Yuk, Kenalan dengan Dataset: Apa Sih Maksudnya?
Di postingan kali ini, aku mau ngajak kamu buat kenalan lebih dekat sama yang namanya dataset. Artikel ini cocok banget buat kamu yang lagi belajar data mining, data science, atau lagi nyusun skripsi/penelitian yang berhubungan sama data. Jadi, jangan di-skip ya!
Apa Itu Dataset?
Dataset (atau bisa disebut juga sebagai himpunan data, data latih, atau training data) adalah kumpulan data yang biasanya berasal dari masa lalu dan digunakan untuk mengolah informasi baru. Dataset ini sering banget dipakai dalam proses data mining.
Kalau diibaratkan, dataset itu seperti bahan mentah yang siap diolah menjadi informasi atau pengetahuan baru lewat teknik-teknik analisis data.
Jenis-Jenis Dataset: Private vs Public
Dalam dunia data, ada dua jenis dataset yang perlu kamu tahu:
-
Private Dataset
Dataset ini biasanya berasal dari instansi atau organisasi tertentu dan nggak bisa diakses sembarangan. Contohnya: data pelanggan dari bank, data pasien di rumah sakit, data mahasiswa di kampus, dan lain-lain. Biasanya digunakan dalam penelitian internal. -
Public Dataset
Nah, kalau yang ini bisa diakses publik. Cocok buat kamu yang lagi nyari data buat tugas atau riset. Beberapa contoh sumber public dataset:
Kenapa penting? Karena public dataset memungkinkan penelitian kamu bisa diulang (repeatable), dibandingkan (comparable), dan diverifikasi (verifiable) oleh peneliti lain.
Tujuan dari Dataset dalam Penelitian
Salah satu fungsi utama dataset dalam penelitian data mining adalah sebagai bahan uji. Misalnya, kamu lagi ngembangin metode klasifikasi baru, nah kamu perlu dataset buat ngetes apakah metode kamu itu efektif atau nggak.
Dengan dataset yang tepat, kamu bisa tahu:
-
Apakah metode kamu akurat?
-
Bisa nggak diterapkan di kondisi nyata?
-
Gimana performanya dibanding metode lain?
Komponen Dataset: Atribut & Label/Kelas
Secara umum, dataset terbagi jadi dua bagian utama:
-
Atribut
Ini adalah fitur atau kolom-kolom yang menggambarkan data. Contohnya: usia, jenis kelamin, asal sekolah, status pernikahan, dsb. -
Label / Kelas / Tupel / Target
Bagian ini adalah hasil akhir atau output dari data tersebut. Misalnya: apakah mahasiswa lulus tepat waktu atau tidak.
Contoh Dataset dalam Tabel
Berikut contoh dataset sederhana:
Jenis Kelamin | Asal Daerah | Cuti | Asal SMA | Nikah | Program | Studi |
Laki-Laki | Dalam Kab | Tidak | SMK | Belum | Reguler | Terlambat |
Laki-Laki | Dalam Kab | Tidak | MA | Sudah | Reguler | Terlambat |
Laki-Laki | Dalam Prov | Ya | MA | Belum | Reguler | Tepat |
Perempuan | Luar Pulau | Tidak | SMA | Belum | Karyawan | Terlambat |
Laki-Laki | Dalam Kab | Ya | SMA | Belum | Reguler | Terlambat |
Laki-Laki | Dalam Kab | Tidak | SMA | Belum | Reguler | Tepat |
Laki-Laki | Dalam Prov | Tidak | SMA | Belum | Reguler | Tepat |
Perempuan | Luar Pulau | Tidak | SMA | Belum | Reguler | Tepat |
Perempuan | Dalam Prov | Tidak | SMK | Belum | Karyawan | Tepat |
Perempuan | Dalam Prov | Tidak | SMK | Belum | Reguler | Tepat |
Tabel diatas merupakan sedikit contoh gambaran dari sebuah dataset yang memiliki dua bagian dari atribut dan label.
Contoh Dataset Sederhana.
1. Data Golf
Yang pertama adalah data golf. Data ini mungkin sudah familiar dengan data yang sering dipakai sebagai contoh dalam buku-buku yang membahas tentang mengolah data menjadi sebuah informasi dengan ilmu data mining.
Pada data golf ini akan mempresentasikan layak bermain golf ya atau tidak dengan mengambil 4 jenis atribut dari dua atribut kategorikal atau diskrit dan dua atribut beripe numerik. Pada dataset ini dengan melihat jenis datanya dan seperti yang juga tertulis pada buku karya Eko Prasetyo mampu digunakan dengan menggunakan Algoritma klasifikasi seperti Naive Bayes dan C4.5 dari keluarga Decision Tree.
Apa saja isi datanya ?, Kamu juga bisa melihat dan mengunduh Data Golf pada link dibawah ini.
2. Data Customer
Yang kedua adalah data customer. Data ini spesifiknya digunakan untuk memprediksi setiap pelanggan apakah masih setia ya tetap bertahan atau tidak. Dataset ini terdiri dari 3 atribut dari 2 atribut kategorikal dan 1 atribut numerik. Pada dataset ini akan sangat cocok bagi kamu yang masih pemula untuk belajara ilmu data mining.
Dengan melihat jenis datanya. Maka algoritma yang mampu untuk mengklasifikasikan dataset ini adalah Naive Bayes, dan Decision Tree, Namun jika menurut saya adalah yang akuasinya akurat adalah dengan metode Naive Bayes dengan menggunakan fungsi gaussian.
Nah, kamu juga bisa melihat dan mengunduh file data tersebut pada tombol dibawah ini
3. Data Iris
Yang ketiga adalah data iris, Data ini merupakan data yang digunakan untuk mempridiksi spesies bunga yang terdiri dari iris-setosa, iris-versicolour dan iris verginica. Dengan mengukur empat elemen yaitu Petal Lenght, Petal Width, Sepal Lenght dan Sepat Widht. Data ini hanya terdiri dari atribut data yang bertipe numerik.
Nah, dengan melihat jenis datanya, ada beberapa algoritma atau metode yang bisa gunakan, yaitu Decision Tree, k-NN (Nearest Neighbor) dan Neural Network.
Penutup
Sekian dulu artikel tentang Apa itu Dataset ini. Semoga bisa nambah wawasan kamu dan jadi referensi buat kamu yang lagi belajar data mining atau analisis data.
“Jangan lupa bernafas dan tetap bersyukur.”
Kalau kamu merasa artikel ini bermanfaat, boleh banget bantu support pengembangan blog ini lewat Saweria. Terima kasih banyak ya!
FAQ Tentang Dataset
Apa itu dataset?
Dataset adalah kumpulan data yang digunakan untuk analisis atau pelatihan model dalam data science dan machine learning.
Apa perbedaan atribut dan label?
Atribut adalah fitur-fitur deskriptif dalam dataset, sedangkan label adalah hasil atau target dari data tersebut.
Dimana bisa mendapatkan dataset gratis?
Kamu bisa mendapatkan public dataset dari UCI Repository atau Kaggle.
Post a Comment for "Dataset adalah Data untuk Data Mining"
SILAHKAN TANYA DAN DISKUSI DENGAN BIJAK