Dataset adalah Data untuk Data Mining

Yuk, Kenalan dengan Dataset: Apa Sih Maksudnya?

Assalamulaikum Wr. Wb, Salam Sajahtera dan Salam Budaya

Di postingan kali ini, aku mau ngajak kamu buat kenalan lebih dekat sama yang namanya dataset. Artikel ini cocok banget buat kamu yang lagi belajar data mining, data science, atau lagi nyusun skripsi/penelitian yang berhubungan sama data. Jadi, jangan di-skip ya!

Apa Itu Dataset?

Dataset (atau bisa disebut juga sebagai himpunan data, data latih, atau training data) adalah kumpulan data yang biasanya berasal dari masa lalu dan digunakan untuk mengolah informasi baru. Dataset ini sering banget dipakai dalam proses data mining.

Kalau diibaratkan, dataset itu seperti bahan mentah yang siap diolah menjadi informasi atau pengetahuan baru lewat teknik-teknik analisis data.

Jenis-Jenis Dataset: Private vs Public

Dalam dunia data, ada dua jenis dataset yang perlu kamu tahu:

Private Dataset
Dataset ini biasanya berasal dari instansi atau organisasi tertentu dan nggak bisa diakses sembarangan. Contohnya: data pelanggan dari bank, data pasien di rumah sakit, data mahasiswa di kampus, dan lain-lain. Biasanya digunakan dalam penelitian internal.
Public Dataset
Nah, kalau yang ini bisa diakses publik. Cocok buat kamu yang lagi nyari data buat tugas atau riset. Beberapa contoh sumber public dataset:
- UCI Repository
- ACM KDD Cup

Kenapa penting? Karena public dataset memungkinkan penelitian kamu bisa diulang (repeatable), dibandingkan (comparable), dan diverifikasi (verifiable) oleh peneliti lain.

Pembahasan Kedua adalah mengenai tujuan data set. Dewasa ini penelitian yang dilakukan pada bidang illmu data mining adalah menguji metode yang dikembangkan oleh peneliti dengan public dataset. Sehingga penelitian tersebut dapat bersifat comparable, repeatable, dan veriviable.

Tujuan dari Dataset dalam Penelitian

Salah satu fungsi utama dataset dalam penelitian data mining adalah sebagai bahan uji. Misalnya, kamu lagi ngembangin metode klasifikasi baru, nah kamu perlu dataset buat ngetes apakah metode kamu itu efektif atau nggak.

Dengan dataset yang tepat, kamu bisa tahu:

Apakah metode kamu akurat?
Bisa nggak diterapkan di kondisi nyata?
Gimana performanya dibanding metode lain?

Komponen Dataset: Atribut & Label/Kelas

Secara umum, dataset terbagi jadi dua bagian utama:

Atribut
Ini adalah fitur atau kolom-kolom yang menggambarkan data. Contohnya: usia, jenis kelamin, asal sekolah, status pernikahan, dsb.
Label / Kelas / Tupel / Target
Bagian ini adalah hasil akhir atau output dari data tersebut. Misalnya: apakah mahasiswa lulus tepat waktu atau tidak.

Contoh Dataset dalam Tabel

Berikut contoh dataset sederhana:

Jenis Kelamin	Asal Daerah	Cuti	Asal SMA	Nikah	Program	Studi
Laki-Laki	Dalam Kab	Tidak	SMK	Belum	Reguler	Terlambat
Laki-Laki	Dalam Kab	Tidak	MA	Sudah	Reguler	Terlambat
Laki-Laki	Dalam Prov	Ya	MA	Belum	Reguler	Tepat
Perempuan	Luar Pulau	Tidak	SMA	Belum	Karyawan	Terlambat
Laki-Laki	Dalam Kab	Ya	SMA	Belum	Reguler	Terlambat
Laki-Laki	Dalam Kab	Tidak	SMA	Belum	Reguler	Tepat
Laki-Laki	Dalam Prov	Tidak	SMA	Belum	Reguler	Tepat
Perempuan	Luar Pulau	Tidak	SMA	Belum	Reguler	Tepat
Perempuan	Dalam Prov	Tidak	SMK	Belum	Karyawan	Tepat
Perempuan	Dalam Prov	Tidak	SMK	Belum	Reguler	Tepat

Tabel diatas merupakan sedikit contoh gambaran dari sebuah dataset yang memiliki dua bagian dari atribut dan label.

Di sini, kolom Studi adalah label atau target-nya, sedangkan sisanya adalah atribut.

Letak kolom Atribut terdapat dibagian dari aktifitas sebuah data sebelum menuju ke targetnya contoh

Berikutnya adalah letak kolom dari Label/kelas/tupel/target, terdapat pada bagian akhir yang merupakan sebuah hasil dari aktifitas atribut. contoh ;

Contoh Dataset Sederhana.

1. Data Golf

Yang pertama adalah data golf. Data ini mungkin sudah familiar dengan data yang sering dipakai sebagai contoh dalam buku-buku yang membahas tentang mengolah data menjadi sebuah informasi dengan ilmu data mining.
Pada data golf ini akan mempresentasikan layak bermain golf ya atau tidak dengan mengambil 4 jenis atribut dari dua atribut kategorikal atau diskrit dan dua atribut beripe numerik. Pada dataset ini dengan melihat jenis datanya dan seperti yang juga tertulis pada buku karya Eko Prasetyo mampu digunakan dengan menggunakan Algoritma klasifikasi seperti Naive Bayes dan C4.5 dari keluarga Decision Tree.
Apa saja isi datanya ?, Kamu juga bisa melihat dan mengunduh Data Golf pada link dibawah ini.
Unduh Disini

2. Data Customer

Yang kedua adalah data customer. Data ini spesifiknya digunakan untuk memprediksi setiap pelanggan apakah masih setia ya tetap bertahan atau tidak. Dataset ini terdiri dari 3 atribut dari 2 atribut kategorikal dan 1 atribut numerik. Pada dataset ini akan sangat cocok bagi kamu yang masih pemula untuk belajara ilmu data mining.
Dengan melihat jenis datanya. Maka algoritma yang mampu untuk mengklasifikasikan dataset ini adalah Naive Bayes, dan Decision Tree, Namun jika menurut saya adalah yang akuasinya akurat adalah dengan metode Naive Bayes dengan menggunakan fungsi gaussian.
Nah, kamu juga bisa melihat dan mengunduh file data tersebut pada tombol dibawah ini
Unduh Disini

3. Data Iris

Yang ketiga adalah data iris, Data ini merupakan data yang digunakan untuk mempridiksi spesies bunga yang terdiri dari iris-setosa, iris-versicolour dan iris verginica. Dengan mengukur empat elemen yaitu Petal Lenght, Petal Width, Sepal Lenght dan Sepat Widht. Data ini hanya terdiri dari atribut data yang bertipe numerik.
Nah, dengan melihat jenis datanya, ada beberapa algoritma atau metode yang bisa gunakan, yaitu Decision Tree, k-NN (Nearest Neighbor) dan Neural Network.
Unduh Disini

Penutup

Sekian dulu artikel tentang Apa itu Dataset ini. Semoga bisa nambah wawasan kamu dan jadi referensi buat kamu yang lagi belajar data mining atau analisis data.

“Jangan lupa bernafas dan tetap bersyukur.”

Kalau kamu merasa artikel ini bermanfaat, boleh banget bantu support pengembangan blog ini lewat Saweria. Terima kasih banyak ya!

See You, and Wassalamualikum Wr.Wb

FAQ Tentang Dataset

Apa itu dataset?
Dataset adalah kumpulan data yang digunakan untuk analisis atau pelatihan model dalam data science dan machine learning.

Apa perbedaan atribut dan label?
Atribut adalah fitur-fitur deskriptif dalam dataset, sedangkan label adalah hasil atau target dari data tersebut.

Dimana bisa mendapatkan dataset gratis?
Kamu bisa mendapatkan public dataset dari UCI Repository atau Kaggle.

Pengalaman Edukasi