Dataset adalah Data untuk Data Mining

Data Rantai Blok

Yuk, Kenalan dengan Dataset: Apa Sih Maksudnya?

Assalamulaikum Wr. Wb, Salam Sajahtera dan Salam Budaya

Di postingan kali ini, aku mau ngajak kamu buat kenalan lebih dekat sama yang namanya dataset. Artikel ini cocok banget buat kamu yang lagi belajar data mining, data science, atau lagi nyusun skripsi/penelitian yang berhubungan sama data. Jadi, jangan di-skip ya!

Apa Itu Dataset?

Dataset (atau bisa disebut juga sebagai himpunan data, data latih, atau training data) adalah kumpulan data yang biasanya berasal dari masa lalu dan digunakan untuk mengolah informasi baru. Dataset ini sering banget dipakai dalam proses data mining.

Kalau diibaratkan, dataset itu seperti bahan mentah yang siap diolah menjadi informasi atau pengetahuan baru lewat teknik-teknik analisis data.

Jenis-Jenis Dataset: Private vs Public

Dalam dunia data, ada dua jenis dataset yang perlu kamu tahu:

  1. Private Dataset

    Dataset ini biasanya berasal dari instansi atau organisasi tertentu dan nggak bisa diakses sembarangan. Contohnya: data pelanggan dari bank, data pasien di rumah sakit, data mahasiswa di kampus, dan lain-lain. Biasanya digunakan dalam penelitian internal.

  2. Public Dataset

    Nah, kalau yang ini bisa diakses publik. Cocok buat kamu yang lagi nyari data buat tugas atau riset. Beberapa contoh sumber public dataset:

Kenapa penting? Karena public dataset memungkinkan penelitian kamu bisa diulang (repeatable), dibandingkan (comparable), dan diverifikasi (verifiable) oleh peneliti lain.

Pembahasan Kedua adalah mengenai tujuan data set. Dewasa ini penelitian yang dilakukan pada bidang illmu data mining adalah menguji metode yang dikembangkan oleh peneliti dengan public dataset. Sehingga penelitian tersebut dapat bersifat comparable, repeatable, dan veriviable.

Tujuan dari Dataset dalam Penelitian

Salah satu fungsi utama dataset dalam penelitian data mining adalah sebagai bahan uji. Misalnya, kamu lagi ngembangin metode klasifikasi baru, nah kamu perlu dataset buat ngetes apakah metode kamu itu efektif atau nggak.

Dengan dataset yang tepat, kamu bisa tahu:

  • Apakah metode kamu akurat?

  • Bisa nggak diterapkan di kondisi nyata?

  • Gimana performanya dibanding metode lain?

Komponen Dataset: Atribut & Label/Kelas

Secara umum, dataset terbagi jadi dua bagian utama:

  1. Atribut
    Ini adalah fitur atau kolom-kolom yang menggambarkan data. Contohnya: usia, jenis kelamin, asal sekolah, status pernikahan, dsb.

  2. Label / Kelas / Tupel / Target
    Bagian ini adalah hasil akhir atau output dari data tersebut. Misalnya: apakah mahasiswa lulus tepat waktu atau tidak.

Contoh Dataset dalam Tabel

Berikut contoh dataset sederhana:

 Jenis Kelamin   Asal Daerah Cuti Asal SMA 
 Nikah ProgramStudi 
 Laki-Laki Dalam KabTidak  SMK    Belum Reguler Terlambat 
 Laki-Laki Dalam Kab Tidak MASudah Reguler Terlambat
 Laki-Laki Dalam Prov Ya MA
Belum Reguler Tepat
 Perempuan Luar Pulau Tidak SMA Belum KaryawanTerlambat
 Laki-Laki Dalam Kab Ya SMA Belum Reguler Terlambat
 Laki-Laki Dalam Kab Tidak SMA Belum Reguler Tepat
 Laki-Laki Dalam Prov Tidak SMA Belum Reguler Tepat
 Perempuan Luar Pulau Tidak SMA Belum Reguler Tepat
 Perempuan Dalam Prov Tidak SMK Belum KaryawanTepat
 Perempuan Dalam Prov TidakSMK  Belum Reguler Tepat

Tabel diatas merupakan sedikit contoh gambaran dari sebuah dataset yang memiliki dua bagian dari atribut dan label.

Di sini, kolom Studi adalah label atau target-nya, sedangkan sisanya adalah atribut.
 

Letak kolom Atribut terdapat dibagian dari aktifitas sebuah data sebelum menuju ke targetnya contoh

Dataset

Berikutnya adalah letak kolom dari Label/kelas/tupel/target, terdapat pada bagian akhir yang merupakan sebuah hasil dari aktifitas atribut. contoh ;

Set Data

Contoh Dataset Sederhana.

1. Data Golf

Yang pertama adalah data golf. Data ini mungkin sudah familiar dengan data yang sering dipakai sebagai contoh dalam buku-buku yang membahas tentang mengolah data menjadi sebuah informasi dengan ilmu data mining.

Pada data golf ini akan mempresentasikan layak bermain golf ya atau tidak dengan mengambil 4 jenis atribut dari dua atribut kategorikal atau diskrit dan dua atribut beripe numerik. Pada dataset ini dengan melihat jenis datanya dan seperti yang juga tertulis pada buku karya Eko Prasetyo mampu digunakan dengan menggunakan Algoritma klasifikasi seperti Naive Bayes dan C4.5 dari keluarga Decision Tree

Apa saja isi datanya ?, Kamu juga bisa melihat dan mengunduh Data Golf pada link dibawah ini.

Unduh Disini

2. Data Customer

Yang kedua adalah data customer. Data ini spesifiknya digunakan untuk memprediksi setiap pelanggan apakah masih setia ya tetap bertahan atau tidak. Dataset ini terdiri dari 3 atribut dari 2 atribut kategorikal dan 1 atribut numerik. Pada dataset ini akan sangat cocok bagi kamu yang masih pemula untuk belajara ilmu data mining.

Dengan melihat jenis datanya. Maka algoritma yang mampu untuk mengklasifikasikan dataset ini adalah Naive Bayes, dan Decision Tree, Namun jika menurut saya adalah yang akuasinya akurat adalah dengan metode Naive Bayes dengan menggunakan fungsi gaussian.

Nah, kamu juga bisa melihat dan mengunduh file data tersebut pada tombol dibawah ini

Unduh Disini

3. Data Iris

Yang ketiga adalah data iris, Data ini merupakan data yang digunakan untuk mempridiksi spesies bunga yang terdiri dari iris-setosa, iris-versicolour dan iris verginica. Dengan mengukur empat elemen yaitu Petal Lenght, Petal Width, Sepal Lenght dan Sepat Widht. Data ini hanya terdiri dari atribut data yang bertipe numerik.

Nah, dengan melihat jenis datanya, ada beberapa algoritma atau metode yang bisa gunakan, yaitu Decision Tree, k-NN (Nearest Neighbor) dan Neural Network. 

Unduh Disini

Penutup

Sekian dulu artikel tentang Apa itu Dataset ini. Semoga bisa nambah wawasan kamu dan jadi referensi buat kamu yang lagi belajar data mining atau analisis data.

“Jangan lupa bernafas dan tetap bersyukur.”

Kalau kamu merasa artikel ini bermanfaat, boleh banget bantu support pengembangan blog ini lewat Saweria. Terima kasih banyak ya!

See You, and Wassalamualikum Wr.Wb

FAQ Tentang Dataset

Apa itu dataset?
Dataset adalah kumpulan data yang digunakan untuk analisis atau pelatihan model dalam data science dan machine learning.

Apa perbedaan atribut dan label?
Atribut adalah fitur-fitur deskriptif dalam dataset, sedangkan label adalah hasil atau target dari data tersebut.

Dimana bisa mendapatkan dataset gratis?
Kamu bisa mendapatkan public dataset dari UCI Repository atau Kaggle.

Post a Comment for "Dataset adalah Data untuk Data Mining"