Semua rumus ini ada di Excel dan gampang banget dipakai. Langsung praktik ya!
Baca Juga : Cara menghitung laplacian correction algoritma Naive Bayes
1. Persiapan Data
Pertama lakukan filter berdasarkan kelasnya. Disini saya akan memberi contoh dengan memfilter dua kelas yaitu (Lulus dan Keluar). Cara mengaktifkan adalah pertama. Blok Letak kolom kelas, kemudian pilih menu Sort & Filter dan pilih Filter. Selanjutnya pada kolom kelas pilih icon filter dan pilih salah satu kelas yang akan di filter.
Langkah berikutnya buat tabel sendiri untuk menyalin data yang sudah di Filter. Dalam contoh saya akan membuat tabel seperti ini
2. Hitung NILAI MEAN
Pada konsep perhitungan selanjutnya kita akan menghitung nilai mean atau rata-rata disetiap atributnya dengan berdasarkan kelasnya. Dalam contoh kita akan menghitung nilai mean dari atribut Jumlah MK dengan kondisi kelas lulus maka formulanya adalah
=AVARAGE(Blok Kolom JUMLAH MK) kemudian ENTER. Catatan lain kita harus membuat tabel MEAN tersendiri agar bisa membedakan untuk pehitungannya. Contoh :
Tabel diatas adalah hasil perhitungan dari nilai mean berdasarkan kelasnya yang sudah kita filter ditahap nomer satu tadi.
3. Hitung Standar Deviasi.
Selanjutnya kita hitung nilai standar deviasi nya dari masing-masing atribut berdasarkan kelasnya. Dan rumus standar deviasi adalah sebagai berikut
Bagaimana kita menerapkan di formula excel ? jawabnya sudah disediakan oleh microsoft dengan memberikan fitur yang mudah, fitur atau formula standar deviasi terdapat dua bagian yaitu. STDEV.S dan STDEV.P . Apa fungsi itu semua sama atau berbeda ?
- STDEV.S , adalah kondisi argumennya adalah sampel dari populasi
- STDEV.P , adalah kondisi yang agrumennya menghitung seluruh populasi
Dalam kasus ini kita akan menggunakan STDEV.S karena yang akan kita hitung adalah masing-masing atribut dari seluruh populasi.
Sama seperti point nomor dua, buat tabel untuk membedakan atribut dari kelas lulus dan kelas keluar. Dalam contoh kita akan menghitung nilai standar deviasi dari atribut Jumlah MK. kemudian hitung standar deviasi dengan formula
=STDEV.S(Blok atribut JUMLAH MK) kemudian ENTER. Dan lakukan ini untuk setiap atributnya.
Tabel diatas adalah hasil perhitungan dari nilai standar deviasi berdasarkan kelasnya yang sudah kita filter ditahap nomer satu tadi.
4. Hitung Probabilitas Setiap kelasnya
Selanjutnya adalah menghitung nilai probabilitas atau peluang dari setiap kelasnya. Disini kita akan menggunakan formula COUNTIF dan COUNTA. Yang kita hitung nilai peluangnya bukan lagi data yang sudah di filter tapi adalah data yang asli atau data sebelum kita filter. dan Kita tulis rumusnya untuk menghitung nilai peluang dari kelas Lulus
=COUNTIF(Blok atribut Kolom Kelas;"Lulus"/COUNTA(Blok atribut Kolom Kelas) kemudian ENTER. dan untuk atribut kelas Keluar maka kita hanya mengganti "Lulus" menjadi "Keluar".
Tabel diatas adalah hasil dari nilai probabilitas dari masing-masing kelasnya.
5. Hitung Nilai Gaussiannya.
Distribusi Gaussian adalah merupakan langkah terakhir untuk mengetahui hasil dari data latih, atau sebuah model uji data dengan mengambil nilai dari peluang dari data latih. Rumusnya adalah sebagai berikut :
Berikutnya kita akan mencoba menghitung dari nilai uji data yang belum diketahui kelasnya
Pertama hitung dulu distribusi gaussian dari masing-masing kelas yaitu kelas lulus dan keluar.
Jika menghitung dari kelas LULUS maka kita harus mengambil dari nilai mean, standar deviasi dari kelas Lulus yang sudah di bedakan dari poin satu dan dua. Dalam contoh kita akan menghitung nilai distribusi gaussian dari atribut Jumlah MK kelas Lulus. Tulis rumusnya seperti ini
=1/SQRT(2*3,14*standar deviasi Jumah MK kelas LULUS)*EXP(-((54-Nilai mean Jumlah MK kelas LULUS)^2/(2*standar deviasi Jumah MK kelas LULUS^2))) kemudian ENTER
lakukan rumus itu untuk masing-masing atribut. Dan untuk distribusi gaussian dari kelas Keluar maka ganti dengan nilai dari kelas keluar.
Setelah sudang menghitung dari atribut Jumlah MK sampai IPS S3, Maka langkah terakhir adalah mengalikan semua variabel dengan nilai probabilitas dari masing-masing kelas atau poin empat.
Caranya adalah =4.02403E-06*0.05512 .................. *0.03807425*nilai probabilitas kelas Lulus) kemudian Enter dan jika kelas Keluar maka ganti dengan nilai probabiltas kelas Keluar.
Kemudian hasil dari masing-masing kelas terdapat pada tabel di kolom kelas diatas.
Cari nilai Maximalnya. Dan diisitu nilai maksimalnya diperoleh dari hasil dari Distribusi Gaussian kelas Keluar.
Maka data uji dari mahasiswa dengan jumlah mk = 54, absensi =81,03%, Jumlah SKS 1-3 = 100, IPS S1 = 2.25, IPS S2 =2.83, IPS S3 =1.8 di prediksi algoritma naive bayes dengan hasil kelasnya adalah KELUAR.
FAQ (Yang sering ditanyakan oleh kalian)
Q1: Kenapa harus pakai STDEV.S, bukan STDEV.P?
Karena kita ambil sampel dari populasi, bukan seluruh populasi.
Q2: Apakah bisa pakai Google Sheets?
Bisa banget! Rumusnya sama persis kayak di Excel.
Q3: Berapa banyak data minimal buat Naive Bayes?
Semakin banyak data, semakin akurat modelnya. Minimal puluhan record lah.
Q4: Kenapa hasil prediksi kadang beda kalau data kecil?
Karena probabilitas dan distribusi Gaussian bisa misleading kalau data terlalu sedikit.
Q5: Bisa dipakai buat tugas kuliah?
Banget! Justru ini favorit dosen buat tugas machine learning dasar
Kesimpulan
Menghitung Naive Bayes dengan Excel itu gampang banget asal ngerti langkah-langkah dasarnya. Mulai dari filter data, hitung mean, standar deviasi, probabilitas, hingga distribusi Gaussian. Modal sabar dikit, skill analisismu langsung naik level!
Kalau kalian mau lebih jago lagi, bisa lanjut belajar tools kayak RapidMiner atau Python buat proyek data science beneran.
Oke, sekian dulu tutorial ini. Semoga bermanfaat buat tugas kuliah, skripsi, atau proyek kalian!
Wassalamualaikum Wr. Wb.
Salam semangat, pejuang data!