Laplacian Correction Naive Bayes: Cara Menghindari Probabilitas Nol

Cara Menghindari Probabilitas Nol

Pada metode Naive Bayes, seringkali kita menghadapi kasus nilai probabilitas 0 (nol) saat sebuah fitur tidak muncul di data pelatihan untuk suatu kelas. Sebagai contoh, jika dalam data training fitur “Tinggi” tidak pernah muncul untuk kelas Ya, maka perhitungan probabilitas P(Tinggi|Ya) akan nol. Untuk mengatasi masalah ini, kita menggunakan Laplacian Correction (juga disebut Laplace smoothing). Laplace smoothing menambahkan sebuah bilangan konstanta (biasanya 1) pada setiap hitungan frekuensi agar tidak ada probabilitas yang benar-benar nol.

Apa Itu Laplacian Correction ?

Laplace  Correction  (Laplacian  Estimator) atau additive smoothing adalah suatu cara untuk menangani nilai probabilitas 0 (nol). Dari sekian banyak data di training set, pada setiap perhitungan datanya ditambah 1 (satu) dan tidak akan  membuat  perbedaan  yang  berarti  pada  estimasi probabilitas  sehingga  bisa  menghindari  kasus  nilai probabilitas 0 (nol). Metode perhitungan ini ditemukan oleh Pierre Laplace seorang ahli matematika dari Prancis pada abad ke-18.

Dengan Laplace smoothing, rumus probabilitas bersyarat diubah menjadi:

P(x<sub>i</sub> | C) = (count(x<sub>i</sub>,C) + 1) / (count(C) + V)

di mana count(x<sub>i</sub>,C) adalah jumlah data berfitur x<sub>i</sub> dalam kelas C, count(C) adalah total data kelas C, dan V adalah jumlah kemungkinan nilai fitur (jumlah kategori fitur). Penambahan “+1” di pembilang dan penambahan V (karena 1×V) di penyebut memastikan setiap probabilitas fitur minimal (1/(count(C)+V)), sehingga tidak nol

Kelemahannya adalah untuk set data yang memiliki jumlah tupel atau record data yang sedikit, teknik ini dinilai kurang akurat, namun sebaliknya pada jumlah tupet yang banyak akan sangat akurat untuk model Naive Bayes ini. Baca juga : Pahami apa itu Dataset dan Jenis-jenisnya 

Contoh Kasus

Misalkan kita punya dataset sederhana tentang pelanggan kartu telepon dan bonus. Data latih (training set) sebagai berikut:

Pelanggan Kartu Panggilan Blok Bonus
Andi Prabayar Sedikit Sedang Tidak
Budi Pascabayar Banyak Sedang Ya
Citra Prabayar Banyak Sedang Ya
Dedi Prabayar Banyak Rendah Tidak
Evi Cukupnya Cukup Tinggi Ya
Feni Prabayar Cukup Sedang Ya
Gito Pascabayar Cukup Sedang Ya
Hani Pascabayar Cukup Rendah Tidak
Jodi Pascabayar Sedikit Tinggi Ya
Kafi Pascabayar Banyak Rendah Ya
Linda Pascabayar Sedikit Rendah Ya

Kita ingin menghitung probabilitas suatu pelanggan dengan fitur (Pascabayar, Cukup, Rendah) mendapatkan bonus Ya atau Tidak. Tanpa smoothing, perhitungan probabilitas fitur melibatkan pembagian sederhana berdasarkan frekuensi.

Langkah-Langkah Laplace Correction

1. Hitung Frekuensi Awal – Tentukan berapa kali setiap kombinasi fitur muncul untuk kelas Ya dan Tidak. Dari tabel, misalnya:

  • Bonus=Ya: 8 data. Bonus=Tidak: 3 data.
  • Fitur Kartu=Pascabayar muncul 6 kali di kelas Ya, dan 0 kali di kelas Tidak.
  • Fitur Panggilan=Cukup muncul 3 kali di kelas Ya, dan 1 kali di kelas Tidak.
  • Fitur Blok=Rendah muncul 1 kali di kelas Ya, dan 2 kali di kelas Tidak.

2. Cek Frekuensi Nol – Identifikasi fitur yang memiliki frekuensi 0 pada salah satu kelas. Pada contoh:

  • Untuk kelas Tidak, fitur Kartu=Pascabayar belum pernah muncul (frekuensi 0).

3. Terapkan Laplace Smoothing – Tambahkan 1 ke setiap frekuensi (termasuk yang nol). Jika terdapat V kategori nilai fitur (misal V=3 kemungkinan nilai kartu: Prabayar, Pascabayar, Cukupnya), maka total count kelas yang dipakai pada denominator otomatis bertambah V×1 (untuk setiap fitur ditambahkan 1).

  • Misal: Awalnya P(Kartu=Pascabayar | Tidak) = 0/3. Dengan Laplace: =(0+1)/(3+3) = 1/6. Denominator 3 meningkat menjadi 6 (karena ada 3 kemungkinan kategori Kartu).
4. Hitung Probabilitas Baru – Lakukan perkalian probabilitas fitur untuk kelas Ya dan Tidak. Sebagai contoh:

  • Sebelum smoothing: P(Ya) = 8/11, dan P(‘Pascabayar’|Ya)=6/8, P(‘Cukup’|Ya)=3/8, P(‘Rendah’|Ya)=1/8. Perkalian:
    • P(Ya|(Pascabayar, Cukup, Rendah)) ∝ (8/11)(6/8)(3/8)*(1/8) ≈ 0,256. 
    • Untuk kelas Tidak: P(Tidak)=3/11, P(Pascabayar|Tidak)=0/3 (karena data kosong) → produk jadi 0.
  • Setelah smoothing:
    • P(Ya)=8/11 masih, P(Pascabayar|Ya)=(6+1)/(8+3)=7/11, P(Cukup|Ya)=(3+1)/(8+3)=4/11,
    • P(Rendah|Ya)=(1+1)/(8+3)=2/11.
    • Produk ≈ (8/11)(7/11)(4/11)(2/11) ≈ 0,072.
    • Untuk kelas Tidak: P(Tidak)=3/11, P(Pascabayar|Tidak)=(0+1)/(3+3)=1/6,
    • P(Cukup|Tidak)=(1+1)/(3+3)=2/6, P(Rendah|Tidak)=(2+1)/(3+3)=3/6.
    • Produk ≈ (3/11)(1/6)(2/6)(3/6) ≈ 0,0048.

Dari perhitungan di atas terlihat bahwa nilai probabilitas nol berhasil diatasi: sebelum smoothing, P(Tidak) menjadi 0 karena P(Pascabayar|Tidak)=0; setelah smoothing, semua nilai probabilitas produk menjadi non-nol. Kelas dengan nilai P lebih tinggi akan terpilih sebagai hasil klasifikasi.

Cara Kerja Laplacian Correction

  1. Menambahkan satu tupel atau record data dengan Bonus = Tidak. Mengapa ? Karena probabilitas yang memiliki nilai 0 adalah Bonus = Tidak
  2. Ada 3 atribut yaitu kartu = Pascabayar, Panggilan = Cukup, Blok = Rendah. Sehingga record yang ditambahkan adalah 3

Perhitungan Laplace Smoothing (Ringkas)

Secara matematis, untuk tiap fitur x dan kelas C dihitung:

Rumus Laplace Smoothing

dengan V jumlah kemungkinan nilai x. Penambahan +1 memastikan tidak ada count = 0. Konsep ini secara umum disebut add-one smoothing. Nilai probabilitas yang semula nol jadi minimal bernilai 

1/(count(C)+V). Jika terdapat banyak data, penambahan 1 tidak mempengaruhi probabilitas signifikan, namun penting untuk akurasi model dengan data langka. 

Jika kamu masih kebingungan coba saya jelaskan versi lainnya

Kesimpulan

Laplacian Correction (Laplace smoothing) adalah teknik untuk menghindari nilai probabilitas nol pada Naive Bayes. Dengan menambah 1 ke setiap hitungan, semua probabilitas fitur tetap terdefinisi, sehingga algoritma Naive Bayes dapat terus melakukan klasifikasi meski ada kombinasi fitur yang belum pernah muncul di data training. Penggunaan metode ini sangat bermanfaat terutama saat jumlah data belum besar atau ada fitur jarang muncul. Namun, perlu diingat bahwa pada dataset kecil penambahan konstan dapat sedikit mengubah hasil (karena efek smoothing lebih terasa), sehingga pemilihan nilai smoothing α bisa disesuaikan jika diperlukan.

Dengan pemahaman dan perhitungan yang lebih terstruktur seperti di atas, mahasiswa dapat lebih mudah menangkap cara kerja Laplacian Correction dalam Naive Bayes. Semoga penjelasan dan contoh perhitungannya membantu menghitung nilai probabilitas 0 pada algoritma Naive Bayes dengan tepat. Jangan lupa bagikan jika bermanfaat, dan terus eksplorasi teknik statistik lainnya!

Oke terimakasih sudah berkunjung, semoga bermanfaat. "Jangan Lupa Bernafas dan Tetap Bersyukur".

FAQ – Laplacian Correction pada Algoritma Naive Bayes

1. Apa itu Laplacian Correction atau Laplace Smoothing?

Laplacian Correction (juga dikenal sebagai Laplace Smoothing) adalah teknik dalam algoritma Naive Bayes untuk menghindari probabilitas nol. Teknik ini bekerja dengan menambahkan nilai konstan (biasanya 1) ke setiap hitungan frekuensi fitur.

2. Kenapa probabilitas nol perlu dihindari dalam Naive Bayes?

Karena Naive Bayes menghitung probabilitas total dengan cara mengalikan probabilitas masing-masing fitur, satu nilai nol akan membuat hasil akhirnya juga nol. Ini menyebabkan model gagal mengklasifikasikan data yang memiliki kombinasi fitur baru.

3. Kapan Laplacian Correction paling berguna?

Smoothing sangat berguna ketika:

  • Dataset berukuran kecil

  • Fitur jarang muncul (low frequency features)

  • Ada kemungkinan munculnya kombinasi fitur baru saat pengujian

4. Apakah smoothing bisa mempengaruhi hasil prediksi?

Ya, terutama pada dataset kecil. Karena nilai tambahan (α = 1, secara default) punya pengaruh cukup besar, smoothing bisa mengubah proporsi probabilitas asli secara signifikan. Oleh karena itu, pemilihan nilai smoothing α\alpha bisa disesuaikan.

5. Apakah Laplacian Correction hanya digunakan pada Naive Bayes?

Meskipun paling sering digunakan di Naive Bayes, konsep smoothing juga diterapkan di berbagai algoritma probabilistik lain untuk menghindari nilai ekstrim atau pembagian nol.

Post a Comment for "Laplacian Correction Naive Bayes: Cara Menghindari Probabilitas Nol"