Skip to content Skip to sidebar Skip to footer

Cara Mudah Menghitung Gain Ratio Algoritma C4.5


Assalamualaikum Wr.Wb - Salam Sejahtera dan Salam Budaya

Gain Ratio adalah sebuah perhitungan yang dilakukan khusus untuk penggunaan algorirma C4.5. Berbeda dengan Information Gain untuk menghitung Gain Ratio digunakan agar tidak bias dalam menentukan atribut pemilah terbaik. (The best split attribute).

Algoritma C4.5 adalah pengembangan dari algoritma ID3 yang juga termasuk dalam keluarga decision tree. Yang membedakan adalah algoritma C4.5 bisa mengatasi atribut data benilai numerik (kontinu) dan bisa menangani atribut yang memiliki nilai yang kosong (missing value). Dan bisa memangkas pohon keputusan, yaitu membuang cabang-cabang pohon yang overfit dan menggantikannya dengan simpul-simpul daun yang lebih general.

Baca Juga : Analisis Dasar Algoritma C4.5

Apa Perbedaan Gain Ratio dan Information Gain ?

  • Gain Ratio biasa digunakan untuk menentukan atribut yang betipe numerik (komtinu) dan kategorikal atau diskrit.
  • Gain Ratio hanya dimiliki oleh algoritma C4.5 
  • Gain Ratio bisa memberikan nilai sedikit lebih spesifik daripada information gain ?

Cara Menghitung Gain Ratio.

Untuk menghitung Gain Ratio, terlebih dahulu kamu harus menghitung split inforation. Nah, Split Information adalah formula yang digunakan untuk memilah sejumlah atribut. Rumusnya adalah sebagai berikut :
Rumus Split Info
  • S = Jumlah Data Sampel
  • Si = Jumlah masing-masing pada setiap atribut.
Misalkan saya punya data sebagai berikut :

Dataset

Diketahui, 
  • S = 10, 
  • Si(Jenis Kelamin|Laki-Laki) = 6, 
  • Si(Jenis Kelamin|Perempuan) = 4.
Maka perhitungan Split Information yang dilakukan untuk atribut jenis kelamin adalah 

Menghitung Split Info
Selanjutnya adalah menghitung Gain Ratio. Formula atau rumusnya adalah sebagai berikut :

Rumus Gain Ratio
Gain yang dimaksud adalah hasil dari perhitungan Information Gain. Sedangkan untuk menghitung Information Gain adalah dengan cara menentukan dan menghitung nilai Entropy terlebih dahulu. Bagaimana cara menghitungnya ? kamu bisa telusuri tautan dibawah ini

Baca Juga : Cara Menghitung Entropy dan Information Gain Algoritma C4.5

Oke, setelah itu anggap saja kita sudah mendapatkan nilai Information Gain dari atribut Jenis Kelamin yaitu dengan hasil 0.6988 . Kemudian kita masukkan ke dalam formula untuk Gain Ratio.

Gain Ratio
Setelah berhasil menentukan nilai dari Gain Ratio. Maka tahap selanjutnya adalah memilih nilai v atau Gain Ratio yang menghasilkan pratisi terbaik atau nilai yang paling besar. Kemudian terbuatlah node akar pertama untuk pembentukan pohon keputusan berdasarkan tahapan dari algoritma C4.5.

Conclusion

Nah, sebelumnya kita lihat hasil dari Information Gain dan Gain Ratio. Disitu terlihat hasilnya berbeda sedikit. Namun seringkali pertanyaan seperti ini akan muncul di benak pikiran. Apakah Algoritma C4.5  Harus ditentukan dengan nilai Gain Ratio ?.

Jawabnya adalah Tidak Harus . Kenapa ?

Karena Gain Ratio digunakan apabila datanya bertipe numerik dan campuran (kategorikal dan numerik) serta akan sangat membantu jika digunakan pada atribut yang memiliki nilai yang kosong (missing value). Dan algoritma C4.5 boleh kita hitung hanya memakai kriteria dari Information Gain jika atribut data nya berniilai diskrit/kategorikal. Karena sudah kita bahas diawal tadi bahwa Algoritma C4.5 adalah pengembangan dari algoritma ID3 yang termasuk keluarga dari Decision Tree.

Algoritma C4.5 sendiri juga masih ada pengembangan lagi yang dinamakan Algoritma C5.0, dan yang menjadi pembeda adalah ada tahapan boosting didalamnya. Namun kita akan membahasnya dilain artikel. Dan untuk artikel ini cukup samapai disini saja.

Dan jika kamu ingin belajar lebih dalam lagi, kamu bisa mendapatkan file excelnya.

Download Now
  • File Excel ini berisikan 8 sheet perhitungan dari 3 algoritma
  • Naive Bayes (atribut numerik, deskrit, campuran), k-NN (atribut numerik, campuran ), C4.5 (numerik, deskrit)
  • Harga File Rp. 85.000, -
  • Jika Custom Data pada satu Algoritma Rp. 150.000,-
  • Bonus perhitungan Confusion Matrix.
  • File Excel untuk Satu Agoritma saja Rp. 30.000,-
Bisa menghubungi Admin di menu Contact yang terletak di footer bawah.


Terimakasih, semoga bermanfaat dan bisa memberikan kamu pengalaman edukasi tentang Algoritma C4.5. Satu kata "Jangan Lupa Bernafas dan Tetap Bersyukur".


Wassalamualaikum Wr.Wb,- See You

Sumber Referensi :

Suyanto, 2018. Machine Learning Tingkat Dasar dan Lanjut. INFORMATIKA. Bandung