Skip to content Skip to sidebar Skip to footer

Cara Hitung Entropy Lebih Dari 2 Kelas - Algoritma Decision Tree

Entopy Multi Class

Assalamualaikum Wr. Wb, Salam Sejahtera dan Salam Budaya

Pada dasarnya algoritma Decision Tree terbagi menjadi beberapa bagian, yaitu ada Algoritma CART, ID3, C4.5, C5.0, Random Forest, serta Gradient Boosting. Dari beberapa algoritma tersebut dasar dari perhitungannya tetap sama yaitu mencari nilai Entropy sebagai tahap awal, namun untuk langkah selanjutnya akan berbeda tahapan sesuai dari masing-masing kriteria pada algoritma tersebut. 

Dalam contoh perhitungan ID3 akan selesai pada tahap menghitung information gain. Berbeda dengan algoritma C4.5 yang bisa menghitung sampai tahap gain ratio bahkan algoritm C4,5 juga bisa menghitung hanya dengan information gain. Serta juga bisa menghitung dengan gini index yang berbeda dengan gain ratio.

Baca Juga : Analisis algoritma C4.5 dan Pembahasan Dasar

Nah, pada artikel ini saya akan menuliskan beberapa cara untuk menghitung tahapan awal algoritma decision tree yaitu menghitung nilai Entropy pada kasus atau kondisi multiclass. Yang dimaksud dengan kondisi multiclass adalah terdapat output class yang terdiri lebih dari dua kelas. Namun sebelum itu mari kita lihat dulu rumus dasar entropy

Rumus Entropy

Rumus dasar Entropy yang sering kita lihat adalah seperti ini

Rumus Entropy

Keterangan :

S  = Himpunan Kasus

n  = Jumlah partisi S

p_i  = probabilitas yang didapat dari jumlah kelas dibagi total kasus

dari rumus tersebut bisa kita lihat terdapat log2 . Pada kasus tersebut logaritma yang hitung hanya 2 kasus yang berbeda. Atau dalam kalimat lain rumus tersebut hanya bisa digunakan jika output class atau label kelasnya hanya terdapat dua kategori. 

Memang beberapa referensi yang sering kita lihat, entah itu referensi dalam bentuk buku, jurnal, paper, atau situs-situs web pasti akan memberikan gambaran rumus seperti yang diatas. Hal tersebut memang mengacu dari krtiteria dari himpunan data yang digunakan klasifikasi supervised learning atau binnary classfication atau klasifikasi dengan minimal terdapat label kelas 2 kategori.

Baca Juga : Himpunan data dan macam-macam fitur dalam Machine Learning

Lalu bisakah rumus tersebut digunakan untuk kondisi lebih dari 2 kelas ?

Jika kita memakai rumus yang seperti itu maka jawabannya tidak bisa. Karena jika kita memiliki set data dengan kondisi multi class maka nilai Entropy yang dihasilkan nilainya lebih dari 1. Dimana dalam buku yang berjudul "Machine Learning Tingkat Dasar dan Lanjut" Karya Suyanto tahun 2018. Dikatan bahwa interval nilai Entropy adalah antara 0 - 0,5 sampai 1.

Nah, seperti pengalaman saya pribadi ketika mempunyai set data dengan label/output class nya 3 kategori dan saya mencoba menggunakan rumus entorpy diatas hasilnya adalah lebih dari 1.

Lantas bagaimanakah solusinya ?

Logaritma

Kita bahas dulu apa itu logaritma. Logaritma adalah operasi matematika yang merupakan kebalikan (invers) dari eksponensiasi (pemangkatan). Artinya, logaritma merupakan operasi pencarian eksponen supaya basis tertentu dipangkatkan dengan eksponen ini menghasilkan nilai dimasukkan. (Sumber : Wikipedia).

Jika kita fikuskan pada kata yang bergaris bawah maka bisa diartikan secara singkat adalah pencarian nilai tertentu sesuai nilai yang dipangkatkan. 😁 (Koreksi jika salah)

Nah artinya pada rumus log kita bisa memasukkan sesuai dengan jumlah dari pemangkatan. 

Contoh 2 pangkat 3 yang dihitung 2x2x2= 8 maka penulisannya adalah 2log8 = 3

Implementasi

Entropy

Pada rumus entropy diatas kita lihat n adalah jumlah dari partisi S dimana S adalah jumlah set data dan partisi S adalah junlah output/label dari S. Artinya n adalah jumlah kelasnya.

Lalu kenapa dituliskan log2 ? Nah, sudah dijelaskan diawal tadi bahwa 2 adalah batas minimal dari karateristik himpunan data pada klasifikasi supervised learning,

Artinya jika kita memiliki set data dengan jumlah kelasnya lebih dari 2 atau dalam contoh kasus saya yang memiliki 3 kelas maka log yang digunakan adalah log3.

Cara Hitung Entropy di Excel Kondisi Multi Class 

Oke setelah kita sudah memahai tentang berbagai informasi diatas, berikutnya adalah cara menghitung log menggunakan excel

Konsep Dasar Menghitung Log (Logaritma) diecel

=LOG(number,[based])

number = nilai yang akan dihitung

based    = antialgoritma / berupa bilangan positif.

log di excel
Disamping adalah cara meghitung log3 dari nilai yang terletak di kolom A1.

. Cara menghitung Gini Index Algoritma C4.5 

 Cara Menghitung Gain Ratio Algoritma C4.5

. Implementasi Algoritma C4.5 di Aplikasi Rapidminer Studio

Menghitung Entropy di excel.

Jika pada rumus dasar entropy menggunakan log2 di aplikasi microsoft excel kita bisa menuliskan IMLOG2 namun jika kita menemukan kasus lebih dari 2 kelas atau memiliki nilai atribut 3 kelas kita harus menggunakan rumus log3 seperti dibawah ini.

Entropy 3 Kelas

Jumlah adalah total dari jumlah dari himpunan data atau set data.

A, B, dan C adalah jumlah atribut kelas nya.

Rumus Excel nya adalah 

=((-X4/V4)*LOG((X4/V4),3)+(-Y4/V4)*LOG((Y4/V4),3)+(-Z4/V4)*LOG((Z4/V4),3))

V4  = adalah jumlah data

X4, Y4, dan Z4 = jumlah dari masing-masing kelas/label/output.

Kesimpulan

Kesimpulan yang bisa kita ambil adalah bahwa log2 yang sering kita temui dalan runus entropy adalah besar jumlah atribut kelas/label nya. Jika kita memiliki atribut 3 kelas maka harus memakai log3 jika mempunyai atribut 4 kelas maka menggunakan log4 dan seterusnya.

Itulah sedikit pengalaman edukasi yang bisa saya berikan terkait cara menghitung nilai Entropy pada algoritma C4.5 menggunakan excel. Selamat Mencoba dan semoga postingan ini bermanfaat.

Terimakasih, semoga informasi ini bisa bermanfaat, apabila kamu berkenan bisa bantu donasi untuk pengembangan blog yang saya bangun melalui link ini https://saweria.co/muiz27 .

Semoga bermanfaat dan kamu bisa menemukan apa yang kamu cari "Jangan Lupa Bernafas dan Tetap Bahagia dalam Tautan Rasa Syukur".

Wassalamialaikum Wr.Wb. Sampai Jumpa Lagi