エントロピー データ集合Dの乱雑さ
データの前処理の1つにデータがどういうものか知るというのがあると思います。
データの乱雑さを表す尺度としてエントロピーを用いる方法があるとありました。
計算式は以下です。
エントロピーE(D)、
として、
E(D) =
とありました。
『エントロピーE(D)の値はP+=1またはP-=1のとき最小値0となる』とあります。
p+=1はデータのうち正例が100%かつ負例が0%なので
乱雑ではないという意味だと思いました。
p-=1はデータのうち正例が0%かつ負例が100%なので
乱雑ではないという意味だと思いました。
『P+=P-=0.5のとき最大値1となる』とあります。
P+=P-=0.5は正例も負例も50%ずつでそのとき乱雑さは最大という意味だと思いました。
この前のSignateの課題のように正例1%、負例99%の場合を考えてみます。
計算結果は0.08でした。
0に近いのでデータの乱雑さという尺度ではデータは整っている(同じクラスのものが大半を占めている)といえるということだったんだと思いました。
この尺度は役に立つような、立たないような、というのが正直な感想です。
0.5より下だったら○○する、0.5より上だったらXXするというような
運用の指標がないと宝の持ち腐れになりそうだと思いました。
本を読み進めると
「データの乱雑さを不純度=impurityと定義すると、エントロピー以外にもいくつかあります。
ジニ不純度(Gini impurity)が代表例です、とありました。」
また興味深いテーマを見つけたら書いていきます。