暇人日記II

Courseraの課題で学習できたことの応用を書いていきます!

エントロピー データ集合Dの乱雑さ

データの前処理の1つにデータがどういうものか知るというのがあると思います。

 

フリーソフトウェアで学ぶ機械学習』の中に、

データの乱雑さを表す尺度としてエントロピーを用いる方法があるとありました。

 

計算式は以下です。

 

エントロピーE(D)、

f:id:omoshiroamericanews:20200929213959p:plainとして、

 

E(D) =  f:id:omoshiroamericanews:20200929213859p:plain

 

 

とありました。

 

エントロピーE(D)の値はP+=1またはP-=1のとき最小値0となる』とあります。

p+=1はデータのうち正例が100%かつ負例が0%なので

乱雑ではないという意味だと思いました。

p-=1はデータのうち正例が0%かつ負例が100%なので

乱雑ではないという意味だと思いました。

 

『P+=P-=0.5のとき最大値1となる』とあります。

P+=P-=0.5は正例も負例も50%ずつでそのとき乱雑さは最大という意味だと思いました。

 

この前のSignateの課題のように正例1%、負例99%の場合を考えてみます。

計算結果は0.08でした。

0に近いのでデータの乱雑さという尺度ではデータは整っている(同じクラスのものが大半を占めている)といえるということだったんだと思いました。

 

この尺度は役に立つような、立たないような、というのが正直な感想です。

0.5より下だったら○○する、0.5より上だったらXXするというような

運用の指標がないと宝の持ち腐れになりそうだと思いました。

 

本を読み進めると

「データの乱雑さを不純度=impurityと定義すると、エントロピー以外にもいくつかあります。

ジニ不純度(Gini impurity)が代表例です、とありました。」

 

また興味深いテーマを見つけたら書いていきます。