初心者コンテストに挑戦②　前処理　欠損値の確認と文字を数字へ振り替え

前回の続きです。

①trainデータをJupyterで読みこんで欠損値がないかどうか確認します。
②数で表現できないデータを数字に振り替えてみたいと思います。

まずは

①trainデータをJupyterで読みこんで欠損値がないかどうか確認します。

Octaveではsize(train)の関数でしたが、Jupyterでは↓になります。

f:id:omoshiroamericanews:20200814141558p:plain

27100　X　18　になっています。

describe関数で基礎統計量を確認しました↓

f:id:omoshiroamericanews:20200814141852p:plain

9つ出ています。

数で表現できるものが表示されていると思います。

countが27100なので欠損がないと思います。

データの型を確認したいと思います。

Jupyterでは　train.info()　で関数します。

f:id:omoshiroamericanews:20200814142827p:plain

objectは文字でした。Intは整数です。

欠損値の数を確認できる関数

を使ってダブルチェックします。

f:id:omoshiroamericanews:20200814143510p:plain

合計が0なので欠損値はありません。

違う関数でダブルチェックします。

f:id:omoshiroamericanews:20200814144103p:plain

Trueだと欠損値がありますが、全てFalseなので欠損値がありません。

②数で表現できないデータを数字に振り替えてみたいと思います。

まず職業が何通りで登録されているのかをみます↓

f:id:omoshiroamericanews:20200814144506p:plain

blue-collarは1、managementは2、・・・というように割り振ろうと思ったのですが、

もっといい手がみつかりました。

getdummiesという関数を使うと↓のように0、１になります↓

f:id:omoshiroamericanews:20200814150009p:plain

↓のようにすると基データに追加することができます。

f:id:omoshiroamericanews:20200814150158p:plain

こちらを全データに展開しました↓

monthとdayは省きました。年がないと意味がないと思いましたので。

f:id:omoshiroamericanews:20200814150745p:plain

結果、2７100X18だったものが2７１00X38になりました↓

f:id:omoshiroamericanews:20200814150934p:plain

OctaveにこのtrainCを読み込ませたいのでcsvファイルに転換します↓

f:id:omoshiroamericanews:20200814151338p:plain

無事にできました↓

f:id:omoshiroamericanews:20200814152221p:plain

Octaveに読み込ませます↓

f:id:omoshiroamericanews:20200814203305p:plain

27100X38のデータ量なので読み込むのにすごい時間がかかりました。。。。

読み込めるところまできたんで、

次回はLogistic Regressionに取り組みます！

暇人日記II

Courseraの課題で学習できたことの応用を書いていきます！