暇人日記II

Courseraの課題で学習できたことの応用を書いていきます!

初心者コンテストに挑戦② 前処理 欠損値の確認と文字を数字へ振り替え

前回の続きです。

 

 

まずは

①trainデータをJupyterで読みこんで欠損値がないかどうか確認します。

 

Octaveではsize(train)の関数でしたが、Jupyterでは↓になります。

 

f:id:omoshiroamericanews:20200814141558p:plain

27100 X 18 になっています。

 

describe関数で基礎統計量を確認しました↓

 

f:id:omoshiroamericanews:20200814141852p:plain

 

9つ出ています。

数で表現できるものが表示されていると思います。

countが27100なので欠損がないと思います。

 

 

データの型を確認したいと思います。

Jupyterでは train.info() で関数します。

 

f:id:omoshiroamericanews:20200814142827p:plain

objectは文字でした。Intは整数です。

 

欠損値の数を確認できる関数

を使ってダブルチェックします。

 

f:id:omoshiroamericanews:20200814143510p:plain

 

合計が0なので欠損値はありません。

違う関数でダブルチェックします。

 

f:id:omoshiroamericanews:20200814144103p:plain

 

Trueだと欠損値がありますが、全てFalseなので欠損値がありません。

 

 

②数で表現できないデータを数字に振り替えてみたいと思います。

まず職業が何通りで登録されているのかをみます↓

 

f:id:omoshiroamericanews:20200814144506p:plain

blue-collarは1、managementは2、・・・というように割り振ろうと思ったのですが、

もっといい手がみつかりました。

 

getdummiesという関数を使うと↓のように0、1になります↓

f:id:omoshiroamericanews:20200814150009p:plain

 

↓のようにすると基データに追加することができます。

f:id:omoshiroamericanews:20200814150158p:plain

 

こちらを全データに展開しました↓

monthとdayは省きました。年がないと意味がないと思いましたので。

 

f:id:omoshiroamericanews:20200814150745p:plain

 

結果、27100X18だったものが27100X38になりました↓

 

f:id:omoshiroamericanews:20200814150934p:plain

 


OctaveにこのtrainCを読み込ませたいのでcsvファイルに転換します↓

f:id:omoshiroamericanews:20200814151338p:plain

 

無事にできました↓

 

f:id:omoshiroamericanews:20200814152221p:plain

 

Octaveに読み込ませます↓

 

f:id:omoshiroamericanews:20200814203305p:plain



 

27100X38のデータ量なので読み込むのにすごい時間がかかりました。。。。

 

読み込めるところまできたんで、

次回はLogistic Regressionに取り組みます!