初心者コンテストに挑戦② 前処理 欠損値の確認と文字を数字へ振り替え
前回の続きです。
まずは
①trainデータをJupyterで読みこんで欠損値がないかどうか確認します。
Octaveではsize(train)の関数でしたが、Jupyterでは↓になります。
27100 X 18 になっています。
describe関数で基礎統計量を確認しました↓
9つ出ています。
数で表現できるものが表示されていると思います。
countが27100なので欠損がないと思います。
データの型を確認したいと思います。
Jupyterでは train.info() で関数します。
objectは文字でした。Intは整数です。
欠損値の数を確認できる関数
を使ってダブルチェックします。
合計が0なので欠損値はありません。
違う関数でダブルチェックします。
Trueだと欠損値がありますが、全てFalseなので欠損値がありません。
②数で表現できないデータを数字に振り替えてみたいと思います。
まず職業が何通りで登録されているのかをみます↓
blue-collarは1、managementは2、・・・というように割り振ろうと思ったのですが、
もっといい手がみつかりました。
getdummiesという関数を使うと↓のように0、1になります↓
↓のようにすると基データに追加することができます。
こちらを全データに展開しました↓
monthとdayは省きました。年がないと意味がないと思いましたので。
結果、27100X18だったものが27100X38になりました↓
OctaveにこのtrainCを読み込ませたいのでcsvファイルに転換します↓
無事にできました↓
Octaveに読み込ませます↓
27100X38のデータ量なので読み込むのにすごい時間がかかりました。。。。
読み込めるところまできたんで、
次回はLogistic Regressionに取り組みます!