暇人日記II

Courseraの課題で学習できたことの応用を書いていきます!

エントロピー データ集合Dの乱雑さ

データの前処理の1つにデータがどういうものか知るというのがあると思います。 『フリーソフトウェアで学ぶ機械学習』の中に、 データの乱雑さを表す尺度としてエントロピーを用いる方法があるとありました。 計算式は以下です。 エントロピーE(D)、 として…

Jupyter ショートカット

初心者コンテストに挑戦 振り返り

精度が95%以上出なかった。 Neural Networkの場合 すでに過学習か? 今後の課題 Logistic Regressionの場合 精度が95%以上出せなかったことが全て それでは振り返ってみたいと思います。 まず合格点は86点でしたが、57点が最高点でした。 提出した値がど…

初心者コンテストに挑戦⑦Neural Networkでやってみる

年齢を10代、20代、30代として計算してみました。 精度は93-4%です。 年齢を10代、20代とせずに19,25,28などでやっていた予測と 同条件で比較します。 そんなに変わりません。 年齢をカテゴライズしてもあまり予測精度には差が出ないことがわかりました。 …

初心者コンテストに挑戦⑥Neural Networkでやってみる

Predictionを計算する式が間違えていました。 修正してλとMaxIterを色々なパターンを試しました↓ 5000のSampleで実験しました。 λ MAXIter 精度 J 10 10 0.9334 2.6894 1 10 0.9252 2.6044 0.1 10 0.9252 3.0549 0.01 10 0.9322 2.4036 0.001 10 0.9252 3.07…

初心者コンテストに挑戦⑤Neural Networkでやってみる

前回とは方法を変えてNeural Networkでやってみたいと思います。 階層はこのようにしてみました↓ λ=1、MaxIter=250で行ったところ、計算負荷が大きいのか 3時間たっても計算が終了しません。。。。 計算負荷をさげるためにHidden Layerを25から10に変えま…

初心者コンテストに挑戦④Cross Validationする

前回はTraining Set 27100に対して精度92%の最適θをTest setにあてはめて 提出したところ、85点が合格のところ56点でした。 理由は2つ考えられると思います。 ①27100のTraining Set全部に対してだったのでoverfitのかもしれません。 ②もしくは精度92%が低…

初心者コンテストに挑戦③ Octaveで計算

前回、予測の基データをOctaveに読み込ませるところまでやりました。 なので今回はその基データで予測を行ってみたいと思います。 予測方法はCourseraのMachine Learning講座のWeek3と同じ方法を踏襲しました↓ これで最適θが出るので、そうしたら予測して精…

初心者コンテストに挑戦② 前処理 欠損値の確認と文字を数字へ振り替え

前回の続きです。 ①trainデータをJupyterで読みこんで欠損値がないかどうか確認します。 describe関数で基礎統計量を確認しました↓ データの型を確認したいと思います。 欠損値の数を確認できる関数 ②数で表現できないデータを数字に振り替えてみたいと思い…

初心者コンテストに挑戦①

SignateさんのBeginnerコンテストに挑戦してみます↓ 私はPythonはUdemyさんのコースだけの勉強であまりわかっていないので、 CourseraのOctaveで解くことになります。 目的は定期預金キャンペーンに入ったか否かなのでlogistic Regressionの問題です。 要素1…

東京都コロナ感染者数の予測線がFitしないのはアルゴリズムのせいか要素のせいか

前回の日記までコーセラで学んだNeural Networkで予測を行ったところ、 イマイチということが続いていました。 今回はNeural Networkというアルゴリズムが悪いのか、 それとも人出指数の要素が悪いのか、を検証してみたいと思います。 検証の方法はいたって…

初心者のコロナ予測追加改良!? コーセラのNeural Networkをベースに予測

前回の日記でコロナ予測を人出指数なるものを作成して、 NeuralNetworkに放り込んで予測してみました。 初心者の改良!? まだまだ道半ば。 - 暇人日記II この時はTraining set期間の3/11-4/22の累計精度はほぼ100%ですが、 その予測線を4/23-5/5でみるとど…

Jupyter 型問題

度々ひっかかる『型問題』(多分、型問題のはず!?笑) 解決できるよう悪戦苦闘してみます! とあるものを予測してpredと名付けました↓ これをグラフにしようとしました↓ でました!『AttributeError』です! ひらたくいうとJupyterにはデータに『型』と呼…

Jupyterで行列を作る

横を作る時のJupyterとOctaveの違い 3X1行列の作り方 nxn行列も作れる Jupyterで作りたい行列は3X1の A= 1 2 3 のような縦の行列です。 Octaveでは↓のように作っていました。 Jupyterにあてはめます↓ ダメでした。 まず、行列を作るのが[]なのかどうか確認…

アップデート コーセラ機械学習で学んだ線形回帰でコロナ感染者数を予測してみる(5/5時点)

2週間前に書いたこの日記の情報をアップデートしたいと思います。 courseradaisuki.hateblo.jp 曲線予測をした際に 5月6日までまったら、データを ①3月18日-4月7日、②4月8日-22日、③4月23日-5月6日 ①②をTraining Setで③をTest Setで検証してみたいと思いまし…

初心者の改良!? まだまだ道半ば。

前回の東京都コロナ感染者数の予測では5/30などの将来が予測できなかったため、 何とかしようと思いついたのが、予測の要素に人出をいれることです。 データ基はNHKの記事で WEB特集 人出はどこで増えた? 最新データで見えた“緩み”とは | NHKニュース こち…

初心者がNeural Networkで東京都コロナ感染者予測してみた、そして予測できず。

まず、東京都コロナ感染者数の累計グラフです↓ データは3/11-5/4までの54日間ありますが、 3/11-4/22の43日間について実績に沿った予測線を作ります↓ 青の線が私の初心者なりのNeural Networkで予測した東京都コロナ感染者数です。 自分で独力で作った割には…

ルーターを買いかえた方がいいかどうかに考える確認事項

時々家のWifiの接続が悪くなるので 10年前に買ったルーターが古すぎるせいかなと思って買い替えようと思いました。 このサイトに非常に助けてもらいました。 ソフトバンク光の通信速度が遅い?測定方法と速度改善方法について - わたしのネット このサイトを…

コロナでオンライン無料になったもの

自粛で家にいることが長くなったので、せっかくの時間を使って 無料で見れるものをリストアップしてみました! オペラ オーケストラ ミュージカル ライブ オペラ こんな機会でなければ見ないし無料にもならないものの筆頭(?)です。 日替わりでオペラがや…

コーセラ機械学習で学んだ線形回帰でコロナ感染者数を予測してみる(4/18時点)※4/24UPDATE有

私は文系事務職のアラフォーですが、コーセラの機械学習のオンライン講座を 3か月でできるとガイドされているものを倍の6か月かかって修了しました。 せっかく学んだので、コロナ感染者数の予測をしたらどうなるかを やってみたかったのでトライします。 今…