暇人日記II

Courseraの課題で学習できたことの応用を書いていきます!

アップデート コーセラ機械学習で学んだ線形回帰でコロナ感染者数を予測してみる(5/5時点)

2週間前に書いたこの日記の情報をアップデートしたいと思います。

 

courseradaisuki.hateblo.jp

 

曲線予測をした際に

5月6日までまったら、データを

①3月18日-4月7日、②4月8日-22日、③4月23日-5月6日

①②をTraining Setで③をTest Setで検証してみたいと思いました。

 と書きましたのでアップデートしてみます。

 

①②のTraning Setの絵姿は↓のように見えています。

f:id:omoshiroamericanews:20200509001519p:plain

 

赤線が実績の累計感染者数で青線が予測です。

 

この青線と赤線を延長、4/23以降に適用したものが↓です。

 

f:id:omoshiroamericanews:20200509002123p:plain

予測線の方が高く出る結果となっています。

これでは予測として使えそうにないですorz

 

次の一手をどうすればいいかわかるためにLeraning Curveを見てみます。

f:id:omoshiroamericanews:20200509002733p:plain

となので、OverfitかUnderfitかみてみます。

 

f:id:omoshiroamericanews:20200509002405p:plain

 

ちょっとグラフの軸を変えてみます。

f:id:omoshiroamericanews:20200509003057p:plain

 

これでも分からないので実数を見てみることにしました↓

f:id:omoshiroamericanews:20200509003152p:plain

2000と200,000くらいの差ですね。

 

これがoverfitかunderfitか判断するのは場数を踏まないと分からないですね。

ここではunderfitとしたいと思います。

 

とすると解決策はadding featureなので、日にちと感染者数以外の要素を

足すのが有効ということになります。

 

また考えてみます!