アップデート コーセラ機械学習で学んだ線形回帰でコロナ感染者数を予測してみる(5/5時点)
2週間前に書いたこの日記の情報をアップデートしたいと思います。
曲線予測をした際に
5月6日までまったら、データを
①3月18日-4月7日、②4月8日-22日、③4月23日-5月6日
①②をTraining Setで③をTest Setで検証してみたいと思いました。
と書きましたのでアップデートしてみます。
①②のTraning Setの絵姿は↓のように見えています。
赤線が実績の累計感染者数で青線が予測です。
この青線と赤線を延長、4/23以降に適用したものが↓です。
予測線の方が高く出る結果となっています。
これでは予測として使えそうにないですorz
次の一手をどうすればいいかわかるためにLeraning Curveを見てみます。
となので、OverfitかUnderfitかみてみます。
ちょっとグラフの軸を変えてみます。
これでも分からないので実数を見てみることにしました↓
2000と200,000くらいの差ですね。
これがoverfitかunderfitか判断するのは場数を踏まないと分からないですね。
ここではunderfitとしたいと思います。
とすると解決策はadding featureなので、日にちと感染者数以外の要素を
足すのが有効ということになります。
また考えてみます!