![深度学习详解:基于李宏毅老师“机器学习”课程](https://wfqqreader-1252317822.image.myqcloud.com/cover/19/51893019/b_51893019.jpg)
1.2 线性模型
我们刚才找出来的对应的误差是480. 这是由2017年~ 2020年的数据计算出的结果. 现在,不妨用这对
去预测下2021年初每日的观看次数. 我们预测2021年1月1日~2021年2月14日间的每日观看次数,计算出新的损失. 在2021年没有看过的数据上,损失用
来表示,值是580. 将预测结果绘制出来,如图1.6 所示,横轴代表距离2021年1月1日的天数,0代表2021年1月1日,图中最右边的点代表2021年2月14日;纵轴代表观看次数. 红色线是真实的观看次数,蓝色线是预测的观看次数. 可以看到,蓝色线几乎就是红色线往右平移一天而已,这很合理,因为目前的模型正是用某天观看次数乘以0.97,再加上100,来计算次日的观看次数.
![](https://epubservercos.yuewen.com/91F3C0/30654405004700006/epubprivate/OEBPS/Images/tx2222.jpg?sign=1739279582-EoH6kHvw1p93t7NcXACsHaXfi4BjS3cr-0-e9c618d6b6b35e22c388029ffbd66019)
图1.6 预估曲线图
这个真实的数据中有一个很神奇的现象:它是周期性的,每 7 天就会有两天(周五和周六)的观看次数特别少. 目前的模型只能向前看一天.一个模型如果能参考前 7 天的数据,也许能预测得更准,所以可以修改一下模型. 通常,一个模型的修改方向,往往来自我们对这个问题的理解,即领域知识.
一开始,由于对问题完全不理解,我们的模型是
![](https://epubservercos.yuewen.com/91F3C0/30654405004700006/epubprivate/OEBPS/Images/tx1270.jpg?sign=1739279582-yxn75AM4n82XlPolkag5XkXeakoH9l2w-0-14091e4e2ecc9338f4453893da192349)
(1.11)
这个只考虑1天的模型不怎么好.接下来,我们观测了真实的数据,得到一个结论:每 7 天是一个循环.所以要把前 7 天的观看次数都列入考虑. 现在,模型变成
![](https://epubservercos.yuewen.com/91F3C0/30654405004700006/epubprivate/OEBPS/Images/tx2233.jpg?sign=1739279582-e3Nh5bBO19GGp1ivJi8dx7ONhflD40ix-0-d08bfd032c88a2a418faa743bf077f42)
(1.12)
其中, 代表前7天中第
天的观看次数,它们分别乘以不同的权重
,加起来,再加上偏置,就可以得到预测的结果.该模型在训练数据(即2017年~ 2020年的数据)上的损失是380,而只考虑1天的模型在训练数据上的损失是480; 对于2021年1月1日~ 2021年2月14日的数据(以下简称2021年的数据)上,它的损失是490. 只考虑1天的模型的损失是580.
这个新模型中和
的最优值如表1.1所示.
表1.1 和
的最优值
![](https://epubservercos.yuewen.com/91F3C0/30654405004700006/epubprivate/OEBPS/Images/table_85d44869-6f5d-4fba-b627-8bde47727d5c.png?sign=1739279582-GkYy3J7cGGoACcc1tCyl5692QP1VMxNb-0-18af06f787d64aa735f81f70a76d80d5)
模型的逻辑是:7天前的数据跟要预测的数值关系很大,所以是0.79,而其他几天则没有那么重要.
其实,可以考虑更多天的影响,比如28天,即
![](https://epubservercos.yuewen.com/91F3C0/30654405004700006/epubprivate/OEBPS/Images/tx2554.jpg?sign=1739279582-fO4Fn4g7iyGlEnfc3au6CvJMwOV4YAKn-0-90ccbb22e9d8353f91cd1e1e5fb65311)
(1.13)
这个模型在训练数据上的损失是330,在2021年1月1日~ 2021年2月14日数据上的损失是460.如果考虑56天,即
![](https://epubservercos.yuewen.com/91F3C0/30654405004700006/epubprivate/OEBPS/Images/tx2561.jpg?sign=1739279582-zlM66ESAOQ47miDYjsg7Vi4KvgQYr2R6-0-508b0ec40bf48fe0203b7ce6215da0a5)
(1.14)
则训练数据上的损失是320,2021年1月1日~ 2021年2月14日数据上的损失还是460.
可以发现,虽然考虑了更多天,但没有办法再降低损失. 看来考虑天数这件事,也许已经到了一个极限.把输入的特征乘上一个权重,再加上一个偏置,得到预测的结果,这样的模型称为线性模型(linear model).