![深度学习详解:基于李宏毅老师“机器学习”课程](https://wfqqreader-1252317822.image.myqcloud.com/cover/19/51893019/b_51893019.jpg)
上QQ阅读APP看书,第一时间看更新
3.2 批量和动量
实际上在计算梯度的时候,并不是对所有数据的损失计算梯度,而是把所有的数据分成一个一个的批量(batch),如图3.7 所示.每个批量的大小是 ,即带有
笔数据.每次在更新参数的时候,取出
笔数据用来计算出损失和梯度更新参数.遍历所有批量的过程称为一个回合(epoch).事实上,在把数据分为批量的时候,还会进行随机打乱(shuffle).随机打乱有很多不同的做法,一个常见的做法是在每一个回合开始之前重新划分批量,也就是说,每个回合的批量的数据都不一样.
![](https://epubservercos.yuewen.com/91F3C0/30654405004700006/epubprivate/OEBPS/Images/tx7100.jpg?sign=1739280868-4RjuhKtjJYSc1gSpmpTh6eusRHFFuhDx-0-6ba7ed57dc0426796aa8a8fc31b699bf)
图3.7 使用批量优化