随机梯度下降(SGD)和Mini-batch梯度下降

在前面的实践中，使用“Gradient Descent”时，都是一次性把所有的数据集都考虑进去，一切似乎都没有什么问题。但是，在现实实践中，如果训练数据量非常大，这种方式就不适用了。