随机梯度下降(SGD)和Mini-batch梯度下降

在前面的实践中,使用“Gradient Descent”时,都是一次性把所有的数据集都考虑进去,一切似乎都没有什么问题。但是,在现实实践中,如果训练数据量非常大,这种方式就不适用了。