关于大语言模型与AI技术

大语言模型/AI依旧是当下最为重要的技术,个人也认为在未来 10~20 年这依旧将是最为重要的技术。本页面记录自己关于 AI 相关技术的探索与学习。

通用技术

Embedding

SGD 的梯度波动问题和 Adam optimization

在2015年,由 OpenAI 的 DP Kingma 等发布了 《ADAM: A METHOD FOR STOCHASTIC OPTIMIZATION》算法后,由于其迭代效率提升非常明显…

从零构建图片识别的神经网络

本文将从零构建一个浅层的前馈神经网络,实现手写数字0和1的识别。示例手写数字如下图所示。整体实现包括数据预处理、参数初始化…

99行代码构建极简的神经网络

在开始之前,也没想到99行代码就够了,原以为里面有个“梯度下降”,代码行数应该是数百级别吧

数学基础

其他

Attention-Please.ipynb:这个文档是个人学习 Attention 机制的测试程序。具体的,本文档程序通过 transformers 库,调用 “gpt2” 模型,并取出其中的部分参数。手动演示,模型的第一个Layer的第一个Head,如何进行Attention计算,以及如何生成最后的 Contextual Embedding。

Leave a Reply

Your email address will not be published. Required fields are marked *