关于大语言模型与AI技术

大语言模型/AI依旧是当下最为重要的技术，个人也认为在未来 10~20 年这依旧将是最为重要的技术。本页面记录自己关于 AI 相关技术的探索与学习。

通用技术

问答 Agent 构建过程实践与经验

使用 MCP 帮助大模型解决24点问题

参加 GOSIM 大会的 AI 见闻

DTCC 2025 的 AI 部分观察

Embedding

理解 DiskANN 的核心“RobustPrune”

Word Embedding 的可解释性探索

机器学习基础

SGD 的梯度波动问题和 Adam optimization

在2015年，由 OpenAI 的 DP Kingma 等发布了《ADAM: A METHOD FOR STOCHASTIC OPTIMIZATION》算法后，由于其迭代效率提升非常明显…

从零构建图片识别的神经网络

本文将从零构建一个浅层的前馈神经网络，实现手写数字0和1的识别。示例手写数字如下图所示。整体实现包括数据预处理、参数初始化…

99行代码构建极简的神经网络

在开始之前，也没想到99行代码就够了，原以为里面有个“梯度下降”，代码行数应该是数百级别吧

大语言模型的输入：tokenize

Stochastic Gradient Descent的梯度波动问题和Adam optimization

随机梯度下降(SGD)和Mini-batch梯度下降

浅层神经网络的超参数分析

数学基础

奇异值分解–深度学习的数学基础

二元函数的偏导数、方向导数、梯度

使用计算图进行微分/求导运算

线性代数回顾

其他

Attention-Please.ipynb：这个文档是个人学习 Attention 机制的测试程序。具体的，本文档程序通过 transformers 库，调用 “gpt2” 模型，并取出其中的部分参数。手动演示，模型的第一个Layer的第一个Head，如何进行Attention计算，以及如何生成最后的 Contextual Embedding。

了解 CLIP 模型

orczhou.com

关于大语言模型与AI技术

通用技术

Embedding

机器学习基础

数学基础

其他

Leave a Reply