了解 CLIP 模型

1. 实验设计
2. 实验数据与结果分析
- 2.1 可视化结果
3. 其他

深度学习领域除了大语言模型之外，另一个极其活跃的领域即为视频、图像处理领域（或者叫“多模”数据）。随着 Stable Diffusion 取得成功，这个领域也在非常快速的发展。这里也打算极其粗浅的了解一下这个领域。打算，从最为基础“组件”之一 “CLIP” 开始。

“CLIP”的全称是“Contrastive Language–Image Pre-training”，描述的是一种训练方法，可以把“图片”、“文字”嵌入（Embedding）到同一个空间（例如 512 维的向量空间），并保持非常好的相关性。利用这个特点，则可以非常好的进行诸如：图片相似性、文本图片相关性的人物；也可以作为其他模型的一部分，提供非常好的文本与图片一致性的关系。这里以典型的“clip-vit-base-patch32”模型为例，去简单实践并了解该模型。

1. 实验设计

这里选择一张图片，如右图，使用该模型对图片进行 Embedding；然后再选择一组文本，如下，使用该模型对其进行 Embedding ，然后观察这些向量之间的余弦距离关系。

texts = [
    "a dog",
    "a cat",
    "a car",
    "a landscape",
    "a person",
    "a person behind a statue",
    "a person riding a bicycle",
    "tourist attraction",
    "a vacation"
]

2. 实验数据与结果分析

在使用模型进行Embedding后，然后把所有文本向量与图片计算余弦相似度后有右侧数据：

可以看到，图片和文本之间表现出了非常强的相关度。相关度最高的文本为：“a person behind a statue”，也是所有文本中对图片最为准确的描述。“a person” 也比 “a person riding a bicycle” 有着更高的相似度，更比诸如 “a dog”、“a cat” 要高非常多。

0.2707  |  a person behind a statue
0.2508  |  tourist attraction
0.2074  |  a person
0.2063  |  a vacation
0.1974  |  a person riding a bicycle
0.1875  |  a dog
0.1821  |  a landscape
0.1754  |  a cat
0.1655  |  a car

2.1 可视化结果

这里在一个数轴上，简单对上述结果进行可视化，从而建立一个更为直观一点的认识：

在数轴上将上述文本与图片的相似度取值绘制出来，可以看到，“a person behind a statue”远比其他的文本相似度要高。

3. 其他

对于 Embedding 出来的向量，这里也使用诸如“T-SNE”、“PCA”、“UMAP”、“MDS”等方式去降维到二维空间分析，但是并没有观察余弦相似度的保持，与上述计算结果不符合。也许是点太少、也许是用法不对。这也让对诸如“T-SNE”等算法在可视化上效果，提高了警惕。关于这部分计算的数据和结果可以参考：SD-Forward-Diffusion-Process.ipynb@Colab，这里不再展示。

1. 实验设计

2. 实验数据与结果分析

2.1 可视化结果

3. 其他

Leave a Reply