多模态

Vision-Language Model（视觉语言模型 VLM）

Vision-Language Model (VLM)

给 AI 装上了一双「眼睛」👀——你发一张照片再问一句话，它能看着图回答你。

先打个比方

想象你有两个朋友：一个是「读书很多但眼睛看不见」的学霸，你说啥他都懂，但你递给他一张照片，他抓瞎；另一个是「眼睛特别好但不太会说话」的人，看一眼就知道图里有啥，可让他讲清楚就费劲。

VLM 就是把这俩人合成了一个——既看得见图，又说得明白话。👀➕🗣️

简单说，VLM 就是一个「既能看图、又能读文字」的 AI。

你平时聊天用的纯文字模型（也就是大语言模型 LLM），本质上是个「睁眼瞎」，只能读你打的字。而 VLM 在它的基础上多装了一双「眼睛」：你扔给它一张照片、一张截图、一张表格，再配一句话提问，它能对着图回答你。

比如：

它属于「多模态」家族里最常见、你最常碰到的那一类——所谓多模态，就是 AI 能同时处理图、文、声音等好几种信息，VLM 主打的就是「图 + 文」这一对。

因为「拍照问 AI」「截图问 AI」已经是最省事的用法了。

以前你看不懂一张外文菜单、一份合同、一道题，得一个字一个字敲给 AI；现在直接拍张照、丢张截图，配一句话就行。背后干活的，就是 VLM。

也正因为这双「眼睛」，你才会发现：有些 AI 能看图，有些只会读字——区别就在于它是不是 VLM。

VLM = 给 AI 配了双眼睛，从此你能「指着图」跟它说话。📷

本文为 AI 整理的科普解读，可能有误，仅供入门参考。

没看懂？让 AI 再讲一遍：

延伸阅读：可在公众号「数字生命卡兹克」「Datawhale」搜同名概念的科普文章。