Vision-Language Model(视觉语言模型 VLM)
Vision-Language Model (VLM)
给 AI 装上了一双「眼睛」👀——你发一张照片再问一句话,它能看着图回答你。
先打个比方
想象你有两个朋友:一个是「读书很多但眼睛看不见」的学霸,你说啥他都懂,但你递给他一张照片,他抓瞎;另一个是「眼睛特别好但不太会说话」的人,看一眼就知道图里有啥,可让他讲清楚就费劲。
VLM 就是把这俩人合成了一个——既看得见图,又说得明白话。👀➕🗣️
它到底是什么
简单说,VLM 就是一个「既能看图、又能读文字」的 AI。
你平时聊天用的纯文字模型(也就是大语言模型 LLM),本质上是个「睁眼瞎」,只能读你打的字。而 VLM 在它的基础上多装了一双「眼睛」:你扔给它一张照片、一张截图、一张表格,再配一句话提问,它能对着图回答你。
比如:
- 拍一盘菜问「这是什么,怎么做」🍲
- 截一张账单让它「把里面的金额读出来」
- 发一张数学题照片让它「讲讲这题怎么解」
它属于「多模态」家族里最常见、你最常碰到的那一类——所谓多模态,就是 AI 能同时处理图、文、声音等好几种信息,VLM 主打的就是「图 + 文」这一对。
为什么和你有关
因为「拍照问 AI」「截图问 AI」已经是最省事的用法了。
以前你看不懂一张外文菜单、一份合同、一道题,得一个字一个字敲给 AI;现在直接拍张照、丢张截图,配一句话就行。背后干活的,就是 VLM。
也正因为这双「眼睛」,你才会发现:有些 AI 能看图,有些只会读字——区别就在于它是不是 VLM。
一句话记住
VLM = 给 AI 配了双眼睛,从此你能「指着图」跟它说话。📷
本文为 AI 整理的科普解读,可能有误,仅供入门参考。
没看懂?让 AI 再讲一遍:
延伸阅读:可在公众号「数字生命卡兹克」「Datawhale」搜同名概念的科普文章。