Quantization(量化)
Quantization
给 AI 模型「瘦身压缩」的技术,就像把一张高清大图压成「够清楚但小很多」的图,模型变小、跑得更快更省电。
先打个比方
你拍了张超高清照片,原图 50MB,发微信巨慢还占内存。于是你点了「压缩发送」,图变成 2MB,照样看得清是谁、在哪、笑得多开心,只是放大到极限才看出一点点糊。📷
量化干的就是这件事,只不过压的不是照片,是 AI 模型本身。
它到底是什么
一个大模型(就是我们说的大语言模型 llm)肚子里塞着几十亿个「参数」,可以理解成几十亿个小数字。这些数字本来存得特别精细,比如 3.1415926,又长又占地方、算起来也费劲。
量化就是给这些数字「四舍五入瘦身」:把 3.1415926 近似成 3,从又精细又占空间的写法,压成又粗又省的写法。🧩
数字变粗了,模型整体就更小、更轻、跑得更快、更省电——代价是精度掉一点点,就像压缩图会糊一丢丢。压得轻,几乎看不出区别;压得太狠,AI 才会明显变「笨」。
为什么和你有关
最直接的好处:大模型能塞进你的手机和笔记本,离线本地跑了。
原本几百 GB 的庞然大物,普通电脑根本带不动。量化之后体积砍掉一大半,你的设备才扛得住。你看到的那些「手机能跑的 AI」「本地小模型」,基本都被量化过。
所以下次看到同一个模型有「满血版」和「精简版」,多半就是量化程度不同——精简版更小更快,能力略缩水,但够日常用。⚡
一句话记住
量化 = 给模型做「无损度还行」的压缩,牺牲一点点聪明,换来又小又快又省电,让大模型走进你的手机和电脑。
本文为 AI 整理的科普解读,可能有误,仅供入门参考。
没看懂?让 AI 再讲一遍:
延伸阅读:可在公众号「数字生命卡兹克」「Datawhale」搜同名概念的科普文章。