KylearnAI
训练与微调

Quantization(量化)

Quantization

给 AI 模型「瘦身压缩」的技术,就像把一张高清大图压成「够清楚但小很多」的图,模型变小、跑得更快更省电。

先打个比方

你拍了张超高清照片,原图 50MB,发微信巨慢还占内存。于是你点了「压缩发送」,图变成 2MB,照样看得清是谁、在哪、笑得多开心,只是放大到极限才看出一点点糊。📷

量化干的就是这件事,只不过压的不是照片,是 AI 模型本身。

它到底是什么

一个大模型(就是我们说的大语言模型 llm)肚子里塞着几十亿个「参数」,可以理解成几十亿个小数字。这些数字本来存得特别精细,比如 3.1415926,又长又占地方、算起来也费劲。

量化就是给这些数字「四舍五入瘦身」:把 3.1415926 近似成 3,从又精细又占空间的写法,压成又粗又省的写法。🧩

数字变粗了,模型整体就更小、更轻、跑得更快、更省电——代价是精度掉一点点,就像压缩图会糊一丢丢。压得轻,几乎看不出区别;压得太狠,AI 才会明显变「笨」。

为什么和你有关

最直接的好处:大模型能塞进你的手机和笔记本,离线本地跑了。

原本几百 GB 的庞然大物,普通电脑根本带不动。量化之后体积砍掉一大半,你的设备才扛得住。你看到的那些「手机能跑的 AI」「本地小模型」,基本都被量化过。

所以下次看到同一个模型有「满血版」和「精简版」,多半就是量化程度不同——精简版更小更快,能力略缩水,但够日常用。⚡

一句话记住

量化 = 给模型做「无损度还行」的压缩,牺牲一点点聪明,换来又小又快又省电,让大模型走进你的手机和电脑。

本文为 AI 整理的科普解读,可能有误,仅供入门参考。

没看懂?让 AI 再讲一遍:

延伸阅读:可在公众号「数字生命卡兹克」「Datawhale」搜同名概念的科普文章。