训练与微调

Quantization（量化）

Quantization

给 AI 模型「瘦身压缩」的技术，就像把一张高清大图压成「够清楚但小很多」的图，模型变小、跑得更快更省电。

先打个比方

你拍了张超高清照片，原图 50MB，发微信巨慢还占内存。于是你点了「压缩发送」，图变成 2MB，照样看得清是谁、在哪、笑得多开心，只是放大到极限才看出一点点糊。📷

量化干的就是这件事，只不过压的不是照片，是 AI 模型本身。

一个大模型（就是我们说的大语言模型 llm）肚子里塞着几十亿个「参数」，可以理解成几十亿个小数字。这些数字本来存得特别精细，比如 3.1415926，又长又占地方、算起来也费劲。

量化就是给这些数字「四舍五入瘦身」：把 3.1415926 近似成 3，从又精细又占空间的写法，压成又粗又省的写法。🧩

数字变粗了，模型整体就更小、更轻、跑得更快、更省电——代价是精度掉一点点，就像压缩图会糊一丢丢。压得轻，几乎看不出区别；压得太狠，AI 才会明显变「笨」。

最直接的好处：大模型能塞进你的手机和笔记本，离线本地跑了。

原本几百 GB 的庞然大物，普通电脑根本带不动。量化之后体积砍掉一大半，你的设备才扛得住。你看到的那些「手机能跑的 AI」「本地小模型」，基本都被量化过。

所以下次看到同一个模型有「满血版」和「精简版」，多半就是量化程度不同——精简版更小更快，能力略缩水，但够日常用。⚡

量化 = 给模型做「无损度还行」的压缩，牺牲一点点聪明，换来又小又快又省电，让大模型走进你的手机和电脑。

本文为 AI 整理的科普解读，可能有误，仅供入门参考。

没看懂？让 AI 再讲一遍：

延伸阅读：可在公众号「数字生命卡兹克」「Datawhale」搜同名概念的科普文章。