RTX 50 系显卡已经发布 2 个月了股票的杠杆交易,不知道咱们有没有同学已经用上了?
从 2022 年 9 月 15 日下午,以太坊(ETH)领头的全民矿潮就结束了。
但在矿潮中赚得盆满钵满的 NVIDIA 转头就站到了 AI 这条赛道的风口上。并且利用自己的 CUDA 生态,迅速在AI领域建立起了护城河。
从此以后,显卡这种容易跌价的电子产品曾一度成为了「理财产品」。
2024 年,NVIDIA 市值一度突破 3 万亿美元的大关,几乎等同于德国股市的总和。
不过,这艘 AI 巨轮最近遭遇了一场来自「中国制造」飓风的冲击。
没错,就是大伙儿熟悉的 DeepSeek,自从 1 月 20 日 DeepSeeK 推出 R1 版,爆火全球。
采用思维链架构的 R1,单次推理请求算力消耗量,较传统模型增加 3-5 倍,但通过算法优化使硬件成本降低 70%。并且也不依赖 CUDA 生态,所以在 DeepSeeK 公开发布 7 天之后,英伟达股价暴跌 17%。
看到这的老黄坐不住了,连忙适配优化了 DeepSeek-R1,并且声称在性能输出上面也更有竞争力。
但正当 NVIDIA 还在喘气的时候,咱们今天的主角——阿里巴巴的 QwQ-32B 又登场了。
不是卖萌啊,全名叫 Qwen-with-Questions-32B。
相较于动辄上千万美元甚至上亿美元训练的 GPT-4 以及 Grok-3,DeepSeek-R1 仅用了 600 万美元就训练出来了,而且性能还比同级的 AI 大模型强。
而更绝的是 QWQ-32B 这个 320 亿参数的「小个子」,训练成本仅 60 万美元;
但是性能已经能比肩 DeepSeek-R1 671b(满血版)的性能了。
也就是说,用用 1/21 的参数量,干出了 DeepSeek-R1 的活儿,成本还只有后者的 1/10。
这你受得了吗?
阿红也跑了几个经常能困住 AI 的问题,的确如阿里所测试那样,基本能做到和 DeepSeek-R1 相同的回答表现。
但在最后的数学题上面,QWQ-32B 是卡住了,消耗掉 3 万多 tokens 也没能答上来。
而 DeepSeek 是动用小聪明把数字组合起来了;
标准答案是需要用到数字的阶乘,(6 - 5) × 4! × 1 = 24,最后限制数字不能组合 DeepSeek 也没能回答上来,算小胜半筹。
而 GPT 和 Grok3 则表示:谁鸟你的限制啊?
感兴趣的同学可以自行使用下面的在线链接进行测试:
https://chat.qwen.ai
如果想要轻度使用,阿里云百炼平台免费赠送了 100 万 tokens,也能玩上一段时间了:
https://bailian.console.aliyun.com
不过需要注意的是,使用前需要先领取免费的 tokens 才可以正常选择模型交流。
看到这并且之前玩过本地部署的同学可能要邪魅一笑了。
没错,QwQ-32B 参数的第二大特点就是参数量小,因为采用了密度型参数,跟全尺寸的 DeepSeek-R1 671b 需要 1200GB 以上的显存相比,消费级显卡都能带动它的全精度模式了。
FP16 全尺寸需要 64GB 显存大小就可以满血运行,但这种一般也不在咱们普通消费者考虑范围内。
Q8 精度的量化版显存需求量就降低到了 24GB。内存要求在 32GB 及以上,所以你的硬件也恰好满足,就不妨试试本地部署。
以阿红的 RTX 4060Ti 8GB 为例,咱们还是用上次部署 DeepSee-R1 同样的方法,依然选择 LM Studio 这个大模型框架,软件版本为 0.3.13。
不熟悉前期部署的同学可以看下以往的教程:
拒绝服务繁忙,电脑手机本地部署DeepSeek教程来了
经过不断地进化,软件现在已经足够好用,所以到了下载模型的阶段,只需要在设置里打开 LM Studio 对 Hugging Face 模型网的代理即可。
然后在模型库里就能找到 QwQ-32B 了,它还会根据电脑配置给推荐合适的模型精度,阿红这个就最高推荐 Q4 精度的。
下载完成后在对话框里点击加载即可,在运行时可以看到显存需求是超出的,所以在 GPU 负载上面会小一些。
输出平均值在 3 token/s 左右,足够一般情况使用了。
而令人没有想到的是,在线版没做出来的题目,本地部署的给出了和 DeepSeek-R1 同样的结果。
(在线版不老实啊)
看到这可能有同学要举手了,那你说这么多,最终不还是得落到硬件上面去吗?老黄又要高兴麻了。
NVIDIA 在 2024Q4 确实交出了一份不错的财报答卷,但大伙儿可以看到的是股价暴跌,投资者担心的并不是 NVIDIA 现在赚不到钱。
而是担心这种垄断式的高利润模式还能持续多久?
当所有人都认为只能用挖掘机才能挖到金矿,NVIDIA 也在埋头钻研更大的挖掘机,但中国 AI 突然告诉你,用铲子也能挖到金矿,而且有时候比挖掘机还挖的多,彻底改写了 AI 训练的游戏规则。
而这场由 QwQ-32B 引发的风暴,本质上是一场“技术平权运动”,它让曾经高不可攀的 AI 大模型,变得像智能手机一样触手可及。
而垄断算力芯片的 NVIDIA 帝国,要么放下身段拥抱“平民经济”,要么只能看着自己的护城河被性价比铁骑踏平。
毕竟股票的杠杆交易,在这个连 AI 都开始讲“节约型社会”的时代,用 60 万干翻 6 个亿的故事,谁不爱看呢?