
【投资专栏-跟枫走52】当市场仍聚焦于 AI 算力竞赛与 GPU 军备竞赛之际,一项看似不起眼、却极具颠覆性的技术——KV Cache 压缩,正悄然重塑整个记忆体需求的底层逻辑。过去,大语言模型在推理过程中,为了维持长上下文能力,必须将历史 token 的 Key 与 Value 持续储存在高速记忆体之中。这些资料会随推理时间不断累积,直接推高对高频宽记忆体(HBM)的依赖,甚至成为限制推理效率与成本的核心瓶颈。
然而,随着 TurboQuant、kvtc 等压缩技术逐步成熟,KV Cache 不再是“只能扩张、难以压缩”的负担。透过降维、量化与编码等方法,记忆体占用有机会下降至原来的二十分之一,甚至六十四分之一。这种变化的本质,不只是技术优化,而是将“记忆体需求”由硬体堆叠,转向软体效率的提升。换言之,同一个 AI 推理任务,未来可能在更低配置的 GPU 与更少的 HBM 下完成,整体资源使用效率显著提升。
这首先冲击的,是单台 AI 伺服器对 HBM 容量的需求结构。过去,云端服务商为支援长上下文、多用户并发与企业级应用,往往倾向选择高 HBM 容量的 GPU,以确保效能与稳定性。但当 KV Cache 可被高效压缩后,同一张 GPU 能承载更多请求,记忆体压力下降,对极高容量 HBM 的依赖自然减弱。这并非需求消失,而是需求的“效率化”。
更深层的影响,在于推理端对 HBM 的边际需求开始出现结构性转变。过去市场习惯以“增加 GPU 数量与记忆体容量”作为解决需求增长的主要手段,但未来,部分需求将转向软体与系统优化。当记忆体效率显著提升,企业不一定需要再透过最昂贵的硬体来堆叠性能,而是透过算法与架构设计降低成本。这将改变 HBM 订单的增长斜率——不一定立即减少总需求,但增速可能放缓。
同时,企业在 AI 基建上的采购逻辑亦将随之改变。过去“记忆体越多越好”的思维,可能逐步让位于“整体推理成本与吞吐效率最大化”。当“较低 HBM 配置 + 高效压缩”可以达到接近甚至相同效果时,高端 HBM 的议价能力将面临一定压力。这种变化,本质上是将价值从硬体转移到软体与系统整合能力。
不过,这并不意味着 HBM 的长期需求会出现断崖式下跌。首先,在模型训练端,HBM 仍然不可或缺。无论是模型权重、激活值,还是分散式训练,都高度依赖高频宽记忆体,而这部分需求并未因 KV Cache 压缩而减少。其次,当推理成本下降,反而可能促进更多应用场景爆发,例如 AI Agent、多模态服务以及企业级部署,进一步推高整体算力需求。最终形成的局面,很可能是“单次使用量下降,但总体需求上升”。
延伸到资本市场层面,近期记忆体板块的波动,正反映这种“叙事转变”带来的冲击。例如三星与 SK 海力士股价的回调,某程度上与市场对“推理端 HBM 需求或被技术削弱”的预期有关,但这并非单一因素。市场更深层的担忧在于,未来记忆体需求的爆发力,可能不再单纯依赖硬体堆叠,而需要依靠应用与效率提升来驱动。
另一方面,近期 DDR5 价格出现回落,加上市场对 Google 记忆体压缩技术的关注,亦进一步放大了这种不安情绪。零售端 DDR5 价格在 3 月明显下跌,部分产品单月跌幅超过 7%,甚至达百美元级别,令市场开始担心记忆体景气是否已见顶。同时,相关技术突破引发“AI 对 DRAM 需求会否被抵消”的疑虑,导致包括 Micron 在内的记忆体股出现急跌,市值短时间大幅蒸发。
这两项因素叠加,触发了原本已累积可观升幅的 HBM 与 DRAM 概念股出现集体获利了结与风险释放。然而,从基本面来看,目前 HBM 与伺服器 DRAM 仍处于供不应求状态,多家大厂的 HBM 产能甚至已锁定至 2026 年底,显示 AI 资本开支仍然维持高位。
根据机构预测,2026 年伺服器 DRAM 位元需求年增约 39%,HBM 更接近 50%至60%的增长。与此同时,主要记忆体厂正持续将产能由传统 DRAM 与 NAND 转向 HBM,反而令其他应用领域供应偏紧。即使短期 DDR5 价格回调,整体 DRAM 价格自 2025 年以来仍显著高于疫情前水平,部分报告甚至预期这种高价结构可延续至 2027 年。
因此,KV Cache 压缩技术的真正影响,并非直接削弱 HBM 的需求,而是动摇其“绝对稀缺性”的市场叙事。对股价而言,这种叙事层面的转变,往往比基本面的实际变化来得更快、更剧烈。短期内,市场仍可能持续消化这种预期落差,带来波动与估值调整;但从中长期来看,AI 记忆体的结构性需求,仍未被根本改写。
文:庄主
(编按:本文观点不代表加拿大星岛立场,投资市场有赚有蚀,文章仅供读者参考。)
作者:Ricky Lau ,人称“庄主”。资产管理投资策略师、家族办公室顾问、股评人、财经书籍《最佳位置》及《AI选美》作者。