4月8日,DeepSeek更新了交互界面:输入框上方多了两个选项——“快速模式”和“专家模式”。前者主打日常对话,响应快,还能识别图片和文件里的文字;后者专门应对复杂问题。这是DeepSeek第一次在官网上做这样的分层设计。
这个变化,让不少人开始猜测:V4是不是快来了?
其实从3月底就有预兆。3月29日到31日,DeepSeek官网连续三天出故障,网页、App、API都不太稳定,每次持续一到十小时不等。最严重的是29日晚上10点开始,服务瘫痪了整整8个小时,很多用户看到的一直是“服务器繁忙”。外界普遍认为,这很可能是V4上线前的技术调整。对此,DeepSeek内部没有承认,但说了一句“非常期待”。
回顾一下,今年1月,DeepSeek和北大发过一篇论文,讲的是怎么让大模型记住更多东西,梁文锋也是作者之一。到了2月,有消息说DeepSeek正在测试一种新的长文本结构,能支持1M上下文(约合70万到80万汉字),但API还是老版本。当时大家都盼着春节能看到大动作,结果一直没等来。
那这次V4到底会有什么不一样?有券商分析说,重点是国产化。野村证券也认为,DeepSeek这次的技术更新,会推动国内AI产业链提速,同时拉近国产大模型和国际水平的距离。不过业内也有人觉得,想再现去年春节那种轰动,难度不小——毕竟现在国产大模型已经卷得不行了。
就在同一天,智谱发布了GLM-5.1。这款模型今年已经涨价超过八成,现在又提价10%。调价后,它的编程场景价格已经接近Claude
Sonnet4.6。这标志着国产大模型开始在核心能力上与海外头部产品进行价格对标。要知道,一年前大家还在疯狂降价抢市场。性能上,GLM-5.1在三大代码测试里排全球第三、国内第一,还能一口气干8小时的活。
另一家值得关注的是MiniMax。3月18日,他们发布了M2.7,主打“模型自己训练自己”。在一些研发场景里,它能承担三到五成的工作量,内部测试效果提升了30%。它的代码能力接近国际一线水平,办公场景得分在开源模型中位列前茅。
【免责声明】部分数据来源于网络公开报道及行业资讯,如有侵权,请及时与本网站联系,我们将第一时间予以删改。文中所涉观点、数据及分析仅代表小编个人观点,仅供参考,不构成任何投资建议、商业决策依据或法律承诺。投资有风险,决策需谨慎;任何单位或个人据此进行商业决策、经营行为所产生的风险,均自行承担。