你的位置:维虎机电设备有限公司 > 行业资讯 > Claude Opus 4.8实测封神!强到离谱,也贵到心痛
Claude Opus 4.8实测封神!强到离谱,也贵到心痛
发布日期:2026-05-30 11:07    点击次数:142

Claude Opus 4.8实测封神!强到离谱,也贵到心痛

Opus 4.8到底是神作,如故一次仓促的公关技巧?

新智元报谈

【新智元导读】据说中的Claude Opus 4.8,性能真是如斯刚劲吗?有东谈主高呼封神,直言这是Opus 5,有东谈主吐槽太拉了,还不如Opus 4.7,期间大佬也来拆台。是夯爆了如故拉完毕?一文深度识破。

Anthropic王者归来!

半夜,Anthropic全新发布Claude Opus 4.8,一举夺回全球AI王座。

Opus 4.8被定位为一款更刚劲的复杂任务模子,尤其是在编程、智能体任务和永劫辰推理方面。

更狠的是,玄机的Mythos几周之众人将面世!

况兼,趁着这推动风,Anthropic紧接着晓示好音书——

以9650亿好意思元估值完成650亿好意思元融资,罕见62天前OpenAI的8520亿好意思元的估值!

不外,当东谈主们实测事后,通盘科技界短暂分裂成了两个截然相背的阵营。

一方面,是以盛名评测媒体Every和部分硬核分娩力用户为首的「狂热派」。

他们高呼Opus 4.8仍是「封神」,致使直言Anthropic此次实在是太低调了,「他们完全不错径直叫它Opus 5,根底不会有东谈主有异议。」

他们直言,Opus 4.8是刻下市面上「最全面、最接近东谈主类灵魂与顶尖工程师招引体」的模子。

但另一方面,以Ruby on Rails创举东谈主DHH、Redis之父antirez为首的「征战者老炮」,却在酬酢采集上公开拆台。

他们认为Opus 4.8的跑分诚然险胜老敌手GPT-5.5,但骨子的「编码体感」却依然逾期,致使直指Anthropic在基准测试的宣传上犯了紧要瑕玷。

一方面,它的「快速形式」、「动态功绩流」看起来都很杀手级,另一方面,桌面端的体验,似乎又很拉垮。

Opus 4.8用起来的真实体感,究竟怎样?

这是一次名不副实的挤牙膏,如故一次确凿的大跃迁?

接下来,就让咱们揭开全貌!

这不是Opus 4.8,是Opus 5!

率先,是以Every团队为代表的正方。

在长达一周的深度测试后,他们得出了颠簸论断——这是咱们测试过的最强模子,它简直是个怪物。

致使不错说,它不错被叫作念Opus 5。

暴涨30分的「资深工程师基准」

在极难的「高等工程师基准」测试中,上一代Opus 4.7曾让无数征战者大失所望,被训斥为「难以使用、难以爱好」。

但Opus 4.8这一次打了一场漂亮的翻身仗。

在「超高强度」形式下,Opus 4.8拿下了63分的高分,不仅比Opus 4.7夸张地暴涨了30分,更是以1分的幽微上风,险胜了一直霸榜的GPT-5.5(62分)。

团队试着让它去澈底重构一个分娩级别的代码库,效用Opus 4.8真是托付了一个能够完满运转的系统!

效用说明,Opus 4.8绝不单是是一个补全器用,而是一个能在Repo(代码仓库)级别进行长线想考的架构师。

79.6分全场最高:击穿「AI感」的最强写手

若是说代码能力是理科生的猖厥,那么写稿能力则是预计模子EQ的终极圭臬。

在Every的写稿基准测试中(涵盖论文、实践邮件、长篇叙事等真实场景),Opus 4.8径直艳压一众模子。

Opus 4.8跑出了79.6的王人备高分,远远甩开了自家昆季Sonnet 4.6(74.5)、老敌手GPT-5.5(73)以及前代Opus 4.7(63)。

「这是一种尽头奇妙的体验。」多位创作者反映。Opus 4.8极地面减少了令东谈主不适的「AI味」。

当你给它一份立场指南后,它能额外精确地师法你的口吻。

它致使展现出了极高的情态学和东谈主际来回瞻念察力,当你试图和它探讨一些深切的情态问题时,它的回应绝不依稀,而是会「质疑你的预设框架」,提供丰富、动态且极其具有深度的想考进程。

100万Token的总揽力,企业级愚弄一把过

除了跑分,Opus 4.8在复杂常识功绩中的进展号称怪兽。

它依然保持了100万Token的超大高下文窗口,日韩在线这意味着你不错把一整本书的手稿、几周的会议纪录,致使一个完整的企业代码库连气儿塞给它。

最让生意研究圈战抖的是,在企业级PPT生成测试中,Opus 4.8在Zero-shot的情况下,产出了一份结构明晰、运筹帷幄合理、叙事逻辑号称完满的PPT。这是往日通盘模子都无法作念到的。

盛名云存储服务商Box,也在第一时辰将Opus 4.8接入了其Box AI Agent并在真实企业数据上进行了测试,效用呈现出碾压态势。

· 施展草拟:在工业品施展任务中,4.8得分87%(对比4.7的77%);消费品发布评估任务中,得分高达90%。

· 法律审查:Opus 4.8能够极其精确地抓取合规圭臬,找出潜在的公约谬误,并在屡次零丁测试中保持近乎完满的看法性。

· 财务数据分析:在复杂的银团贷款与双边贷款结构对比中,从繁芜的源文档中索要准确财务办法的能力,比上一代进步了近8个百分点。

沃顿商学院锻练Ethan Mollick的实测更是令东谈主誉不绝口。

他把几年前数百份去匿名化的酌量文献扔进Claude Code中的Opus 4.8。

效用,Opus 4.8自主完成了提前提议假定、数据清洗、寻找参考文献、进行深度分析、隆重性试验,终末径直用LaTeX重要排版输出了一篇高度专科的微型学术论文!

风趣的是,Mollick锻练用GPT-5.5 Pro看成这篇论文的「审稿东谈主」,GPT-5.5挑出了一个幻觉瑕玷和几个小问题,随后Opus 4.8坐窝谦敬接管,完满修正。

大略这等于为什么Every的CEO Dan Shipper沸腾地将Opus 4.8称为我方的「心头好」。

一个不可想议的软件工程师,同期又是一个领有深度和同理心的近乎东谈主类的作者,二者完满相融。

沃顿商学院锻练实测的一个Opus 4.8惊艳案例

被群嘲的桌面端与「高才略税」

如斯刚劲的模子,为何莫得在全网酿成王人备的碾压之势?

因为Opus 4.8身上使命着两个千里重的桎梏。

「鼎力出古迹」的代价,是被才略分级诈骗

评测机构很快发现了一个无言的事实:Opus 4.8的「神级进展」,不错说是病态地依赖于你给它设定的推理强度(Effort Level)。

在/effort的设定中,只好当档位拉到「Extra-High」时,Opus 4.8才是阿谁得分63的资深工程师;一朝左迁到「High」,它的编码得分会短暂暴跌至42,秒变平日码农。

在写稿上亦然如斯。High档位下的Opus 4.8文笔优雅、逻辑严实;但一朝切到Medium,我们的2019在线观看免费高清它就会短暂原形毕露,暴看法AI最糟糕的套路化写犯警习。

网友Haider横暴地指出了这背后的期间败落:

我提防到了一个表象,4.8在低强度下耗尽的Token,险些和4.6在高强度下雷同多。

GPT-5.5倾向于用更少的Token拿到更高的分数;而4.8似乎走向了反面,它在用海量的Token堆砌智能。

这就导致了Opus系列一直被诟病的硬伤——Rate Limits。

由于高强度形式相等耗尽资源,广博订阅了$200/月Max套餐的高端用户反映,在运转复杂Agent任务时,通常几个小时就会撞上额度墙。

网友BridgeMind直言,我方为了测试相接烧穿了两个200好意思元的账号。

显著,相较于OpenAI庞大算力撑持下的宽宏生态,Anthropic显得过于小气了。

混乱的UI运筹帷幄

若是说模子是引擎,那么客户端愚弄等于底盘。而Claude的底盘,正在严重株连这台跑车。

多位深度评测者指出,Claude桌面端的运筹帷幄简直是一场晦气。

Chat、Code、Cowork三个零丁标签页的分割,被训斥为「混乱不胜」。

这种割裂的UI运筹帷幄,被戏称是「带着时辰推移的伤痕和Anthropic里面组织架构图的缩影」。(太亮了)

比拟之下,OpenAI的Codex桌面端愚弄被公认为是「干净、快速,让东谈主嗅觉这等于改日」。

Opus 4.8的硬核实力如实让许多东谈主想回顾Claude,但糟糕的软件交互体验,最终如故让许多东谈主把GPT-5.5+Codex看成日常主力,只在措置复杂任务时,才会合手着鼻子切回Claude。

极其糟糕的「笼子」

大牛工程师Anthony Koeger是这么评价的:最近流行的这句话实在太对了,「一个模子的好坏,取决于套在它外面的那层壳(A model is only as good as its harness)。」

而Opus此次有些拉跨。

是对于「真诚」的营销,如故「跑分罗网」下的政策作假?

伴跟着Opus 4.8的发布,全网也爆发了一场对于大模子「跑分真谛的空前舌战。

这场争论的导火索,等于一张Anthropic我方制作的官方发布图。

眼尖的网友Aakash Gupta发现了一个极不寻常的细节——

在Anthropic发布的各模子能力对比图中,在TerminalCoding这一项上,GPT-5.5的收货是78.2%,而Opus 4.8只好74.6%。

正常情况下,任何一家大厂的公关部,都会把输掉的测试项暗暗从PPT上抹去。

但Anthropic莫得,他们不仅把失败留在了图表上,致使还主动把GPT-5.5那代表获胜的78.2%作念了加粗措置。

Aakash对此大加赞赏,认为这自大出Opus4.8的中枢卖点——真诚。

在大型Agent任务中,模子最奋斗、最致命的失败形式,等于「过度自信」。

而Opus 4.8最大的隐性升级,等于它更快意承认我方不细则。官方数据自大,4.8在代码中留住漏洞却不声张的概率,比4.7裁汰了惊东谈主的4倍。

此次,Anthropic卖的不是跑分,而是真诚。

在Vending Bench测试中,Claude Opus 4.8的进展也远逊于Opus 4.7和GPT 5.5

干系词,业界大佬们并不买账。

Ruby on Rails创举东谈主和Redis之父,这两位在征战者社区领有极高语言权的大神,径直对Anthropic开炮。

DHH坦言,自从用了GPT-5.5之后,他履历了无数次颠簸时刻,这是他在Claude阵营很久莫得体会到的了。

antirez更是横暴地指出,Anthropic此次把GPT-5.5放在肃清张图里对比,犯了一个「紧要的政策瑕玷」。

往日的厂商比拼,时时是拿新一代模子和我方的上一代比。

但此次,Anthropic非要和GPT-5.5比。问题在于,刻下全网的「体感」是,GPT-5.5的写代码能力尽头、尽头强悍。

当你Anthropic拿着一张图表,告诉寰球你的Opus4.8跑分比GPT-5.5还要高。

但咱们用起来却合计并非如斯时,你不仅不可评释你更强,反而会让用户合计你们的基准测试是在自娱自乐,澈底失去公信力。

网友aditya的吐槽更是直击灵魂:

用了快一个小时的Opus 4.8,它根底不值得炒作。

几个很普通的工程任务,它全搞砸了。

在前端领域,网友也感到失意:「用了几个小时4.8,嗅觉还不如4.7顺遂。」

这一表象印证了AI大V Chubby的不雅察:Anthropic刻下仿佛在拚命追逐OpenAI,而不是以前那样在引颈通盘行业了。

濒临行将到来的GPT-5.6,Anthropic的王座显得摇摇欲坠。

有东谈主作念了一个速查表,论断是GPT 5.5和Opus 4.8的输赢取决于推理能力和取得第一个token的时辰

6周的赶工,Anthropic此次急了

为什么Opus 4.8 会呈现出如斯复杂、矛盾的评价?

一个拒绝刻薄的数据是:Opus 4.8距离上一代4.7的发布,只是隔了6个星期。

这是Anthropic历史上最快的一次大版块迭代(此前每个Opus版块的间隔至少在10周以上)。

资深不雅察家BridgeMind三言二语地指出了真相:「这完全是一次仓促的发布,因为GPT-5.5正在荒诞蚕食阛阓份额。」

那么,确凿的杀招在那儿?

据多方音书阐发,Anthropic确凿的下一代旗舰模子,代号为Mythos,几周内就会面世。

「Opus 4.8只是一个过渡的创可贴,它修补了4.7的一些瑕玷,去几个Agent榜单上刷了存在感。」业内东谈主士指出,「若是你在期待确凿的智能质变,请屏息恭候Mythos。」

网友Machina的一段话,大略是对Opus 4.8发布最贴切的解读。

咱们仍是跨过了那条线——刻下的旗舰模子,仍是超出了绝大多数普通东谈主折柳其优劣的能力上限。是以,刻下寰宇上只剩下独逐一个真实的Benchmark,那等于你我方的功绩流。

……

若是连你在我方最烂熟于心的功绩上都嗅觉不出互异,那么这些跑分对你来说,就莫得任何真谛。」

Opus 4.8到底是神作,如故一次仓促的公关技巧?

调出你最难啃的阿谁形势,让实测给你谜底吧。