IT之家 5 月 23 日消息,Anthropic 公司在北京時(shí)間今天(5 月 23 日) 0 點(diǎn) 30 分舉辦的活動(dòng)中,推出了 Claude Opus 4 和 Claude Sonnet 4 新一代語(yǔ)言模型,在結(jié)構(gòu)化推理、軟件工程和自主代理行為等領(lǐng)域?qū)崿F(xiàn)重大進(jìn)步。

Claude Opus 4:復(fù)雜推理與軟件開(kāi)發(fā)的巔峰之作

IT之家援引博文介紹,Claude Opus 4 被定位為 Anthropic 迄今最強(qiáng)大的模型,專為處理復(fù)雜的推理流程和軟件開(kāi)發(fā)場(chǎng)景設(shè)計(jì)。

測(cè)試數(shù)據(jù)顯示,該模型在 SWE-bench 基準(zhǔn)測(cè)試(評(píng)估模型解決真實(shí) GitHub 問(wèn)題的能力)中準(zhǔn)確率達(dá)到 72.5%;在 TerminalBench 測(cè)試(在多步驟終端代碼生成任務(wù)中驗(yàn)證模型表現(xiàn))中準(zhǔn)確率為 43.2%。

更令人矚目的是,Opus 4 在軟件環(huán)境中展現(xiàn)出強(qiáng)大的自主行為,得益于改進(jìn)的內(nèi)存管理、更廣泛的上下文保留以及更強(qiáng)大的內(nèi)部規(guī)劃?rùn)C(jī)制,據(jù) Rakuten 測(cè)試數(shù)據(jù),可連續(xù)進(jìn)行近 7 小時(shí)的代碼生成和任務(wù)執(zhí)行,刷新 AI 世界紀(jì)錄,遠(yuǎn)超前代 Claude 3 Opus(不到 1 小時(shí))。

地表最強(qiáng)編程AI:Claude 4系列登場(chǎng),自動(dòng)寫代碼7小時(shí)刷新紀(jì)錄

Anthropic 聲稱,其 AI 模型不是為了消除工作崗位,而是一種將日常工作自動(dòng)化的工具。不過(guò) marktechpost 媒體認(rèn)為,Claude 4 系列問(wèn)世后,將改變 AI 的使用方式,讓 AI 從完成單一任務(wù)的輔助工具,轉(zhuǎn)換為具備更強(qiáng)、更廣泛功能的“AI 同事”,可以自動(dòng)工作幾乎一個(gè)完整的工作班次。

地表最強(qiáng)編程AI:Claude 4系列登場(chǎng),自動(dòng)寫代碼7小時(shí)刷新紀(jì)錄

Claude Sonnet 4:平衡性能與成本的通用選擇

Claude Sonnet 4 取代了前代 Claude 3.5 Sonnet,以更穩(wěn)定的架構(gòu)提升速度與質(zhì)量,同時(shí)未顯著增加計(jì)算成本。該模型針對(duì)中規(guī)模部署優(yōu)化,適合需要在成本與性能間權(quán)衡的場(chǎng)景。

盡管推理能力不及 Opus 4,但 Sonnet 4 繼承了許多架構(gòu)升級(jí),支持多文件代碼導(dǎo)航、中間工具使用和結(jié)構(gòu)化文本處理,延遲表現(xiàn)更佳。它成為 Claude.ai 免費(fèi)用戶的默認(rèn)模型,并通過(guò) API 提供服務(wù),適用于輕量開(kāi)發(fā)工具、用戶助手和分析流程。

地表最強(qiáng)編程AI:Claude 4系列登場(chǎng),自動(dòng)寫代碼7小時(shí)刷新紀(jì)錄

技術(shù)亮點(diǎn)與部署方式

兩款模型均具備混合推理能力,提供“快速模式”(Fast Mode)用于低延遲的簡(jiǎn)短對(duì)話任務(wù),以及“擴(kuò)展思考模式”(Extended Thinking Mode)用于需要深度推理和多輪代理行為的復(fù)雜任務(wù)。

這種雙模式策略讓用戶能根據(jù)任務(wù)復(fù)雜度靈活分配計(jì)算資源。此外,Claude Opus 4 和 Sonnet 4 可通過(guò) Anthropic 的 Claude API、Amazon Bedrock 和 Google Cloud Vertex AI 等多個(gè)云平臺(tái)訪問(wèn),支持從自主代理到代碼分析等多種企業(yè)應(yīng)用場(chǎng)景。

標(biāo)題:地表最強(qiáng)編程AI:Claude 4系列登場(chǎng),自動(dòng)寫代碼7小時(shí)刷新紀(jì)錄

地址:http://liuxuerexian.com/zhishi/234973.html