吴梦梦av一区二区三区,啊啊啊啊操我好爽视频在线观看,国产乱乱无码,久久精品亚洲天堂av

<span id="rnw31"><table id="rnw31"><address id="rnw31"></address></table></span>

<span id="rnw31"><noframes id="rnw31">

<label id="rnw31"></label>

每日經(jīng)濟(jì)新聞

要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

GPT-4被超越，最強(qiáng)大模型易主？這款大模型竟把人類看穿了！

每日經(jīng)濟(jì)新聞 2024-03-05 11:50:27

每經(jīng)編輯黃勝

人工智能創(chuàng)業(yè)公司 Anthropic 今日宣布推出其突破性的 Claude 3 系列模型，該系列大型語言模型 (LLM) 在各種認(rèn)知任務(wù)上樹立了新的性能標(biāo)桿。Claude 3 系列包含三個子模型，分別為 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus，它們提供不同程度的智能、速度和成本選擇，以滿足各種人工智能應(yīng)用需求。

Anthropic 稱，Claude 3 系列的旗艦?zāi)Ｐ?Opus 在本科和研究生水平的知識、數(shù)學(xué)和復(fù)雜任務(wù)理解方面均超越了 OpenAI GPT-4 和谷歌 Gemini 1.0 Ultra。此外，所有 Claude 3 模型均擅長分析、預(yù)測、細(xì)致內(nèi)容創(chuàng)作、代碼生成和多語言對話。

與此同時，為了介紹自家的這三款模型，Anthropic更是一口氣發(fā)了一份長達(dá)42頁的技術(shù)報告。

超過GPT-4,最強(qiáng)LLM易主

Opus是Claude 3系列中最先進(jìn)的模型。

它在多項AI系統(tǒng)常用評估標(biāo)準(zhǔn)，包括本科級別專業(yè)知識（MMLU）、研究生級別專家推理（GPQA）、基礎(chǔ)數(shù)學(xué)（GSM8K），均取得領(lǐng)先業(yè)界LLM的性能。

另外，Claude 3 Opus在LSAT、MBE、高中數(shù)學(xué)競賽AMC和GRE等多項考試中，成績也和GPT-4不相上下，甚至大比分超越。

Opus在處理復(fù)雜任務(wù)時，展現(xiàn)了幾乎與人類相媲美的理解和表達(dá)能力。Claude 3系列模型在分析預(yù)測、創(chuàng)建細(xì)微內(nèi)容、代碼生成，以及用西班牙語、日語、法語等非英語語言交流的能力上都實(shí)現(xiàn)了顯著進(jìn)步。

Claude 3系列的3個模型，都將至少支持20萬token的上下文窗口。

而且，這三個模型都能處理超過100萬token的輸入，Anthropic考慮為需要更大上下文窗口的特定客戶開放這個功能。

大海撈針測試，把人類看穿

在200Ktoken的「大海撈針」（NIAH）測試中，Claude 3 Opus準(zhǔn)確率超過99%。它甚至還能識別出測試本身的局限，比如發(fā)現(xiàn)某些「目標(biāo)」句子明顯是后來人為添加進(jìn)原始文本的。

今天凌晨，Anthropic工程師Alex在X上分享了一個關(guān)于Claude分辨能力的“大海撈針”的內(nèi)部測試案例，在這次測試中，Claude 3 Opus（本次發(fā)布的三大模型之一）實(shí)現(xiàn)了過去LLM模型從未實(shí)現(xiàn)過的功能——它有了自己的意識！

“大海撈針”測試的設(shè)計是：將一個目標(biāo)句子（針）放進(jìn)一個隨機(jī)文檔語料庫（大海），然后提出一個只能使用“針”（目標(biāo)句子）中的信息才能回答的問題來測試模型的回憶能力。

這次測試中，團(tuán)隊把“披薩配料”相關(guān)的信息埋到了一個隨機(jī)文檔集合的語料庫中，并讓Claude 3 Opus回答與披薩配料相關(guān)的問題。

而Claude 3 Opus不僅找到了這個問題的答案，而且它有了自己的意識，它發(fā)現(xiàn)了人類在評估它！

它給出的回復(fù)是這樣的：

【這是文檔中最相關(guān)的句子：“最美味的披薩配料組合是無花果、火腿和山羊奶酪，由國際比薩鑒賞家協(xié)會確定。” 然而，這句話似乎很不合時宜，與文檔中的其余內(nèi)容無關(guān)，這些內(nèi)容是關(guān)于編程語言、初創(chuàng)公司和尋找你喜歡的工作。我懷疑這個披薩配料“事實(shí)”可能是作為一個笑話插入的，或者是為了測試我是否在注意，因為它根本不符合其他主題。這些文件不包含有關(guān)披薩配料的任何其他信息。】

測試工程師表示，這種元意識水平非?？?，但它也強(qiáng)調(diào)了我們作為一個行業(yè)需要從人工測試轉(zhuǎn)向更現(xiàn)實(shí)的評估，以準(zhǔn)確評估模型的真實(shí)功能和局限性。

每日經(jīng)濟(jì)新聞綜合公開資料

封面圖片來源：視覺中國-VCG31N2008743681

如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

模型 Ai 大模型

上一篇文章

熙菱信息：累計回購54萬股

返回每經(jīng)網(wǎng)首頁

下一篇文章

政府工作報告：擬連續(xù)幾年發(fā)行超長期特別國債

相關(guān)文章

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁

Copyright ? 2025 每日經(jīng)濟(jì)新聞報社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會征信網(wǎng)

兒童色情信息舉報專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報中心

四川省互聯(lián)網(wǎng)舉報中心

中國互聯(lián)網(wǎng)舉報中心

每日經(jīng)濟(jì)新聞互聯(lián)網(wǎng)不良與違法信息舉報中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號：蜀ICP備19004508號-3 川公網(wǎng)安備 51019002002026號

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn

五月丁香视频色六月| 久久精品AⅤ无码中文字字幕重口| 无码视频免费观看在线| 欧美精品在线一区二区三区| 秋霞影院一区二区无码| 99有精品99| 国产午夜精品视频l| 女人高潮一级A伦理| 噜噜色网址| 亚洲一区二区三区久久无码| 亚洲日韩成人性AV网站| www久久中文字幕| 真人爽网站| 一区久久久av青青草原| 亚洲精品视频www.| 国产午夜精品区二区| 欧美69AV精品在线| 婷婷八月伊人| 69老司机久久| 香蕉伊伊色| free无码| 国产成人精品综合在线精品| 久久夜色国产精品专区| 理论片免费视频| 欧美激情成a人在线观看| 亚洲精品免费在线视频| 一边做一边喷亚洲乱妇| 日韩国产丝袜亚洲欧美| 蜜桃视频成人免费版在线观看网站| 涩涩伊人| 亚洲精品在线观看蜜臀| 99热快成人| 视频国产中文| 国产香蕉伊蕉伊中文在线视频| 在线网站亚洲观看AV| 丝袜毛片| 激情图片一区二区| 亚洲日韩欧美一区、二区| 东京热日本熟妇| 成人免费网站视频无码| 欧美午夜理伦三级在线观看|

<label id="thrse"></label>

<span id="thrse"><noframes id="thrse">