成人欧美一区二区三区视频不卡_欧美午夜艳片欧美精品_日日摸日日碰夜夜爽视频网站_欧美卡一卡二卡新区aaa

要在AI下半場定義“好問題”,紅杉中國推出全新AI基準測試xbench

獵云網王非2025-05-26 14:28 大公司
第一個由投資機構打造的AI基準測試。

隨著基礎模型的快速發展和AI Agent進入規模化應用,被廣泛用于評估AI能力的基準測試(Benchmark)卻面臨一個日益尖銳的問題:想要真實反映AI系統的客觀能力正變得越來越困難,這其中最直接的表現——基礎模型“刷爆”了市面上的基準測試題庫,紛紛在各大測試榜單上斬獲高分甚至滿分。

因此,構建一個更加科學、長效和反映AI客觀能力的評測體系,正在成為指引AI技術突破與產品迭代的重要需求。

5月26日,紅杉中國宣布推出全新的AI基準測試xbench,并發布論文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。這是首個由投資機構發起,聯合國內外十余家頂尖高校和研究機構的數十位博士研究生,采用雙軌評估體系和長青評估機制的AI基準測試。xbench將在評估和推動AI系統能力提升上限與技術邊界的同時,重點量化AI系統在真實場景的效用價值,并長期捕捉Agent產品的關鍵突破。

來源:紅杉中國


xbench基準測試的特點包括:


xbench采用雙軌評估體系,構建多維度測評數據集,旨在同時追蹤模型的理論能力上限與Agent的實際落地價值。該體系創新性地將評測任務分為兩條互補的主線:(1)評估AI 系統的能力上限與技術邊界;(2)量化AI 系統在真實場景的效用價值(Utility Value)。其中,后者需要動態對齊現實世界的應用需求,基于實際工作流程和具體社會角色,為各垂直領域構建具有明確業務價值的測評標準。

xbench 采用長青評估 (Evergreen Evalution)機制,通過持續維護并動態更新測試內容 ,以確保時效性和相關性。xbench將定期測評市場主流Agent產品,跟蹤模型能力演進,捕捉 Agent產品迭代過程中的關鍵突破,進而預測下一個Agent 應用的技術-市場契合點(TMF,Tech-Market Fit)。作為獨立第三方,xbench致力于為每類產品設計公允的評估環境,提供客觀且可復現的評價結果。

首期發布包含兩個核心評估集:科學問題解答測評集(xbench-ScienceQA)與中文互聯網深度搜索測評集(xbench-DeepSearch),并對該領域主要產品進行了綜合排名。同期提出了垂直領域智能體的評測方法論,并構建了面向招聘(Recruitment)和營銷(Marketing)領域的垂類 Agent評測框架。

在過去兩年多的時間里,xbench一直是紅杉中國在內部使用的跟蹤和評估基礎模型能力的工具,今天紅杉將其公開并貢獻給整個AI社區。無論是基礎模型和Agent的開發者, 還是相關領域的專家和企業,或者是對AI評測具有濃厚興趣的研究者,xbench都歡迎加入,成為使用并完善xbench的一份子,一起打造評估AI能力的新范式。

xbench最早是紅杉中國在2022年ChatGPT推出后,對AGI進程和主流模型進行的內部月評與匯報。在建設和不斷升級“私有題庫”的過程中,紅杉中國發現主流模型“刷爆”題目的速度越來越快,基準測試的有效時間在急劇縮短。正是由于這一顯著變化,紅杉中國對現有評估方式產生了質疑——

“當大家紛紛考滿分的時候,到底是學生變聰明了,還是卷子出了問題?”


因此,紅杉中國開始思考并準備解決兩個核心問題:


1)模型能力和AI實際效用之間的關系?基準測試的題目越出越難,意義是什么?是否落入了慣性思維?AI落地的實際經濟價值真的會和AI做難題呈正相關嗎?

2) 不同時間維度上的能力比較:在xbench每一次更換題庫之后,我們就失去了對AI能力的前后可比性追蹤。因為在新的題庫下,模型版本也在迭代,無法比較不同時間維度上單個模型的能力如何變化。在判斷創業項目的時候,創業者的“成長斜率”是一個重要依據,但在評估AI能力上,題庫的不斷更新卻反而讓判斷失效。


為了解決這兩個問題,xbench給出了新的解題思路:


1) 打破慣性思維,為現實世界的實用性開發新穎的任務設置和評估方式。

當AI進入“下半場”,不僅需要越來越難的AI Search能力的測試基準(AI Capabilities Evals),也需要一套對齊現實世界專家的實用性任務體系(Utility Tasks)。前者考察的是能力邊界,呈現形式是score,而后者考察的實用性任務和環境多樣性,商業KPIs(Conversion Rate, Closing Rate)和直接的經濟產出。

因此,xbench引入了Profession Aligned的基準概念,接下來的評估會使用“雙軌制”,分為AGI Tracking和Profession Aligned,AI將面臨更多復雜環境下效用的考察,從業務中收集的動態題集,而不單是更難的智力題。

來源:紅杉中國

2)建立長青評估體系。靜態評估集一旦面世,會出現題目泄露導致過擬合然后迅速失效的問題,我們將維護一個動態更新的題目擴充評估集來緩解這一現象。

針對AI Capacity Evals:學術界提出了很多出色的方法論,但是受限于資源與時間不充分,無法維護成動態擴充的持續評估。xbench希望能延續一系列公開評估集的方法,并提供第三方、黑白盒、Live的評測。

針對Profession Aligned Evals:xbench希望建立從真實業務中Live收集機制,邀請各行業的職業專家共同構建和維護行業的動態評估集。

同時,在動態更新的基礎上,xbench設計可橫向對比的能力指標,用于在時間上觀察到排名之外發展速度與關鍵突破的信號,幫助判斷某個模型是否達到市場可落地閾值,以及在什么時間點上,Agent可以接管已有的業務流程,提供規模化服務。

在xbench推出當天,官網xbench.org上線了首期針對主流基礎模型和Agent的測評結果。

來源:紅杉中國

紅杉中國表示:xbench歡迎社區共建。對于基礎模型與Agent開發者,可以使用最新版本的xbench評測集來第一時間驗證其產品效果,得到內部黑盒評估集得分;對于垂類Agent開發者、相關領域的專業和企業,歡迎與xbench共建與發布特定行業垂類標準的Profession Aligned xbench;對于從事AI評測研究,具有明確研究想法的研究者,希望獲取專業標注并長期維護評估更新,xbench可以幫助AI評估研究想法落地并產生長期影響力。

【本文為合作媒體授權博望財經轉載,文章版權歸原作者及原出處所有。文章系作者個人觀點,不代表博望財經立場,轉載請聯系原作者及原出處獲得授權。有任何疑問都請聯系(聯系(微信公眾號ID:AppleiTree)。免責聲明:本網站所有文章僅作為資訊傳播使用,既不代表任何觀點導向,也不構成任何投資建議。】

猜你喜歡

成人欧美一区二区三区视频不卡_欧美午夜艳片欧美精品_日日摸日日碰夜夜爽视频网站_欧美卡一卡二卡新区aaa

        欧美亚洲国产一区二区三区 | 亚洲444eee在线观看| 国产一区二区福利| 国产精品少妇自拍| 欧美午夜精品久久久久久孕妇| 久久精品视频免费观看| 日韩国产欧美在线视频| 久久综合五月天婷婷伊人| 亚洲国产aⅴ天堂久久| 精品少妇一区二区三区在线播放| 亚洲资源中文字幕| 成人ar影院免费观看视频| 亚洲一区二区三区中文字幕| 精品久久一区二区| 亚洲成人1区2区| wwwwww.欧美系列| 一本色道久久综合亚洲91| 国产欧美一区在线| 精品一区二区久久久| 亚洲欧美在线视频| 欧美成人性战久久| 视频一区二区不卡| 国产清纯白嫩初高生在线观看91| 欧美视频一区二区| 亚洲精品日韩综合观看成人91| 粉嫩av一区二区三区在线播放| 亚洲免费观看高清完整版在线观看| 日韩欧美www| 日韩精品久久久久久| 中文字幕高清一区| 欧美一区二区三区视频在线观看| 亚洲一区二区欧美日韩| 久久久久99精品一区| 精品视频一区三区九区| 亚洲综合在线电影| 久久男人中文字幕资源站| 欧美日韩一区二区三区不卡| 亚洲欧洲在线观看av| 精品国产亚洲在线| 美女免费视频一区| 亚洲欧美日韩中文播放| 国产婷婷一区二区| 国产成人午夜精品5599| 亚洲一本大道在线| 国产精品久久久久久久久免费樱桃| 国产麻豆午夜三级精品| 亚洲国产sm捆绑调教视频| 国产精品美女久久久久久久久久久| 国产成人aaa| 色美美综合视频| 洋洋av久久久久久久一区| 久久久久久久久97黄色工厂| 91精品国产色综合久久ai换脸| 五月天久久比比资源色| 1区2区3区国产精品| wwww国产精品欧美| 国产精品一区二区久久精品爱涩| 香蕉成人啪国产精品视频综合网| 中文字幕佐山爱一区二区免费| 2021久久国产精品不只是精品| 91精品一区二区三区久久久久久 | 久久亚洲精精品中文字幕早川悠里| 欧美日韩成人综合在线一区二区| 午夜国产精品影院在线观看| 亚洲视频你懂的| 国产精品免费免费| 2023国产精品视频| 精品国产一区a| 国产不卡视频在线观看| 欧美三级三级三级爽爽爽| 日韩国产欧美在线视频| 亚洲综合成人在线| 亚洲精品免费在线播放| 国产精品色眯眯| 中文幕一区二区三区久久蜜桃| 成人aa视频在线观看| 欧美一区二区三区思思人| 捆绑变态av一区二区三区| 亚洲成av人**亚洲成av**| 一区二区三区电影在线播| 中文在线资源观看网站视频免费不卡| 久久亚洲精华国产精华液| 粉嫩av一区二区三区| 91精品在线一区二区| 国内不卡的二区三区中文字幕| 在线观看日韩国产| 日韩女优av电影在线观看| 国产一二精品视频| 在线播放欧美女士性生活| 精品一区二区三区不卡| 欧美熟乱第一页| 久久69国产一区二区蜜臀| 欧美偷拍一区二区| 久久超碰97人人做人人爱| 欧美在线观看一区二区| 久久精品噜噜噜成人88aⅴ| 欧美性大战久久久| 国产在线精品一区在线观看麻豆| 欧美三级电影精品| 激情丁香综合五月| 欧美精品一卡两卡| 国产麻豆成人精品| 日韩欧美色综合网站| 99在线视频精品| 久久久国产综合精品女国产盗摄| 久久亚洲精华国产精华液| 中文字幕精品综合| 国产精品国产三级国产三级人妇| 综合久久久久综合| av在线这里只有精品| 精品噜噜噜噜久久久久久久久试看| 成人av午夜电影| 久久久久久久久久久久久久久99| 91在线一区二区| 亚洲国产高清在线| 中文字幕中文字幕一区| 亚洲精品v日韩精品| 亚洲最快最全在线视频| 日韩av在线免费观看不卡| 欧美日韩国产免费| 成a人片亚洲日本久久| 国产日韩影视精品| 中文字幕一区二区视频| 亚洲成人精品影院| 欧美色综合影院| 成人av在线资源| 日本一区二区三区电影| 国产精品久久三区| 偷偷要91色婷婷| 欧美群妇大交群的观看方式| youjizz久久| 国产精品成人免费| 亚洲一区二区在线观看视频| 精品一区二区三区视频在线观看 | 亚洲一二三四区不卡| 欧美自拍偷拍一区| 成人福利在线看| 国产精品久久久久久久久搜平片| 夜夜嗨av一区二区三区网页| 久久黄色级2电影| 亚洲精品一区二区三区香蕉| 国产精品麻豆久久久| 婷婷夜色潮精品综合在线| 91精品国模一区二区三区| 久久久99久久| 亚洲午夜精品在线| 欧美丰满高潮xxxx喷水动漫| 2023国产精品| 亚洲电影一区二区三区| 51精品国自产在线| 欧美韩国日本一区| 日韩精品乱码免费| 精品日韩一区二区| 亚洲欧美国产三级| 国产在线麻豆精品观看| 国产清纯美女被跳蛋高潮一区二区久久w | 午夜一区二区三区在线观看| 91麻豆精品国产91久久久更新时间| 久久久不卡影院| 视频一区欧美日韩| 日韩视频123| 亚洲日本中文字幕区| 精油按摩中文字幕久久| 欧美经典一区二区| 色综合一区二区| 99久久国产综合精品女不卡| 洋洋av久久久久久久一区| 欧美丰满嫩嫩电影| 成人免费在线观看入口| 国产自产视频一区二区三区| 国产精品嫩草99a| 欧洲在线/亚洲| 国产欧美日韩中文久久| 欧美日韩免费在线视频| 久久久久成人黄色影片| 青娱乐精品视频在线| 国产日韩欧美精品一区| 色综合网色综合| 国产午夜精品理论片a级大结局| 日韩二区在线观看| 国产日产欧美精品一区二区三区| 图片区日韩欧美亚洲| 久久综合九色综合欧美亚洲| 丝袜亚洲另类欧美| 国产亚洲午夜高清国产拍精品| 婷婷开心激情综合| 久久精品男人天堂av| 毛片不卡一区二区| 中文字幕一区免费在线观看 | 日本一区二区成人在线| 在线欧美日韩国产| 亚洲国产高清aⅴ视频| 国产美女一区二区三区| 一区二区三区四区在线播放 | 亚洲永久精品大片| 久久人人爽人人爽| 91成人在线精品| 亚洲欧洲美洲综合色网| 成人黄色综合网站| 日本特黄久久久高潮|