-
8大維度600道題盲測,訊飛星火成中國“最聰明”大模型
2023/8/19 11:56:50 來源:財訊網 【字體:大 中 小】【收藏本頁】【打印】【關閉】
核心提示:近日,麻省理工科技評論對國內排名靠前的四個大模型進行了一次全方位評測,參評的大模型分別是訊飛星火、百度文心一言、商湯商量、阿里通義千問。在最終的評測結果中,訊飛星火以整體水平得分率81.50%高居第一,成為“最聰明”國產大模型。去年11月ChatGPT發布后,全世界掀起了AIGC熱潮,國內各大企業和投資人也紛紛跟進。百模大戰一觸即發
各家大模型紛紛入局,一時之間國內大模型領域呈現出少有的熱鬧景象。
到目前為止,國內已經發布的10億參數以上大模型數量超過80個,“百模大戰”的競爭格局初步形成。
競爭格局出現變化
近日,麻省理工科技評論對國內排名靠前的四個大模型進行了一次全方位評測,參評的大模型分別是訊飛星火、百度文心一言、商湯商量、阿里通義千問。在最終的評測結果中,訊飛星火以整體水平得分率81.50%高居第一,成為“最聰明”國產大模型。
此次評測是從權威題庫中抽取8個維度的600道題對參評大模型進行盲測。
從各維度的結果來看,在8個一級分類中,訊飛星火共獲得其中6個一級分類的第一名。
麻省理工科技評論的評測報告還重點指出:在編程能力評測中,訊飛星火 80% 的得分率明顯高于 71%的平均值,在生成代碼的簡答題單項上,訊飛星火的得分率高達 82%,遠高于其他平臺,表現頗為亮眼。
無獨有偶,就在此前幾天的8月12日,新華社研究院中國企業發展研究中心發布《人工智能大模型體驗報告2.0》,在該《報告》中,訊飛星火V1.5就以總分1013分位列本次國產主流大模型測評榜首位。在四大評測維度中的智商指數和工具提效指數兩個維度獲得第一,《報告》認為訊飛星火“在工作提效方面優勢明顯”。
行業應用加速落地
8月15日,科大訊飛發布了星火認知大模型V2.0,V2.0在代碼能力和多模態能力方面的表現讓人印象頗為深刻。而在應用落地方面,訊飛也展示出快人一步的節奏,無論是對標Copilot X的智能編程助手iFlyCode1.0,還是行業首創的星火教師助手,都展現出了很強的競爭力。
按理說,訊飛星火能取得這樣的成績并不令人意外。畢竟,科大訊飛自成立以來,一直都聚焦在AI領域潛心發展,無論是人才還是技術,都有著不錯的積累。
隨著訊飛星火開始在大模型領域嶄露鋒芒,國內大模型市場的競爭格局或許也會隨之迎來不小的變化。
細分定位勢在必行
在模型能力層面,訊飛星火和文心一言開始形成國內大模型領域的第一梯隊。而在應用落地的速度方面,現已發布了多款行業應用的科大訊飛似乎已經走在了前面。
鑒于國內大模型企業相對同質化的定位,后續的競爭應該會日趨激烈。如何在繼續加強大模型通用能力的同時,找到自己在垂直細分領域的精準定位,或許已經成為很多大模型企業不得不認真思考的問題。
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如有侵權行為,請第一時間聯系我們修改或刪除,郵箱:cidr@chinaidr.com。 -
- 熱點資訊
- 24小時
- 周排行
- 月排行