色婷婷我也去俺也去,97亚洲国产精品电影在线观看

<track id="pipia"></track>

<abbr id="pipia"></abbr><abbr id="pipia"><i id="pipia"></i></abbr>

<track id="pipia"></track>

<fieldset id="pipia"><dl id="pipia"></dl></fieldset>

<abbr id="pipia"></abbr>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

跑分沒輸過，體驗(yàn)沒贏過，大模型刷分何時(shí)休？

2023-12-05 13:35

作者：一號(hào)

編輯：美美

圖片來源：由無界 AI生成

從手機(jī)到大模型，國內(nèi)產(chǎn)品為啥都這么熱衷跑分？

IDCAI大模型技術(shù)能力評估，12項(xiàng)指標(biāo)，7項(xiàng)滿分，文心大模型3.5“大滿貫”；360智腦在SuperCLUE評測中多項(xiàng)能力位列國產(chǎn)大模型第一，某些方面甚至跑贏了GPT-4；夸克大模型在C-Eval和CMMLU兩大權(quán)威評測榜單中名列第一，顯示出其在寫作、考試等部分場景中甚至優(yōu)于GPT-4......

今年以來，國產(chǎn)AI大模型發(fā)展趨勢之迅猛，不得不讓人感慨。截至目前，國產(chǎn)大模型數(shù)量已經(jīng)超過了200個(gè)，而且，這些大模型紛紛表現(xiàn)不俗，從百度文心一言到阿里巴巴的夸克大模型，國產(chǎn)AI在各類評測榜單上的表現(xiàn)引人注目。有人對此評價(jià)，“跑分沒輸過，體驗(yàn)沒贏過”。

這種似曾相識(shí)的“跑分”現(xiàn)象，不禁讓人想到手機(jī)市場里類似的做法。這種在評測中名列前茅、表現(xiàn)出色，但實(shí)際用戶體驗(yàn)一言難盡的情況，究竟意味著什么？

為何跑分與體驗(yàn)不符?

回顧手機(jī)市場，“跑分沒輸過，體驗(yàn)沒贏過”這句話最開始就是從手機(jī)圈中興起的，各大廠商通過不斷疊加定語，來讓自己獲得第一；還有的手機(jī)會(huì)自動(dòng)識(shí)別跑分軟件，針對性地開啟性能模式，讓自己的跑分?jǐn)?shù)據(jù)好看些，從而實(shí)現(xiàn)“作弊”。用戶買到跑分高的手機(jī)后，實(shí)際體驗(yàn)并不是那么回事。

而在AI大模型領(lǐng)域，評估標(biāo)準(zhǔn)則相對公平，并且是同意的，其中包括MMLU（用于衡量多任務(wù)語言理解能力）、Big-Bench（用于量化和外推LLMs的能力），以及AGIEval(用于評估人類級(jí)任務(wù)的能力）。

目前國內(nèi)廠商經(jīng)常飲用的榜單就是SuperCLUE、CMMLU和C-Eval，其中C-Eval是由清華大學(xué)、上海交通大學(xué)和愛丁堡大學(xué)合作構(gòu)建的綜合性考試評測集，CMMLU則是MBZUAI、上海交通大學(xué)、微軟亞洲研究院共同推出，至于SuperCLUE，則是由各大高校的AI專業(yè)人士設(shè)立的。

盡管大模型的評測標(biāo)準(zhǔn)相對公平，但其仍有一定的局限性，實(shí)際的測評之中總會(huì)出現(xiàn)問題，其中一個(gè)最大的問題就是“考題泄露”。

大模型評測的一個(gè)主要方法就是做題。為了讓評測相對透明公開，避免暗箱操作，評測機(jī)構(gòu)通常會(huì)將評測的方法、標(biāo)準(zhǔn)甚至是題庫對外公開。例如C-Eval榜單在上線之初就有13948道題目，由于題庫有限，并且更新頻率不是特別高，這就給了一些大模型刷題“鉆空子”的機(jī)會(huì)。

我們都知道，如果在考試之前知道會(huì)考哪些題目，那考生完全可以做針對性的學(xué)習(xí)，大模型也一樣，并且大模型最擅長的就是記憶。在評測之前，把題庫直接加入大模型的訓(xùn)練集，訓(xùn)練之后的大模型就能在評測中表現(xiàn)得比實(shí)際能力更好，甚至跑出一些夸張的成績，例如1.3B的模型在某些任務(wù)上超越了10倍體量的大模型。

那么這樣的評測結(jié)果，跟實(shí)際體驗(yàn)一定會(huì)很不相符。

為何熱衷于跑分？

無論是國產(chǎn)手機(jī)廠商還是AI大模型公司，他們對跑分的熱衷，本質(zhì)上是一種營銷策略。跑分成績?nèi)菀妆涣炕�、對比，因此成為了向公眾展示技術(shù)實(shí)力的便捷手段。這種做法在短期內(nèi)可能會(huì)吸引消費(fèi)者和投資者的注意，但它也可能引起誤導(dǎo)，使人們過分關(guān)注理論性能，而忽視了實(shí)際應(yīng)用中的體驗(yàn)和效能。

這種營銷策略的問題在于，它可能導(dǎo)致公司本末倒置，過分投入于提高特定測試的分?jǐn)?shù)，而非真正的技術(shù)創(chuàng)新。在手機(jī)行業(yè)，這可能意味著優(yōu)化設(shè)備性能以提升特定跑分軟件的測試成績；在AI領(lǐng)域，則可能表現(xiàn)為優(yōu)化模型以應(yīng)對評測榜單的特定題目。這種做法雖然能在短期內(nèi)提高產(chǎn)品在評測榜單上的排名，但卻可能忽視了產(chǎn)品在真實(shí)使用環(huán)境中的性能和用戶體驗(yàn)。

這種以跑分為核心的營銷策略需要被重新審視。盡管高分成績在營銷中具有吸引力，但它們并不總是反映產(chǎn)品的真實(shí)價(jià)值。對于消費(fèi)者而言，理論上的高性能與日常使用中的實(shí)際體驗(yàn)之間往往存在差距。因此，無論是手機(jī)行業(yè)還是AI領(lǐng)域，公眾和行業(yè)都應(yīng)該更加關(guān)注產(chǎn)品在真實(shí)世界中的表現(xiàn)。

要放棄跑分嗎？

從隋唐的科舉到今天的高考，從國內(nèi)的四六級(jí)到國外的托福雅思，考試在時(shí)間和空間的維度上，都是一種相對公平的衡量機(jī)制。因此，大模型評測作為大模型的“考試”，同樣不能被輕易拋棄。

倘若評測相對準(zhǔn)確、靠譜、權(quán)威，那么對于所有的大模型公司來說都是好事。研發(fā)者可以通過評測結(jié)果了解自家大模型的優(yōu)缺點(diǎn)，查漏補(bǔ)缺，找到正確的方向鉆研算法、提升技術(shù)、加強(qiáng)訓(xùn)練，不斷攻克，進(jìn)行優(yōu)化迭代，從而讓產(chǎn)品更具有競爭力。

對于AI大模型開發(fā)者而言，榜單的排名不應(yīng)該成為最終目的，真正的挑戰(zhàn)在于如何將先進(jìn)的技術(shù)轉(zhuǎn)化為實(shí)際應(yīng)用中的有效工具，這不僅僅是一場分?jǐn)?shù)的競賽，更是對技術(shù)創(chuàng)新和實(shí)用性的追求。我們期待一個(gè)更加全面和科學(xué)的評測體系的出現(xiàn)，這不僅能正確評估AI模型的實(shí)際能力，還能促進(jìn)整個(gè)行業(yè)向著更加健康、理性的方向發(fā)展。

原文標(biāo)題 : 新火種AI | 跑分沒輸過，體驗(yàn)沒贏過，大模型刷分何時(shí)休？

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報(bào)。

發(fā)表評論

共0條評論，0人參與

登錄登錄即可訪問所有OFweek服務(wù)

用戶名/郵箱/手機(jī)：
密碼：
忘記密碼？
用其他賬號(hào)登錄： QQ | 微信 | 新浪微博

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

3月27日
立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
4月30日
立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中，新智能座艙挑戰(zhàn)的解決方案
5月15-17日
立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
即日-5.15
立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
5月15日
立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
5月16日
立即參評 >> 【評選啟動(dòng)】維科杯·OFweek 2025（第十屆）人工智能行業(yè)年度評選

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

精品剧情v国产在线观看

精品一区二区三区在线观看视频肉体奉公hd中文字幕看片在线男女h视频