色se02短视频永久网站,FREEZEFRAME丰满人妻

<mark id="1mr5x"><em id="1mr5x"></em></mark><button id="1mr5x"><em id="1mr5x"><center id="1mr5x"></center></em></button>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

ChatGPT o1滿血版上線！實(shí)測(cè)中它竟然敗給了國(guó)產(chǎn)AI？

2024-12-09 08:57

國(guó)產(chǎn)AI和OpenAI的差距，沒(méi)有一些人吹的那么大。

當(dāng)?shù)貢r(shí)間12月5日，OpenAI正式上線ChatGPT‍的o1和o1-Pro兩個(gè)新的AI模型。其中o1模型實(shí)際上大家之前已經(jīng)用過(guò)了，只是那時(shí)候還叫o1-preview，僅開放了o1模型的部分功能，如今新版本去掉了preview，也意味著o1模型的滿血版終于正式上線。

微信截圖_20241206214852.png

圖源：雷科技

從簡(jiǎn)單的測(cè)試來(lái)看，滿血版的o1模型已經(jīng)支持圖片和文件上傳，而此前是只能進(jìn)行文字輸入，也就是新增了多模態(tài)理解，不過(guò)網(wǎng)頁(yè)搜索功能仍未上線，這點(diǎn)倒是讓人感到遺憾。

對(duì)于o1滿血版的提升，OpenAI的CEO奧特曼用一個(gè)簡(jiǎn)單的柱狀圖給出了對(duì)比：可以看到o1在數(shù)學(xué)推理和編程領(lǐng)域的表現(xiàn)要明顯優(yōu)于o1-preview，提升幅度在50%左右，而在科研領(lǐng)域的測(cè)試?yán)�，o1相對(duì)于o1-preview的表現(xiàn)就提升有限了。

圖源：OpenAI

考慮到o1模型不需要額外加錢就能使用，對(duì)于有需求的用戶來(lái)說(shuō)還是很超值的，只是OpenAI這次醉翁之意不在酒，相較于免費(fèi)升級(jí)的o1，全新的o1-pro才是重頭戲。不過(guò)，想要用上o1-pro，得訂閱新的200美元套餐才能優(yōu)先使用，這也是目前AI領(lǐng)域中針對(duì)個(gè)人用戶的最昂貴訂閱方案。

從OpenAI給出的性能對(duì)比圖來(lái)看，o1-pro在o1的基礎(chǔ)上確實(shí)有所精進(jìn)，但是提升幅度并不大，對(duì)于普通用戶來(lái)說(shuō)，o1模型就完全可以滿足日常使用了，壓根沒(méi)有必要為了o1-pro訂閱200美元的套餐。

當(dāng)然，200美元套餐提供的不只是o1-pro，還有無(wú)限制使用o1模型和高級(jí)語(yǔ)音功能的權(quán)限（o1-pro不在此列，估計(jì)使用次數(shù)仍有上限），如果你覺(jué)得o1的提問(wèn)額度完全不夠用，那么200美元的套餐就是個(gè)人用戶的唯一選擇了。

既然有了新的模型，那么肯定是要來(lái)測(cè)試一下的。雷科技此次測(cè)試主要還是針對(duì)o1滿血版的多模態(tài)能力，同時(shí)也請(qǐng)來(lái)了兩位國(guó)產(chǎn)AI友情參賽（kimi和文心一言）。

o1滿血版實(shí)測(cè)體驗(yàn)并非「無(wú)敵」

o1模型的強(qiáng)項(xiàng)在于數(shù)學(xué)等方面的高級(jí)推理，那么就先從擅長(zhǎng)的地方開始，一道并不算困難的數(shù)學(xué)計(jì)算題：

假設(shè)一個(gè)公司生產(chǎn)某種商品，生產(chǎn)成本與產(chǎn)量的關(guān)系為C(x) = 3x^2 - 2x + 5（單位：萬(wàn)元），其中x是產(chǎn)量（單位：千件）。市場(chǎng)售價(jià)與產(chǎn)量的關(guān)系為 P(x) = 50 - 0.5x（單位：萬(wàn)元/千件）。

1. 求該公司生產(chǎn) x千件商品時(shí)的總利潤(rùn)函數(shù) L(x)。

2. 確定該公司應(yīng)生產(chǎn)多少千件商品以實(shí)現(xiàn)最大利潤(rùn)，并計(jì)算最大利潤(rùn)是多少。

首先看看國(guó)產(chǎn)AI的回答：

微信截圖_20241206184744.png

kimi

微信截圖_20241206184817.png

文心一言

國(guó)產(chǎn)AI都給出了相同的答案：188.14萬(wàn)元，那么再來(lái)看看ChatGPT-o1的。

下載.jpg

o1

o1模型給出的答案也是188.14萬(wàn)元，與問(wèn)題本身的標(biāo)準(zhǔn)答案一致，三個(gè)AI都通過(guò)了測(cè)試。不過(guò)大家從回答的截圖里，其實(shí)也能看出不同，o1模型展示了大量的推算過(guò)程，更方便用戶檢查推理的過(guò)程是否正確。

這也與o1模型的主要用途有關(guān)，本質(zhì)上o1模型上為科研等用途設(shè)計(jì)的，所以在展示答案的時(shí)候會(huì)更注重于推理過(guò)程及正確性，而非只輸出正確的答案。

接下來(lái)我們?cè)囋囍苯佑脠D片進(jìn)行提問(wèn)，可以讓我們輸入一些比較抽象的數(shù)學(xué)題，比如一道來(lái)自小學(xué)四年級(jí)的奧林匹克競(jìng)賽題：

微信截圖_20241206181502.png

還是慣例先看看國(guó)產(chǎn)AI的回答：

下載 (1).jpg

kimi

微信截圖_20241206192024.png

文心一言

兩個(gè)國(guó)產(chǎn)AI分別給出了A和B的選項(xiàng)，其中kimi的推理過(guò)程非常長(zhǎng)，直接把這道小學(xué)奧數(shù)題以高等數(shù)學(xué)的方式進(jìn)行了解析。

下面看看o1模型的回答：

微信截圖_20241206192500.png

o1

o1模型給出的答案也是B，那么是否說(shuō)明kimi算錯(cuò)了？答案并不是，這道題的正確答案其實(shí)是A，換言之o1和文心一言都算錯(cuò)了。文心一言因?yàn)闆](méi)有給出詳細(xì)推理過(guò)程，所以無(wú)法看出是在哪一步算錯(cuò)了，而o1模型顯然是在分析圖片時(shí)，錯(cuò)誤的判斷了圖形的集合數(shù)量，最終導(dǎo)致答案推理錯(cuò)誤。

在這個(gè)問(wèn)題上，其實(shí)就可以看出AI大模型在處理類似的圖形問(wèn)題時(shí)，解題的思路是不同的，文心一言和o1都試圖通過(guò)直接找出圖片的規(guī)律來(lái)計(jì)算答案，也就是類似于人類解題時(shí)的思路，而kimi則是直接將圖形等式轉(zhuǎn)化為方程式，然后進(jìn)行計(jì)算。

從效率來(lái)說(shuō)，o1和文心一言的推理方式肯定是更節(jié)省算力的，但是如果分析拆解能力沒(méi)有跟上，那么就會(huì)像這次一樣得出錯(cuò)誤的答案，而kimi的推理過(guò)程雖然會(huì)耗費(fèi)更多的算力，但是也保證了答案的準(zhǔn)確度。

站在企業(yè)角度來(lái)看，為了提高推理效率并降低推理成本，采用圖形推理方案自然是最佳選擇。但是考慮到o1本身的高級(jí)模型屬性，以及OpenAI給出的科研助手定位，如果還為了節(jié)省算力而給出錯(cuò)誤的答案，恐怕就難以說(shuō)服用戶了。

下面再來(lái)看看編程方面的表現(xiàn)，題目并不算難：

我想制作一個(gè)軟件，這個(gè)軟件可以每個(gè)小時(shí)檢查一次電腦的網(wǎng)絡(luò)連接狀態(tài)，如果網(wǎng)絡(luò)連接中斷就重啟電腦，如果網(wǎng)絡(luò)連接正常就保持現(xiàn)狀

兩個(gè)國(guó)產(chǎn)AI都很快就給出了答案：

微信截圖_20241206203248.png

kimi

下載 (3).jpg

文心一言

因?yàn)橐蠛芎?jiǎn)單，簡(jiǎn)單測(cè)試后虛擬機(jī)都提示成功運(yùn)行。不過(guò)，可以看到兩個(gè)國(guó)產(chǎn)AI的回答有些許不同，kimi在代碼中用灰色字體進(jìn)行了注釋，而文心一言則是通過(guò)額外的注意事項(xiàng)進(jìn)行提醒，并且還提醒要安裝運(yùn)行庫(kù)，并給出了更多的編程建議。

那么o1模型呢？答案如下：

下載 (4).jpg

o1

從o1模型的回答來(lái)看，它是分三個(gè)部分完成的回答，首先給出實(shí)現(xiàn)思路，然后給出示范代碼并進(jìn)行注釋，最后再對(duì)代碼的編寫過(guò)程進(jìn)行分析，同時(shí)提供了測(cè)試思路和備選方案，算是集中了兩個(gè)AI各自的優(yōu)勢(shì)，對(duì)于初學(xué)者來(lái)說(shuō)，o1模型的體驗(yàn)或許會(huì)更好一些。

從生產(chǎn)力的角度來(lái)說(shuō)，o1模型在特定領(lǐng)域的表現(xiàn)確實(shí)出色，但是國(guó)產(chǎn)AI的表現(xiàn)也不算差，其中kimi更是讓人感到驚喜，是唯一答對(duì)全部測(cè)試題目的AI。

測(cè)試到這里，本來(lái)可以告一段落了，不過(guò)我還想看看在日常領(lǐng)域，o1模型的表現(xiàn)和普通模型又會(huì)有什么區(qū)別呢？

所以，我又出了一道附加題，從網(wǎng)絡(luò)上搜索了一個(gè)草莓餡餅的照片，然后詢問(wèn)AI如何制作照片里的甜點(diǎn)。

下載 (7).jpg

kimi

下載 (6).jpg

文心一言

下載 (5).jpg

o1

三個(gè)AI都很輕松識(shí)別出了甜點(diǎn)的類型，并且給出了相似的配方，不過(guò)o1模型的回答則是詳細(xì)到了每一個(gè)步驟的操作方式和注意事項(xiàng)，相對(duì)來(lái)說(shuō)國(guó)產(chǎn)AI的步驟說(shuō)明就簡(jiǎn)單很多了。如果是有一定烘培經(jīng)驗(yàn)的人，國(guó)產(chǎn)AI的菜譜是夠用了，但是對(duì)于一個(gè)新手來(lái)說(shuō)，o1模型的菜譜成功率顯然會(huì)高很多。

AI的下一步是學(xué)會(huì)真正的「思考」

總體來(lái)看，o1模型在回答的細(xì)致度等方面確實(shí)有著明顯的優(yōu)勢(shì)，在一些需要查看推理過(guò)程或者得到更詳細(xì)回答的場(chǎng)景中體驗(yàn)會(huì)好很多。但是從答案的準(zhǔn)確度來(lái)看，o1對(duì)比目前的國(guó)產(chǎn)AI其實(shí)也沒(méi)有多少優(yōu)勢(shì)，表現(xiàn)還不如kimi。

而且國(guó)產(chǎn)AI也可以通過(guò)追問(wèn)等方式，得到更詳細(xì)的回答和推理過(guò)程，o1模型在多數(shù)場(chǎng)景下其實(shí)都沒(méi)有明顯的優(yōu)勢(shì)，比如我在日常使用ChatGPT時(shí)，很多時(shí)候ChatGPT-4o就可以滿足需求，只有極少數(shù)情況下會(huì)用到o1模型。

作為一個(gè)ChatGPT的長(zhǎng)期用戶，我認(rèn)為o1模型其實(shí)更適合科研人員及金融分析師等職業(yè)，他們?cè)谌粘９ぷ髦袝?huì)用到大量數(shù)學(xué)工具并進(jìn)行多次推理。此時(shí)，o1模型那經(jīng)過(guò)針對(duì)性訓(xùn)練的多步驟推理流程，在解決這些問(wèn)題時(shí)表現(xiàn)會(huì)比普通AI好不少。

至于o1-pro，其實(shí)從我查詢到的其他用戶測(cè)試結(jié)果來(lái)看，回答的質(zhì)量與o1模型并沒(méi)有太大區(qū)別，兩者的差距主要是o1-pro可以調(diào)用更多的算力，反復(fù)驗(yàn)算答案的正確性，并且嘗試給出更詳細(xì)的推理過(guò)程。

實(shí)際上AI大模型發(fā)展到現(xiàn)在的階段，其實(shí)又開始出現(xiàn)細(xì)分化的苗頭，在此之前不少AI企業(yè)都希望去打造一個(gè)大而全的多模態(tài)模型，但是卻發(fā)現(xiàn)成本很高且效果并不算好，諸如「幻覺(jué)」等問(wèn)題一直難以解決。

而ChatGPT-o1無(wú)疑給出了另一個(gè)解法，在算力足夠的情況下，可以讓AI先對(duì)問(wèn)題進(jìn)行一次深度的「思考」，再根據(jù)思考的結(jié)果去進(jìn)行推算。你可以這么去理解，o1是先嘗試分析問(wèn)題本身，再根據(jù)分析結(jié)果去解決問(wèn)題，而普通AI則是直接對(duì)問(wèn)題進(jìn)行關(guān)鍵詞拆解，然后根據(jù)算法調(diào)用對(duì)應(yīng)的數(shù)據(jù)并組合輸出，這種方式雖然回應(yīng)速度快，但是回答的準(zhǔn)確度卻難以保證，特別是面對(duì)一些復(fù)雜的問(wèn)題時(shí)。

所以，我們可以看到kimi和文心一言其實(shí)也在通過(guò)不同的方式去讓AI學(xué)會(huì)「思考」，而不是根據(jù)算法和數(shù)據(jù)強(qiáng)行組合答案。kimi的表現(xiàn)更是給我留下了深刻的印象，作為數(shù)學(xué)測(cè)試環(huán)節(jié)唯一回答全對(duì)的選手，無(wú)需付費(fèi)就可以使用，性價(jià)比和體驗(yàn)都拉滿了。

老實(shí)說(shuō)，如果不是為了方便查詢外文資料和關(guān)注AI的最前沿，ChatGPT的20美刀訂閱性價(jià)比確實(shí)不高，免費(fèi)的kimi和提供多種智能體及官方工具，更具有泛用性的文心一言都是更具性價(jià)比的選擇。

來(lái)源：雷科技

原文標(biāo)題 : ChatGPT o1滿血版上線！實(shí)測(cè)中它竟然敗給了國(guó)產(chǎn)AI？

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

登錄登錄即可訪問(wèn)所有OFweek服務(wù)

用戶名/郵箱/手機(jī)：
密碼：
忘記密碼？
用其他賬號(hào)登錄： QQ | 微信 | 新浪微博

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

暫無(wú)評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

精品剧情v国产在线观看

精品一区二区三区在线观看视频肉体奉公hd中文字幕看片在线男女h视频

<mark id="vyh0c"><wbr id="vyh0c"><style id="vyh0c"></style></wbr></mark>

<button id="vyh0c"><progress id="vyh0c"><style id="vyh0c"></style></progress></button>

<span id="vyh0c"><tbody id="vyh0c"></tbody></span>