豆包文科成績超了一本線：為什么理科不行

來源：量子位編輯：非小米時(shí)間：2024-07-01 15:25人閱讀

#大模型 #豆包

什么？好多大模型的文科成績超一本線，還是最卷的河南省？？？

△圖源：極客公園

沒錯(cuò)，最近就有這么一項(xiàng)大模型“高考大摸底”評測走紅了。

河南高考文科今年的一本線是521分，根據(jù)這項(xiàng)評測，共計(jì)四個(gè)大模型大于或等于這個(gè)分?jǐn)?shù)，其中頭兩名最值得關(guān)注：

GPT-4o：562分

字節(jié)豆包：542.5分

……

從結(jié)果中來看，GPT-4o的表現(xiàn)依舊是處于領(lǐng)先狀態(tài)，而在國產(chǎn)大模型這邊，比較亮眼的成績便屬于豆包了。

并且在語文和歷史等科目的成績甚至還超越了GPT-4o。

這也讓不少網(wǎng)友紛紛感慨：

AI文科成績這么好，看來在處理語言和邏輯上還是很有優(yōu)勢的。

不過有一說一，畢竟國產(chǎn)大模型的競爭是如此之激烈，這份評測的排名真的靠譜嗎？發(fā)布僅數(shù)月的豆包，真具備此等實(shí)力嗎？以及這數(shù)學(xué)……又是怎么一回事兒？

先看評測榜單

要回答上述的問題，我們不妨先來查一查豆包在最新的權(quán)威評測榜單中的表現(xiàn)是否一致。

首先有請由智源研究院發(fā)布的FlagEval（天秤）。

它的評測方式是這樣的：

對于開源模型， FlagEval會綜合概率選擇和自由生成兩種方式來評測，對于閉源模型， FlagEval只采用自由生成的方式來評測，兩種評測方式區(qū)別參照。

主觀評測時(shí)部分閉源模型對極小部分題目有拒絕回答的情形，這部分題目并沒有計(jì)入能力分?jǐn)?shù)的計(jì)算。

在“客觀評測”這個(gè)維度上，榜單成績?nèi)缦拢?/p>

不難看出，這一維度下的FlagEval中，前四名的成績是與“高考大摸底”的名次一致。

大模型依舊分別來自O(shè)penAI、字節(jié)跳動、百度和百川智能。

并且豆包在“知識運(yùn)用”和“數(shù)學(xué)能力”兩個(gè)維度上成績還高于第一名的GPT-4。

若是將評測方式調(diào)節(jié)至“主觀評測”，那么結(jié)果是這樣的：

此時(shí)，百度的大模型躍居到了第一名，而字節(jié)的豆包依舊是穩(wěn)居第二的成績。

由此可見，不論是主觀還是客觀維度上，前幾位的名次都是與“高考大摸底”的成績是比較接近的。

接下來，我們再來有請另一個(gè)權(quán)威測評——OpenCompass（司南）。

在最新的5月榜單中，豆包的成績也是僅次于OpenA家的大模型。

同樣的，在細(xì)分的“語言”和“推理”兩個(gè)維度中，豆包還是超越了GPT-4o和GPT-4 Turbo。

但與專業(yè)評測冷冰冰的分?jǐn)?shù)相比，人們都對高考有著更深刻的體驗(yàn)和記憶。

那么接下來我們就通過豆包回答高考題，來看看大模型在應(yīng)對人類考試時(shí)的具體表現(xiàn)。

再看實(shí)際效果

既然目前許多試卷的題目都已經(jīng)流出，我們不妨親測一下豆包的實(shí)力。

例如讓它先寫一篇新課標(biāo)I卷語文的作文題目：

隨著互聯(lián)網(wǎng)的普及、人工智能的應(yīng)用，越來越多的問題能很快得到答案。那么，我們的問題是否會越來越少？

以上材料引發(fā)了你怎樣的聯(lián)想和思考？請寫一篇文章。

要求：選準(zhǔn)角度，確定立意，明確文體，自擬標(biāo)題；不要套作，不得抄襲；不得泄露個(gè)人信息；不少于800字。

△結(jié)果由豆包PC端對話生成

從豆包的作答上來看，是已經(jīng)擺脫了AI寫作文經(jīng)常犯的“首先-其次-以及-最后”這種模板式的寫法，也擅長引經(jīng)據(jù)典來做論證。

但畢竟每個(gè)人對于文筆的審美標(biāo)準(zhǔn)不同，因此豆包高考作文寫得如何，評價(jià)就交給你們了（歡迎在留言區(qū)討論）。

值得一提的是，在量子位向豆包團(tuán)隊(duì)詢問后得知，原來豆包PC端對話和手機(jī)端“拍題答疑”是兩種截然不同的招式——

前者走的是LLM鏈路，后者走的則是RAG鏈路（若是用豆包手機(jī)端“拍題答疑”功能，高考數(shù)理化成績也能接近滿分）。

加上在這次“高考大摸底”評測出爐之后，很多網(wǎng)友們都將關(guān)注的重點(diǎn)聚焦到了數(shù)學(xué)成績上：

AI也怕數(shù)學(xué)。

因此，接下來的實(shí)際效果測試，我們就將以“LLM鏈路+數(shù)學(xué)”的方式來展開。

先拿這次的選擇題來小試牛刀一下：

當(dāng)我們把題目在PC端“喂”豆包之后，它的作答如下：

因此，豆包給出的答案是：

A、C、D、D、B、B、A、A

這里我們再來引入排名第一選手GPT-4o的作答：

A、D、B、D、C、A、C、B

而根據(jù)網(wǎng)上目前多個(gè)信源得到的標(biāo)準(zhǔn)答案是：A、C、D、A、B、B、C、B。

對比來看，豆包對5道，GPT-4o答對4道。

而對于更多的數(shù)學(xué)題的作答，其實(shí)復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室在高考試卷曝光后第一時(shí)間做了更加全面的測試（所有大模型只能依靠LLM推理答題，不能通過RAG檢索答案）：

△圖源：復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室

由此可見，大模型并不能完全hold住高考數(shù)學(xué)題目，并且不同人生成答案的結(jié)果也會出現(xiàn)偏差。

并且量子位在反復(fù)測試后發(fā)現(xiàn)，豆包對話答題時(shí)有一定隨機(jī)性，多輪測試時(shí)的結(jié)果并不完全一樣。上文只取樣其中一輪的結(jié)果。

這也正如廣大網(wǎng)友所反饋的那般——大模型文科強(qiáng)、理科弱。

對此，技術(shù)圈也已經(jīng)有一些討論和解釋：

大語言模型的基本原理是“文字接龍”，通過預(yù)測下一個(gè)token來生成內(nèi)容，每次預(yù)測都有隨機(jī)性和概率分布。

當(dāng)大語言模型學(xué)習(xí)了海量知識數(shù)據(jù)，天然就適應(yīng)考驗(yàn)記憶能力和語言運(yùn)用的文科考試。

但理科考試主要考驗(yàn)推理和計(jì)算，比如一道數(shù)學(xué)題包含5步推理和5步計(jì)算，假設(shè)大語言模型每一步預(yù)測準(zhǔn)確的概率都有90%，綜合下來的準(zhǔn)確率就只有35%。

另一方面，理科語料比較稀缺。大模型的訓(xùn)練數(shù)據(jù)中，文科語料要遠(yuǎn)遠(yuǎn)大于理科語料。這也是大模型更擅長文科的一個(gè)原因。

大模型都在努力提升智能水平，主要目標(biāo)就是提高推理和計(jì)算能力。目前學(xué)界對此存在爭議，有觀點(diǎn)認(rèn)為，“預(yù)測下一個(gè)token”本身就包含了推理，計(jì)算也是一種推理。

只要Scaling Law生效，大模型性能持續(xù)提升，推理和計(jì)算能力就能夠提升；但也有反對者（如Yann LeCun）認(rèn)為，大語言模型缺乏真正的規(guī)劃推理能力，其涌現(xiàn)能力實(shí)際上是上下文學(xué)習(xí)的結(jié)果，主要體現(xiàn)在簡單任務(wù)和事先知道答案的情境中。大語言模型未來是否能夠真正實(shí)現(xiàn)AGI，目前還沒有定論。

那是不是大模型就不適合用戶來解數(shù)學(xué)題了呢？

也并不全是。

正如剛才所說，如果用豆包手機(jī)端的“拍題答疑”，也就是RAG鏈路的方式，那么結(jié)果的“打開方式”就截然不同了。

我們可以先用豆包APP對著題目拍照，讓它先進(jìn)行識別：