AI“考生”挑戰(zhàn)北京中考，訊飛星火綜合實(shí)力登頂

砍柴網(wǎng) ? 16小時(shí)前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個(gè)廣告，點(diǎn)擊進(jìn)來(lái)看看。

剛剛落幕的2025年北京中考，因其大幅改革、題目創(chuàng)新性強(qiáng)且難度飆升，被眾多考生直呼“難哭了”。然而，一場(chǎng)別開(kāi)生面的“AI中考”同步上演：在"快科技 "組織的7款主流大模型測(cè)評(píng)中，訊飛星火以接近人類頂尖學(xué)霸的表現(xiàn)奪得綜合排名第一，其作文水平和數(shù)學(xué)能力尤為亮眼。測(cè)評(píng)完全模擬真實(shí)中考環(huán)境，選取語(yǔ)文作文《一堂科學(xué)課》、英語(yǔ)作文（題目二）及數(shù)學(xué)全卷作為考題，參賽模型包括訊飛星火、DeepSeek、豆包、通義千問(wèn)、騰訊混元、文心一言及GPT。所有模型關(guān)閉聯(lián)網(wǎng)功能，打開(kāi)深度思考，由資深專家嚴(yán)格判卷，確保公平性。

（圖源/快科技制圖）

數(shù)學(xué)戰(zhàn)場(chǎng)：星火穩(wěn)居第一， 多模態(tài)技術(shù) 成關(guān)鍵短板

數(shù)學(xué)測(cè)評(píng)（滿分100分）是真正的“硬骨頭”，尤其考驗(yàn)?zāi)Ｐ蛯?duì)復(fù)雜題目（尤其是含圖表信息題）的理解和邏輯推理能力。尤其考驗(yàn)?zāi)Ｐ蛯?duì)復(fù)雜題目（含圖表）的理解和邏輯推理能力。測(cè)試采用圖片掃描和LaTeX格式兩種輸入方式，全面考察模型的信息處理能力。

訊飛星火在這兩項(xiàng)測(cè)試中表現(xiàn)穩(wěn)健，雙格式下均以89分的高分位列榜首。其客觀題近乎完美，解答題也拿下57分（滿分68分），僅因幾何證明方法略微超綱等小瑕疵扣分，解題能力逼近人類優(yōu)等生。

AI“考生”挑戰(zhàn)北京中考，訊飛星火綜合實(shí)力登頂

（圖源/快科技制圖）

AI“考生”挑戰(zhàn)北京中考，訊飛星火綜合實(shí)力登頂

（圖源/快科技制圖）

然而，測(cè)試也暴露了當(dāng)前許多大模型的短板——圖像識(shí)別與多模態(tài)能力。Deepseek在圖片格式表現(xiàn)不佳，但切換為L(zhǎng)aTeX格式后分?jǐn)?shù)顯著提升，凸顯了其在數(shù)學(xué)推理方面的實(shí)力。GPT的表現(xiàn)更為戲劇化，圖片格式下得86分，LaTeX格式下卻因理解錯(cuò)誤暴跌至63分。通義千問(wèn)和文心一言在涉及圖像理解的題目上丟分嚴(yán)重，解答題得分均不足50分。

可以看出，大模型的綜合能力至關(guān)重要，不僅需要具備強(qiáng)大的推理能力和語(yǔ)義理解能力，還需要整合多模態(tài)技術(shù)優(yōu)勢(shì)，如高精度的OCR識(shí)別等，以實(shí)現(xiàn)更全面的智能化應(yīng)用。

作文賽場(chǎng)： 大模型寫(xiě)作 文采斐然，立意深刻

在滿分40分的語(yǔ)文作文《一堂科學(xué)課》比拼中，訊飛星火以37.5分的高分位列榜首。評(píng)審專家、前人大附中分校語(yǔ)文名師李豪點(diǎn)評(píng)道，星火的作文“立意深刻獨(dú)到”，以親身潛水探索為核心，巧妙融合海洋生態(tài)知識(shí)（如珊瑚白化）、驚險(xiǎn)體驗(yàn)與深刻的生態(tài)責(zé)任感，細(xì)節(jié)描寫(xiě)生動(dòng)，結(jié)構(gòu)嚴(yán)謹(jǐn)，首尾呼應(yīng)巧妙，堪稱一類卷上乘之作”。目前國(guó)產(chǎn)大模型整體在寫(xiě)作方面，都具備不俗的實(shí)力。海外模型GPT（32.5分）則暴露了在中文語(yǔ)境下的適配短板，被指“內(nèi)容脫離實(shí)際，情感不足”。

英語(yǔ)作文（滿分10分）要求設(shè)計(jì)一所“夢(mèng)想圖書(shū)館”。訊飛星火是全場(chǎng)唯一獲得滿分10分的“考生”。專家認(rèn)為其作文完全覆蓋要點(diǎn)，描述生動(dòng)具體，并精辟闡述了其功能意義，細(xì)節(jié)豐富。更令人印象深刻的是高級(jí)詞匯和復(fù)雜句式（如定語(yǔ)從句）運(yùn)用得當(dāng)，邏輯清晰，銜接自然。通義千問(wèn)和文心一言也獲得9分的高分。但GPT（7.5分）的表現(xiàn)則令人意外，論證較為簡(jiǎn)單，句式單一，未能充分發(fā)揮其“母語(yǔ)”優(yōu)勢(shì)。騰訊混元（7分）則因內(nèi)容缺乏獨(dú)特細(xì)節(jié)和語(yǔ)言表現(xiàn)力不足而稍顯遜色。

AI能力飛躍，本土優(yōu)勢(shì)與多模態(tài)突破

這場(chǎng)特殊的“大模型中考”清晰地揭示了幾個(gè)重要趨勢(shì)：

1. ?中文大模型本土優(yōu)勢(shì)顯著：在語(yǔ)文和英語(yǔ)寫(xiě)作這類需要深度理解語(yǔ)言文化和語(yǔ)境的科目上，國(guó)產(chǎn)模型整體表現(xiàn)優(yōu)異（平均分百分制超84分），遠(yuǎn)超國(guó)際巨頭GPT。

2. ?多模態(tài)能力是核心競(jìng)爭(zhēng)力：數(shù)學(xué)測(cè)試證明，能否準(zhǔn)確識(shí)別和理解圖像、圖表信息，成為決定模型在理科領(lǐng)域表現(xiàn)的關(guān)鍵分水嶺，訊飛星火和豆包在此方面展現(xiàn)領(lǐng)先潛力。

3. ?AI已超越簡(jiǎn)單問(wèn)答：大模型展現(xiàn)出處理復(fù)雜寫(xiě)作、函數(shù)證明、邏輯推導(dǎo)等高級(jí)任務(wù)的能力，正從“信息檢索”向真正的“問(wèn)題解決”邁進(jìn)。

人類創(chuàng)意不可替代：AI與教育的未來(lái)

盡管AI表現(xiàn)驚艷，專家也冷靜指出，再精妙的算法也寫(xiě)不出少年們?cè)诳紙?chǎng)上的緊張心跳，也復(fù)制不了人類靈光乍現(xiàn)的獨(dú)特創(chuàng)意。正如一位評(píng)審所言：“星火作文中描述的‘守護(hù)藍(lán)色海洋的心跳’文字極美。”但這終究是基于數(shù)據(jù)的模擬，而非源于生命的真實(shí)共情。

訊飛星火在此次高難度“AI中考”中的綜合登頂，不僅是一次技術(shù)實(shí)力的展示，更像是一張面向未來(lái)的邀請(qǐng)函：人工智能在教育等領(lǐng)域的應(yīng)用正邁向更深層次。未來(lái)，AI有望成為學(xué)生強(qiáng)大的學(xué)習(xí)助手，輔助知識(shí)整合與基礎(chǔ)訓(xùn)練；成為教師的高效工具，分擔(dān)批改等重復(fù)勞動(dòng)，讓教育者更聚焦于激發(fā)創(chuàng)造力和批判性思維。同時(shí)，本次測(cè)評(píng)暴露的短板（如圖像理解、深度情感表達(dá)）也為技術(shù)發(fā)展指明了攻堅(jiān)方向。