DoNews11月18日消息,埃隆?馬斯克(Elon Musk)旗下的人工智能公司 xAI 11 月 17 日宣布推出最新大語(yǔ)言模型 Grok 4.1,并已面向所有用戶全面推送。

本次更新旨在全面提升 Grok 在真實(shí)世界場(chǎng)景下的可用性。官方表示,Grok 4.1 不僅繼承了前代模型敏銳的智能與高可靠性,更在創(chuàng)造性、情感理解和協(xié)作互動(dòng)方面實(shí)現(xiàn)了重大改進(jìn),讓其能夠更精準(zhǔn)地感知用戶細(xì)微意圖,提供更具吸引力和人格連貫性的對(duì)話體驗(yàn)。
Grok 4.1 的性能實(shí)現(xiàn)了業(yè)界頂尖水平。在大型語(yǔ)言模型競(jìng)技場(chǎng)(LMArena)的文本能力排行榜上,其具備深度思考能力的版本(代號(hào):quasarflux)以 1483 的 Elo 分?jǐn)?shù)高居榜首,領(lǐng)先第二名達(dá) 31 分。
更引人注目的是,其無(wú)需深度思考的“即時(shí)響應(yīng)”版本也以 1465 的 Elo 分?jǐn)?shù)位列第二,性能甚至超越了其他所有模型的“全推理”模式。這一成績(jī)相較于前代 Grok 4(排名第 33 位)實(shí)現(xiàn)了巨大飛躍,也印證了其在底層能力上的絕對(duì)優(yōu)勢(shì)。

除了在通用能力基準(zhǔn)測(cè)試中表現(xiàn)出色,Grok 4.1 還在“軟實(shí)力”方面取得了顯著進(jìn)步。在衡量模型情商的 EQ-Bench3 基準(zhǔn)測(cè)試和評(píng)估創(chuàng)意能力的 Creative Writing v3 測(cè)試中,新模型均表現(xiàn)優(yōu)異。
在評(píng)估情感理解、洞察力和人際交往能力的 EQ-Bench3 基準(zhǔn)測(cè)試中,Grok 4.1 的推理與非推理模式包攬了榜單前兩名。
在創(chuàng)意寫作領(lǐng)域,根據(jù) Creative Writing v3 基準(zhǔn)測(cè)試結(jié)果,Grok 4.1 的兩種模式分別位列第二和第三,僅次于早期的 GPT-5.1 模型。
這意味著 Grok 4.1 不僅能處理復(fù)雜的邏輯推理,還能更好地理解并回應(yīng)帶有人類情感的提示,進(jìn)行富有想象力的內(nèi)容創(chuàng)作,讓其在人機(jī)交互中更具“人情味”。
另一項(xiàng)關(guān)鍵改進(jìn)在于大幅降低了模型的“幻覺(jué)”率。對(duì)于配備搜索工具的快速響應(yīng)模型而言,由于推理深度和工具調(diào)用預(yù)算有限,容易出現(xiàn)事實(shí)性錯(cuò)誤。
x.ai 在 Grok 4.1 的訓(xùn)練后期,特別針對(duì)優(yōu)化信息查詢類提示,專注于減少事實(shí)性幻覺(jué)。根據(jù)對(duì)真實(shí)世界查詢樣本的評(píng)估,新模型的幻覺(jué)率已顯著降低,從而為用戶提供更可靠、更準(zhǔn)確的信息。