DoNews6月4日消息,近日斯坦福大學的AI研究團隊的 Llama3-V 開源模型被指控抄襲了清華系明星創(chuàng)業(yè)公司面壁智能開發(fā)的開源模型“小鋼炮”MiniCPM-Llama3-V 2.5,在網(wǎng)上引起熱議。
6月3日上午,當事企業(yè)面壁智能的CEO李大海在朋友圈發(fā)文回應(yīng)稱:“我們對這件事深表遺憾。一方面感慨這也是一種受到國際團隊認可的方式,另一方面呼吁大家共建開放、合作、有信任的社區(qū)環(huán)境。
《時代周報》記者就如何規(guī)避相關(guān)現(xiàn)象詢問李大海,他稱,(想規(guī)避)應(yīng)該很難?!斑@主要是個學術(shù)道德問題?!?/p>
業(yè)內(nèi)關(guān)于“套殼”的爭議由來已久。有人認為,開源就該被充分利用;有人則表示,閉源才是自主研發(fā),參考開源就是套殼。
實際上,如今所有大模型都源于2017年谷歌大腦團隊發(fā)布的Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu),這些包含模型架構(gòu)和算法的設(shè)計決定了模型如何處理輸入數(shù)據(jù)并生成輸出。在此基礎(chǔ)上,廠商在大規(guī)模的數(shù)據(jù)上對大模型進行預訓練,來提高模型的泛化能力,加速后續(xù)的學習任務(wù)推進。
因神經(jīng)網(wǎng)絡(luò)架構(gòu)和預訓練這兩項工作打造難度高、投入金額大、耗費數(shù)據(jù)量多,往往被稱作大模型的內(nèi)核。