
撰文 | 李信馬
題圖 | AI生圖
在去年11月的一篇文章《三次浪潮:從OceanBase看國產(chǎn)數(shù)據(jù)庫的崛起》中,我們?cè)岬揭粋€(gè)“新物種”——seekdb,一款輕量級(jí)、嵌入式、面向AI應(yīng)用的原生搜索數(shù)據(jù)庫。
這款產(chǎn)品是隨著AI的快速發(fā)展應(yīng)運(yùn)而生的,當(dāng)時(shí)OceanBase CEO楊冰表示:“這一次seekdb的發(fā)布,其實(shí)也是一個(gè)比較大的動(dòng)作,它是完全獨(dú)立于現(xiàn)在OceanBase的一個(gè)分支,這也是我們下的決心?!?/p>
時(shí)隔不久后,seekdb的名字又出現(xiàn)在了一場高規(guī)格的競賽之中。1月18日,2025年全國大學(xué)生計(jì)算機(jī)系統(tǒng)能力大賽暨第五屆OceanBase數(shù)據(jù)庫大賽在北京科技大學(xué)落幕,OceanBase數(shù)據(jù)庫大賽是教育部認(rèn)定的A類學(xué)科競賽,五年來賽事累計(jì)覆蓋500余所高校、超1.1萬名學(xué)生,本屆賽事吸引了全國1223支隊(duì)伍、2620名學(xué)生參賽,是我國數(shù)據(jù)庫領(lǐng)域核心人才培養(yǎng)的重要平臺(tái)。
而且本屆大賽全面升級(jí),首次聚焦在了AI原生場景上,決賽基于seekdb設(shè)置兩大前沿賽題,一是優(yōu)化“全文檢索+結(jié)構(gòu)化過濾”的混合查詢性能;二是基于同一數(shù)據(jù)庫內(nèi)核,構(gòu)建可溯源的多模態(tài)RAG系統(tǒng)。選手要用自己優(yōu)化的數(shù)據(jù)庫內(nèi)核,搭建一個(gè)既快又準(zhǔn)、還能溯源答案來源的多模態(tài)RAG系統(tǒng)。
這兩道賽題,可以說都是針對(duì)AI產(chǎn)業(yè)中真實(shí)瓶頸的工程攻堅(jiān),而更有趣的是,賽事方對(duì)AI原生數(shù)據(jù)庫這一新生事物的力推,和參賽團(tuán)隊(duì)的積極響應(yīng)。
談起AI時(shí)代,我們一般討論的是大模型、是芯片、是Agent,以至于經(jīng)常會(huì)忽視基礎(chǔ)軟件的價(jià)值。但數(shù)據(jù)庫,可能比我們想象的更重要。
01、AI越熱,數(shù)據(jù)庫越關(guān)鍵?
很多人覺得,數(shù)據(jù)庫就是個(gè)存放數(shù)據(jù)的“倉庫”,但現(xiàn)實(shí)是,再聰明的模型,如果缺乏高質(zhì)量、高效率、可治理的數(shù)據(jù)支撐,實(shí)際表現(xiàn)也會(huì)一塌糊涂。大模型的計(jì)算能力強(qiáng),但沒有記憶,需要數(shù)據(jù)庫產(chǎn)品來存儲(chǔ)和管理上下文,可見AI帶來的技術(shù)革命絕不是孤立的,而是一場系統(tǒng)性重構(gòu)。
在這場重構(gòu)中,數(shù)據(jù)庫依舊位于底座的重要位置,同時(shí)也被提出了新的需求。就像大數(shù)據(jù)時(shí)代Hadoop引發(fā)的技術(shù)革命一樣,AI時(shí)代,數(shù)據(jù)庫需要處理的數(shù)據(jù)量會(huì)進(jìn)一步變大,數(shù)據(jù)類型也發(fā)生明顯變化。
隨著大模型與RAG(檢索增強(qiáng)生成)技術(shù)加速落地,數(shù)據(jù)系統(tǒng)既要支持語義檢索與結(jié)構(gòu)化過濾等混合查詢,也要滿足權(quán)限控制、可追溯與一致性等治理要求,傳統(tǒng)的“搜索引擎+數(shù)據(jù)庫”拼接架構(gòu)逐漸過時(shí)。
舉個(gè)例子,“查找過去7天內(nèi),來自?VIP?用戶、內(nèi)容包含‘支付失敗’的工單”,這一類同時(shí)處理語義關(guān)鍵詞(全文)與結(jié)構(gòu)化條件(標(biāo)量過濾)的“帶標(biāo)量過濾的全文搜索”已經(jīng)成為高頻的AI應(yīng)用需求,但傳統(tǒng)架構(gòu),用?Elasticsearch?等外部搜索引擎再與數(shù)據(jù)庫結(jié)果在應(yīng)用層拼接,不但架構(gòu)復(fù)雜,還可能導(dǎo)致數(shù)據(jù)不一致、端到端延遲高。
還有在構(gòu)建企業(yè)級(jí)智能問答、知識(shí)庫助手和語義搜索系統(tǒng)時(shí),傳統(tǒng)方案將向量檢索與全文檢索割裂處理,可能會(huì)帶來架構(gòu)冗余與一致性風(fēng)險(xiǎn),導(dǎo)致搜索的內(nèi)容缺失或者不準(zhǔn)確,運(yùn)維也復(fù)雜。
近幾年,業(yè)界新的數(shù)據(jù)庫產(chǎn)品,比如向量數(shù)據(jù)庫、supabase,也包括seekdb在內(nèi),其實(shí)都是面向AI的。業(yè)界主流的數(shù)據(jù)庫如Oracle和MongoDB,在引擎內(nèi)部也逐步增加了搜索的能力,支持AI原生的場景。
不過,目前行業(yè)還處于初級(jí)階段。OceanBase的CTO楊傳輝去年11月就提出:“只要談到AI數(shù)據(jù)庫,很多人的腦海里面想到的第一個(gè)詞叫向量搜索,我認(rèn)為向量搜索只是AI數(shù)據(jù)庫的初級(jí)階段,最終所有的向量搜索都會(huì)逐步演進(jìn)為混合搜索,能不能支持混合搜索是AI數(shù)據(jù)庫核心能力的分水嶺?!?/p>
實(shí)際的AI應(yīng)用中,在金融、醫(yī)療等領(lǐng)域,數(shù)據(jù)的來源和處理過程必須清晰可查。這也倒逼了數(shù)據(jù)庫的演進(jìn),混合檢索成為高頻負(fù)載,“可追溯”成為硬指標(biāo),推動(dòng)數(shù)據(jù)庫與搜索、向量、RAG鏈路重新組合。
未來,原生支持混合查詢與多模態(tài)檢索的AI原生數(shù)據(jù)庫,很可能將迎來新一輪爆發(fā)式需求。本屆競賽的全面升級(jí),和對(duì)AI原生場景的聚焦,也是對(duì)這一趨勢(shì)的順應(yīng)。
02、AI時(shí)代中國數(shù)據(jù)庫的機(jī)遇
這個(gè)問題,其實(shí)在上一篇文章中也有提到。
由于數(shù)據(jù)庫技術(shù)正面臨重構(gòu),為中國數(shù)據(jù)庫實(shí)現(xiàn)技術(shù)引領(lǐng)和全球“彎道超車”提供了關(guān)鍵機(jī)遇。在AI原生數(shù)據(jù)庫領(lǐng)域,中國與國際處于同一起跑線,甚至在部分開源生態(tài)方面已領(lǐng)先。
引用一下楊冰的講話:“AI的話,它對(duì)于數(shù)據(jù)庫產(chǎn)生了新的需求,這些其實(shí)是讓我們一下子跟世界級(jí)的數(shù)據(jù)庫領(lǐng)域的玩家站在同一起跑線,因?yàn)檫@個(gè)場景全球都是新的,都是一樣的。而且可能因?yàn)橹袊鴳?yīng)用比較發(fā)達(dá),數(shù)據(jù)基建發(fā)展得比較快,數(shù)據(jù)量比較大,反而我們?cè)谶@個(gè)場景當(dāng)中,中國數(shù)據(jù)庫的玩家有更多的機(jī)會(huì)?!?/p>
這個(gè)邏輯是可以跑通的,因?yàn)閿?shù)據(jù)庫是為應(yīng)用服務(wù)的,在AI時(shí)代,中國有著海量的應(yīng)用,自然有潛力誕生世界級(jí)的AI原生數(shù)據(jù)庫。
額外說一點(diǎn),事情還是要人去做的,現(xiàn)在的“AI熱”,讓許多有志青年投身于人工智能領(lǐng)域,不過正如上文提到的,數(shù)據(jù)庫領(lǐng)域也在高速發(fā)展中,同樣將產(chǎn)生不小的人才缺口。曾經(jīng)的“IOE”中現(xiàn)在最堅(jiān)挺的,還是Oracle,依舊是世界級(jí)的數(shù)據(jù)庫,足以證明數(shù)據(jù)庫本身的價(jià)值。
AI時(shí)代,“會(huì)用工具”很重要,“能做系統(tǒng)”也很重要,就像大賽的冠軍團(tuán)隊(duì)「編程高手」賽后所說:“如果數(shù)據(jù)庫拖后腿,再強(qiáng)的模型也會(huì)卡殼?!?/p>
最后,引用一下華東師范大學(xué)數(shù)據(jù)學(xué)院教授,CCF會(huì)士、常務(wù)理事,數(shù)據(jù)庫專委會(huì)主任周傲英教授的一段演講內(nèi)容作為對(duì)未來的預(yù)測(cè)(有部分微調(diào)):
“去年的7月份,Satya Nadella說‘未來的軟件就等于Agent+Database’,當(dāng)然他講的Database不是傳統(tǒng)的Database。我們知道中國很多IT企業(yè)還在沿著這條路(傳統(tǒng)的Database),還當(dāng)作先進(jìn)的路線?,F(xiàn)在年輕孩子們有特別好的機(jī)會(huì),因?yàn)槲覀兊搅艘粋€(gè)轉(zhuǎn)折點(diǎn),我們找到了新的思路來做這個(gè)事。
我們說說他的話,他說:‘AI Agent將重塑業(yè)務(wù)邏輯與數(shù)據(jù)庫交互方式。隨著AI技術(shù)的飛速發(fā)展,Agent已經(jīng)具備了取代傳統(tǒng)業(yè)務(wù)邏輯的雄厚實(shí)力。它們能夠直接與數(shù)據(jù)庫中的核心基礎(chǔ)數(shù)據(jù)進(jìn)行深度交互,從而完成各種復(fù)雜的任務(wù)。在這個(gè)過程當(dāng)中,以往需要在數(shù)據(jù)庫之上進(jìn)行的硬編碼業(yè)務(wù)邏輯會(huì)變得不再必要?!?/em>
想一想,這是很可怕的一件事,讓數(shù)字化轉(zhuǎn)型變成可能,數(shù)據(jù)庫的選擇變得多元化,要特別講究它的適應(yīng)性。AI Agent時(shí)代,后端數(shù)據(jù)庫的選擇變得尤為重要,這種數(shù)據(jù)庫并非傳統(tǒng)意義上某一種特定的數(shù)據(jù)庫,比如Oracle這樣的數(shù)據(jù)庫。Oracle為什么要發(fā)生根本的改變,其實(shí)我覺得它是看到了這種趨勢(shì),它必須具備廣泛的兼容性,并且與AI Agent配合默契,成本低廉,這是Satya Nadella的原話。
數(shù)據(jù)庫現(xiàn)在處于一個(gè)‘因?yàn)橄嘈?,所以看見’的時(shí)代,我們要相信相信的力量,相信Data就是Power,我們要相信數(shù)據(jù)庫將進(jìn)化成一個(gè)數(shù)據(jù)賦能平臺(tái)?!?/em>