97尹人香蕉国产免费天天拍_亚洲色成人网站www永久下载_2025最新最全国产精品_AV鲁丝片一区二区三区

大模型落地需要“記憶力”,這家公司想為向量數(shù)據(jù)庫正名 | 把脈大模型

2023-08-07 11:23:36

現(xiàn)實生活中若兩人進行對話,大致需要三步流程:一方首先拋出話題作引子;另一方會先調(diào)動記憶判斷自己是否了解這個話題,然后再分析給出應(yīng)該做出何種回答。如此循環(huán)往復(fù)直到互動結(jié)束,而此次對話又會作為一種新的“記憶”被雙方吸收。

為讓計算機完成這樣的互動過程,并持續(xù)在一對一或一對多的情況下變成日常,AI科學(xué)家提出了CVP結(jié)構(gòu),即“ChatGPT(以ChatGPT為代表的大模型)+Vector Database(向量數(shù)據(jù)庫)+Prompt(提示詞)”,分別承擔(dān)計算機分析、記憶、引子的功能。


(相關(guān)資料圖)

向量數(shù)據(jù)庫作為計算機記憶體一般的存在,正吸引著大批投資人和創(chuàng)業(yè)者的關(guān)注。向量數(shù)據(jù)庫創(chuàng)業(yè)公司Zilliz的創(chuàng)始人兼CEO謝超告訴界面新聞,大模型落地,從數(shù)據(jù)的角度要面對的重要現(xiàn)實就是計算同存儲的分離,即大模型屬于廠商,而數(shù)據(jù)屬于用戶?!皣鴥?nèi)幾乎所有主流的大模型廠商上半年上門找我們聊合作,都迫切想知道一件事——大模型如何跟向量數(shù)據(jù)庫配套使用,或者說計算和存儲如何結(jié)合并實現(xiàn)低成本的重復(fù)使用。”

向量數(shù)據(jù)庫是一種專門處理(主要包括存儲和檢索)非結(jié)構(gòu)化數(shù)據(jù)的新型數(shù)據(jù)庫。傳統(tǒng)的數(shù)據(jù)庫主要處理由行、列二維表格方式存儲的結(jié)構(gòu)化數(shù)據(jù),這類數(shù)據(jù)具有標(biāo)準化的格式,較為容易做量化分析。而非結(jié)構(gòu)化數(shù)據(jù)是指那些高維度、難以量化的抽象數(shù)據(jù),通常需要特定的數(shù)據(jù)結(jié)構(gòu)來組織,且不易分析?,F(xiàn)實生活中,非結(jié)構(gòu)化數(shù)據(jù)以各種形式出現(xiàn),包括文本、圖像、音視頻以及未來多模態(tài)呈現(xiàn)更為復(fù)雜多元的表情、體態(tài)等數(shù)據(jù)。

結(jié)構(gòu)化數(shù)據(jù),一本書的信息按照ISBN碼、年份、署名、作者就可轉(zhuǎn)化為二維表格

非結(jié)構(gòu)化數(shù)據(jù),一個完整句子需要結(jié)合上下文語境,按語義分割將每個單詞轉(zhuǎn)化為三維乃至更高維的向量矩陣

以O(shè)penAI背后的GPT模型預(yù)訓(xùn)練所用的數(shù)據(jù)為例,GPT-3.5的“知識庫”共包含3000億單詞的數(shù)據(jù),匯聚了來自開源語料庫、維基百科、各類圖書與新聞報道、Reddit與Twitter平臺文章等大量互聯(lián)網(wǎng)文本數(shù)據(jù)。GPT-4在此基礎(chǔ)上體量更大,且為了支持多模態(tài)專門收集各類圖像、視頻素材,這其中非結(jié)構(gòu)化數(shù)據(jù)應(yīng)占有極大比重。同時,隨著大模型朝著多模態(tài)趨勢的迭代,非結(jié)構(gòu)數(shù)據(jù)的數(shù)量勢必將呈指數(shù)級增長。

根據(jù)IDC、Gartner等市場調(diào)研機構(gòu)的估算,真實世界中絕大多數(shù)數(shù)據(jù)(約80%)都為非結(jié)構(gòu)化數(shù)據(jù),只有少量(約20%)為結(jié)構(gòu)化數(shù)據(jù)。然而正如冰山效應(yīng)所喻示的“巨大的冰山往往是八分之一浮在水面上,八分之七沉沒在水面之下”,非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)復(fù)雜且難處理,反而導(dǎo)致有效利用率遠低于結(jié)構(gòu)化數(shù)據(jù)。因此,打造面向非結(jié)構(gòu)化數(shù)據(jù)的向量數(shù)據(jù)庫也變成了一場從0到1的拓荒。

Zilliz成立于2017年,總部位于硅谷,是最早一批探索向量數(shù)據(jù)庫的先行者。以大模型誕生為分水嶺,公司的成長歷程可分為“前大模型時期”和“后大模型時期”。

在前大模型時期,向量數(shù)據(jù)庫的技術(shù)理念并未有統(tǒng)一的定義,市場上也未有同類產(chǎn)品模式可作參照。Zilliz起步只能在無人區(qū)中開拓新賽道,客戶、投資、應(yīng)用場景都是未知數(shù)?!拔覀冏鱿蛄繑?shù)據(jù)庫的前幾年幾乎沒有任何收入,全靠融資生存,但那時候說服投資人是一件很困難的事情。招聘工程師、找客戶、拉投資,不確定性幾乎來自方方面面,這也成為Zilliz的常態(tài)?!?/p>

2019年,Zilliz開源了全球首個向量數(shù)據(jù)庫產(chǎn)品Milvus,目前在GitHub上獲得了超過2.1萬顆Star,是開源圈內(nèi)的明星項目,也給公司帶來了第一批用戶。同時,團隊發(fā)表的向量數(shù)據(jù)庫相關(guān)的兩篇論文,也在2021和2022連續(xù)兩年入選了數(shù)據(jù)庫領(lǐng)域國際頂級會議SIGMOD和VLDB。在創(chuàng)始人眼中,Zilliz前幾年所做的工作都在一步步將向量數(shù)據(jù)庫推向主流視野的關(guān)注范圍內(nèi)。

后大模型時期,ChatGPT的爆發(fā)則徹底改變了向量數(shù)據(jù)庫的發(fā)展速度。2023年3月,在英偉達全球開發(fā)者大會上,黃仁勛力挺向量數(shù)據(jù)庫對構(gòu)建專有大型語言模型的重要價值,同時點名Milvus。緊接著,Milvus和Zilliz Cloud又成為了OpenAI官方首批plugin合作的向量數(shù)據(jù)庫。

資本和競爭對手隨即迅速涌入這一賽道。其實,早在2022年8月,Zilliz就完成了累計超過 1.03億美元的B輪融資,由沙特阿美Aramco Ventures旗下基金領(lǐng)投,現(xiàn)有股東淡馬錫、高瓴創(chuàng)投、五源資本和云啟資本跟投,估值達6億美元。另外一家OpenAI官方合作的向量數(shù)據(jù)庫公司Pinecone最新宣布獲得a16z領(lǐng)投的1億美元,估值達7.5億美元。今年4月,有4家向量數(shù)據(jù)庫創(chuàng)業(yè)公司宣布當(dāng)月獲得融資。大模型廠商也紛紛開始著手布局自家的向量數(shù)據(jù)庫,騰訊、京東均有對外公開的向量數(shù)據(jù)庫產(chǎn)品。

參考美國2022年上市的數(shù)據(jù)庫公司Snowflake以及還未上市的獨角獸公司Databricks,融資規(guī)模都已達到數(shù)十億美元。向量數(shù)據(jù)庫如今已經(jīng)走完了為賽道“正名”的第一步,目前處在產(chǎn)業(yè)化的開端。而數(shù)據(jù)庫行業(yè)先天具有高資本投入、高技術(shù)門檻的特點,一款數(shù)據(jù)庫通常需要經(jīng)過成百上千的工程師研發(fā)迭代,技術(shù)產(chǎn)品的工程積累預(yù)計將成為該賽道競爭的決定性條件。

前大模型時期通過搞科研、發(fā)論文、做開源為向量數(shù)據(jù)庫正名后,處于后大模型時期的Zilliz將2023年視為“商業(yè)化元年”。

在開源產(chǎn)品Milvus之外,公司將云服務(wù)產(chǎn)品Zilliz Cloud作為商業(yè)化的關(guān)鍵。Zilliz Cloud可以幫助企業(yè)用戶構(gòu)建十億級向量數(shù)據(jù)庫,部署和擴展向量搜索服務(wù),收費模式分為存儲收費(按數(shù)據(jù)規(guī)模與存儲時間)與計算收費(按機器數(shù)與運行的小時數(shù))。這也是該公司進一步穩(wěn)固市場的核心所在。

(文章來源:界面新聞)

標(biāo)簽:

關(guān)閉
新聞速遞