高手問答第 306 期 —— 聊聊 LLM 與知識圖譜、圖數據庫的關系

小白兔愛吃大灰狼 發布于 09/05 10:42
閱讀 7K+
收藏 1

從數據到大模型應用,11 月 25 日,杭州源創會,共享開發小技巧

自從今年初 ChatGPT 橫空出世并風靡全球之后,我們也迎來了一個并不陌生的名詞:LLM,即大語言模型。隨后,眾多與 LLM 相關的項目如火如荼,這項新技術點燃了人們對科技未來的無限想象。

半年過去了,人們開始冷靜地審視 LLM,思考它到底能為我們帶來怎樣的實際效益。與此同時,在過去的半年里,圖數據庫 NebulaGraph 研發人員也在探索這個問題,他們結合圖技術和知識圖譜,進行了自己的研究和嘗試。

OSCHINA 本期高手問答 (9 月 6 日 - 9 月 12 日) 我們請來@wey 和 @xctylist 與大家一起討論 LLM 到底能為廣大圖技術從業者帶來什么。

大家可以從"LLM + 圖數據庫"、"LLM + 知識圖譜"等方向提出問題。除了以上提問范圍,你還可以擴展討論的范圍,涵蓋圖數據庫、LLM 相關領域的內容,包括 LLM 的應用、圖的應用場景等等:

* LLM 和知識圖譜的結合應用
* 快速上手使用 LLM
* 利用 LLM 生成圖查詢語句
* ...

* 圖數據庫:一種專門用于存儲和查詢圖數據的數據庫系統。它們被設計用于處理大規模的圖結構數據,提供高效的圖遍歷和復雜的圖查詢功能。圖數據庫能夠有效地存儲和處理知識圖譜數據,并支持復雜的查詢和推理操作。
* 知識圖譜:一個結構化的知識表示形式,用于存儲和組織實體、屬性和它們之間的關系。它以圖的形式呈現,其中實體表示為節點,關系表示為邊。知識圖譜旨在捕捉世界的語義關系,并提供一種有效的方式來查詢和推理關于實體之間關系的知識。

嘉賓介紹:

* 古思為:NebulaGraph 布道師,他是首個在 LlamaIndex 社區提出 Graph + RAG 概念的人;


* 程訓燾:NebulaGraph 核心開發者,從事圖數據庫的開發工作,目前致力于更好地將圖數據庫與 LLM 結合。

為了鼓勵踴躍提問, NebulaGraph 會在問答結束后從提問者中抽取 5 名幸運會員,贈予禮盒 3 件套(內含:T恤 * 1、吉祥物 * 1、 不可背鍋鑰匙扣* 1)。
 

OSChina 高手問答一貫的風格,不歡迎任何與主題無關的討論和噴子。

下面歡迎大家就“LLM + 圖數據庫、LLM + 知識圖譜”相關問題向 古思為、程訓燾老師 提問,直接回帖提問既可。

加載中
1
小白兔愛吃大灰狼
小白兔愛吃大灰狼

高手問答第 306 期 —— 聊聊 LLM 與知識圖譜、圖數據庫的關系 

@拉褲兜兜子  @南小山程序員 @八一菜刀  @Elven_Xu  @夢夢閣 

恭喜以上5位網友分別獲得禮盒 3 件套一套。

請于2023年9月21日前登陸賬號, 私信  @小白兔愛吃大灰狼   告知快遞信息(格式:姓名+電話+地址),過期視為自動放棄哦~

3
iman123
iman123

@NebulaGraph 你好,現在LLM很火,我理解的LLM他其實是基于已有的知識、數據,匯聚起來可以給你一些非創造性的答案、建議,例如你無法讓他去發現、創造未知的科學,不知道我的理解對不對。LLM其實未來可以代替一些重復性的人工客服工作以及提高一些工作效率,程序員可能不能完全代替,要是可以自己寫代碼、調試代碼、運行代碼那就真像黑客帝國里面的一樣了 ??

另外圖數據庫我之前接觸過neo4j,NebulaGraph相比而言有哪些優缺點呢?

iman123
iman123
回復 @wey-gu : 謝謝,有機會我也嘗試用用
wey-gu
wey-gu
關于 NebulaGraph neo4j,來說,NebulaGraph 可以說有一些后發優勢。 后者是我們創始團隊在多年的圖存儲系統積累之上,用新的存儲工程方法和實踐,面向分布式、超大規模數據設計的。所以對于大圖,高可用,高并發的場景,或者說業務上圖在膨脹的場景,用 NebulaGraph 就自然 scale 就好了。 其次 NebulaGraph 是開源的(apache 2.0)。
wey-gu
wey-gu
的確呢,不過,寫代碼的分析、調試借助 copilot 和 cursor 這樣的工具,已經可以做到比想象中更智能、流暢了,這有一個例子是 @xtcyclist 提了一個 NebulaGraph 內核改動,我用這些輔助工具,幾分鐘就找到在 NebulaGraph 哪里修改,怎么做修改的的例子,生成測試代碼 https://vimeo.com/858182792 1/n
2
拉褲兜兜子
拉褲兜兜子

@NebulaGraph 老師好,想請教學習下:1.大語言模型LLM是否可以協助提取分析數據關鍵信息生成圖數據嗎?怎么落地?2.圖數據庫和大數據框架計算引擎的結合,效率或者圖算法的優勢互補怎么更好發揮?

拉褲兜兜子
拉褲兜兜子
回復 @WeyGu : 感謝老師的分享解答
wey-gu
wey-gu
2(續續),另外一個例子就是,GNN 在全圖上訓練得到 inductive 的模型,然后在線上業務中,實時從 NebulaGraph 抽取相關新插入點的子圖(比如3000個點),然后作為 input 給模型去推理得到預測結果,也是典型的 GNN + 圖庫的結合案例,例子項目在這里 https://github.com/wey-gu/NebulaGraph-Fraud-Detection-GNN/
wey-gu
wey-gu
2(續). 比如用 NebulaGraph 企業版本的 explorer + nebulagraph analytics,我們可以用 API 或者 瀏覽器里的所見即所得界面任意規劃圖上的復雜計算任務 pipeline,它在底層,我們可以按需選擇基于圖庫的查詢,亦或者繞過查詢層直接從數據庫底層掃全圖進行圖計算任務。
wey-gu
wey-gu
2. 圖庫的優勢是實時性,和圖查詢、少量計算的靈活表達,劣勢在于它不擅長涉及到全圖或者部分全圖數據量的運算。圖計算平臺相反,適合全圖量的訪問以及迭代、計算任務,但是默認來說圖計算平臺數據的實時性是一個短板(常常是從數倉拉數據)。結合的例子就是計算平臺作為計算層,存儲層按需選擇圖庫。像 NebulaGraph 這樣的存算分離架構,圖計算平臺就算是集群內部的異構計算、查詢層,結合起來就非常順滑了。
wey-gu
wey-gu
1. 可以的,利用 LLM 做提取,KG的構建,這里有 demo https://www.siwei.io/demos/text2cypher/ ,https://www.siwei.io/demo-dumps/kg-llm/KG_Building.ipynb ,更進一步,我們還能結合 LLM + NLP 模型一起做這個事兒,比如 rebel ,未來我會給出 demo/文章 哈。
2
clearsky1991
clearsky1991

@NebulaGraph 你好,llm現在很火,可以部署一些在本地自己使用么,對電腦配置都有什么要求,有哪些類似于chatgpt 4的個人本地使用的開源免費項目推薦么?

clearsky1991
clearsky1991
回復 @wey-gu : 謝謝 ??
wey-gu
wey-gu
可以呀,比如 ChatGLM2-6B,量化之后可以跑在 CPU 上呢。 這里有我用 ChatGLM2-6B 和本地 embedding 模型做 LLM + Graph 的例子,文章還拖著沒發,可以先嘗鮮。 https://www.siwei.io/demo-dumps/local-llm/Graph_RAG_Local.html
0
crf1111
crf1111

@NebulaGraph

你好,圖數據庫目前業界有沒有將其應用到CAE領域,能否舉幾個案例???

謝謝!

crf1111
crf1111
回復 @xtcyclist : 謝謝。
x
xtcyclist
搜到一篇論文:A Graph-based Approach to Manage CAE Data in a Data Lake
0
l
lvxb

@NebulaGraph您好,LLM能應運在短文本分類識別判斷?有沒有什么實際的案例?

l
lvxb
回復 @xtcyclist : 現在比較好的模型庫有那些?
x
xtcyclist
當然可以啊,文本處理類那當然是大語言模型最擅長的地方了。我博士的組最近做了一個“美投365”的公眾號,他們用LLM分析美股數據和財經消息,有長有短,然后生成評論文章,里面包括了對文本的分類。
0
南小山程序員
南小山程序員

@NebulaGraph

老師們好,請問大語言模型LLM和知識圖譜的相關性或者相似性是怎樣的呢?感覺二者有很多相似的地方,如:知識圖譜旨在捕捉世界的語義關系,并提供一種有效的方式來查詢和推理關于實體之間關系的知識,而大語言模型很大程度上也是一種語義關系、語義理解的作用。二者的共同點和最大的區別點又在什么地方呢?

南小山程序員
南小山程序員
回復 @xtcyclist : 知識和語言、語義。老師這樣子說突然就豁然開朗了~ 知識圖譜更偏向于管理知識的關系,而大語言模型是一種模型,更偏向于語義的一些關系說明,這樣子理解對嗎?
x
xtcyclist
知識圖譜承載了語義,但它不是捕捉語義關系,它捕捉的是各種概念及其相互關系,也就是知識和知識之間的關系。知識和語言、語義,還是有區別,語言是知識的一種載體。 大語言模型是語言模型,它本身是不能勝任對知識以及知識之間的關系進行管理的。所以才會出現在 LLM 的 stack 中使用向量數據庫、圖數據庫來管理領域知識的需求。
0
LeoXu
LeoXu

@NebulaGraph 老師好,我想自己學習并且實踐一下這個領域,可否推薦一些入門資料和書籍,還有電腦配置也麻煩推薦一下,謝謝!

LeoXu
LeoXu
回復 @NebulaGraph : 好的,謝謝老師
x
xtcyclist
推薦 https://www.siwei.io/
NebulaGraph
NebulaGraph
最后,?? 你有興趣的話,可以看下之前思為關于 LLM、知識圖譜、圖數據庫的分享:https://my.oschina.net/u/4169309/blog/10096859
NebulaGraph
NebulaGraph
回復 @NebulaGraph : 也可以看下吳恩達老師的 https://github.com/datawhalechina/prompt-engineering-for-developers
NebulaGraph
NebulaGraph
這里可以看下我們社區用戶陳卓見之前推薦的入門教程 Survey of Large Language Models:https://arxiv.org/abs/2303.18223,主要了解下基本概念; 中文版的綜述《大語言模型綜述》:https://github.com/RUCAIBox/LLMSurvey/blob/main/assets/LLM_Survey__Chinese_V1.pdf
0
xiaour
xiaour

@NebulaGraph 圖數據庫幾年前我在做AI Music APP的時候用到過,但是我發現,對于尋求極致性能和效率,市面上的圖數據庫都是有些瓶頸的,往往需要投入大量資源,或者用戶忍受響應延遲;我們該怎么處理對于圖數據庫方面投入成本和收益的沖突呢?

wey-gu
wey-gu
不過總體來說,如果 ROI 在場景中說得通,非常推薦試試把圖庫加進來,這樣可以打開很多潛在的可能性。 試想實時在圖上獲得多跳關聯,帶有一定的可視化洞察能力,在圖上做一些算法獲得新的 feature 和結論等等
wey-gu
wey-gu
可以來 NebulaGraph 社區聊聊你的瓶頸,這個項目比較擅長線上高并發的場景,很多國內的社交、生活類大廠在用呢,分布式的設計使得數據量上來了也不用太操心 scale 的問題。 圖庫作為一個新的系統,一定是有一定的人才投入成本的,不過,這個 ROI 的情況在有了 LLM 之后有了一些質的變化: 1. 構建 KG 變容易了 2. 查詢 KG(無論是人還是機器)都可能變得非常容易
0
八一菜刀
八一菜刀

@NebulaGraph 老師好,在圖數據庫中,關系、節點、屬性等數據體現,應用層獲取數據時主要通過cql語句獲取,那么在和LLM大模型結合過程中,請問該如何結合呢?比如針對搜索場景,將用戶的輸入通過NLP轉化為CQL語句的話,這個范圍好像太廣了(用戶輸入千奇百怪),無法聚焦,有什么好的處理經驗嗎?

wey-gu
wey-gu
具體實現方式可以看一下我的文章 www.siwei.io ,另外還做了一個小課程,不過還沒做中文版,英文版在這里 視頻 https://youtube.com/watch?v=hb8uT-VBEwQ&t=2797s&pp=ygU 材料: https://colab.research.google.com/drive/1tLjOg2ZQuIClfuWrAC2LdiZHCov8oUbs
wey-gu
wey-gu
簡單來說兩個思路,text2cypher、graph rag。 前者是把問題直接變為 cypher,后者是把問題中的關鍵信息抽出來,在 KG 里查子圖,然后構造上下文讓 LLM 生成答案,這里指的是通過一些方法(比如 chain of thoughts)已經把問題 breakdown 了之后的小問題。
OSCHINA
登錄后可查看更多優質內容
返回頂部
頂部
一本久久综合亚洲鲁鲁五月天,无翼乌口工全彩无遮挡H全彩,英语老师解开裙子坐我腿中间