Loading...

知識圖譜與 GraphRAG - Cupoy

Neo4j × NetworkX 雙實作，破解數據難題，打造智能金融儀表板！

知識圖譜與 GraphRAG

Neo4j × NetworkX 雙實作，破解數據難題，打造智能金融儀表板！

內容簡介

作者介紹

適合人群

你將會學到什麼

購買須知

1. 知識圖譜的基礎與 GraphRAG 概念
- 1. 知識圖譜概論
  
  1. 引言與背景什麼是知識圖譜？知識圖譜（Knowledge Graph, KG）是一種能以圖狀結構表示現實世界中的「實體」及其「關係」的資料表示方式。與只注重數值或文字欄位的傳統資料表不同，知識圖譜能更直觀地呈現「誰與誰之間有什麼關係」。為什麼需要知識圖譜？整合性：能統一不同來源（如企業內部、外部公開資料）的資訊。易理解：圖狀結構更能幫助人們理解複雜關係。語意推理：可透過定義好的規則或本體（Ontology）進行推理，進而得到隱含資訊。發展背景與應用範圍早期由 AI 與語意網（Semantic Web）概念所啟發，2012 年 Google 推出「Knowledge Graph」讓此名詞廣受矚目。應用範圍：搜尋引擎、推薦系統、企業資料整合、虛擬助理與聊天機器人等。 2. 知識圖譜的核心組成 2.1 節點 (Node) 定義：代表現實世界中的「實體」或「概念」，如人物、公司、地點、物品等。範例：人物節點：馬斯克 (Elon Musk) 公司節點：IBM 概念節點：行銷意義：節點是構成知識圖譜的基礎元素，每個節點皆可附帶屬性，如名稱、時間、地點等。 2.2 邊 (Edge) 定義：表現節點之間的「關係」，通常會有語意意義，如「僱用」、「屬於」、「合作」、「作者-作品」、「父母-子女」等。範例： IBM → 僱用 → 馬斯克馬斯克 → 創辦 → SpaceX 電影 A → 續作 → 電影 B 特性：關係可具方向性（有向邊）或無方向性（無向邊）。在某些圖資料庫或語意網標準中，也能對邊本身附加屬性（例如起始日期、權重等）。 2.3 屬性 (Property / Label) 定義：為節點或邊附加描述資訊。例如，人名、出生日期，或關係的起始時間等。用途：幫助搜尋與推理：可根據屬性值篩選節點或推論新關係。提高查詢效率：如依「職稱 = 執行長」快速找到所有執行長節點。舉例：節點屬性：公司名稱、成立年份、地址。邊屬性：合作合約日期、投資金額、合作範圍。圖片來源：https://zhuanlan.zhihu.com/p/37057052 3. 知識圖譜與傳統資料庫比較資料模型關係型資料庫（RDB）：以表格、行、列為核心；關係透過外鍵 (Foreign Key) 或多對多關聯表 (Join Table) 來表達。知識圖譜（KG）：以節點與邊為核心，更自然表達實體與關係。圖片來源：https://vocus.cc/article/6496b466fd897800018a4515 可擴充性 RDB：結構變動需修改 Schema，牽涉到資料庫設計與系統改動。 KG：新增新類型的節點或關係，只需在圖結構中加入對應的節點及關係即可，彈性較高。關係表達 RDB：需要撰寫複雜的 SQL Join 來查詢多表關係。 KG：直接使用圖查詢語言（如 Cypher、SPARQL），更直觀地表達實體關係。推理能力 RDB：主要靠 SQL 與程式邏輯，缺乏語意層面的推理。 KG：可透過本體 (Ontology) 與推理規則產生隱含知識。適用場景 RDB：適用在高度結構化且交易頻繁的系統，如銀行、電商交易。 KG：適用在強調資料關聯、需整合多樣數據來源並進行語意推理的場合，如知識管理、智慧搜尋、複雜推薦系統。 4. 應用範例與挑戰 4.1 應用範例搜尋引擎 Google、Bing 等運用知識圖譜，對人名、地點、組織等提供結構化資訊及關聯搜索結果。推薦系統電商或影音平台根據使用者歷史行為以及商品/內容之間的圖狀關係，實現更準確的推薦。企業資料整合大型組織將 CRM、ERP、HR 等系統資料整合到同一知識圖譜中，跨部門查詢更容易。聊天機器人與虛擬助理透過圖結構進行語意理解，提高對使用者問題的正確解讀與回答。 4.2 面臨的主要挑戰規模化 (Scalability) 隨著節點和關係不斷增加，圖查詢的效率、索引設計將成為關鍵議題。資料品質 (Data Quality) 原始資料若有錯誤或不一致，會導致圖中資訊失真，必須進行持續的清洗與驗證。動態更新 (Dynamic Nature) 新數據的加入、舊數據的修改都需要保持圖的完整性與正確性。推理與本體設計 (Reasoning & Ontology) 不同行業、不同應用領域都需要自訂或擴充本體，推理規則也需隨需求而調整。 5. 總結與 Q&A 課程重點回顧知識圖譜透過節點、邊、屬性來呈現實體與關係，結構靈活且能支援語意推理。與關係型資料庫相比，知識圖譜在資料關係的可視化、彈性擴充、推理功能上更具優勢。應用廣泛，但也需面對資料品質、規模化等挑戰。未來發展方向與大數據、人工智慧（特別是自然語言處理）的結合會更加緊密。越來越多企業正在導入知識圖譜進行智慧搜尋、知識管理、決策支持。開放問答 (Q&A) 鼓勵學生就任何不清楚的概念、實際應用疑問或技術細節提出問題。參考資料（進階閱讀與學習資源） Knowledge Graph – Turing Institute What is a Knowledge Graph? – Ontotext Knowledge Graph (Wikipedia) What is a Knowledge Graph? – Neo4j Blog
- 2. GraphRAG 概論
  
  第一章：基礎回顧 1.1 RAG (Retrieval-Augmented Generation) 簡介傳統 RAG 流程收集文本並建立索引（可能使用向量檢索或關鍵字索引）。接收問題後從索引中檢索出最相關的文本片段。最後由生成模型 (Generative Model) 根據檢索內容生成回答。局限性：當問題需要跨多個文件或需要多跳推理時，傳統 RAG 容易缺少「實體關係」的全貌。 1.2 知識圖譜（Knowledge Graph）基礎概念：由「實體 (Entities)」與「關係 (Relations/Edges)」組成的圖結構，用以表示資訊的網路關係。優勢：對資料之間的邏輯關係能有更直觀的表現，例如人-地點-事件等的連結。常見應用：搜尋引擎（如 Google Knowledge Graph）、企業資源管理、智慧客服等。 1.3 GraphRAG 與傳統 RAG 的差異多跳推理：GraphRAG 更容易在圖結構中沿著多個關係節點做推理。可解釋性：能在圖上直接追蹤為什麼會得到某個答案。更精準上下文：傳統 RAG 容易被「相似度」誤導，而 GraphRAG 可以利用關係資訊進一步過濾。第二章：GraphRAG 的核心原理 2.1 Multi-Hop Reasoning（多跳推理）場景說明：例如要查詢某人在哪一年在哪個國家創辦了某公司；若文本分散在不同文件中，需要串聯多處信息才能回答。如何實現：GraphRAG 透過圖上的邊，逐步沿著實體之間的連結找出完整資訊。 2.2 可解釋性的實現方式可視化路徑：透過圖資料庫的視覺化工具 (如 Neo4j Bloom) 展示從問題到答案路徑上的所有實體與關係。自動生成推理鏈：使用 LLM 或其他 NLP 方法，將推理過程用自然語言描述出來。 2.3 GraphRAG 對回答品質與上下文的影響更豐富的上下文：不再僅依賴文字相似度，而是透過圖中「who, what, where, how」的關聯為基礎。減少誤判：若某些文件內容互相矛盾或不相關，透過圖結構能快速剔除或標記。圖片來源：https://neo4j.com/blog/graphrag-manifesto/ 第三章：GraphRAG 的資料處理與建構流程 3.1 前處理與索引 (Pre-processing and Indexing) 資料清理：移除重複內容、格式轉換 (如 PDF -> 文字檔)、基本斷詞等。實體 & 關係擷取：使用 NLP 工具 (如 spaCy、Hugging Face Transformers) 或定制 LLM Prompt 來擷取。索引與儲存：將文本片段進行向量化（矢量索引）或關鍵字索引；並記錄實體與關係對應的文本位置。 3.2 階層式群集 (Hierarchical Clustering) Leiden / Louvain 分群：依據實體之間的共同關係程度或文本相似度，形成群落 (Communities)。應用：幫助理解哪些實體主題相關；有助於後續在回答不同領域或子領域時快速聚焦。 3.3 知識圖譜建構 (Knowledge Graph Generation) 節點與邊的落實：透過抽取出的實體（人名、地名、機構名…）作為節點，並將關係 (如「創立」、「屬於」、「發生於」) 作為邊。圖資料庫選擇：最常見為 Neo4j，也可使用 AWS Neptune、Azure Cosmos DB (Gremlin API) 或其他開源圖資料庫。結構維護：建議定期更新或在資料流入時動態更新。 3.4 答案生成 (Answer Generation) 的機制圖結構檢索：依據問題分析所需實體與關係，從圖中找到候選路徑或相關節點。文本檢索：同時從向量索引 (或全文檢索) 中找出相符段落，輔助 LLM 生成完整回答。融合與總結：LLM 將檢索到的多重資訊組織成自然語言回答；可附帶解釋推論路徑 (Chain of Thought)。圖片來源：https://gradientflow.substack.com/p/graphrag-design-patterns-challenges 第四章：GraphRAG 的效能評估與優化 4.1 準確率、召回率與 F1 Score 傳統問答衡量：若有標準答案，可用精確度(Precision) / 召回率(Recall) / F1。開放式生成：可用 BLEU、ROUGE 等度量生成的文字與參考答案的相似度。 4.2 多跳推理的評估方法 Chain-of-thought 分析：檢查系統在推理過程中是否能正確串連實體關係。人工審核：對多跳答案進行抽樣檢查。 4.3 細節優化：如何挑選關鍵節點 / 邊社群 / 聚類分析：可優先挑選與問題上下文最密切的社群。 **信任度 (Confidence Score) **：設定若關係的抽取信度過低則忽略，以降低雜訊。第五章：進階應用與案例分析 5.1 企業內部知識庫應用痛點：文件分散、版本眾多、員工跨部門溝通困難。 GraphRAG 解法：搭建知識圖譜將組織結構、產品線、客戶資訊等串起，對複雜內部問題可多跳檢索。 5.2 醫療、法律與金融等領域的複雜查詢醫療：將症狀、藥物、副作用等做知識圖譜，回答精準且可追蹤來源。法律：根據條文之間的參照關係或判例關聯性，進行推理與解釋。金融：跨多個報告、數據表，分析投資風險或交易關係。 5.3 多語言 / 跨文化整合挑戰：同一家公司在中文、英文文件中的譯名不同。對策：在圖結構中維護「同義實體」的映射關係；檢索時自動串接。 5.4 實際案例展示案例：根據 Microsoft Research 或 Neo4j 提供的實際場景做介紹。第六章：常見問題實體歧義：同一名稱指不同事物（如「Apple」是公司還是水果？）。關係抽取不完整：導致圖中重要的邊缺失。 Neo4j 連線或版本衝突：注意套件與資料庫版本的相容性。生成答案不連貫：可能是 LLM model size / prompt 設計不足。參考資源 Microsoft GraphRAG 介紹 Deepset — Graph RAG 實踐 Neo4j — What is GraphRAG? Microsoft Research — GraphRAG 用於私有數據檢索 Ontotext — Graph RAG 基礎 LinkedIn 技術分享 — Sparkbit GraphRAG 案例 spaCy Hugging Face Transformers Neo4j 官方文件
2. 知識圖譜構建與雙軌實作
3. 財務金融知識圖譜儀表板
- 6. 實戰演練 - 財務金融知識圖譜
  
  學習目標認識財務報告相關資料從 0 至 1 建構知識圖譜資料來源：公開資訊觀測站前處理完成的資料：📎和泰汽車2023年公司投資關係.xlsx 開發目標抓取公司投資關係資料將投資資料轉換成 Graph 型態，並匯入至 Neo4j 資料庫根據查詢需求，顯示出知識圖譜程式碼
4. GraphRAG 的應用與未來發展
- 7. GraphRAG 理論
  
  第一章：GraphRAG 的系統架構 1. 索引建立（Indexing Time） GraphRAG 的第一階段是將原始文本資料建構成圖索引（Graph Index），透過分塊、實體關係抽取、社群檢測等流程，為後續查詢做準備。 A. 文本分塊（Text Chunking）目的將大規模文本資料切分成較小片段（chunks），以適配 LLM 的上下文長度限制同時避免過度切割造成關鍵資訊斷裂分塊策略固定長度切割：每個 chunk 約 600～1000 tokens 適用於一般性文本語義切割：利用段落、標題或斷句等結構分割適合段落結構明確的領域文本（如論文、技術報告）混合式策略：先依語義切割，再輔以固定長度控制，確保文本量相對均衡建議：針對技術文件、新聞報導等，嘗試 600～800 tokens 的固定長度切割並保留 50～100 tokens 重疊，通常能兼顧上下文完整性與LLM 容量。代碼示例 def split_into_chunks(text, chunk_size=600, overlap=100): chunks = [] start = 0 while start < len(text): end = min(start + chunk_size, len(text)) chunk = text[start:end] chunks.append(chunk) start += (chunk_size - overlap) # 保留部分重疊 return chunks 小結透過合理的分塊策略，可確保後續的實體／關係抽取不會因關鍵資訊被截斷而遺漏，同時能有效使用 LLM 的上下文容量。 B. 實體／關係抽取（Entity & Relation Extraction）目的使用 LLM 從文本塊中提取「實體」（如人名、機構、產品）與「關係」（如合作、投資、競爭）建立知識圖譜所需的節點與邊 Prompt 設計建議明確列出目標：請 LLM 尋找重要的實體和它們之間的關聯格式化輸出：可使用 JSON、三元組、TSV 等，後續便於程式處理多輪檢查（Gleanings）：再次詢問 LLM 是否遺漏了某些實體或關係實體合併（Entity Merging）挑戰：相同實體可能以不同名稱出現（如「Google LLC」與「Google」）對策：擬定規則或利用 LLM embeddings 判斷相似度，將重複實體進行合併可在抽取後進行一次全局掃描，將相似度高的節點標記為相同實體常見錯誤與處理方法 LLM 幻覺：模型可能捏造關係；可透過要求來源佐證或多輪驗證減少此情況抽取過於籠統：Prompt 不明確導致 LLM 只回傳非常籠統的實體，需在提示中指定要辨識的對象屬性、範圍小結實體／關係抽取是建構圖索引的關鍵步驟，成功與否取決於 Prompt 設計、重複實體合併，以及對模型幻覺的防範措施。 C. 建構圖索引與屬性處理節點（Nodes）即抽取出的實體，每個節點可包含多種屬性（如描述、時間）邊（Edges）即實體之間的關係，可設定加權（如關聯度、共現次數）屬性（Attributes）包括事件、狀態、地理資訊等，用於豐富圖的可查詢度性能優化若實體／關係數量極大，可考慮用資料庫（如 Neo4j、NebulaGraph）來儲存排序或過濾「低頻節點」以減少雜訊小結建構圖索引是將抽取結果結構化的過程，良好的資料結構與資料庫選擇能提高後續查詢效率並減少維護成本。 D. 社群檢測（Community Detection） Leiden 演算法目的：將圖拆分成若干「社群（Communities）」，使得社群內節點連結緊密、社群間連結較弱多層級（C0~C3）： C0：根社群或較粗粒度主題 C1、C2：依序深入細分領域 C3：最細節的主題分群參數調整指南 Resolution：決定社群的大小與數量 Randomization：多次迭代以取得穩定且高模組化度（Modularity）的劃分社群品質評估 Modularity：越高代表社群更具凝聚力 Node Coverage：確保大多數節點分配到合理的社群中人工作驗：針對重要主題進行人工抽樣驗證社群摘要將每個社群內容再次用 LLM 壓縮成簡短描述，後續查詢可直接引用若層級深，摘要層層相依，可避免 Token 過度消耗可視化示例 +-----------+ +-----------+ | 社群A | <----->| 社群B | +-----------+ +-----------+ | \ / | | \ / | | \ ... / | | +-----------+ | | 社群C | +-------------------------+ 圖中顯示各社群之間的邊連結程度，C0~C3 則視不同粒度切換。小結社群檢測是 GraphRAG 與傳統 RAG 最大的差異之一，能夠將龐大的知識圖分門別類，進而支援更精準的「全局」或「局部」查詢。 2. 查詢處理（Query Time）在完成索引建立後，查詢處理階段則透過社群摘要與 Map-Reduce 生成最終答案。 A. 查詢解析與社群選擇查詢解析分析查詢的主題、範圍、細節需求若查詢較宏觀，可直接從 C0 或 C1 社群著手若查詢需要細節，考慮 C2、C3 社群選擇標準語義相似度：用嵌入檢索找最符合查詢意圖的社群社群大小：確保答案不會因社群過大而過度冗長，也不會過度切割失去上下文小結合適的社群選擇能大幅降低 Token 消耗，也提高答案的聚焦度；對更複雜的查詢，可以多個社群同時參與。 B. Map-Reduce Summarization Map 步驟針對每個相關社群摘要，分別詢問 LLM：「此社群對該查詢有何回答？」要求 LLM 輸出回答及打分（score, 0-100），分數過低者直接排除 Reduce 步驟將分數高的部分答案，依序加入新上下文在 Token 容許範圍內，融合所有局部答案，讓 LLM 最終總結成全局回答代碼示例（簡化） def map_reduce_query(query, community_summaries, llm): partial_answers = [] # Map for summary in community_summaries: ans, score = llm.answer_with_score(query, summary) if score > 0: partial_answers.append((ans, score)) # Sort by score desc partial_answers.sort(key=lambda x: x[1], reverse=True) # Reduce final_context = "" for ans, sc in partial_answers: if len(final_context) + len(ans) < TOKEN_LIMIT: final_context += ans + "\n" else: break global_answer = llm.generate_final(query, final_context) return global_answer 小結透過 Map-Reduce，不同社群內容能被同時考量，在降低 Token 消耗的同時，最大程度保留全局細節。 3. 實踐練習／思考問題文本分塊實踐選擇一份 2,000 字的新聞文件，嘗試以固定長度和語義切割兩種方式分塊，比較抽取到的實體／關係是否有差異 Prompt 設計探索針對同一份 chunk，嘗試不同的 Prompt（如要求輸出 JSON、要求來源佐證、限制回答語氣等），觀察實體抽取精度、幻覺比例 Leiden 參數調整使用 Python 庫（如 networkx、igraph）對同一份知識圖進行社群偵測，觀察 Resolution 參數改變如何影響社群大小與數量 Map-Reduce 模擬模擬多社群並行回答並彙整，觀察最終答案的全面性與 Token 開銷思考：在什麼情況下，會需要更精細的社群劃分（C3），而非使用較高層的 C1 或 C2？ 4. 常見問題（FAQ） Q：如果在抽取時，LLM 一直產生「不存在的實體」怎麼辦？A：可在 Prompt 中強調「只限於文本明確提及的內容」，並加入多輪驗證或來源引用。 Q：社群檢測後，某些社群節點數極少或過大怎麼辦？A：可調整 Leiden 演算法的 Resolution，或進行手動合併／拆分。 Q：Map-Reduce 時，若某個社群回答重複度極高，會導致 Token 浪費嗎？A：可以利用同義檢測或打分機制過濾重複答案，同時縮短長度後再整合。 Q：每次查詢都要跑 Map-Reduce，計算量會很大嗎？A：可以先使用語義檢索篩選最相關的社群，再對這些社群進行 Map-Reduce，即可避免遍歷所有。小結在本章，我們從文本分塊、實體／關係抽取、圖索引建構到社群檢測與查詢處理（Map-Reduce Summarization）做了完整且深入的說明。善用這些技術細節、策略與優化方法，能顯著提升 GraphRAG 在大規模文本分析上的效率與回答品質。第二章：GraphRAG 與其他方法的比較 1. Naïve RAG 優點：直接性強、實作簡單；缺點：對「全局、跨文件」問題較差，全面性欠缺。 2. 全文摘要（TS, Text Summarization）優點：可整體概括所有內容；缺點：每次都要處理整個文本，Token 耗費大；易導致重複或過度摘要。 3. GraphRAG 優勢：結合圖結構＋社群檢測，可以在大規模文本上做系統化切分；透過多層級摘要確保兼顧細節與效率。挑戰：圖構建的品質依賴 LLM 抽取效果；需解決重複實體、幻覺等技術問題。第三章：實驗與評估評估指標 Comprehensiveness：答案的覆蓋度 Diversity：是否包含多重面向 Empowerment：是否能幫助使用者更好地理解並判斷 Directness：答案是否直接且切題常見數據集範例 Podcast transcripts（約百萬 tokens） News articles（約百萬～數百萬 tokens，涵蓋多領域）比較結果概述 GraphRAG 在「全面性、多樣性」上明顯優於 Naïve RAG；與全文摘要相比，在效率與可擴充性上也有更佳表現。第四章：GraphRAG 演算法詳細說明 1. 為何需要子圖（Subgraph）？在 GraphRAG 的實作中，我們已建立「整體知識圖（Graph Index）」並進行了社群檢測。但當用戶提出複雜或具體問題時（例如「X 企業與 Y 企業的競合關係？」），將整個知識圖直接丟給 LLM 既不現實，也容易引起 Token 限制與無關資訊干擾。因此，需要對知識圖做子圖提取（Subgraph Extraction），只取與查詢最相關的那一小部分，能更有效率且生成更精準的答案。 2. 如何提取 Subgraph？子圖提取的核心在於「從大圖中篩選出與查詢相關的節點、屬性與邊」，確保查詢上下文足夠而不冗餘。 A. 主要步驟文本拆分與知識圖構建透過前幾章所述的步驟（分塊、實體／關係抽取、社群檢測）得到整體知識圖每個節點皆能連結相應屬性（如描述、時間、引用片段）與邊（如投資、合作、競爭）查詢與圖的匹配可利用關鍵詞或語義嵌入（Embedding）先篩選出最相關的節點以該節點為「起點」，擴張一兩層邊，萃取和查詢強相關的領域社群檢測結合若已經有階層化社群（C0, C1, C2, C3），可直接鎖定對應社群並將整個社群當作子圖或先用語義匹配找到「候選社群」，再擴散到其相鄰社群過濾與精修對子圖中出現的低頻節點、多餘關係進行過濾合併重複實體，並確認邊的方向與描述是否完整 B. 混合式子圖提取：社群 + 語義檢索社群檢測先以 Leiden 演算法取得一批主題社群使用「查詢 → 社群摘要」比對語義相似度，選出前幾名最吻合社群子圖擴張針對該社群內最相關的節點擴張 1～2 層，取得完整關係形成子圖將此社群內節點、關係與屬性整合成一個局部知識圖供 LLM 查詢 3. 挑選出合適的子圖即使能提取子圖，仍需要判斷「哪一部分」最能回答特定問題。這牽涉到社群分層、語義匹配與圖結構的綜合考量。 A. 社群檢測角度高層級社群（C0, C1）適合：宏觀、大範圍問題（如「整個新聞語料中最常討論的主題是什麼？」）好處：節點少、摘要短限制：細節不足中層或低層社群（C2, C3）適合：需要深入了解特定子領域或事件（如「GPT-4 與 Gemini 在訓練方法上有哪些差異？」）好處：可保留更多細節限制：Token 使用量大 B. 語義匹配角度直接匹配查詢關鍵詞計算節點名稱、描述、屬性與查詢的相似度快速過濾絕大部分不相關節點擴展搜索若查詢為「X 與 Y 在 AI 領域的合作」，可優先匹配「AI」、「X」、「Y」，並找出它們之間的邊若圖結構顯示 X 與 Y 間同時連到 Z，則擴展到 Z 形成更完整上下文 C. 綜合策略先用語義檢索找到與查詢最相似的社群依需求深度決定用 C1（較抽象）還是 C2/C3（更細緻）針對該社群或該節點做 1～2 層邊的擴張，最終形成合適的子圖關鍵思維：避免「子圖過小導致資訊不足」與「子圖過大導致 Token 浪費與噪音」。 4. 取出子圖後，如何轉變成 LLM 提示字？獲得子圖（包含節點、屬性與邊）後，仍需轉換成 LLM 可理解並給出適當回答的Prompt。這關鍵步驟包括： A. 選擇合適的表示格式自然語言描述用一般文字敘述子圖內容，如「OpenAI 與 Microsoft 之間的合作關係…」優點：易於大多數 LLM 理解缺點：若子圖龐大，可能造成 Token 過度消耗 JSON（結構化格式） { "Entities": [ {"Name": "OpenAI", "Type": "Company"}, {"Name": "GPT-4", "Type": "AI Model"} ], "Relations": [ {"Source": "OpenAI", "Relation": "開發", "Target": "GPT-4"} ] } 優點：LLM 工具介面或 Function Calling 容易解析缺點：需要 LLM 具備良好的 JSON 處理能力三元組（Triples） (OpenAI, "開發", GPT-4) (Google, "開發", Gemini) (OpenAI, "競爭", Google) 優點：精簡且適合圖邏輯推理缺點：有時需要更多敘事描述，LLM 才能產生流暢文本 B. Prompt 設計與上下文控制上下文控制明確向 LLM 說明：「以下是一個子圖資訊，請基於此回答問題…」若子圖資訊量大，可依 Token 限制拆分成多段進行Map-Reduce Summarization 保留關鍵屬性指明實體的核心屬性（如「發表年份: 2023」）盡量避免過量細節淹沒關鍵資訊對齊查詢需求若查詢為比較兩家公司的合作與競爭，Prompt 中必須清晰標示它們之間的邊關係 5. 必須同時匹配 Entity、Attribute、Edge 的原因在提取子圖與 Prompt 設計時，往往不只匹配節點（Entity），還需要同時匹配節點屬性（Attribute）與邊（Edge）：確保查詢上下文的完整性僅有節點名稱往往不夠，需要屬性（如時間、角色）與邊（關係敘述）來回答「誰做了什麼？何時？為何？」等提供 LLM 足夠的語義線索關係對於推斷因果、比較及歸納性問題尤其重要 6. 綜合範例：子圖提取與 Prompt 轉換假設查詢為：「2023 年有哪些科技公司發布 AI 模型？它們在新聞裡被如何比較？」語義檢索：找到與「AI 模型」「2023」「科技公司」相關度高的社群（如 C2）提取子圖：在該社群中匹配「OpenAI, GPT-4, Microsoft, Google, Gemini」，萃取它們互相的關係過濾、合併：可能合併「Microsoft」和「MS」，移除不相關節點轉成 Prompt（JSON 格式範例）： { "Entities": [ {"Name": "OpenAI", "Type": "Company"}, {"Name": "GPT-4", "Type": "AI Model", "Released": 2023}, {"Name": "Google", "Type": "Company"}, {"Name": "Gemini", "Type": "AI Model", "Released": 2023} ], "Relations": [ {"Source": "OpenAI", "Relation": "開發", "Target": "GPT-4"}, {"Source": "Google", "Relation": "開發", "Target": "Gemini"}, {"Source": "OpenAI", "Relation": "競爭", "Target": "Google"} ] } LLM 回答：針對該 JSON Prompt，LLM 得以生成對比敘述：哪幾家於 2023 年發布模型，模型差異何在，市場反響如何等 7. 常見問題（FAQ） Q：只抽取最相似的節點而忽略邊會怎樣？A：容易失去上下文與關聯線索，LLM 無法理解實體之間關係，導致回答不完整或錯誤。 Q：社群劃分顆粒度如何拿捏？A：可先用高層（C1）回答宏觀問題，若使用者需更深層細節，再下鑽到 C2/C3。 Q：子圖中重複實體太多，怎麼處理？A：可使用相似度方法合併重複實體，或透過命名標準（Normalize）精準比對。 Q：Prompt 是否越長越好？A：不盡然。過度冗長會消耗 Token、分散注意力；需在「訊息完整度」與「語料大小」之間取得平衡。 8. 小結與建議子圖提取是 GraphRAG 中將「大型知識圖」轉化為「與查詢緊密相關子集」的關鍵。挑選合適子圖需要考慮社群層次、語義檢索結果，以及查詢本身所需的細節深度。轉換成 LLM 提示字時，可選「自然語言」「JSON」「三元組」等格式，並控制上下文長度與重點屬性。同時匹配 Entity、Attribute、Edge才能讓 LLM 充分理解子圖的意涵，回答複雜問題時尤其必要。第五章：未來發展與研究方向與對話式系統結合支援多輪對話，動態選取或下鑽（Drill-down）至更細社群。 Causal/Temporal Reasoning 在知識圖上增加因果關係或時間序列分析，回答「為什麼」「何時」類問題。跨模態擴充支援影像、音訊等多模態資料，建立圖索引時同時整合文字與視覺資訊。事實驗證（Fact-checking）引入引用與佐證機制，防止 LLM 幻覺影響回答正確性。第六章：總結 GraphRAG 的核心價值：透過「知識圖索引 + 社群檢測 + Map-Reduce Summarization」機制，有效解決 RAG 在「全局性查詢」上的不足。主要貢獻：階層式社群摘要：可依查詢需求選擇適當粒度； Map-Reduce：兼顧回答的廣度與深度；可拓展：可與現有語義搜索或圖演算法整合。未來趨勢：結合大模型與知識圖譜的應用正迅速發展，GraphRAG 是一條新興路徑，有潛力應用於智慧企業、媒體分析、科學研究等多方領域。參考文獻與延伸讀物 From Local to Global: A Graph RAG Approach to Query-Focused Summarization (Preprint, 2024) Lewis et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks Traag et al. (2019). From Louvain to Leiden: guaranteeing well-connected communities Fortunato (2010). Community detection in graphs: A survey Ram et al. (2023). In-Context Retrieval-Augmented Language Models
- 8. GraphRAG 實戰演練
  
  使用 LangChain + Neo4j 實現 GraphRAG 使用 Microsoft GraphRAG 實現 GraphRAG