Update the storage scheme for GraphRAG query logs

马一丁
Commit da429a1e8f242e45367035c43f22a01f15cc46c8 da429a1e 1 parent 4712d9c1
Showing 3 changed files with 146 additions and 66 deletions
ReportEngine/nodes/graphrag_query_node.py
app.py
utils/knowledge_logger.py
--- a/ReportEngine/nodes/graphrag_query_node.py
View file @da429a1
+++ b/ReportEngine/nodes/graphrag_query_node.py
View file @da429a1
@@ -11,6 +11,7 @@ from dataclasses import dataclass, field
 from typing import Dict, Any, List, Optional
 
 from loguru import logger
+ from utils.knowledge_logger import append_knowledge_log, compact_records
 
 from .base_node import BaseNode
 from ..llms.base import LLMClient
@@ -122,6 +123,8 @@ class GraphRAGQueryNode(BaseNode):
             合并后的查询结果
         """
         self.log_info(f"开始 GraphRAG 查询，章节: {section.get('title', 'unknown')}")
+         chapter_id = section.get("id") or section.get("chapter_id") or section.get("chapterId")
+         chapter_title = section.get("title", "unknown")
         
         query_engine = QueryEngine(graph)
         history = QueryHistory()
@@ -154,11 +157,38 @@ class GraphRAGQueryNode(BaseNode):
                     engine_filter=decision.get('engine_filter'),
                     depth=decision.get('depth', 1)
                 )
+                 params_dict = {
+                     'keywords': params.keywords,
+                     'node_types': params.node_types,
+                     'engine_filter': params.engine_filter,
+                     'depth': params.depth,
+                 }
 
                 result = query_engine.query(params)
                 all_results.append(result)
                 
                 self.log_info(f"查询返回 {result.total_nodes} 个节点")
+                 try:
+                     append_knowledge_log(
+                         "GRAPH_QUERY_NODE",
+                         {
+                             "chapter_id": chapter_id or "",
+                             "chapter_title": chapter_title,
+                             "round": round_idx + 1,
+                             "params": params_dict,
+                             "result_counts": {
+                                 "matched_sections": len(result.matched_sections),
+                                 "matched_queries": len(result.matched_queries),
+                                 "matched_sources": len(result.matched_sources),
+                                 "total_nodes": result.total_nodes,
+                             },
+                             "matched_sections": compact_records(result.matched_sections[:5]),
+                             "matched_queries": compact_records(result.matched_queries[:5]),
+                             "matched_sources": compact_records(result.matched_sources[:5]),
+                         },
+                     )
+                 except Exception as log_exc:  # pragma: no cover - 日志失败不阻塞流程
+                     logger.warning(f"Knowledge Query: GraphRAG 节点写日志失败: {log_exc}")
                 
                 # 5. 记录历史
                 history.add(decision, result)
@@ -169,6 +199,22 @@ class GraphRAGQueryNode(BaseNode):
         
         self.log_info(f"GraphRAG 查询完成，共 {len(all_results)} 轮，"
                       f"获取 {merged.get('total_nodes', 0)} 个节点")
+         try:
+             append_knowledge_log(
+                 "GRAPH_QUERY_SUMMARY",
+                 {
+                     "chapter_id": chapter_id or "",
+                     "chapter_title": chapter_title,
+                     "rounds": len(all_results),
+                     "total_nodes": merged.get("total_nodes", 0),
+                     "matched_sections": compact_records(merged.get("matched_sections", [])[:10]),
+                     "matched_queries": compact_records(merged.get("matched_queries", [])[:10]),
+                     "matched_sources": compact_records(merged.get("matched_sources", [])[:10]),
+                     "cross_engine_insights": merged.get("cross_engine_insights", []),
+                 },
+             )
+         except Exception as log_exc:  # pragma: no cover - 日志失败不阻塞流程
+             logger.warning(f"Knowledge Query: 汇总写日志失败: {log_exc}")
         
         return merged
     
--- a/app.py
View file @da429a1
+++ b/app.py
View file @da429a1
@@ -24,6 +24,11 @@ from loguru import logger
 import importlib
 from pathlib import Path
 from MindSpider.main import MindSpider
+ from utils.knowledge_logger import (
+     append_knowledge_log,
+     compact_records as _compact_records,
+     init_knowledge_log,
+ )
 
 # 导入ReportEngine
 try:
@@ -364,72 +369,6 @@ def init_forum_log():
 # 初始化forum.log
 init_forum_log()
 
- # ===== 知识库查询日志（与 Forum 日志格式类似） =====
- knowledge_log_lock = threading.Lock()
- KNOWLEDGE_LOG_FILE = LOG_DIR / "knowledge_query.log"
- 
- 
- def _sanitize_log_text(text: str) -> str:
-     """移除换行/回车，防止日志污染。"""
-     return str(text).replace("\n", " ").replace("\r", " ").strip()
- 
- 
- def init_knowledge_log():
-     """初始化知识库查询日志文件。"""
-     try:
-         start_time = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
-         KNOWLEDGE_LOG_FILE.parent.mkdir(parents=True, exist_ok=True)
-         with knowledge_log_lock, open(KNOWLEDGE_LOG_FILE, 'w', encoding='utf-8') as f:
-             f.write(f"=== Knowledge Query Log 初始化 - {start_time} ===\n")
-         logger.info("Knowledge Query: knowledge_query.log 已初始化")
-     except Exception as exc:  # pragma: no cover - 仅运行时执行
-         logger.exception(f"Knowledge Query: 初始化日志失败: {exc}")
- 
- 
- def append_knowledge_log(source: str, payload: dict):
-     """记录知识库查询关键词与完整请求数据，防止日志污染。"""
-     try:
-         timestamp = datetime.now().strftime('%H:%M:%S')
-         clean_source = _sanitize_log_text(source or "UNKNOWN")
-         # JSON 序列化并截断，避免超大日志污染
-         serialized = json.dumps(payload, ensure_ascii=False)
-         sanitized = _sanitize_log_text(serialized)
-         with knowledge_log_lock, open(KNOWLEDGE_LOG_FILE, 'a', encoding='utf-8') as f:
-             f.write(f"[{timestamp}] [KNOWLEDGE] [{clean_source}] {sanitized}\n")
-     except Exception as exc:  # pragma: no cover - 日志失败不影响主流程
-         logger.warning(f"Knowledge Query: 写日志失败: {exc}")
- 
- 
- def _trim_text(text: str, limit: int = 300) -> str:
-     text = _sanitize_log_text(text)
-     return text if len(text) <= limit else text[:limit] + "..."
- 
- 
- def _compact_records(items):
-     """将节点/记录压缩为简洁日志格式，避免污染。"""
-     compacted = []
-     if not items:
-         return compacted
- 
-     for item in items:
-         if not isinstance(item, dict):
-             compacted.append(_trim_text(str(item)))
-             continue
- 
-         entry = {}
-         for key, value in item.items():
-             # 仅记录必要字段，其他字段做字符串压缩
-             if isinstance(value, (str, int, float, bool)):
-                 entry[key] = _trim_text(str(value))
-             else:
-                 try:
-                     entry[key] = _trim_text(json.dumps(value, ensure_ascii=False))
-                 except Exception:
-                     entry[key] = _trim_text(str(value))
-         compacted.append(entry)
-     return compacted
- 
- 
 # 初始化 knowledge_query.log
 init_knowledge_log()
 
--- a/utils/knowledge_logger.py 0 → 100644
View file @da429a1
+++ b/utils/knowledge_logger.py 0 → 100644
View file @da429a1
+ """
+ 统一的知识图谱查询日志记录工具。
+ 
+ 用于在不同模块（Flask接口、GraphRAG 查询节点等）之间共享
+ knowledge_query.log 的写入逻辑，避免分散实现导致日志缺失。
+ """
+ 
+ import json
+ import threading
+ from datetime import datetime
+ from pathlib import Path
+ 
+ from loguru import logger
+ 
+ # 日志文件路径
+ ROOT_DIR = Path(__file__).resolve().parent.parent
+ LOG_DIR = ROOT_DIR / "logs"
+ KNOWLEDGE_LOG_FILE = LOG_DIR / "knowledge_query.log"
+ 
+ _log_lock = threading.Lock()
+ 
+ 
+ def _sanitize_log_text(text: str) -> str:
+     """移除换行/回车，防止日志污染。"""
+     return str(text).replace("\n", " ").replace("\r", " ").strip()
+ 
+ 
+ def _trim_text(text: str, limit: int = 300) -> str:
+     """对长文本进行截断，避免日志过长。"""
+     text = _sanitize_log_text(text)
+     return text if len(text) <= limit else text[:limit] + "..."
+ 
+ 
+ def compact_records(items):
+     """
+     将节点/记录压缩为简洁日志格式，避免日志被大字段污染。
+     """
+     compacted = []
+     if not items:
+         return compacted
+ 
+     for item in items:
+         if not isinstance(item, dict):
+             compacted.append(_trim_text(str(item)))
+             continue
+ 
+         entry = {}
+         for key, value in item.items():
+             if isinstance(value, (str, int, float, bool)):
+                 entry[key] = _trim_text(str(value))
+             else:
+                 try:
+                     entry[key] = _trim_text(json.dumps(value, ensure_ascii=False))
+                 except Exception:
+                     entry[key] = _trim_text(str(value))
+         compacted.append(entry)
+     return compacted
+ 
+ 
+ def init_knowledge_log(force_reset: bool = True):
+     """
+     初始化知识库查询日志文件。
+ 
+     Args:
+         force_reset: True 时重置文件并写入初始化标记；False 时仅在文件不存在时写入。
+     """
+     try:
+         start_time = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
+         LOG_DIR.mkdir(parents=True, exist_ok=True)
+         mode = "w" if force_reset or not KNOWLEDGE_LOG_FILE.exists() else "a"
+         with _log_lock, open(KNOWLEDGE_LOG_FILE, mode, encoding="utf-8") as f:
+             f.write(f"=== Knowledge Query Log 初始化 - {start_time} ===\n")
+         logger.info("Knowledge Query: knowledge_query.log 已初始化")
+     except Exception as exc:  # pragma: no cover - 仅运行时执行
+         logger.exception(f"Knowledge Query: 初始化日志失败: {exc}")
+ 
+ 
+ def _ensure_log_file():
+     """确保日志文件已创建且可写，不会覆盖现有内容。"""
+     if not KNOWLEDGE_LOG_FILE.exists():
+         init_knowledge_log(force_reset=False)
+ 
+ 
+ def append_knowledge_log(source: str, payload: dict):
+     """记录知识库查询关键词与完整请求数据。"""
+     try:
+         _ensure_log_file()
+         timestamp = datetime.now().strftime("%H:%M:%S")
+         clean_source = _sanitize_log_text(source or "UNKNOWN")
+         serialized = json.dumps(payload, ensure_ascii=False)
+         sanitized = _sanitize_log_text(serialized)
+         with _log_lock, open(KNOWLEDGE_LOG_FILE, "a", encoding="utf-8") as f:
+             f.write(f"[{timestamp}] [KNOWLEDGE] [{clean_source}] {sanitized}\n")
+     except Exception as exc:  # pragma: no cover - 日志失败不影响主流程
+         logger.warning(f"Knowledge Query: 写日志失败: {exc}")