Fixed the issue of raw JSON being output incorrectly

马一丁
Commit 2dd3dc391ae0f31e0bef0c4d88888f0956a3e515 2dd3dc39 1 parent 6c643791
Showing 2 changed files with 54 additions and 1 deletions
ReportEngine/renderers/html_renderer.py
ReportEngine/renderers/markdown_renderer.py
--- a/ReportEngine/renderers/html_renderer.py
View file @2dd3dc3
+++ b/ReportEngine/renderers/html_renderer.py
View file @2dd3dc3
@@ -1199,6 +1199,11 @@ class HTMLRenderer:
     def _render_paragraph(self, block: Dict[str, Any]) -> str:
         """渲染段落，内部通过inline run保持混排样式"""
         inlines_data = block.get("inlines", [])
+         
+         # 检测并跳过包含文档元数据 JSON 的段落
+         if self._is_metadata_paragraph(inlines_data):
+             return ""
+         
         # 仅包含单个display公式时直接渲染为块，避免<p>内嵌<div>
         if len(inlines_data) == 1:
             standalone = self._render_standalone_math_inline(inlines_data[0])
@@ -1208,6 +1213,28 @@ class HTMLRenderer:
         inlines = "".join(self._render_inline(run) for run in inlines_data)
         return f"<p>{inlines}</p>"
 
+     def _is_metadata_paragraph(self, inlines: List[Any]) -> bool:
+         """
+         检测段落是否只包含文档元数据 JSON。
+         
+         某些 LLM 生成的内容会将元数据（如 xrefs、widgets、footnotes、metadata）
+         错误地作为段落内容输出，本方法识别并标记这种情况以便跳过渲染。
+         """
+         if not inlines or len(inlines) != 1:
+             return False
+         first = inlines[0]
+         if not isinstance(first, dict):
+             return False
+         text = first.get("text", "")
+         if not isinstance(text, str):
+             return False
+         text = text.strip()
+         if not text.startswith("{") or not text.endswith("}"):
+             return False
+         # 检测典型的元数据键
+         metadata_indicators = ['"xrefs"', '"widgets"', '"footnotes"', '"metadata"', '"sectionBudgets"']
+         return any(indicator in text for indicator in metadata_indicators)
+ 
     def _render_standalone_math_inline(self, run: Dict[str, Any] | str) -> str | None:
         """当段落只包含单个display公式时，转为math-block避免破坏行内布局"""
         if isinstance(run, dict):
--- a/ReportEngine/renderers/markdown_renderer.py
View file @2dd3dc3
+++ b/ReportEngine/renderers/markdown_renderer.py
View file @2dd3dc3
@@ -146,7 +146,33 @@ class MarkdownRenderer:
         return heading_line
 
     def _render_paragraph(self, block: Dict[str, Any]) -> str:
-         return self._render_inlines(block.get("inlines", []))
+         inlines = block.get("inlines", [])
+         # 检测并跳过包含文档元数据 JSON 的段落
+         if self._is_metadata_paragraph(inlines):
+             return ""
+         return self._render_inlines(inlines)
+ 
+     def _is_metadata_paragraph(self, inlines: List[Any]) -> bool:
+         """
+         检测段落是否只包含文档元数据 JSON。
+         
+         某些 LLM 生成的内容会将元数据（如 xrefs、widgets、footnotes、metadata）
+         错误地作为段落内容输出，本方法识别并标记这种情况以便跳过渲染。
+         """
+         if not inlines or len(inlines) != 1:
+             return False
+         first = inlines[0]
+         if not isinstance(first, dict):
+             return False
+         text = first.get("text", "")
+         if not isinstance(text, str):
+             return False
+         text = text.strip()
+         if not text.startswith("{") or not text.endswith("}"):
+             return False
+         # 检测典型的元数据键
+         metadata_indicators = ['"xrefs"', '"widgets"', '"footnotes"', '"metadata"', '"sectionBudgets"']
+         return any(indicator in text for indicator in metadata_indicators)
 
     def _render_list(self, block: Dict[str, Any]) -> str:
         list_type = block.get("listType", "bullet")