[Next week]✨ Knowledge Base Summary Development #1364

Mermaid97 · 2025-10-13T10:05:09Z

✨ Knowledge Base Summary Development
一个基于文档级聚类和层级总结的知识库智能总结方法
可以正确分点，完成内容正确划分，目前是内容的总结，也可以加上一些分析。

文档级聚类优先：首先对文档进行语义聚类，确保同一文档内容不被分散
2.智能分块聚类：基于Token预估，动态决定是否需要对chunk进行二级聚类
层级化总结：知识卡片 → 文档簇总结 → 全局总结，层层提炼
异步并发处理：利用asyncio并发调用LLM，显著提升处理速度
结构化输出：自动生成分点式总结，每点80-120字，清晰简洁

主要函数:
│ └── async_knowledge_summary_utils.py # 核心工具类 (1000+ 行)
│ ├── AsyncLLMClient # 异步LLM客户端
│ ├── DocumentClusterer # 文档聚类器
│ ├── ChunkClusterer # Chunk聚类器
│ ├── KnowledgeIntegrator # 知识整合器
│ └── async_vectorize_batch() # 异步向量化
│
├── services/
│ └── elasticsearch_service.py # RAG流程编排
│ ├── summary_index_name() # 主流程入口
│ ├── _reconstruct_documents() # 文档重建
│ └── _organize_chunks_by_clusters() # Chunk重组

# Conflicts: # backend/pyproject.toml

codecov · 2025-10-13T10:51:44Z

Codecov Report

❌ Patch coverage is 13.78238% with 832 lines in your changes missing coverage. Please review.

Files with missing lines	Patch %	Lines
backend/utils/async_knowledge_summary_utils.py	11.75%	428 Missing ⚠️
sdk/nexent/vector_database/elasticsearch_core.py	20.41%	269 Missing ⚠️
backend/services/elasticsearch_service.py	4.28%	134 Missing ⚠️
backend/utils/prompt_template_utils.py	50.00%	1 Missing ⚠️

📢 Thoughts on this report? Let us know!

SimengBian · 2025-10-13T12:12:56Z

backend/prompts/async_knowledge_summary.yaml

@@ -0,0 +1,116 @@
+# Async Knowledge Summary Prompt Templates (Chinese)
+# 异步知识库总结提示词模板（中文版）


建议注释统一用英文就可以，无需提供中文注释

SimengBian · 2025-10-13T12:15:35Z

backend/prompts/async_knowledge_summary.yaml

@@ -0,0 +1,116 @@
+# Async Knowledge Summary Prompt Templates (Chinese)


提示词这里是否可以不体现async异步

SimengBian · 2025-10-13T12:16:20Z

backend/prompts/async_knowledge_summary_en.yaml

@@ -0,0 +1,115 @@
+# Async Knowledge Summary Prompt Templates (English)
+# 异步知识库总结提示词模板（英文版）


同上，只需要英文注释就可以，另外，有些注释没有必要（例如下面这行注释），可以删掉

SimengBian · 2025-10-13T12:17:14Z

backend/prompts/async_knowledge_summary_en.yaml

+
+# Summary Generation Prompt
+SUMMARY_GENERATION_PROMPT: |-
+  ### You are a【Knowledge Summary Expert】responsible for generating concise and accurate knowledge summaries.


建议英文提示词中不要用【这样的中文符号，不太友好，可以替换为[

SimengBian · 2025-10-13T12:26:37Z

backend/services/elasticsearch_service.py

+                raise Exception("Failed to get embedding model")
+
+            # Async summary generation stream
+            async def generate_summary_stream():


函数过于复杂，建议尝试拆分下

SimengBian · 2025-10-13T12:30:14Z

backend/services/elasticsearch_service.py

+        documents = {}
+
+        for chunk in chunks:
+            doc_id = chunk.get('filename', chunk.get('source_doc', 'unknown'))


建议使用or写法，更清晰：doc_id = chunk.get('filename') or chunk.get('source_doc') or 'unknown'

SimengBian · 2025-10-13T12:34:37Z

backend/services/elasticsearch_service.py

+
+        # Group chunks by document cluster
+        for chunk in chunks:
+            doc_id = chunk.get('filename', chunk.get('source_doc', 'unknown'))


同上，建议采用or操作符提升可读性

SimengBian · 2025-10-13T12:38:57Z

backend/services/elasticsearch_service.py

+                    doc_vectors = await async_vectorize_batch(doc_texts, embedding_model, batch_size=20)
+
+                    # Document-level clustering
+                    from utils.async_knowledge_summary_utils import DocumentClusterer


不建议在代码中间位置进行import，建议整理，包括后面的numpy

SimengBian · 2025-10-13T12:42:14Z

backend/services/elasticsearch_service.py

+                    chunk_clusterer = ChunkClusterer(similarity_threshold=0.70, min_cluster_size=1)
+                    chunk_cluster_result = chunk_clusterer.cluster_chunks_with_document_clusters(chunk_vectors, chunks, chunks_by_doc_cluster)
+
+                    n_clusters = chunk_cluster_result['n_clusters']


是否要考虑chunk_cluster_result为None的情况？n_clusters = chunk_cluster_result.get('n_clusters', 0)

WMC001 · 2025-10-14T01:28:29Z

backend/services/elasticsearch_service.py

+                                # Escape quotes
+                                yield f"data: {{\"status\": \"success\", \"message\": \"\\\"\"}}\n\n"
+                            else:
+                                yield f"data: {{\"status\": \"success\", \"message\": \"{char}\"}}\n\n"


这种处理方式太粗暴了，使用json.dumps应该能很好的处理这种json格式问题

WMC001 · 2025-10-14T01:29:43Z

backend/services/elasticsearch_service.py

+                except Exception as e:
+                    logger.error(f"Error in async summary generation: {e}", exc_info=True)
+                    error_msg = str(e).replace('"', '\\"').replace('\n', '\\n')
+                    yield f"data: {{\"status\": \"error\", \"message\": \"{error_msg}\"}}\n\n"


这种流式的message建议统一整改使用json.dumps

WMC001 · 2025-10-14T01:31:47Z