Merge branch 'develop' into feature/multimodel_memory

# Conflicts: # api/app/core/memory/storage_services/extraction_engine/knowledge_extraction/embedding_generation.py # api/app/repositories/neo4j/add_nodes.py # api/app/repositories/neo4j/cypher_queries.py # api/app/repositories/neo4j/graph_saver.py # api/app/services/memory_agent_service.py # api/app/services/multimodal_service.py
2026-03-24 14:15:18 +08:00
parent 6bba574ca6 5987eee0a8
commit 89d188fbf3
61 changed files with 1707 additions and 694 deletions
--- a/api/app/services/draft_run_service.py
+++ b/api/app/services/draft_run_service.py
@@ -579,25 +579,28 @@ class AgentRunService:
                user_id=user_id
            )

+            model_info = ModelInfo(
+                model_name=api_key_config["model_name"],
+                provider=api_key_config["provider"],
+                api_key=api_key_config["api_key"],
+                api_base=api_key_config["api_base"],
+                capability=api_key_config["capability"],
+                is_omni=api_key_config["is_omni"],
+                model_type=model_config.type
+            )
+
            # 6. 加载历史消息
            history = await self._load_conversation_history(
                conversation_id=conversation_id,
-                max_history=10
+                max_history=10,
+                current_provider=api_key_config.get("provider"),
+                current_is_omni=api_key_config.get("is_omni", False)
            )

            # 6. 处理多模态文件
            processed_files = None
            if files:
                # 获取 provider 信息
-                model_info = ModelInfo(
-                    model_name=api_key_config["model_name"],
-                    provider=api_key_config["provider"],
-                    api_key=api_key_config["api_key"],
-                    api_base=api_key_config["api_base"],
-                    capability=api_key_config["capability"],
-                    is_omni=api_key_config["is_omni"],
-                    model_type=ModelType.LLM
-                )
                provider = api_key_config.get("provider", "openai")
                multimodal_service = MultimodalService(self.db, model_info)
                processed_files = await multimodal_service.process_files(files)
@@ -659,7 +662,10 @@ class AgentRunService:
                        })
                    },
                    files=files,
-                    audio_url=audio_url
+                    processed_files=processed_files,
+                    audio_url=audio_url,
+                    provider=api_key_config.get("provider"),
+                    is_omni=api_key_config.get("is_omni", False)
                )

            response = {
@@ -676,6 +682,7 @@ class AgentRunService:
                ) if not sub_agent else [],
                "citations": self._filter_citations(features_config, result.get("citations", [])),
                "audio_url": audio_url,
+                "audio_status": "pending"
            }

            logger.info(
@@ -815,25 +822,28 @@ class AgentRunService:
                sub_agent=sub_agent
            )

+            model_info = ModelInfo(
+                model_name=api_key_config["model_name"],
+                provider=api_key_config["provider"],
+                api_key=api_key_config["api_key"],
+                api_base=api_key_config["api_base"],
+                capability=api_key_config["capability"],
+                is_omni=api_key_config["is_omni"],
+                model_type=model_config.type
+            )
+
            # 6. 加载历史消息
            history = await self._load_conversation_history(
                conversation_id=conversation_id,
-                max_history=memory_config.get("max_history", 10)
+                max_history=memory_config.get("max_history", 10),
+                current_provider=api_key_config.get("provider"),
+                current_is_omni=api_key_config.get("is_omni", False)
            )

            # 6. 处理多模态文件
            processed_files = None
            if files:
                # 获取 provider 信息
-                model_info = ModelInfo(
-                    model_name=api_key_config["model_name"],
-                    provider=api_key_config["provider"],
-                    api_key=api_key_config["api_key"],
-                    api_base=api_key_config["api_base"],
-                    capability=api_key_config["capability"],
-                    is_omni=api_key_config["is_omni"],
-                    model_type=ModelType.LLM
-                )
                provider = api_key_config.get("provider", "openai")
                multimodal_service = MultimodalService(self.db, model_info)
                processed_files = await multimodal_service.process_files(files)
@@ -905,10 +915,13 @@ class AgentRunService:
                        "usage": {"prompt_tokens": 0, "completion_tokens": 0, "total_tokens": total_tokens}
                    },
                    files=files,
-                    audio_url=stream_audio_url
+                    processed_files=processed_files,
+                    audio_url=stream_audio_url,
+                    provider=api_key_config.get("provider"),
+                    is_omni=api_key_config.get("is_omni", False)
                )

-            # 12. 发送结束事件（包含 suggested_questions 和 tts）
+            # 12. 发送结束事件（包含 suggested_questions、audio_url 和 audio_status）
            end_data: Dict[str, Any] = {
                "conversation_id": conversation_id,
                "elapsed_time": elapsed_time,
@@ -919,6 +932,17 @@ class AgentRunService:
                    features_config, full_content, api_key_config, effective_params
                )
                end_data["audio_url"] = stream_audio_url
+                # 检查TTS是否已完成（非阻塞，不取消任务）
+                audio_status = "pending"
+                if tts_task is not None and tts_task.done():
+                    # 任务已完成，检查是否有异常
+                    try:
+                        tts_task.result()
+                        audio_status = "completed"
+                    except Exception as e:
+                        logger.warning(f"TTS任务异常: {e}")
+                        audio_status = "failed"
+                end_data["audio_status"] = audio_status if stream_audio_url else None
                end_data["citations"] = self._filter_citations(features_config, [])
            yield self._format_sse_event("end", end_data)

@@ -1115,13 +1139,17 @@ class AgentRunService:
    async def _load_conversation_history(
            self,
            conversation_id: str,
-            max_history: int = 10
+            max_history: int = 10,
+            current_provider: Optional[str] = None,
+            current_is_omni: Optional[bool] = None
    ) -> List[Dict[str, str]]:
-        """加载会话历史消息
+        """加载会话历史消息，并根据当前模型配置处理多模态文件

        Args:
            conversation_id: 会话ID
            max_history: 最大历史消息数量
+            current_provider: 当前模型的provider
+            current_is_omni: 当前模型的is_omni

        Returns:
            List[Dict]: 历史消息列表
@@ -1129,9 +1157,12 @@ class AgentRunService:
        try:

            conversation_service = ConversationService(self.db)
-            history = conversation_service.get_conversation_history(
+            # 获取 API 配置用于多模态处理
+            history = await conversation_service.get_conversation_history(
                conversation_id=uuid.UUID(conversation_id),
-                max_history=max_history
+                max_history=max_history,
+                current_provider=current_provider,
+                current_is_omni=current_is_omni
            )

            logger.debug(
@@ -1159,7 +1190,10 @@ class AgentRunService:
            app_id: Optional[uuid.UUID] = None,
            user_id: Optional[str] = None,
            files: Optional[List[FileInput]] = None,
-            audio_url: Optional[str] = None
+            processed_files: Optional[List[Dict[str, Any]]] = None,
+            audio_url: Optional[str] = None,
+            provider: Optional[str] = None,
+            is_omni: Optional[bool] = None
    ) -> None:
        """保存会话消息（会话已通过 _ensure_conversation 确保存在）

@@ -1170,6 +1204,11 @@ class AgentRunService:
            app_id: 应用ID（未使用，保留用于兼容性）
            user_id: 用户ID（未使用，保留用于兼容性）
            meta_data: token消耗
+            files: 原始文件输入
+            processed_files: 处理后的文件
+            audio_url: 音频URL
+            provider: 模型供应商
+            is_omni: 是否为全模态模型
        """
        try:
            from app.services.conversation_service import ConversationService
@@ -1179,15 +1218,24 @@ class AgentRunService:

            # 保存消息（会话已经存在）
            human_meta = {
-                "files": []
+                "files": [],
+                "history_files": {}
            }
            if files:
                for f in files:
-                    # url = await MultimodalService(self.db).get_file_url(f)
                    human_meta["files"].append({
                        "type": f.type,
                        "url": f.url
                    })
+
+            # 保存 history_files，包含 provider 和 is_omni 信息
+            if processed_files:
+                human_meta["history_files"] = {
+                    "content": processed_files,
+                    "provider": provider,
+                    "is_omni": is_omni
+                }
+
            # 保存用户消息
            conversation_service.add_message(
                conversation_id=conv_uuid,
@@ -1413,8 +1461,9 @@ class AgentRunService:
            workspace_id: Optional[uuid.UUID] = None,
    ) -> tuple[Optional[str], Optional[asyncio.Task]]:
        """文本流式输入并行合成音频。
-        返回 (audio_url, task)，audio_url 立即可用，task 完成后文件内容就绪。
+        返回 (audio_url, task)，audio_url 立即可用（pending状态），task 完成后文件内容就绪。
        调用方向 text_queue put 文本 chunk，结束时 put None。
+        前端可通过 GET /storage/files/{file_id}/status 轮询检查音频是否就绪。
        """
        tts_config = features_config.get("text_to_speech", {})
        if not isinstance(tts_config, dict) or not tts_config.get("enabled"):
@@ -1801,6 +1850,7 @@ class AgentRunService:
                    ),
                    "cost_estimate": self._estimate_cost(usage, model_info["model_config"]),
                    "audio_url": result.get("audio_url"),
+                    "audio_status": result.get("audio_status"),
                    "citations": result.get("citations", []),
                    "suggested_questions": result.get("suggested_questions", []),
                    "error": None
@@ -1878,6 +1928,7 @@ class AgentRunService:
            "results": [{
                **r,
                "audio_url": r.get("audio_url"),
+                "audio_status": r.get("audio_status"),
                "citations": r.get("citations", []),
                "suggested_questions": r.get("suggested_questions", []),
            } for r in results],
@@ -2009,6 +2060,7 @@ class AgentRunService:
                full_content = ""
                returned_conversation_id = model_conversation_id
                audio_url = None
+                audio_status = None
                citations = []
                suggested_questions = []

@@ -2067,6 +2119,7 @@ class AgentRunService:
                            # 从 end 事件中提取 features 输出字段
                            if event_type == "end" and event_data:
                                audio_url = event_data.get("audio_url")
+                                audio_status = event_data.get("audio_status")
                                citations = event_data.get("citations", [])
                                suggested_questions = event_data.get("suggested_questions", [])

@@ -2096,6 +2149,7 @@ class AgentRunService:
                    "message": full_content,
                    "elapsed_time": elapsed,
                    "audio_url": audio_url,
+                    "audio_status": audio_status,
                    "citations": citations,
                    "suggested_questions": suggested_questions,
                    "error": None
@@ -2110,6 +2164,7 @@ class AgentRunService:
                    "elapsed_time": elapsed,
                    "message_length": len(full_content),
                    "audio_url": audio_url,
+                    "audio_status": audio_status,
                    "citations": citations,
                    "suggested_questions": suggested_questions,
                    "timestamp": time.time()
@@ -2246,6 +2301,7 @@ class AgentRunService:
                "message": r.get("message"),
                "elapsed_time": r.get("elapsed_time", 0),
                "audio_url": r.get("audio_url"),
+                "audio_status": r.get("audio_status"),
                "citations": r.get("citations", []),
                "suggested_questions": r.get("suggested_questions", []),
                "error": r.get("error")