Merge pull request #695 from SuanmoSuanyangTechnology/feature/agent-tool_xjn

feat(workflow)
2026-03-26 16:24:43 +08:00
parent 8dbb067b83 1df3fc416a
commit dfc0ee9424
6 changed files with 130 additions and 66 deletions
--- a/api/app/core/workflow/nodes/document_extractor/init.py
+++ b/api/app/core/workflow/nodes/document_extractor/init.py
@@ -0,0 +1,4 @@
+from .config import DocExtractorNodeConfig
+from .node import DocExtractorNode
+
+__all__ = ["DocExtractorNode", "DocExtractorNodeConfig"]
--- a/api/app/core/workflow/nodes/document_extractor/config.py
+++ b/api/app/core/workflow/nodes/document_extractor/config.py
@@ -0,0 +1,18 @@
+from pydantic import Field
+from app.core.workflow.nodes.base_config import BaseNodeConfig
+
+
+class DocExtractorNodeConfig(BaseNodeConfig):
+    file_selector: str = Field(
+        ...,
+        description="File variable selector, e.g. {{ sys.files }} or {{ node_id.file }}"
+    )
+
+    class Config:
+        json_schema_extra = {
+            "examples": [
+                {
+                    "file_selector": "{{ sys.files }}"
+                }
+            ]
+        }
--- a/api/app/core/workflow/nodes/document_extractor/node.py
+++ b/api/app/core/workflow/nodes/document_extractor/node.py
@@ -0,0 +1,103 @@
+import logging
+from typing import Any
+
+from app.core.workflow.engine.state_manager import WorkflowState
+from app.core.workflow.engine.variable_pool import VariablePool
+from app.core.workflow.nodes.base_node import BaseNode
+from app.core.workflow.nodes.document_extractor.config import DocExtractorNodeConfig
+from app.core.workflow.variable.base_variable import VariableType, FileObject
+from app.db import get_db_read
+from app.schemas.app_schema import FileInput, FileType, TransferMethod
+
+logger = logging.getLogger(__name__)
+
+
+def _file_object_to_file_input(f: FileObject) -> FileInput:
+    """Convert workflow FileObject to multimodal FileInput."""
+    return FileInput(
+        type=FileType.DOCUMENT,
+        transfer_method=TransferMethod(f.transfer_method),
+        url=f.url or None,
+        upload_file_id=f.file_id or None,
+        file_type=f.origin_file_type or "",
+    )
+
+
+def _normalise_files(val: Any) -> list[FileObject]:
+    if isinstance(val, FileObject):
+        return [val]
+    if isinstance(val, dict) and val.get("is_file"):
+        return [FileObject(**val)]
+    if isinstance(val, list):
+        result: list[FileObject] = []
+        for item in val:
+            if isinstance(item, FileObject):
+                result.append(item)
+            elif isinstance(item, dict) and item.get("is_file"):
+                result.append(FileObject(**item))
+            else:
+                logger.warning("Ignoring non-file entry in file list for document extractor: %r", item)
+        return result
+    return []
+
+
+class DocExtractorNode(BaseNode):
+    """Document Extractor Node.
+
+    Reads one or more file variables and extracts their text content
+    by delegating to MultimodalService._extract_document_text.
+
+    Outputs:
+        text   (string)        – full concatenated text of all input files
+        chunks (array[string]) – per-file extracted text
+    """
+
+    def _output_types(self) -> dict[str, VariableType]:
+        return {
+            "text": VariableType.STRING,
+            "chunks": VariableType.ARRAY_STRING,
+        }
+
+    def _extract_output(self, business_result: Any) -> Any:
+        return business_result
+
+    def _extract_input(self, state: WorkflowState, variable_pool: VariablePool) -> dict[str, Any]:
+        return {"file_selector": self.config.get("file_selector")}
+
+    async def execute(self, state: WorkflowState, variable_pool: VariablePool) -> Any:
+        config = DocExtractorNodeConfig(**self.config)
+
+        raw_val = self.get_variable(config.file_selector, variable_pool, strict=False)
+        if raw_val is None:
+            logger.warning(f"Node {self.node_id}: file variable '{config.file_selector}' is empty")
+            return {"text": "", "chunks": []}
+
+        files = _normalise_files(raw_val)
+        if not files:
+            return {"text": "", "chunks": []}
+
+        chunks: list[str] = []
+        with get_db_read() as db:
+            from app.services.multimodal_service import MultimodalService
+            svc = MultimodalService(db)
+            for f in files:
+                try:
+                    file_input = _file_object_to_file_input(f)
+                    # Ensure URL is populated for local files
+                    if not file_input.url:
+                        file_input.url = await svc.get_file_url(file_input)
+                    # Reuse cached bytes if already fetched
+                    if f.get_content():
+                        file_input.set_content(f.get_content())
+                    text = await svc._extract_document_text(file_input)
+                    chunks.append(text)
+                except Exception as e:
+                    logger.error(
+                        f"Node {self.node_id}: failed to extract file url={f.url} file_id={f.file_id}: {e}",
+                        exc_info=True,
+                    )
+                    chunks.append("")
+
+        full_text = "\n\n".join(c for c in chunks if c)
+        logger.info(f"Node {self.node_id}: extracted {len(files)} file(s), total chars={len(full_text)}")
+        return {"text": full_text, "chunks": chunks}
--- a/api/app/core/workflow/nodes/enums.py
+++ b/api/app/core/workflow/nodes/enums.py
@@ -23,6 +23,7 @@ class NodeType(StrEnum):
    BREAK = "break"
    MEMORY_READ = "memory-read"
    MEMORY_WRITE = "memory-write"
+    DOCUMENT_EXTRACTOR = "document-extractor"

    UNKNOWN = "unknown"
    NOTES = "notes"
--- a/api/app/core/workflow/nodes/node_factory.py
+++ b/api/app/core/workflow/nodes/node_factory.py
@@ -26,6 +26,7 @@ from app.core.workflow.nodes.variable_aggregator import VariableAggregatorNode
 from app.core.workflow.nodes.question_classifier import QuestionClassifierNode
 from app.core.workflow.nodes.breaker import BreakNode
 from app.core.workflow.nodes.tool import ToolNode
+from app.core.workflow.nodes.document_extractor import DocExtractorNode

 logger = logging.getLogger(__name__)

@@ -49,7 +50,8 @@ WorkflowNode = Union[
    ToolNode,
    MemoryReadNode,
    MemoryWriteNode,
-    CodeNode
+    CodeNode,
+    DocExtractorNode
 ]


@@ -81,6 +83,7 @@ class NodeFactory:
        NodeType.MEMORY_READ: MemoryReadNode,
        NodeType.MEMORY_WRITE: MemoryWriteNode,
        NodeType.CODE: CodeNode,
+        NodeType.DOCUMENT_EXTRACTOR: DocExtractorNode
    }

    @classmethod
--- a/api/app/services/multimodal_service.py
+++ b/api/app/services/multimodal_service.py
@@ -403,71 +403,6 @@ class MultimodalService:
        logger.info(f"成功处理 {len(result)}/{len(files)} 个文件，provider={self.provider}")
        return result

-    async def history_process_files(
-            self,
-            files: Optional[List[FileInput]],
-    ) -> List[Dict[str, Any]]:
-        """
-        处理文件列表，返回 LLM 可用的格式
-
-        Args:
-            files: 文件输入列表
-
-        Returns:
-            List[Dict]: LLM 可用的内容格式列表（根据 provider 返回不同格式）
-        """
-        if not files:
-            return []
-
-        # 获取对应的策略
-        # dashscope 的 omni 模型使用 OpenAI 兼容格式
-        if self.provider == "dashscope" and self.is_omni:
-            strategy_class = OpenAIFormatStrategy
-        else:
-            strategy_class = PROVIDER_STRATEGIES.get(self.provider)
-            if not strategy_class:
-                logger.warning(f"未找到 provider '{self.provider}' 的策略，使用默认策略")
-                strategy_class = DashScopeFormatStrategy
-
-        result = []
-        for idx, file in enumerate(files):
-            strategy = strategy_class(file)
-            if not file.url:
-                file.url = await self.get_file_url(file)
-            try:
-                if file.type == FileType.IMAGE and "vision" in self.capability:
-                    is_support, content = await self._process_image(file, strategy)
-                    result.append(content)
-                elif file.type == FileType.DOCUMENT:
-                    is_support, content = await self._process_document(file, strategy)
-                    result.append(content)
-                elif file.type == FileType.AUDIO and "audio" in self.capability:
-                    is_support, content = await self._process_audio(file, strategy)
-                    result.append(content)
-                elif file.type == FileType.VIDEO and "video" in self.capability:
-                    is_support, content = await self._process_video(file, strategy)
-                    result.append(content)
-                else:
-                    logger.warning(f"不支持的文件类型: {file.type}")
-            except Exception as e:
-                logger.error(
-                    f"处理文件失败",
-                    extra={
-                        "file_index": idx,
-                        "file_type": file.type,
-                        "error": str(e)
-                    },
-                    exc_info=True
-                )
-                # 继续处理其他文件，不中断整个流程
-                result.append({
-                    "type": "text",
-                    "text": f"[文件处理失败: {str(e)}]"
-                })
-
-        logger.info(f"成功处理 {len(result)}/{len(files)} 个文件，provider={self.provider}")
-        return result
-
    async def _process_image(self, file: FileInput, strategy) -> tuple[bool, Dict[str, Any]]:
        """
        处理图片文件