feat(model and app):

1. Increase support for visual models and multimodal models; 2. The application and workflow can input various multimodal files such as images, documents, audio, and videos.
2026-03-05 09:55:54 +08:00
parent 23bfdcefef
commit 590ec3a446
26 changed files with 958 additions and 233 deletions
--- a/api/app/core/agent/langchain_agent.py
+++ b/api/app/core/agent/langchain_agent.py
@@ -11,35 +11,37 @@ LangChain Agent 封装
 import time
 from typing import Any, AsyncGenerator, Dict, List, Optional, Sequence

-from app.core.memory.agent.langgraph_graph.write_graph import  write_long_term
+from app.core.memory.agent.langgraph_graph.write_graph import write_long_term
 from app.db import get_db
 from app.core.logging_config import get_business_logger
 from app.core.models import RedBearLLM, RedBearModelConfig
-from app.models.models_model import ModelType
+from app.models.models_model import ModelType, ModelProvider
 from app.services.memory_agent_service import (
    get_end_user_connected_config,
 )
 from langchain.agents import create_agent
 from langchain_core.messages import AIMessage, BaseMessage, HumanMessage, SystemMessage
 from langchain_core.tools import BaseTool
+
 logger = get_business_logger()


 class LangChainAgent:

    def __init__(
-        self,
-        model_name: str,
-        api_key: str,
-        provider: str = "openai",
-        api_base: Optional[str] = None,
-        temperature: float = 0.7,
-        max_tokens: int = 2000,
-        system_prompt: Optional[str] = None,
-        tools: Optional[Sequence[BaseTool]] = None,
-        streaming: bool = False,
-        max_iterations: Optional[int] = None,  # 最大迭代次数（None 表示自动计算）
-        max_tool_consecutive_calls: int = 3  # 单个工具最大连续调用次数
+            self,
+            model_name: str,
+            api_key: str,
+            provider: str = "openai",
+            api_base: Optional[str] = None,
+            is_omni: bool = False,
+            temperature: float = 0.7,
+            max_tokens: int = 2000,
+            system_prompt: Optional[str] = None,
+            tools: Optional[Sequence[BaseTool]] = None,
+            streaming: bool = False,
+            max_iterations: Optional[int] = None,  # 最大迭代次数（None 表示自动计算）
+            max_tool_consecutive_calls: int = 3  # 单个工具最大连续调用次数
    ):
        """初始化 LangChain Agent

@@ -60,12 +62,13 @@ class LangChainAgent:
        self.provider = provider
        self.tools = tools or []
        self.streaming = streaming
+        self.is_omni = is_omni
        self.max_tool_consecutive_calls = max_tool_consecutive_calls
-        
+
        # 工具调用计数器：记录每个工具的连续调用次数
        self.tool_call_counter: Dict[str, int] = {}
        self.last_tool_called: Optional[str] = None
-        
+
        # 根据工具数量动态调整最大迭代次数
        # 基础值 + 每个工具额外的调用机会
        if max_iterations is None:
@@ -73,9 +76,9 @@ class LangChainAgent:
            self.max_iterations = 5 + len(self.tools) * 2
        else:
            self.max_iterations = max_iterations
-        
+
        self.system_prompt = system_prompt or "你是一个专业的AI助手"
-        
+
        logger.debug(
            f"Agent 迭代次数配置: max_iterations={self.max_iterations}, "
            f"tool_count={len(self.tools)}, "
@@ -89,6 +92,7 @@ class LangChainAgent:
            provider=provider,
            api_key=api_key,
            base_url=api_base,
+            is_omni=is_omni,
            extra_params={
                "temperature": temperature,
                "max_tokens": max_tokens,
@@ -143,21 +147,22 @@ class LangChainAgent:
        """
        from langchain_core.tools import StructuredTool
        from functools import wraps
-        
+
        wrapped_tools = []
-        
+
        for original_tool in tools:
            tool_name = original_tool.name
            original_func = original_tool.func if hasattr(original_tool, 'func') else None
-            
+
            if not original_func:
                # 如果无法获取原始函数，直接使用原工具
                wrapped_tools.append(original_tool)
                continue
-            
+
            # 创建包装函数
            def make_wrapped_func(tool_name, original_func):
                """创建包装函数的工厂函数，避免闭包问题"""
+
                @wraps(original_func)
                def wrapped_func(*args, **kwargs):
                    """包装后的工具函数，跟踪连续调用次数"""
@@ -168,13 +173,13 @@ class LangChainAgent:
                        # 切换到新工具，重置计数器
                        self.tool_call_counter[tool_name] = 1
                        self.last_tool_called = tool_name
-                    
+
                    current_count = self.tool_call_counter[tool_name]
-                    
+
                    logger.debug(
                        f"工具调用: {tool_name}, 连续调用次数: {current_count}/{self.max_tool_consecutive_calls}"
                    )
-                    
+
                    # 检查是否超过最大连续调用次数
                    if current_count > self.max_tool_consecutive_calls:
                        logger.warning(
@@ -185,12 +190,12 @@ class LangChainAgent:
                            f"工具 '{tool_name}' 已连续调用 {self.max_tool_consecutive_calls} 次，"
                            f"未找到有效结果。请尝试其他方法或直接回答用户的问题。"
                        )
-                    
+
                    # 调用原始工具函数
                    return original_func(*args, **kwargs)
-                
+
                return wrapped_func
-            
+
            # 使用 StructuredTool 创建新工具
            wrapped_tool = StructuredTool(
                name=original_tool.name,
@@ -198,17 +203,17 @@ class LangChainAgent:
                func=make_wrapped_func(tool_name, original_func),
                args_schema=original_tool.args_schema if hasattr(original_tool, 'args_schema') else None
            )
-            
+
            wrapped_tools.append(wrapped_tool)
-        
+
        return wrapped_tools

    def _prepare_messages(
-        self,
-        message: str,
-        history: Optional[List[Dict[str, str]]] = None,
-        context: Optional[str] = None,
-        files: Optional[List[Dict[str, Any]]] = None
+            self,
+            message: str,
+            history: Optional[List[Dict[str, str]]] = None,
+            context: Optional[str] = None,
+            files: Optional[List[Dict[str, Any]]] = None
    ) -> List[BaseMessage]:
        """准备消息列表

@@ -248,7 +253,7 @@ class LangChainAgent:
            messages.append(HumanMessage(content=user_content))

        return messages
-    
+
    def _build_multimodal_content(self, text: str, files: List[Dict[str, Any]]) -> List[Dict[str, Any]]:
        """
        构建多模态消息内容
@@ -261,23 +266,26 @@ class LangChainAgent:
            List[Dict]: 消息内容列表
        """
        # 根据 provider 使用不同的文本格式
-        if self.provider.lower() in ["bedrock", "anthropic"]:
-            # Anthropic/Bedrock: {"type": "text", "text": "..."}
-            content_parts = [{"type": "text", "text": text}]
-        else:
-            # 通义千问等: {"text": "..."}
-            content_parts = [{"text": text}]
-        
+        # if (self.provider.lower() in [ModelProvider.BEDROCK, ModelProvider.OPENAI, ModelProvider.XINFERENCE,
+        #                               ModelProvider.GPUSTACK] or (
+        #         self.provider.lower() == ModelProvider.DASHSCOPE and self.is_omni)):
+        #     # Anthropic/Bedrock/Xinference/Gpustack/Openai: {"type": "text", "text": "..."}
+        #     content_parts = [{"type": "text", "text": text}]
+        # else:
+        #     # 通义千问等: {"text": "..."}
+        #     content_parts = [{"type": "text", "text": text}]
+        content_parts = [{"type": "text", "text": text}]
+
        # 添加文件内容
        # MultimodalService 已经根据 provider 返回了正确格式，直接使用
        content_parts.extend(files)
-        
+
        logger.debug(
            f"构建多模态消息: provider={self.provider}, "
            f"parts={len(content_parts)}, "
            f"files={len(files)}"
        )
-        
+
        return content_parts

    async def chat(
@@ -302,7 +310,7 @@ class LangChainAgent:
        Returns:
            Dict: 包含 content 和元数据的字典
        """
-        message_chat= message
+        message_chat = message
        start_time = time.time()
        actual_config_id = config_id
        # If config_id is None, try to get from end_user's connected config
@@ -322,8 +330,8 @@ class LangChainAgent:
            except Exception as e:
                logger.warning(f"Failed to get db session: {e}")
        actual_end_user_id = end_user_id if end_user_id is not None else "unknown"
-        logger.info(f'写入类型{storage_type,str(end_user_id), message, str(user_rag_memory_id)}')
-        print(f'写入类型{storage_type,str(end_user_id), message, str(user_rag_memory_id)}')
+        logger.info(f'写入类型{storage_type, str(end_user_id), message, str(user_rag_memory_id)}')
+        print(f'写入类型{storage_type, str(end_user_id), message, str(user_rag_memory_id)}')
        try:
            # 准备消息列表（支持多模态）
            messages = self._prepare_messages(message, history, context, files)
@@ -367,14 +375,14 @@ class LangChainAgent:
            # 获取最后的 AI 消息
            output_messages = result.get("messages", [])
            content = ""
-            
+
            logger.debug(f"输出消息数量: {len(output_messages)}")
            total_tokens = 0
            for msg in reversed(output_messages):
                if isinstance(msg, AIMessage):
                    logger.debug(f"找到 AI 消息，content 类型: {type(msg.content)}")
                    logger.debug(f"AI 消息内容: {msg.content}")
-                    
+
                    # 处理多模态响应：content 可能是字符串或列表
                    if isinstance(msg.content, str):
                        content = msg.content
@@ -407,12 +415,13 @@ class LangChainAgent:
                    response_meta = msg.response_metadata if hasattr(msg, 'response_metadata') else None
                    total_tokens = response_meta.get("token_usage", {}).get("total_tokens", 0) if response_meta else 0
                    break
-            
+
            logger.info(f"最终提取的内容长度: {len(content)}")

            elapsed_time = time.time() - start_time
            if memory_flag:
-                await write_long_term(storage_type, end_user_id, message_chat, content, user_rag_memory_id, actual_config_id)
+                await write_long_term(storage_type, end_user_id, message_chat, content, user_rag_memory_id,
+                                      actual_config_id)
            response = {
                "content": content,
                "model": self.model_name,
@@ -439,16 +448,16 @@ class LangChainAgent:
            raise

    async def chat_stream(
-        self,
-        message: str,
-        history: Optional[List[Dict[str, str]]] = None,
-        context: Optional[str] = None,
-        end_user_id:Optional[str] = None,
-        config_id: Optional[str] = None,
-        storage_type:Optional[str] = None,
-        user_rag_memory_id:Optional[str] = None,
-        memory_flag: Optional[bool] = True,
-        files: Optional[List[Dict[str, Any]]] = None  # 新增：多模态文件
+            self,
+            message: str,
+            history: Optional[List[Dict[str, str]]] = None,
+            context: Optional[str] = None,
+            end_user_id: Optional[str] = None,
+            config_id: Optional[str] = None,
+            storage_type: Optional[str] = None,
+            user_rag_memory_id: Optional[str] = None,
+            memory_flag: Optional[bool] = True,
+            files: Optional[List[Dict[str, Any]]] = None  # 新增：多模态文件
    ) -> AsyncGenerator[str, None]:
        """执行流式对话

@@ -482,7 +491,6 @@ class LangChainAgent:
            except Exception as e:
                logger.warning(f"Failed to get db session: {e}")

-
            # 注意：不在这里写入用户消息，等 AI 回复后一起写入
        try:
            # 准备消息列表（支持多模态）
@@ -500,13 +508,13 @@ class LangChainAgent:
            full_content = ''
            try:
                async for event in self.agent.astream_events(
-                    {"messages": messages},
-                    version="v2",
-                    config={"recursion_limit": self.max_iterations}
+                        {"messages": messages},
+                        version="v2",
+                        config={"recursion_limit": self.max_iterations}
                ):
                    chunk_count += 1
                    kind = event.get("event")
-                    
+
                    # 处理所有可能的流式事件
                    if kind == "on_chat_model_stream":
                        # LLM 流式输出
@@ -540,7 +548,7 @@ class LangChainAgent:
                                        full_content += item
                                        yield item
                                        yielded_content = True
-                    
+
                    elif kind == "on_llm_stream":
                        # 另一种 LLM 流式事件
                        chunk = event.get("data", {}).get("chunk")
@@ -577,13 +585,13 @@ class LangChainAgent:
                                full_content += chunk
                                yield chunk
                                yielded_content = True
-                    
+
                    # 记录工具调用（可选）
                    elif kind == "on_tool_start":
                        logger.debug(f"工具调用开始: {event.get('name')}")
                    elif kind == "on_tool_end":
                        logger.debug(f"工具调用结束: {event.get('name')}")
-                
+
                logger.debug(f"Agent 流式完成，共 {chunk_count} 个事件")
                # 统计token消耗
                output_messages = event.get("data", {}).get("output", {}).get("messages", [])
@@ -595,7 +603,8 @@ class LangChainAgent:
                        yield total_tokens
                        break
                if memory_flag:
-                    await write_long_term(storage_type, end_user_id, message_chat, full_content, user_rag_memory_id, actual_config_id)
+                    await write_long_term(storage_type, end_user_id, message_chat, full_content, user_rag_memory_id,
+                                          actual_config_id)
            except Exception as e:
                logger.error(f"Agent astream_events 失败: {str(e)}", exc_info=True)
                raise
@@ -609,5 +618,3 @@ class LangChainAgent:
            logger.info("=" * 80)
            logger.info("chat_stream 方法执行结束")
            logger.info("=" * 80)
-
-
--- a/api/app/core/models/base.py
+++ b/api/app/core/models/base.py
@@ -27,6 +27,7 @@ class RedBearModelConfig(BaseModel):
    provider: str
    api_key: str
    base_url: Optional[str] = None
+    is_omni: bool = False  # 是否为 Omni 模型
    # 请求超时时间（秒）- 默认120秒以支持复杂的LLM调用，可通过环境变量 LLM_TIMEOUT 配置
    timeout: float = Field(default_factory=lambda: float(os.getenv("LLM_TIMEOUT", "120.0")))
    # 最大重试次数 - 默认2次以避免过长等待，可通过环境变量 LLM_MAX_RETRIES 配置
@@ -45,7 +46,28 @@ class RedBearModelFactory:
        # 打印供应商信息用于调试
        from app.core.logging_config import get_business_logger
        logger = get_business_logger()
-        logger.debug(f"获取模型参数 - Provider: {provider}, Model: {config.model_name}")
+        logger.debug(f"获取模型参数 - Provider: {provider}, Model: {config.model_name}, is_omni: {config.is_omni}")
+
+        # dashscope 的 omni 模型使用 OpenAI 兼容模式
+        if provider == ModelProvider.DASHSCOPE and config.is_omni:
+            import httpx
+            if not config.base_url:
+                config.base_url = "https://dashscope.aliyuncs.com/compatible-mode/v1"
+            timeout_config = httpx.Timeout(
+                timeout=config.timeout,
+                connect=60.0,
+                read=config.timeout,
+                write=60.0,
+                pool=10.0,
+            )
+            return {
+                "model": config.model_name,
+                "base_url": config.base_url,
+                "api_key": config.api_key,
+                "timeout": timeout_config,
+                "max_retries": config.max_retries,
+                **config.extra_params
+            }

        if provider in [ModelProvider.OPENAI, ModelProvider.XINFERENCE, ModelProvider.GPUSTACK, ModelProvider.OLLAMA]:
            # 使用 httpx.Timeout 对象来设置详细的超时配置
@@ -135,6 +157,12 @@ class RedBearModelFactory:
 def get_provider_llm_class(config:RedBearModelConfig, type: ModelType=ModelType.LLM) -> type[BaseLLM]:
    """根据模型提供商获取对应的模型类"""
    provider = config.provider.lower()
+    
+    # dashscope 的 omni 模型使用 OpenAI 兼容模式
+    if provider == ModelProvider.DASHSCOPE and config.is_omni:
+        from langchain_openai import ChatOpenAI
+        return ChatOpenAI
+    
    if provider in [ModelProvider.OPENAI, ModelProvider.XINFERENCE, ModelProvider.GPUSTACK] : 
        if type == ModelType.LLM:
            from langchain_openai import OpenAI
--- a/api/app/core/models/scripts/bedrock_models.yaml
+++ b/api/app/core/models/scripts/bedrock_models.yaml
@@ -6,6 +6,8 @@ models:
  description: AI21 Labs大语言模型，completion生成模式，256000上下文窗口
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  logo: bedrock
@@ -15,6 +17,9 @@ models:
  description: Amazon Nova大语言模型，支持智能体思考、工具调用、流式工具调用、视觉能力，300000上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -28,6 +33,9 @@ models:
  description: Anthropic Claude大语言模型，支持智能体思考、视觉能力、工具调用、流式工具调用、文档处理，200000上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -42,6 +50,8 @@ models:
  description: Cohere大语言模型，支持智能体思考、工具调用、流式工具调用，128000上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -54,6 +64,9 @@ models:
  description: DeepSeek大语言模型，支持智能体思考、视觉能力、工具调用、流式工具调用，32768上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -67,6 +80,8 @@ models:
  description: Meta Llama大语言模型，支持智能体思考、工具调用，128000上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -78,6 +93,8 @@ models:
  description: Mistral AI大语言模型，支持智能体思考、工具调用，32000上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -89,6 +106,8 @@ models:
  description: OpenAI大语言模型，支持智能体思考、工具调用、流式工具调用，32768上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -101,6 +120,8 @@ models:
  description: Qwen大语言模型，支持智能体思考、工具调用、流式工具调用，32768上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -113,6 +134,8 @@ models:
  description: amazon.rerank-v1:0重排序模型，5120上下文窗口
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 重排序模型
  logo: bedrock
@@ -122,6 +145,8 @@ models:
  description: cohere.rerank-v3-5:0重排序模型，5120上下文窗口
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 重排序模型
  logo: bedrock
@@ -131,6 +156,9 @@ models:
  description: amazon.nova-2-multimodal-embeddings-v1:0文本嵌入模型，支持视觉能力，8192上下文窗口
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+  is_omni: false
  tags:
  - 文本嵌入模型
  - vision
@@ -141,6 +169,8 @@ models:
  description: amazon.titan-embed-text-v1文本嵌入模型，8192上下文窗口
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 文本嵌入模型
  logo: bedrock
@@ -150,6 +180,8 @@ models:
  description: amazon.titan-embed-text-v2:0文本嵌入模型，8192上下文窗口
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 文本嵌入模型
  logo: bedrock
@@ -159,6 +191,8 @@ models:
  description: Cohere Embed 3 English文本嵌入模型，512上下文窗口
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 文本嵌入模型
  logo: bedrock
@@ -168,6 +202,8 @@ models:
  description: Cohere Embed 3 Multilingual文本嵌入模型，512上下文窗口
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 文本嵌入模型
-  logo: bedrock
+  logo: bedrock
--- a/api/app/core/models/scripts/dashscope_models.yaml
+++ b/api/app/core/models/scripts/dashscope_models.yaml
@@ -6,6 +6,8 @@ models:
  description: DeepSeek-R1-Distill-Qwen-14B大语言模型，支持智能体思考，32000上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -16,6 +18,8 @@ models:
  description: DeepSeek-R1-Distill-Qwen-32B大语言模型，支持智能体思考，32000上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -26,6 +30,8 @@ models:
  description: DeepSeek-R1大语言模型，支持智能体思考，131072超大上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -36,6 +42,8 @@ models:
  description: DeepSeek-V3.1大语言模型，支持智能体思考，131072超大上下文窗口，对话模式，支持丰富生成参数调节
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -46,6 +54,8 @@ models:
  description: DeepSeek-V3.2-exp实验版大语言模型，支持智能体思考，131072超大上下文窗口，对话模式，支持丰富生成参数调节
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -56,6 +66,8 @@ models:
  description: DeepSeek-V3.2大语言模型，支持智能体思考，131072超大上下文窗口，对话模式，支持丰富生成参数调节
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -66,6 +78,8 @@ models:
  description: DeepSeek-V3大语言模型，支持智能体思考，64000上下文窗口，对话模式，支持文本与JSON格式输出
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -76,6 +90,8 @@ models:
  description: farui-plus大语言模型，支持多工具调用、智能体思考、流式工具调用，12288上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -88,6 +104,8 @@ models:
  description: GLM-4.7大语言模型，支持多工具调用、智能体思考、流式工具调用，202752超大上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -100,6 +118,9 @@ models:
  description: qvq-max-latest大语言模型，支持视觉、智能体思考、流式工具调用，131072上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+  is_omni: false
  tags:
  - 大语言模型
  - vision
@@ -112,6 +133,9 @@ models:
  description: qvq-max大语言模型，支持视觉、智能体思考、流式工具调用，131072上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+  is_omni: false
  tags:
  - 大语言模型
  - vision
@@ -124,6 +148,8 @@ models:
  description: qwen-coder-turbo-0919代码专用大语言模型，支持智能体思考，131072上下文窗口，对话模式，已废弃
  is_deprecated: true
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - 代码模型
@@ -135,6 +161,8 @@ models:
  description: qwen-max-latest大语言模型，支持多工具调用、智能体思考、流式工具调用，131072上下文窗口，对话模式，支持联网搜索
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -147,6 +175,8 @@ models:
  description: qwen-max-longcontext长上下文大语言模型，支持多工具调用、智能体思考、流式工具调用，32000上下文窗口，对话模式，已废弃
  is_deprecated: true
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -159,6 +189,8 @@ models:
  description: qwen-max大语言模型，支持多工具调用、智能体思考、流式工具调用，32768上下文窗口，对话模式，支持联网搜索
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -171,6 +203,8 @@ models:
  description: qwen-mt-plus多语言翻译大语言模型，支持智能体思考，16384上下文窗口，对话模式，支持多语种互译与领域翻译适配
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - 翻译模型
@@ -182,6 +216,8 @@ models:
  description: qwen-mt-turbo轻量化多语言翻译大语言模型，支持智能体思考，16384上下文窗口，对话模式，支持多语种互译与领域翻译适配
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - 翻译模型
@@ -193,6 +229,8 @@ models:
  description: qwen-plus-0112大语言模型，支持多工具调用、智能体思考、流式工具调用，131072上下文窗口，对话模式，支持联网搜索，已废弃
  is_deprecated: true
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -205,6 +243,8 @@ models:
  description: qwen-plus-0125大语言模型，支持多工具调用、智能体思考、流式工具调用，131072上下文窗口，对话模式，支持联网搜索，已废弃
  is_deprecated: true
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -217,6 +257,8 @@ models:
  description: qwen-plus-0723大语言模型，支持多工具调用、智能体思考、流式工具调用，32000上下文窗口，对话模式，支持联网搜索，已废弃
  is_deprecated: true
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -229,6 +271,8 @@ models:
  description: qwen-plus-0806大语言模型，支持多工具调用、智能体思考、流式工具调用，131072上下文窗口，对话模式，支持联网搜索，已废弃
  is_deprecated: true
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -241,6 +285,8 @@ models:
  description: qwen-plus-0919大语言模型，支持多工具调用、智能体思考、流式工具调用，131072上下文窗口，对话模式，支持联网搜索，已废弃
  is_deprecated: true
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -253,6 +299,8 @@ models:
  description: qwen-plus-1125大语言模型，支持多工具调用、智能体思考、流式工具调用，131072上下文窗口，对话模式，支持联网搜索，已废弃
  is_deprecated: true
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -265,6 +313,8 @@ models:
  description: qwen-plus-1127大语言模型，支持多工具调用、智能体思考、流式工具调用，131072上下文窗口，对话模式，支持联网搜索，已废弃
  is_deprecated: true
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -277,6 +327,8 @@ models:
  description: qwen-plus-1220大语言模型，支持多工具调用、智能体思考、流式工具调用，131072上下文窗口，对话模式，已废弃
  is_deprecated: true
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -289,6 +341,10 @@ models:
  description: qwen-vl-max多模态大模型，支持视觉理解、智能体思考、视频理解，131072上下文窗口，对话模式，未废弃
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+    - video
+  is_omni: false
  tags:
  - 大语言模型
  - 多模态模型
@@ -302,6 +358,10 @@ models:
  description: qwen-vl-plus-0809多模态大模型，支持视觉理解、智能体思考、视频理解，32768上下文窗口，对话模式，已废弃
  is_deprecated: true
  is_official: true
+  capability:
+    - vision
+    - video
+  is_omni: false
  tags:
  - 大语言模型
  - 多模态模型
@@ -315,6 +375,10 @@ models:
  description: qwen-vl-plus-2025-01-02多模态大模型，支持视觉理解、智能体思考、视频理解，32768上下文窗口，对话模式，未废弃
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+    - video
+  is_omni: false
  tags:
  - 大语言模型
  - 多模态模型
@@ -328,6 +392,10 @@ models:
  description: qwen-vl-plus-2025-01-25多模态大模型，支持视觉理解、智能体思考、视频理解，131072上下文窗口，对话模式，未废弃
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+    - video
+  is_omni: false
  tags:
  - 大语言模型
  - 多模态模型
@@ -341,6 +409,10 @@ models:
  description: qwen-vl-plus-latest多模态大模型，支持视觉理解、智能体思考、视频理解，131072上下文窗口，对话模式，未废弃
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+    - video
+  is_omni: false
  tags:
  - 大语言模型
  - 多模态模型
@@ -354,6 +426,10 @@ models:
  description: qwen-vl-plus多模态大模型，支持视觉理解、智能体思考、视频理解，131072上下文窗口，对话模式，未废弃
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+    - video
+  is_omni: false
  tags:
  - 大语言模型
  - 多模态模型
@@ -367,6 +443,8 @@ models:
  description: qwen2.5-0.5b-instruct大语言模型，支持多工具调用、智能体思考、流式工具调用，32768上下文窗口，对话模式，未废弃
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -379,6 +457,8 @@ models:
  description: qwen3-14b大语言模型，支持多工具调用、智能体思考、流式工具调用，131072上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -391,6 +471,8 @@ models:
  description: qwen3-235b-a22b-instruct-2507大语言模型，支持多工具调用、智能体思考、流式工具调用，131072上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -403,6 +485,8 @@ models:
  description: qwen3-235b-a22b-thinking-2507大语言模型，支持多工具调用、智能体思考、流式工具调用，131072上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -415,6 +499,8 @@ models:
  description: qwen3-235b-a22b大语言模型，支持多工具调用、智能体思考、流式工具调用，131072上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -427,6 +513,8 @@ models:
  description: qwen3-30b-a3b-instruct-2507大语言模型，支持多工具调用、智能体思考、流式工具调用，131072上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -439,6 +527,8 @@ models:
  description: qwen3-30b-a3b大语言模型，支持多工具调用、智能体思考、流式工具调用，131072上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -451,6 +541,8 @@ models:
  description: qwen3-32b大语言模型，支持多工具调用、智能体思考、流式工具调用，131072上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -463,6 +555,8 @@ models:
  description: qwen3-4b大语言模型，支持多工具调用、智能体思考、流式工具调用，131072上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -475,6 +569,8 @@ models:
  description: qwen3-8b大语言模型，支持多工具调用、智能体思考、流式工具调用，131072上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -487,6 +583,8 @@ models:
  description: qwen3-coder-30b-a3b-instruct大语言模型，支持智能体思考，262144上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - 代码模型
@@ -498,6 +596,8 @@ models:
  description: qwen3-coder-480b-a35b-instruct大语言模型，支持智能体思考，262144上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - 代码模型
@@ -509,6 +609,8 @@ models:
  description: qwen3-coder-plus-2025-09-23大语言模型，支持智能体思考，1000000上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - 代码模型
@@ -520,6 +622,8 @@ models:
  description: qwen3-coder-plus大语言模型，支持智能体思考，1000000上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - 代码模型
@@ -531,6 +635,8 @@ models:
  description: qwen3-max-2025-09-23大语言模型，支持多工具调用、智能体思考、流式工具调用，262144上下文窗口，对话模式，支持联网搜索
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -544,6 +650,8 @@ models:
  description: qwen3-max-2026-01-23大语言模型，支持多工具调用、智能体思考、流式工具调用，262144上下文窗口，对话模式，支持联网搜索
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -557,6 +665,8 @@ models:
  description: qwen3-max-preview大语言模型，支持多工具调用、智能体思考、流式工具调用，262144上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -569,6 +679,8 @@ models:
  description: qwen3-max大语言模型，支持多工具调用、智能体思考、流式工具调用，262144上下文窗口，对话模式，支持联网搜索
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -582,6 +694,8 @@ models:
  description: qwen3-next-80b-a3b-instruct大语言模型，支持多工具调用、智能体思考、流式工具调用，131072上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -594,6 +708,8 @@ models:
  description: qwen3-next-80b-a3b-thinking大语言模型，支持多工具调用、智能体思考、流式工具调用，131072上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -606,6 +722,11 @@ models:
  description: qwen3-omni-flash-2025-12-01多模态大语言模型，支持视觉、智能体思考、视频、音频能力，65536上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+    - video
+    - audio
+  is_omni: true
  tags:
  - 大语言模型
  - 多模态模型
@@ -620,6 +741,10 @@ models:
  description: qwen3-vl-235b-a22b-instruct多模态大语言模型，支持多工具调用、智能体思考、流式工具调用、视觉、视频能力，131072上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+    - video
+  is_omni: false
  tags:
  - 大语言模型
  - 多模态模型
@@ -635,6 +760,10 @@ models:
  description: qwen3-vl-235b-a22b-thinking多模态大语言模型，支持多工具调用、智能体思考、流式工具调用、视觉、视频能力，131072上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+    - video
+  is_omni: false
  tags:
  - 大语言模型
  - 多模态模型
@@ -650,6 +779,10 @@ models:
  description: qwen3-vl-30b-a3b-instruct多模态大语言模型，支持多工具调用、智能体思考、流式工具调用、视觉、视频能力，131072上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+    - video
+  is_omni: false
  tags:
  - 大语言模型
  - 多模态模型
@@ -665,6 +798,10 @@ models:
  description: qwen3-vl-30b-a3b-thinking多模态大语言模型，支持多工具调用、智能体思考、流式工具调用、视觉、视频能力，131072上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+    - video
+  is_omni: false
  tags:
  - 大语言模型
  - 多模态模型
@@ -680,6 +817,10 @@ models:
  description: qwen3-vl-flash多模态大语言模型，支持多工具调用、智能体思考、流式工具调用、视觉、视频能力，131072上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+    - video
+  is_omni: false
  tags:
  - 大语言模型
  - 多模态模型
@@ -695,6 +836,10 @@ models:
  description: qwen3-vl-plus-2025-09-23多模态大语言模型，支持视觉、智能体思考、视频能力，262144上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+    - video
+  is_omni: false
  tags:
  - 大语言模型
  - 多模态模型
@@ -708,6 +853,10 @@ models:
  description: qwen3-vl-plus多模态大语言模型，支持视觉、智能体思考、视频能力，262144上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+    - video
+  is_omni: false
  tags:
  - 大语言模型
  - 多模态模型
@@ -721,6 +870,8 @@ models:
  description: qwq-32b大语言模型，支持智能体思考、流式工具调用，131072上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -732,6 +883,8 @@ models:
  description: qwq-plus-0305大语言模型，支持智能体思考、流式工具调用，131072上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -743,6 +896,8 @@ models:
  description: qwq-plus大语言模型，支持智能体思考、流式工具调用，131072上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -754,6 +909,8 @@ models:
  description: gte-rerank-v2重排序模型，4000上下文窗口
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 重排序模型
  logo: dashscope
@@ -763,6 +920,8 @@ models:
  description: gte-rerank重排序模型，4000上下文窗口
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 重排序模型
  logo: dashscope
@@ -772,6 +931,9 @@ models:
  description: multimodal-embedding-v1多模态嵌入模型，支持视觉能力，8192上下文窗口，最大分块数10
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+  is_omni: false
  tags:
  - 嵌入模型
  - 多模态模型
@@ -783,6 +945,8 @@ models:
  description: text-embedding-v1文本嵌入模型，2048上下文窗口，最大分块数25
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 嵌入模型
  - 文本嵌入
@@ -793,6 +957,8 @@ models:
  description: text-embedding-v2文本嵌入模型，2048上下文窗口，最大分块数25
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 嵌入模型
  - 文本嵌入
@@ -803,6 +969,8 @@ models:
  description: text-embedding-v3文本嵌入模型，8192上下文窗口，最大分块数10
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 嵌入模型
  - 文本嵌入
@@ -813,7 +981,9 @@ models:
  description: text-embedding-v4文本嵌入模型，8192上下文窗口，最大分块数10
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 嵌入模型
  - 文本嵌入
-  logo: dashscope
+  logo: dashscope
--- a/api/app/core/models/scripts/loader.py
+++ b/api/app/core/models/scripts/loader.py
@@ -6,7 +6,7 @@ from typing import Callable
 import yaml
 from sqlalchemy.orm import Session

-from app.models.models_model import ModelBase, ModelProvider
+from app.models.models_model import ModelBase, ModelProvider, ModelConfig


 def _load_yaml_config(provider: ModelProvider) -> list[dict]:
@@ -55,6 +55,15 @@ def load_models(db: Session, providers: list[str] = None, silent: bool = False)
            print(f"\n正在加载 {provider.value} 的 {len(models)} 个模型...")

        for model_data in models:
+            config_sync_fields = {
+                "logo": None,
+                "capability": None,
+                "is_omni": None,
+                "name": None,
+                "provider": None,
+                "type": None,
+                "description": None
+            }
            try:
                # 检查模型是否已存在
                existing = db.query(ModelBase).filter(
@@ -66,6 +75,40 @@ def load_models(db: Session, providers: list[str] = None, silent: bool = False)
                    # 更新现有模型配置
                    for key, value in model_data.items():
                        setattr(existing, key, value)
+                    
+                    # 更新绑定了该 model_id 的 ModelConfig 和 ModelApiKey
+                    sync_fields = [k for k in config_sync_fields.keys() if k in model_data]
+                    if sync_fields:
+                        # 批量更新 ModelConfig
+                        update_kwargs = {k: model_data[k] for k in sync_fields}
+                        db.query(ModelConfig).filter(ModelConfig.model_id == existing.id).update(
+                            update_kwargs,
+                            synchronize_session=False
+                        )
+                        
+                        # 更新 ModelApiKey 的 capability 和 is_omni
+                        if 'capability' in model_data or 'is_omni' in model_data:
+                            from app.models.models_model import ModelApiKey, model_config_api_key_association
+                            api_key_update = {}
+                            if 'capability' in model_data:
+                                api_key_update['capability'] = model_data['capability']
+                            if 'is_omni' in model_data:
+                                api_key_update['is_omni'] = model_data['is_omni']
+                            
+                            if api_key_update:
+                                # 查找所有关联的 API Key
+                                api_key_ids = db.query(model_config_api_key_association.c.api_key_id).join(
+                                    ModelConfig,
+                                    ModelConfig.id == model_config_api_key_association.c.model_config_id
+                                ).filter(ModelConfig.model_id == existing.id).distinct().all()
+                                
+                                if api_key_ids:
+                                    api_key_ids = [aid[0] for aid in api_key_ids]
+                                    db.query(ModelApiKey).filter(ModelApiKey.id.in_(api_key_ids)).update(
+                                        api_key_update,
+                                        synchronize_session=False
+                                    )
+                    
                    db.commit()
                    if not silent:
                        print(f"更新成功: {model_data['name']}")
--- a/api/app/core/models/scripts/openai_models.yaml
+++ b/api/app/core/models/scripts/openai_models.yaml
@@ -6,12 +6,19 @@ models:
  description: chatgpt-4o-latest大语言模型，支持多工具调用、智能体思考、流式工具调用、视觉能力，128000上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+    - audio
+    - video
+  is_omni: true
  tags:
  - 大语言模型
  - multi-tool-call
  - agent-thought
  - stream-tool-call
  - vision
+  - audio
+  - video
  logo: openai
 - name: gpt-3.5-turbo-0125
  type: llm
@@ -19,6 +26,8 @@ models:
  description: gpt-3.5-turbo-0125大语言模型，支持多工具调用、智能体思考、流式工具调用，16385上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -31,6 +40,8 @@ models:
  description: gpt-3.5-turbo-1106大语言模型，支持多工具调用、智能体思考、流式工具调用，16385上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -43,6 +54,8 @@ models:
  description: gpt-3.5-turbo-16k大语言模型，支持多工具调用、智能体思考、流式工具调用，16385上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -55,6 +68,8 @@ models:
  description: gpt-3.5-turbo-instruct大语言模型，4096上下文窗口，文本补全模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  logo: openai
@@ -64,6 +79,8 @@ models:
  description: gpt-3.5-turbo大语言模型，支持多工具调用、智能体思考、流式工具调用，16385上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -76,6 +93,8 @@ models:
  description: gpt-4-0125-preview大语言模型，支持多工具调用、智能体思考、流式工具调用，128000上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -88,6 +107,8 @@ models:
  description: gpt-4-1106-preview大语言模型，支持多工具调用、智能体思考、流式工具调用，128000上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -100,6 +121,9 @@ models:
  description: gpt-4-turbo-2024-04-09大语言模型，支持多工具调用、智能体思考、流式工具调用、视觉能力，128000上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -113,6 +137,8 @@ models:
  description: gpt-4-turbo-preview大语言模型，支持多工具调用、智能体思考、流式工具调用，128000上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -125,6 +151,9 @@ models:
  description: gpt-4-turbo大语言模型，支持多工具调用、智能体思考、流式工具调用、视觉能力，128000上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -138,6 +167,8 @@ models:
  description: o1-preview大语言模型，支持智能体思考，128000上下文窗口，对话模式，已废弃
  is_deprecated: true
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -148,6 +179,9 @@ models:
  description: o1大语言模型，支持多工具调用、智能体思考、流式工具调用、视觉能力、结构化输出，200000上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+  is_omni: false
  tags:
  - 大语言模型
  - multi-tool-call
@@ -162,6 +196,9 @@ models:
  description: o3-2025-04-16大语言模型，支持智能体思考、工具调用、视觉能力、流式工具调用、结构化输出，200000上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -176,6 +213,8 @@ models:
  description: o3-mini-2025-01-31大语言模型，支持智能体思考、工具调用、流式工具调用、结构化输出，200000上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -189,6 +228,8 @@ models:
  description: o3-mini大语言模型，支持智能体思考、工具调用、流式工具调用、结构化输出，200000上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -202,6 +243,9 @@ models:
  description: o3-pro-2025-06-10大语言模型，支持智能体思考、工具调用、视觉能力、结构化输出，200000上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -215,6 +259,9 @@ models:
  description: o3-pro大语言模型，支持智能体思考、工具调用、视觉能力、结构化输出，200000上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -228,6 +275,9 @@ models:
  description: o3大语言模型，支持智能体思考、视觉能力、工具调用、流式工具调用、结构化输出，200000上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -242,6 +292,9 @@ models:
  description: o4-mini-2025-04-16大语言模型，支持智能体思考、工具调用、视觉能力、流式工具调用、结构化输出，200000上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -256,6 +309,9 @@ models:
  description: o4-mini大语言模型，支持智能体思考、工具调用、视觉能力、流式工具调用、结构化输出，200000上下文窗口，对话模式
  is_deprecated: false
  is_official: true
+  capability:
+    - vision
+  is_omni: false
  tags:
  - 大语言模型
  - agent-thought
@@ -270,6 +326,8 @@ models:
  description: text-embedding-3-large文本向量模型，8191上下文窗口，最大分块数32
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 文本向量模型
  logo: openai
@@ -279,6 +337,8 @@ models:
  description: text-embedding-3-small文本向量模型，8191上下文窗口，最大分块数32
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 文本向量模型
  logo: openai
@@ -288,6 +348,8 @@ models:
  description: text-embedding-ada-002文本向量模型，8097上下文窗口，最大分块数32
  is_deprecated: false
  is_official: true
+  capability: []
+  is_omni: false
  tags:
  - 文本向量模型
-  logo: openai
+  logo: openai