MindScale：Agent时代的行业应用算法工具包

摘要

随着基础模型能力提升与智能体（Agent）应用范式的迭代创新，行业Agent走向快速发展期。然而，面对各行业纷繁复杂的需求，如何让行业Agent可以自动吸收专业知识、从业务交互中自我提升，并且科学、高效地完成训推与评测，是行业开发者遇到的普遍挑战。为了提升行业模型与智能体的应用效果，华为诺亚方舟实验室发布了行业智能开源算法包MindScale，希望通过系统性技术创新，为行业用户与开发者提供高价值算法解决方案。

技术全景

The Evolution of AI Agents

From Static LLM to Self-Evolving Ecosystem

01.

核心挑战

专业 & 效率

Agent应用的自动化构建

在当前开发模式下，行业应用构建依赖人工将专家经验与工作流转化为大模型"可读"的prompt与agent workflow，开发效率低且失效边界不明确，也无法根据用户反馈进行维护和升级，产生了大量的验证与运维成本，期待自动化的"skill creator"提升构建效率。

从大模型+RAG走向可沉淀、可演进的行业记忆

静态RAG库仅包含文档、语料等原始知识载体，应用上线后的Agent调用历史推理路径与反馈等高价值"记忆"反而无法被模型直接使用与吸收，影响专业任务的推理精度与效率。

任务自适应的高效训推

随着大模型应用全面铺开并与业务流深度融合，多任务、高并发、高频交互、快速迭代的AI需求带来了算力与时延成本高企，尤其在引入慢思考与Agentic多步推理后，训推thinking budget压力进一步显现，限制了应用范围的扩展。

Agent系统的科学测评

Agent输出的复杂化带来了测评专业性与复杂度的指数级上升，传统依赖大量用户、工程师标注带真值评测数据或者直接引入通用LLM作为评测模型的方式难以为继，亟需科学鲁棒的评测框架及算法助力企业客户自主构建专业化测评的体系。

02.

MindScale ROADMAP

创新 & 价值

Prompt自动优化

在线Prompt自动优化

通过在模型推理时，基于输出情况，动态调整下个步骤的既定Prompt，使得模型效果获得在线提升。

📄 Paper ⭐ GitHub

算法竞争力：SCOPE 将大模型context管理转化为在线优化问题，通过自动解析Agent轨迹数据、动态平衡长短期记忆，实现基于大小模型配合的动态Prompt管理，在基准测试中可以取得20 PCT以上的提升。

基于正误反馈的Prompt自动优化

基于反馈的自动prompt优化是针对大模型（LLM）的Prompt工程自动化任务，核心是通过大模型吸收历史的反馈，优化Prompt的表述、结构、指令等要素，在无需人工反复调试的前提下，提升LLM在特定任务/场景下的输出效果（准确性、贴合度、完整性等）。

📄 Paper ⭐ GitHub

算法竞争力：一种基于聚类的动量优化提示词方法，在固定模型权重的情况下，通过提升提示词更新信号质量，有效优化不同行业的提示词，提升准确率。

工具编排与自演进

SOP2Workflow

在行业场景中，标准操作流程（Standard Operating Procedure，简称 SOP）通常以文档形式存在，用于规范任务执行。随着多智能体架构的兴起，越来越多的需求将传统 SOP 转化成可执行的工作流来替代或辅助执行人员。然而，这一转换工作需要专业能力、软件开发能力以及较为耗时的工作流调优过程。因此，我们基于 EvoFabric 框架，提出了 SOP2Workflow 功能，它旨在将静态的SOP文档转换为一个可执行的工作流 (GraphEngine)，以降低行业workflow开发成本。

📄 Docs ⭐ GitHub

算法竞争力：将静态的SOP文档转换为一个可执行的工作流 (GraphEngine)，以降低行业workflow开发成本。

Agent自演进

Agent 自演进是指 Agent 具备在交互过程中自我迭代和优化的能力。Agent在任务环境中不断探索能力失效边界，通过反思（Reflection）、经验学习、难例合成及模型增训来改进后续表现。核心机制通常包括：自我评价执行结果、更新内部工具库（Skill Discovery）、优化 Prompt 策略、Agent拓扑结构调整、难例QA合成以及模型增训。例如，当 Agent 发现某段代码报错时，它会自动总结教训并更新其「长期记忆」，确保下次不再犯错。这种技术让 Agent 脱离了静态配置，实现了从「初学者」到「专家」的闭环成长。

📄 Paper ⭐ GitHub

算法竞争力：提出基于Multi-Path多思路探索及迭代验证机制的科学推理Agent，在HLE榜单实现当期TOP1得分。

记忆系统

Agent 记忆系统借鉴人脑认知模型，构建「情景-语义-程序-工作」四层记忆池：短期记忆用扩展上下文窗口缓存多轮对话，长期记忆则采用向量数据库+知识图谱+传统关系库混合存储，实现高性能快速检索。

📄 Docs ⭐ GitHub

算法竞争力：提出一种结合记忆的动态上下文Agent系统，其核心特征在于智能体不同任务、同任务执行的不同步骤中，基于历史对应阶段轨迹对上下文逐步通过上下文迭代编辑器迭代更新，实现当前任务的预期成功率优化。

Agentic RAG

将大语言模型（LLM）的自主推理能力深度注入检索全流程的架构。它不再视 RAG 为一个预设的线性管道，而是一个自适应的任务环境。在这种架构下，Agent 能够根据查询的复杂程度，自主规划检索路径、评价结果质量，并在失败中迭代策略，提升检索成功率。

📄 Coming Soon ⭐ Coming Soon

算法竞争力：通过多轮智能体迭代机制实现测试时计算扩展，将候选答案间的语义冲突转化为主动检索信号，并优化历史推理轨迹以缓解长上下文退化，在7个医学问答基准上平均提升6.8个百分点，显著优于传统推理时扩展和RAG基线方法。

通用算法发现框架

传统的算法设计一般通过领域专家将实际问题抽象为数学表述，再由算法专家针对问题特点定制化算法进行建模求解。这个过程中需要专业人员密集持续投入，定制化强，成本高昂，且算法设计的优劣强依赖于专业人员的个人素质，可复制性差。而利用大模型强大的自然语言理解能力和逻辑推理能力，我们可以实现算法设计的通用化和自动化。通过精巧设计的算法发现Agent，输入领域或者行业难题，由该Agent自动设计并迭代演化算法，包括参数搜索、组件设计、算法生成和算法组合等，并在评测数据上进行实验与验证，不再需要工程师手动设计和编写算法逻辑。

📄 Paper 1 📄 Paper 2 ⭐ GitHub

算法竞争力：算法设计新范式，从人设计算法 -> 基于大模型的自动算法设计，利用算力、解放人力。

III

模型高效训推

大模型思维链压缩

长链式思考能提准却拖慢推理，根因常是大模型在「过度思考/思考不足」间反复冗述。动态思维链压缩通过在线检测并截断无用中间思路并配套工业级异步在线系统，适配高并发生产场景。

📄 Paper ⭐ Coming Soon

算法竞争力：把推理大模型「想多了」的链式思考当场剪短，用轻量验证器动态截断冗余CoT，零训练即上生产，批量推理最高提速约70%且几乎不掉点。

KVCache轻量表征

KV Cache 不只是加速器，更是一块尚未被充分利用的「思考缓存」，通过 KV-Embeddings，可以把 KV Cache 视作一种「免费附赠」的轻量表示，无需额外计算或存储完整隐状态，在快慢思考等场景可实现多款主流模型性能持平或反超且Token数大量降低。

📄 Paper ⭐ GitHub

算法竞争力：把原本「用完就丢」的 KV Cache 变成能思考、能复用的轻量表示，让大模型用更少 token 干更多活。

智能评测

智能体能力高效评测技术

现有智能体能力评测集与 Benchmark 繁多且日益增加，不加筛选地使用所有评测集进行评测会产生耗时长、成本高的问题，导致评测效率低。智能体能力高效评测技术旨在通过评测集冗余分析、评测集过滤等方法，在保持评测正确有效的前提下缩小评测集规模，从而提升智能体能力评测效率。

基于裁判的智能体能力鲁棒测评

裁判大模型（LLM-as-judge）是一种利用LLM来自动评估其他LLM输出质量的方法。在这种范式中，LLM被用作「裁判」，对模型生成的文本进行打分、排序或提供定性反馈。传统上，评估语言模型的输出依赖于人工反馈或自动指标（如BLEU、ROUGE、METEOR等）。「LLM as Judge」试图利用强大的LLM通过与人类专家保持一致的方式，对生成结果在多个维度（如事实性、安全性等）进行评估。

基于轨迹的智能体能力精细测评

基于轨迹的智能体分析技术通过利用智能体中间的决策过程（如工具调用和推理内容）来提供更细粒度的能力评估，并诊断特定的失败情况，从而改进和提升智能体的能力。