欢迎光临恒峰娱乐AG旗舰厅_恒峰娱乐注册登录!
服务热线:400-123-4567

成功案例

克劳德团队宣布:如何动员许多代理商进行深入

日期:2025-07-15 10:49 浏览:
如何使用多古程序进行深入搜索?今天,克劳德团队分享了最新的公共经验。在本文中,详细介绍了如何开发有效的多基因研究系统,该体系结构在其中开发和协调子代理以类似的方式探索复杂的查询,涵盖系统体系结构,及时的工程和评估方法。 Claude数据显示,在各个行业和领域中使用此功能的比例 - 专业占10%的软件开发系统,专业和技术内容开发,业务发展的发展以及所有账目中的收入开发技术的占8%,这有助于7%的学术研究和教育材料的材料和材料的开发,并审查和审查5%的账目。网民评论说:了解AI模型中的人类团队确实杀死了。让我们看一下有关如何使用它的教程。关键aRchitecture:协调员 - 工人的体系结构Claude团队使用协调员 - 工人的体系结构,专门设计用于管理许多代理商之间的工作与合作分配。下图显示了多老化体系结构的操作。此外,该系统在动态发现相关信息,适应新发现并分析结果以开发高质量答案时使用多步搜索而不是静态搜索。上图显示了团队多衰老研究系统的完整工作流程。该系统允许Theclaude认为,计划,查找和合成大型语料库网络的高度答案使用网络,工作区和集成工具。主体旋转查询,启动专业的儿童代理(每个儿童代理都有其自己的工具,信号和内存),并包括其结果。这种相似的,广泛的设计大大提高了LLM在研究活动中连续使用的表现。比较tO Claude在单个代理中,内部评估的成功率为90%。例如,具有Claude Opus 4为代理和Claude SONNET 4的多代理系统,而次级代理人在对团队研究研究的内部审查中,次级代理人的执行效果比单位代理人Claude Opus 4高90.2%。通过将工作分配给多个代理和上下文窗口,系统Claude大大扩展了理解和增加并行能力的能力。克劳德(Claude)的最新模型在提高令牌使用效率方面起着重要作用。升级Claude Sonnet 4所带来的性能的提高大于Claude Sonnet 3.7中的双重预算令牌。这导致令牌的成本比标准聊天高15倍。因此,多机构体系结构可以有效地扩展代币以处理超出单个代理限制的任务,但仅适用于高价值查询。及时的工程:启发式肛门OPIC将通过及时设计IteratePag(代理商的行为)进行优化。他们将启发式方法用于复杂性的复杂性,将清晰度,工具选择和MGA思维策略委托。该团队指导了清楚地展示其思维过程,扩大其轨迹思维的过程的代理商,使克劳德(Claude)可以拿出其他代币。主要代理商将使用这种思维机制来计划整体方法,评估任务工具,判断查询的复杂性,决定是否称呼儿童代理商以及如何分配每个孩子的代理人的特定作用。特定过程如下:了解心理剂的准确模型:团队使用控制台形成模拟,使用系统中的确切单词和工具,然后逐渐观察到代理的工作。它立即证明,有效的及时言语依赖于准确的心理模型来了解代理人的行为并揭示它们OST关键和有影响力的优化途径。分配任务:在系统中,铅代理在子任务中破坏了查询,描述了明确的目标,预期的输出格式,可用工具和信息源指南以及清晰的任务边界,将子任务传递给子任务。安排工作量表:为了使代理商准确确定各种任务所需的合理工作负载,团队具有指南 - 规模调整规则以指导他们。例如,简单的信息收集任务通常只需要1个儿童代理,并呼叫工具3至10次;虽然复杂的研究活动可能参与了10多个儿童代理商,并且需要明确的纸张和划分责任。 DDesign和工具选择:团队为代理提供明确的启发式启发式:例如,首先检查所有可用工具,匹配用户意图的工具,进行广泛的Web搜索以探索外部信息或优先考虑专业工具s一般工具。自我改进:团队创建了一个测试工具代理 - 当给定有缺陷的MCP工具时,它试图使用该工具,然后重写工具描述以防止故障。这将有助于代理人显着提高后续工作任务的准确率,从而减少完成任务的时间40%。搜索范围:团队通过激励代理商从简短而广泛的查询,检查可用资源并逐渐收缩关注范围来抵消这种趋势。并行工具调用:团队引入了两种伴随的方法:(1)主体不再按顺序生成子代理,而是同时创建3-5个子代理; (2)每个次老化调用3个以上的工具,用于获取信息并同时审查。这些优化将复杂查询的处理时间缩短了90%。最初需要时间的研究任务现在可以在几分钟内完成,并涵盖更广泛的信息,超过了Processi其他系统的NG功能。分析:灵活的方法和良好的结果对于可靠代理的开发至关重要。传统的评估方法通常遵循固定路径,并且多代理系统无法确定“正确史密斯”。团队可以使用以下方法来确定代理是否已实现了正确的结果,请确保其遵循合理的过程。小样本审查:该团队认为,最好先使用一些示例进行小型测试,而不是等到可以在开始之前进行大量审查。 30%至80%使用LLM作为判断力:这是任务中的所有要求吗?资源质量:低质量二手资源的基本信息更喜欢吗?工具效率:相关工具是否合理有效?该团队尝试了许多法官检查每个部分,但是实验发现,通过单个LLM呼叫,输出0.0-1.0分和通过/没有判断是最稳定,与Manu -Rev最一致的。IEW。在LLM自动检查机制的帮助下,研究人员可以很好地评估以测量方式的复杂输出,并显着提高了评估工作的速度和一致性。 MANU -MAN评估:人类评估通常可以确定难以通过自动标记看不到的异常行为,例如GU响应只有在面对异常的查询,系统的失败或更柔和的偏见以及对特定类型信息源的偏见时,模型才能做到。即使使用高度自动评估系统,Manu -Brial仍然是不可替代的关键链接,并且可以继续发现盲区并提高系统的整体可靠性。此外,应该指出的是,多基因系统具有共同的新兴行为 - 这些行为不是来自特定的编程逻辑,而是在许多代理的关系中自然发展。例如,主体的少量变化可以更改次级老师以不可预测的方式行为。因此,为了产生成功的多基因系统,关键是要了解其互动模式。这也意味着代理商的最佳技巧不仅是严格的说明,而且是决定劳动分工,解决问题方法和努力预算的合作框架。为了实现此合作概述,有必要仔细设计技巧和工具,建立可靠的启发式方法,实现观察并建立紧密的反馈循环。在食谱中打开团队的一些技巧和样本。问题和挑战:小变化激发了智能系统的“蝴蝶效应”的小变化将损害一系列链接,从而导致“蝴蝶效应”,并导致行为和后果的重大变化。情报将保持“状态”,错误将累积。该团队建立了一个系统,该系统是从代理商的位置上的Canwi,当一个错误和 - 板层模型智能发生了问题,以解决问题,并伴随着重试逻辑和常规检查点等安全措施。例如,当工具失败并允许其适应时,通知代理,效果非常好。调试需要新方法。该团队引入了完整的生产环境监测机制,以系统地找到导致无法修复的代理。除了传统的观察指标外,团队还监视代理商的决策路径和联系结构 - 这些过程的任何一个都不涉及监视通信的特定内容以确保用户隐私。高级,结构化的观察功能使团队可以识别基本的Onesg问题,参见异常行为并立即调整系统中的常见故障。更新需要仔细协调。当版本更新时,团队需要避免系统中断。团队使用彩虹部署政策来避免中断运行代理,逐渐将流量从旧版本启动到新版本,同时维护同时运行的相同版本。有瓶颈与实施结合。并发实施将创建代理之间的信息流瓶颈,即,主要代理不能统治孩子的代理商,儿童代理无法协调,从而导致搜索被迫中止。团队尝试异步执行:能够实施其他操作操作,戏剧可以同时工作并根据需要创建新的儿童代理。但是,异步实现方法还可以带来诸如结果协调,状态一致性和儿童代理之间误差传播之类的问题。该团队预计,异步实施带来的绩效提高将超过其处理中的复杂性。提出了进一步的建议,以对许多周期中改变状态的代理进行最终的国家审查。团队有FO和专注于最终状态分析而不是旋转旋转的问题更好。该方法认识到,代理可以找到相同目的的替代路径,同时仍确保已实现预期结果。对于无身体素质的复杂过程,请勿试图证明每个中间步骤,打破离散检查点的审查,观察应在这些检查点上发生的特定状态变化。对话的长期管理。生产代理商经常参加道路 - 一轮对话,需要仔细设计上下文管理技术。团队实现了代理总结完成的工作阶段的模式,并在执行新任务之前将基本信息存储在外部内存上。儿童经纪人将输出写入文件系统以减少“电话游戏”现象。与主体和儿童代理商的引导模式不同,输出可以由专业代理商创建,他们存储在Extern上Al Systems,然后将轻量级的Sangle传递给协调员,以提高忠诚度和绩效。这样可以防止丢失多阶段处理信息,并减少通过对话历史复制大型输出的令牌开销。此模式特别适用于结构化输出,例如代码,报告或数据可视化,在这种情况下,专业的次级老师技巧比通过通用协调器进行过滤更好的结果。当构建代理系统时,开发人员机器上运行的工作代码的基础需要大量的工程工作才能成为可靠的生产系统。一个步骤的失败会导致代理朝着完全不同的方向进行探索,从而产生不可预测的结果。该团队表现出许多因素,并说,可用于成熟的用户的原型系统和生产系统之间的间隙往往比预期的要大。当单个代理的功能接近上限时代理系统成为打破边界并实现“明智繁殖”的关键方法。 Reference Link [1] https://www.anthropic.com/engineering/built-multi-agent-search-stem [2] https://x.com/omarsar0/status/19339415588815887400The article comes from WeChat Public Account: Qubit (ID: Qbita), Author: Yrianan
首页
电话
短信
联系