AI Horizons Collective

2025-01-10发表2025-01-14更新3 分钟读完 (大约388个字)

AI相关

Github

GenAI_Agents 此仓库提供了从基础到高级的各种生成式AI代理技术的教程和实现。它作为构建智能、交互式AI系统的全面指南。
graphrag 一个基于模块化图结构的检索增强生成（RAG）系统
LightRAG 简单且快速的检索增强生成
KAG KAG 是一个基于 OpenSPG 引擎和大语言模型（LLMs）的逻辑形式引导推理与检索框架。它用于为专业领域知识库构建逻辑推理和事实问答解决方案，能够有效克服传统 RAG 向量相似度计算模型的不足。
llamacoder 开源Claude项目——基于Llama 3.1 405B构建
markitdown 用于将文件和办公文档转换为Markdown的Python工具。
pydanticData validation using Python type hints
eliza人人都能使用的自主代理

Agent

Agent 协议：大语言模型代理的互操作性一个用于代理间通信的标准接口。代理协议是我们尝试将那些在生产环境中服务大语言模型（LLM）代理所需的、与框架无关的API进行规范化的成果
一次搞懂RAG评估，三个角度LangChain，LlamaIndex，RAGAS看RAG评估

2025-01-07发表2025-01-14更新AI Agent34 分钟读完 (大约5058个字)

构建有效的代理

原文链接

在过去的一年里，我们与数十个团队合作，跨行业构建大型语言模型（LLM）代理。一致地，最成功的实现并没有使用复杂的框架或专门的库。相反，他们使用的是简单、可组合的模式。

在这篇文章中，我们分享了从与客户合作和自行构建代理中学到的经验，并为开发人员提供了构建有效代理的实用建议。

什么是代理？

“代理”可以通过几种方式定义。一些客户将代理定义为完全自主的系统，能够在较长时间内独立运行，使用各种工具完成复杂任务。其他人则用这个术语来描述遵循预定义工作流的更具规范性的实现。在Anthropic，我们将所有这些变体归类为代理系统，但在工作流和代理之间做了一个重要的架构区分：

工作流是通过预定义代码路径编排LLM和工具的系统。
代理则是LLM动态指导其自身过程和工具使用的系统，保持对任务完成方式的控制。

下面，我们将详细探讨这两种类型的代理系统。在附录1（“实践中的代理”）中，我们描述了客户在使用这些系统时发现特别有价值的两个领域。

何时（以及何时不）使用代理

在使用LLM构建应用程序时，我们建议尽可能找到最简单的解决方案，只有在需要时才增加复杂性。这可能意味着根本不构建代理系统。代理系统通常以延迟和成本为代价换取更好的任务性能，您应该考虑何时这种权衡是合理的。

当需要更多复杂性时，工作流为定义明确的任务提供了可预测性和一致性，而代理则是在需要灵活性和模型驱动的决策时更好的选择。然而，对于许多应用程序来说，通过检索和上下文示例优化单个LLM调用通常就足够了。

何时以及如何使用框架

有许多框架可以使代理系统更容易实现，包括：

LangChain的LangGraph；
Amazon Bedrock的AI代理框架；
Rivet，一个拖放式GUI LLM工作流构建器；以及
Vellum，另一个用于构建和测试复杂工作流的GUI工具。

这些框架通过简化标准的低级任务（如调用LLM、定义和解析工具以及将调用链接在一起）使入门变得容易。然而，它们通常会创建额外的抽象层，可能会掩盖底层的提示和响应，使其更难调试。它们还可能诱使您在更简单的设置就足够时增加复杂性。

我们建议开发人员首先直接使用LLM API：许多模式可以用几行代码实现。如果您确实使用框架，请确保您理解底层代码。对底层内容的错误假设是客户错误的常见来源。

请参阅我们的食谱以获取一些示例实现。

构建块、工作流和代理

在本节中，我们将探讨在生产中看到的代理系统的常见模式。我们将从我们的基础构建块——增强的LLM——开始，逐步增加复杂性，从简单的组合工作流到自主代理。

构建块：增强的LLM

代理系统的基本构建块是一个通过检索、工具和内存等增强功能增强的LLM。我们当前的模型可以积极使用这些功能——生成自己的搜索查询、选择适当的工具并确定要保留的信息。

我们建议关注实现的两个关键方面：根据您的特定用例定制这些功能，并确保它们为您的LLM提供易于使用的、文档齐全的接口。虽然有许多方法可以实现这些增强功能，但一种方法是通过我们最近发布的模型上下文协议，该协议允许开发人员通过简单的客户端实现与不断增长的第三方工具生态系统集成。

在本文的其余部分，我们将假设每个LLM调用都可以访问这些增强功能。

工作流：提示链

提示链将任务分解为一系列步骤，其中每个LLM调用处理前一个调用的输出。您可以在任何中间步骤上添加程序化检查（见下图中的“门”），以确保过程仍在正轨上。
提示链式工作流程
何时使用此工作流：此工作流非常适合任务可以轻松且清晰地分解为固定子任务的情况。主要目标是通过使每个LLM调用成为更简单的任务来以延迟换取更高的准确性。

提示链有用的示例：

生成营销文案，然后将其翻译成不同的语言。
编写文档大纲，检查大纲是否符合某些标准，然后根据大纲编写文档。

工作流：路由

路由对输入进行分类并将其定向到专门的后续任务。此工作流允许关注点分离，并构建更专业的提示。如果没有此工作流，优化一种输入可能会损害其他输入的性能。
路由工作流程
何时使用此工作流：路由适用于复杂任务，其中存在更好单独处理的不同类别，并且分类可以通过LLM或更传统的分类模型/算法准确处理。

路由有用的示例：

将不同类型的客户服务查询（一般问题、退款请求、技术支持）定向到不同的下游流程、提示和工具。
将简单/常见的问题路由到较小的模型（如Claude 3.5 Haiku），将困难/不常见的问题路由到更强大的模型（如Claude 3.5 Sonnet）以优化成本和速度。

工作流：并行化

LLM有时可以同时处理任务，并通过程序化方式聚合其输出。此工作流，并行化，表现为两个关键变体：

分段：将任务分解为并行运行的独立子任务。
投票：多次运行同一任务以获得多样化的输出。

并行化工作流程

**何时使用此工作流：**当划分的子任务可以并行化以加快速度，或者当需要多个视角或尝试以获得更高置信度的结果时，并行化是有效的。对于具有多个考虑的复杂任务，LLM通常在每个考虑由单独的LLM调用处理时表现更好，从而允许对每个特定方面进行集中关注。

并行化有用的示例：

分段：
- 实施护栏，其中一个模型实例处理用户查询，而另一个模型实例筛选不适当的内容或请求。这往往比让同一个LLM调用同时处理护栏和核心响应效果更好。
- 自动化评估LLM性能的评估，其中每个LLM调用评估模型在给定提示下的不同方面的性能。
投票：
- 审查一段代码的漏洞，其中多个不同的提示审查并标记代码，如果发现问题。
- 评估给定内容是否不适当，多个提示评估不同方面或需要不同的投票阈值以平衡误报和漏报。

工作流：协调者-工作者

在协调者-工作者工作流中，一个中央LLM动态分解任务，将其委托给工作者LLM，并综合其结果。
编排器-工作者工作流
**何时使用此工作流：**此工作流非常适合复杂任务，其中您无法预测所需的子任务（例如，在编码中，需要更改的文件数量和每个文件中的更改性质可能取决于任务）。虽然它在拓扑上相似，但与并行化的关键区别在于其灵活性——子任务不是预定义的，而是由协调者根据特定输入确定的。

协调者-工作者有用的示例：

每次对多个文件进行复杂更改的编码产品。
涉及从多个来源收集和分析信息以获取可能相关信息的搜索任务。

工作流：评估者-优化器

在评估者-优化器工作流中，一个LLM调用生成响应，而另一个LLM在循环中提供评估和反馈。
评估-优化工作流程
何时使用此工作流： 当我们有明确的评估标准，并且迭代改进提供了可衡量的价值时，此工作流特别有效。适合的两个标志是，首先，当人类表达他们的反馈时，LLM响应可以明显改进；其次，LLM可以提供这样的反馈。这类似于人类作家在生成精美文档时可能经历的迭代写作过程。

评估者-优化器有用的示例：

文学翻译，其中翻译LLM可能最初没有捕捉到细微差别，但评估者LLM可以提供有用的批评。
需要多轮搜索和分析以收集全面信息的复杂搜索任务，评估者决定是否需要进行进一步的搜索。

代理

随着LLM在关键能力上的成熟——理解复杂输入、参与推理和规划、可靠地使用工具以及从错误中恢复——代理正在生产中崭露头角。代理开始工作时，要么是来自人类用户的命令，要么是与人类用户的交互讨论。一旦任务明确，代理就会独立计划和操作，可能会返回给人类以获取更多信息或判断。在执行过程中，代理在每一步从环境中获取“真实情况”（如工具调用结果或代码执行）以评估其进展至关重要。代理可以在检查点或遇到障碍时暂停以获取人类反馈。任务通常在完成时终止，但通常也包括停止条件（如最大迭代次数）以保持控制。

代理可以处理复杂的任务，但其实现通常很简单。它们通常只是LLM在循环中基于环境反馈使用工具。因此，清晰而周到地设计工具集及其文档至关重要。我们在附录2（“提示工程您的工具”）中扩展了工具开发的最佳实践。
自主代理
何时使用代理： 代理可用于开放式问题，其中难以或无法预测所需的步骤数，并且您无法硬编码固定路径。LLM可能会运行多次，您必须对其决策有一定程度的信任。代理的自主性使其成为在受信任环境中扩展任务的理想选择。

代理的自主性意味着更高的成本和错误的潜在累积。我们建议在沙盒环境中进行广泛测试，并设置适当的护栏。

代理有用的示例：

以下示例来自我们自己的实现：

一个编码代理，用于解决SWE-bench任务，这些任务涉及基于任务描述对多个文件进行编辑；
我们的“计算机使用”参考实现，其中Claude使用计算机完成任务。

组合和定制这些模式

这些构建块不是规范性的。它们是开发人员可以塑造和组合以适应不同用例的常见模式。与任何LLM功能一样，成功的关键在于衡量性能并迭代实现。重申：您应该仅在复杂性明显改善结果时才考虑增加复杂性。

总结

在LLM领域的成功并不在于构建最复杂的系统。而是为您的需求构建正确的系统。从简单的提示开始，通过全面评估优化它们，并仅在更简单的解决方案不足时添加多步骤代理系统。

在实现代理时，我们尝试遵循三个核心原则：

保持代理设计的简单性。
通过明确显示代理的规划步骤来优先考虑透明度。
通过彻底的文档和测试精心设计代理-计算机接口（ACI）。

框架可以帮助您快速入门，但在进入生产时不要犹豫减少抽象层并使用基本组件构建。通过遵循这些原则，您可以创建不仅强大而且可靠、可维护并受用户信任的代理。

致谢

由Erik Schluntz和Barry Zhang撰写。这项工作借鉴了我们在Anthropic构建代理的经验以及客户分享的宝贵见解，我们对此深表感谢。

附录1：实践中的代理

我们与客户的工作揭示了两个特别有前景的AI代理应用，展示了上述模式的实用价值。这两个应用都说明了代理在需要对话和行动、具有明确成功标准、启用反馈循环并整合有意义的人类监督的任务中增加最大价值。

A. 客户支持

客户支持结合了熟悉的聊天机器人界面和通过工具集成增强的功能。这是更开放式代理的自然选择，因为：

支持交互自然地遵循对话流程，同时需要访问外部信息和操作；
可以集成工具以提取客户数据、订单历史记录和知识库文章；
诸如发放退款或更新票据等操作可以通过程序化方式处理；以及
可以通过用户定义的解决方案明确衡量成功。

几家公司通过基于使用情况的定价模型展示了这种方法的可行性，该模型仅对成功的解决方案收费，显示了对其代理有效性的信心。

B. 编码代理

软件开发领域展示了LLM功能的显著潜力，能力从代码补全发展到自主问题解决。代理特别有效，因为：

代码解决方案可以通过自动化测试验证；
代理可以使用测试结果作为反馈迭代解决方案；
问题空间定义明确且结构化；以及
输出质量可以客观衡量。

在我们自己的实现中，代理现在可以根据拉取请求描述解决SWE-bench Verified基准测试中的真实GitHub问题。然而，虽然自动化测试有助于验证功能，但人类审查对于确保解决方案符合更广泛的系统要求仍然至关重要。

附录2：提示工程您的工具

无论您构建哪种代理系统，工具都可能是您代理的重要组成部分。工具使Claude能够通过在我们的API中指定其确切结构和定义与外部服务和API交互。当Claude响应时，如果它计划调用工具，它将在API响应中包含一个工具使用块。工具定义和规范应与您的整体提示一样受到提示工程的关注。在这个简短的附录中，我们描述了如何提示工程您的工具。

通常有几种方法可以指定相同的操作。例如，您可以通过编写差异或重写整个文件来指定文件编辑。对于结构化输出，您可以在markdown或JSON中返回代码。在软件工程中，这些差异是表面上的，可以无损地从一种转换为另一种。然而，某些格式比其他格式更难让LLM编写。编写差异需要知道在编写新代码之前块头中有多少行正在更改。在JSON中编写代码（与markdown相比）需要对换行符和引号进行额外的转义。

我们关于决定工具格式的建议如下：

给模型足够的令牌以“思考”，然后再写进死胡同。
保持格式接近模型在互联网上自然看到的文本。
确保没有格式“开销”，例如必须准确计算数千行代码，或对其编写的任何代码进行字符串转义。

一个经验法则是考虑在人机界面（HCI）上投入了多少精力，并计划在创建良好的代理-计算机界面（ACI）上投入同样多的精力。以下是一些关于如何做到这一点的想法：

站在模型的角度思考。根据描述和参数，使用此工具是否显而易见，还是您需要仔细思考？如果是这样，那么对模型来说可能也是如此。一个好的工具定义通常包括示例用法、边缘情况、输入格式要求以及与其他工具的明确界限。
如何更改参数名称或描述以使事情更明显？将此视为为团队中的初级开发人员编写出色的文档字符串。在使用许多类似工具时，这一点尤其重要。
测试模型如何使用您的工具：在我们的工作台中运行许多示例输入，看看模型犯了什么错误，并进行迭代。
防错您的工具。更改参数，使其更难犯错误。

在构建我们的SWE-bench代理时，我们实际上花了更多时间优化我们的工具而不是整体提示。例如，我们发现当代理移出根目录后，模型会使用相对文件路径的工具犯错误。为了解决这个问题，我们将工具更改为始终要求绝对文件路径——我们发现模型使用这种方法毫无问题。

2025-01-07发表2025-01-14更新AI编程13 分钟读完 (大约1988个字)

AI 编程工具的全方位对比与深度解析

引言

人工智能（AI）技术的快速发展正在深刻改变软件开发的模式。AI 编程工具作为这一变革的核心驱动力，正在帮助开发者更高效地完成代码编写、调试和优化。在众多 AI 编程工具中，Devin、Cursor、Windsurf 和 Cline 凭借其独特的功能和设计理念脱颖而出。本文将从功能特性、适用场景、技术实现等多个维度，对这四款工具进行详细对比与分析，帮助开发者更好地选择适合自己的工具。

1. 工具概述

1.1 Devin

Devin 是一款全自动化的 AI 编程助手，旨在模拟一名“有章法的实习生”。它不仅能够生成代码，还能规划任务流程、自我优化并集成多种工具，实现全自动化执行。Devin 的核心优势在于其强大的流程规划能力和多工具集成，适合需要高度自动化的复杂项目。

核心功能：
- 任务流程规划与优化
- 多工具集成（如网页浏览、搜索、LLM 文本分析）
- 全自动化执行
适用场景：大型软件工程、长期项目开发、需要高度自动化的任务。
价格：$500/月。

1.2 Cursor

Cursor 是一款基于 VS Code 的 AI 编程工具，专注于代码生成、自动补全和多文件编辑。其最新版本引入了 Agent 模式，允许开发者通过自然语言指令完成复杂任务。Cursor 以其高效的代码生成速度和团队协作支持，成为中小型项目的理想选择。

核心功能：
- 代码生成与自动补全
- 多文件编辑与代码重构
- Agent 模式（通过自然语言指令完成任务）
适用场景：中小型项目、快速原型开发、团队协作。
价格：$20/月。

1.3 Windsurf

Windsurf 是 Codeium 推出的一款 AI 集成开发环境（IDE），强调上下文感知和实时协作能力。其 Cascade 功能允许开发者通过自然语言指令与 IDE 操作同步，显著提升开发效率。Windsurf 以其经济实惠的价格和强大的上下文感知能力，吸引了大量个人开发者和创业团队。

核心功能：
- 上下文感知代码生成
- 实时协作支持
- Cascade 功能（自然语言指令与 IDE 操作同步）
适用场景：个人开发者、早期创业团队、预算有限的项目。
价格：$15/月。

1.4 Cline

Cline 是一款新兴的 AI 编程工具，专注于代码生成、调试和优化。它以其强大的上下文感知能力和高效的代码生成速度，迅速在开发者社区中获得了关注。Cline 的设计理念是“让开发者专注于创意，而不是代码”，通过智能化的代码生成和调试功能，显著提升开发效率。

核心功能：
- 智能代码生成与自动补全
- 上下文感知调试与优化
- 实时协作支持
适用场景：中小型项目、快速原型开发、团队协作。
价格：$25/月。

2. 功能对比

2.1 流程规划与自我优化

Devin：具备完整的流程规划能力，能够根据任务需求制定计划并持续优化。其自我优化功能使其在执行任务时不断改进策略。
Cursor：通过 .cursorrules 文件实现类似功能，但需要手动配置提示词，自动化程度较低。
Windsurf：支持间接的流程规划，但需要借助 scratchpad.md 文件实现，灵活性稍逊于 Devin。
Cline：具备基本的流程规划能力，能够根据任务需求生成代码并优化执行路径。其自我优化功能使其在执行任务时不断改进策略，但自动化程度略低于 Devin。

2.2 工具扩展与集成

Devin：支持多种工具集成，包括网页浏览、搜索和 LLM 驱动的文本分析，能够处理复杂的多任务场景。
Cursor：通过 .cursorrules 文件扩展工具使用，但功能相对有限，主要集中在代码生成和编辑领域。
Windsurf：支持多模型 AI 集成，但工具扩展能力略逊于 Devin，更适合专注于代码开发的场景。
Cline：支持多种工具集成，包括代码生成、调试和优化工具，能够处理复杂的多任务场景。其工具扩展能力较强，但略逊于 Devin。

2.3 自动化执行与安全性

Devin：在虚拟化环境中运行，支持全自动化执行，安全性高，适合处理敏感数据或复杂任务。
Cursor：需要手动确认每个命令，自动化能力有限，但适合需要人工干预的场景。
Windsurf：支持 Docker 容器中的全自动化执行，安全性较高，适合需要快速迭代的项目。
Cline：在虚拟化环境中运行，支持全自动化执行，安全性高，适合处理敏感数据或复杂任务。其自动化能力与 Devin 相当，但价格更为实惠。

3. 使用场景分析

3.1 Devin

适用场景：复杂软件工程、长期项目开发、需要高度自动化的任务。
优势：全自动化执行、强大的流程规划能力、多工具集成。
局限性：价格较高，适合预算充足的企业或团队。

3.2 Cursor

适用场景：中小型项目、快速原型开发、团队协作。
优势：代码生成速度快、团队协作支持、价格实惠。
局限性：自动化能力有限，适合需要人工干预的项目。

3.3 Windsurf

适用场景：个人开发者、早期创业团队、预算有限的项目。
优势：上下文感知能力强、经济实惠、支持多模型 AI 集成。
局限性：工具扩展能力较弱，适合专注于代码开发的场景。

3.4 Cline

适用场景：中小型项目、快速原型开发、团队协作。
优势：智能代码生成、上下文感知调试、实时协作支持。
局限性：自动化能力略低于 Devin，适合需要人工干预的项目。

4. 技术实现与创新

4.1 Devin

技术亮点：
- 基于虚拟化环境的全自动化执行
- LLM 驱动的文本分析与任务规划
- 多工具集成与自我优化
创新点：通过闭环设计实现任务流程的自动化与优化。

4.2 Cursor

技术亮点：
- Agent 模式支持自然语言指令
- .cursorrules 文件实现自定义提示词功能
创新点：通过提示词实现流程规划和代码生成。

4.3 Windsurf

技术亮点：
- Cascade 功能实现自然语言指令与 IDE 操作同步
- Docker 容器中的自动化执行
创新点：上下文感知能力的深度优化与多模型 AI 集成。

4.4 Cline

技术亮点：
- 基于虚拟化环境的全自动化执行
- 上下文感知调试与优化
- 实时协作支持
创新点：通过智能化的代码生成和调试功能，显著提升开发效率。