手机app定制开发价格 登顶开源AI软件工程师榜首,UIUC无Agent决策冒失贬责SWE-bench确凿编程问题
AIxiv专栏是机器之心发布学术、技能内容的栏目。当年数年,机器之心AIxiv专栏收受报说念了2000多篇内容,阴私大家各大高校与企业的顶级实验室,灵验促进了学术疏导与传播。要是您有优秀的职责想要共享,宽宥投稿或者议论报说念。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
这篇论文的作家均来自伊利诺伊大学香槟分校(UIUC)张令明诚实团队,包括:Steven Xia,四年纪博士生,盘问标的是基于 AI 大模子的自动代码建设;邓茵琳,四年纪博士生,盘问标的是基于 AI 大模子的代码生成;Soren Dunn,科研实习生,现在为 UIUC 大三学生。张令明诚实现任 UIUC 筹谋机系副栽植,主要从事软件工程、机器学习、代码大模子的相关盘问。
自从 Devin(首个全自动 AI 软件工程师)提倡以来,针对软件工程的 AI Agent 的联想成为盘问的焦点,越来越多基于 Agent 的 AI 自动软件工程师被提倡,并在 SWE-bench 数据集上赢得了不俗的进展、自动建设了很多确凿的 GitHub issue。
关联词,复杂的 Agent 系统会带来非凡的支出和不笃定性,咱们果真需要使用如斯复杂的 Agent 来贬责 GitHub issue 吗?不依赖 Agent 的贬责决策能接近它们的性能吗?
小程序开发从这两个问题启程,伊利诺伊大学香槟分校(UIUC)张令明诚实团队提倡了 OpenAutoCoder-Agentless,一个浅薄高效况且澈底开源的无 Agent 决策,仅需 $0.34 就能贬责一个确凿的 GitHub issue。Agentless 在短短几天内在 GitHub 上也曾招引了高出 300 GitHub Star,并登上了 DAIR.AI 每周最热 ML 论文榜单前三。
苏明快乐8第2024181期9次012路分析
论文:AGENTLESS : Demystifying LLM-based Software Engineering Agents
论文地址:https://huggingface.co/papers/2407.01489
开源代码:https://github.com/OpenAutoCoder/Agentless
AWS 盘问科学家 Leo Boytsov 暗示:“Agentless 框架进展优异,高出总共开源 Agent 贬责决策,险些达到 SWE Bench Lite 最高水平(27%)。而且,它以显赫更低的资本打败了总共开源决策。该框架继承分层查询范例(通过向 LLM 提问来查找文献、类、函数等)以笃定补丁位置。诚然愚弄 LLM,但不允许 LLM 作念出筹谋决策。”
Agentless 是一种自动贬责软件开提问题的范例,它使用浅薄的两阶段范例进行定位和建设,以建设代码库中的 bug。在定位阶段,Agentless 以分层口头来逐步邋遢到可疑的文献、类 / 函数和具体的剪辑位置。关于建设,它使用浅薄的 diff 形势(参考自开源器具 Aider)来生成多个候选补丁,并对其进行过滤和排序。
盘问者将 Agentless 与现存的 AI Software Agent 进行了比较,其中包括起始进的开源和贸易 / 闭源神志。令东说念主诧异的是,手机app开发大概多少钱Agentless 可以以更低的资本高出总共现存的开源 Software Agent!Agentless 贬责了 27.33% 的问题,是开源决策中最高的,况且贬责每个问题平均仅需 $0.29,在总共问题上(包括能贬责和未贬责的)平均只需要约 $0.34。
不仅如斯,Agentless 还有立异的后劲。在琢磨总共生成的补丁时,Agentless 可以贬责 41% 的问题,这个上限标明补丁排序和选拔阶段有显赫的立异空间。此外,Agentless 粗略贬责一些即使是最佳的贸易器具(Alibaba Lingma Agent)也无法贬责的特有问题,这标明它可以手脚现存器具的补充。
对 SWE-bench Lite 数据集的分析
盘问者还对 SWE-bench Lite 数据集进行了东说念主工查验和考究分析。
盘问发现,SWE-bench Lite 数据围聚,有 4.3% 的问题在问题描述中平直给出了齐全的谜底,也即是正确的建设补丁。而另外 10% 的问题描述了正确贬责决策的确凿才能。这标明,SWE-bench Lite 中的某些问题可能更容易贬责。
此外,盘问团队不雅察到有 4.3% 的问题在问题描述中包含了用户提议的贬责决策或者才能,但这些决策与开采东说念主员的确凿补丁并不一致。这进一步揭示了该基准测试的潜在问题,因为这些误导性贬责决策可能导致 AI 器具仅通过征服问题描述来生成不正确的贬责决策。
在问题描述质料方面,盘问者不雅察到,诚然 SWE-bench Lite 中大部分的任务王人包含了裕如的信息,况且很多任务还提供了失败示例来复现破绽,然则仍有 9.3% 的问题莫得包含裕如的信息。举例需要结束一个新的函数或者添加一个破绽信息,然则特定的函数名或者特定的破绽信息字符串并莫得在问题描述中给出。这意味着即使正确结束了底层功能,要是函数名或破绽信息字符串不澈底匹配,测试也会失败。
普林斯顿大学的盘问东说念主员,同期亦然 SWE-Bench 的作家之一,Ofir Press 阐明了他们的发现:“Agentless 对 SWE-bench Lite 进行了可以的手动分析。他们认为 Lite 上的表面最高得分可能是 90.7%。我认为施行的上限可能会更低(大要 80%)。一些问题的信息不及,另一些问题的测试过于严格。”
SWE-bench Lite-S:流程过滤的严格问题子集
针对这些问题,盘问者提倡了一个严格的问题子集 SWE-bench Lite-S(包含 252 个问题)。具体来说,从 SWE-bench Lite(包含 300 个问题)中遗弃了那些在问题描述中包含确凿补丁、误导性贬责决策或未提供裕如信息的问题。这么可以去除区别理的问题,并使基准测试的难度水平标准化。与原始的 SWE-bench Lite 比较,过滤后的基准测试更准确地响应了自动软件开采器具的确凿才能。
结语
尽管基于 Agent 的软件开采绝顶有长进手机app定制开发价格,作家们认为技能和盘问社区是时刻停驻来念念考其关节联想与评估范例,而不是急于发布更多的 Agent。盘问者但愿 Agentless 可以匡助重置畴昔软件工程 Agent 的基线和标的。