Skyvern-AI,通过LLM和计算机视觉自动化基于浏览器的工作流程,它提供了一个简单的 API 端点来完全自动化手动工作流程,取代脆弱或不可靠的自动化解决方案。
项目:github.com/Skyvern-AI/skyvern
传统的浏览器自动化方法需要为网站编写自定义脚本,通常依赖 DOM 解析和基于 XPath 的交互,只要网站布局发生变化,这些脚本就会中断。
Skyvern 不仅仅依赖于代码定义的 XPath 交互,而是添加了计算机视觉和 LLM,以实时解析视口中的项目、创建交互计划并与它们进行交互。
这种方法给我们带来了一些优势:
1. 可以在以前从未见过的网站上运行,因为它能够将视觉元素映射到完成工作流程所需的操作,而无需任何自定义代码
2. 能够抵抗网站布局更改,因为我们的系统在尝试导航时没有预先确定的 XPath 或其他选择器
3. 利用LLM通过交互进行推理,以确保我们能够应对复杂的情况。
Skyvern 的灵感来自于BabyAGI(github.com/yoheinakajima/babyagi)和AutoGPT(github.com/Significant-Gravitas/AutoGPT)流行的任务驱动自主代理设计——它有一个主要好处:我们让 Skyvern 能够使用Playwright(playwright.dev/)等浏览器自动化库与网站进行交互。