page-agent - 页面 GUI 代理
阿里巴巴开源 | 2026年3月
GUI Agent Web Automation JavaScript 国产📌 项目简介
page-agent 是阿里巴巴开源的JavaScript in-page GUI agent,可以用自然语言控制网页界面。它是运行在网页中的 GUI Agent,无需浏览器扩展、Python 或无头浏览器。
🎯 核心特性
- ✨ 简单集成:无需浏览器扩展 / Python / 无头浏览器,纯页面内 JavaScript
- 📖 基于文本的 DOM 操作:无需截图、无需多模态 LLM、无需特殊权限
- 🧠 自备 LLM:支持 Qwen、Claude、GPT 等各种模型
- 🎨 人机协作 UI:友好的交互界面
- 🐙 可选 Chrome 扩展:支持多页面任务
🚀 应用场景
- SaaS AI Copilot:几行代码即可在产品中嵌入 AI 助手,无需后端重写
- 智能表单填写:将 20 次点击的工作流变成一句话,适合 ERP、CRM、后台系统
- 无障碍访问:让任何网页应用可通过自然语言访问,支持语音命令、屏幕阅读器
- 多页面 Agent:通过可选 Chrome 扩展跨越浏览器标签页扩展 Agent 能力
📦 快速开始
使用免费 Demo LLM 尝试:
<script src="{CDN_URL}" crossorigin="true"></script>
或通过 npm 安装:
npm install page-agent
import { PageAgent } from 'page-agent'
const agent = new PageAgent({
model: 'qwen3.5-plus',
baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1',
apiKey: 'YOUR_API_KEY',
language: 'en-US',
})
await agent.execute('Click the login button')
🔧 技术亮点
- 纯客户端 JavaScript 实现,无需服务端支持
- 基于 DOM 文本操作,避免多模态 LLM 的高成本
- 基于 browser-use 项目开发
- 支持多种 LLM 提供商:Qwen (DashScope)、OpenAI、Claude 等