page-agent - 页面 GUI 代理

阿里巴巴开源 | 2026年3月

GUI Agent Web Automation JavaScript 国产
⭐⭐⭐⭐ (4星)

📌 项目简介

page-agent 是阿里巴巴开源的JavaScript in-page GUI agent,可以用自然语言控制网页界面。它是运行在网页中的 GUI Agent,无需浏览器扩展、Python 或无头浏览器。

🎯 核心特性

  • ✨ 简单集成:无需浏览器扩展 / Python / 无头浏览器,纯页面内 JavaScript
  • 📖 基于文本的 DOM 操作:无需截图、无需多模态 LLM、无需特殊权限
  • 🧠 自备 LLM:支持 Qwen、Claude、GPT 等各种模型
  • 🎨 人机协作 UI:友好的交互界面
  • 🐙 可选 Chrome 扩展:支持多页面任务

🚀 应用场景

  • SaaS AI Copilot:几行代码即可在产品中嵌入 AI 助手,无需后端重写
  • 智能表单填写:将 20 次点击的工作流变成一句话,适合 ERP、CRM、后台系统
  • 无障碍访问:让任何网页应用可通过自然语言访问,支持语音命令、屏幕阅读器
  • 多页面 Agent:通过可选 Chrome 扩展跨越浏览器标签页扩展 Agent 能力

📦 快速开始

使用免费 Demo LLM 尝试:

<script src="{CDN_URL}" crossorigin="true"></script>

或通过 npm 安装:

npm install page-agent

import { PageAgent } from 'page-agent'

const agent = new PageAgent({
  model: 'qwen3.5-plus',
  baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1',
  apiKey: 'YOUR_API_KEY',
  language: 'en-US',
})

await agent.execute('Click the login button')

🔧 技术亮点

  • 纯客户端 JavaScript 实现,无需服务端支持
  • 基于 DOM 文本操作,避免多模态 LLM 的高成本
  • 基于 browser-use 项目开发
  • 支持多种 LLM 提供商:Qwen (DashScope)、OpenAI、Claude 等
🔗 查看 GitHub 仓库