Open-AutoGLM:让你的手机秒变 AI 助理
开源项目 亮点
Open-AutoGLM 是一个专为移动端 设计 的 智能 助理框架,它基于 AutoGLM 构建,能够多模态理解手机屏幕内容,并通过自动化操作实现用户意图。只需一句 自然 语言 命令,系统便能分析当前界面、规划操作路径,并模拟 人类 点击、滑动、输入等行为,高效完成任务。
无论是“打开 小红书 搜索 美食 ”或“查找 微信 联系人”,Phone Agent 都能准确理解指令,自动执行流程,并在敏感环节触发人工确认或接管机制,确保使用安全。
全流程自动化体验
系统通过 Android Debug Bridge (ADB) 控制设备,配合视觉语言模型进行界面感知,再结合任务规划模块,完整执行从识别到点击的每一个步骤。支持 WiFi 网络 远程调试,让你随时随地控制设备, 开发 者亦可通过 API 接入,快速构建智能操作场景。
多语言模型,适配多类应用
提供两款模型可选:
- AutoGLM-Phone-9B:专为中文应用优化
- AutoGLM-Phone-9B-Multilingual:支持 英文 等多语言应用场景
模型下载地址:
覆盖50+主流App场景
Phone Agent 支持包括 社交 、 电商 、外卖、出行、娱乐等在内的50多个常用应用,例如:
- 社交通讯:微信、QQ、 微博
- 购物平台: 淘宝 、京东、 拼多多
- 外卖平台:美团、饿了么、肯德基
- 出行工具:滴滴出行、携程、12306
- 视频音频: 抖音 、B站、 爱奇艺 、网易云 音乐
- 本地 生活 :大众点评、 高德地图 、小红书、 知乎 等
运行 python m ai n.py --list-apps 即可查看完整支持清单。
支持的操作能力
Phone Agent 可执行包括点击、输入、滑动在内的常见手机操作:
| Launch | 启动指定App |
| Tap | 点击坐标点 |
| Type | 自动输入 文字 内容 |
| Swipe | 上下左右滑动屏幕 |
| Back | 返回上一步 |
| Home | 返回手机桌面 |
| Long Press | 模拟长按操作 |
| Double Tap | 模拟双击 动作 |
| Wait | 页面加载等待 |
| Take_over | 请求人工接管(如验证码) |
开源地址与应用场景
项目仓库地址:GitHub – Open-AutoGLM
无论你是开发者、AI爱好者,还是在寻找自动化方案的 运营 者,Open-AutoGLM 都能帮助你打造一个真正智能、可控的手机自动化助手。
评论列表
发表评论