月初,字节跳动旗下AI大模型“豆包”宣布上线手机助手,并与中兴通讯合作推出搭载该助手的“豆包手机”。
“豆包手机”很快引发行业震动。围绕网络安全、数据安全以及是否扰乱既有App生态的讨论迅速发酵,甚至一度传出监管部门约谈字节跳动的消息。

12月13日,对于上述报道,知情人士向澎湃新闻记者回应称,相关传闻不实。
在争议声中,豆包此前也多次发布声明,为AI手机助手的安全边界“划线”。
12月3日,按照官方说法,豆包手机助手不会代替用户进行相关授权和敏感操作;在执行长任务时,屏幕会有明确提示,用户可随时中断;一旦涉及系统敏感权限或金融操作,任务会暂停并交还用户人工确认。
12月5日,豆包手机助手发布《关于调整AI操作手机能力的说明》,进一步宣布,将对AI操作手机能力进行阶段性规范化调整,包括限制刷分、刷激励等自动操作,收紧金融类App的代操作能力,并在涉及竞技排名的游戏场景中暂停 AI 使用。
12月9日,抖音副总裁李亮发微博谈及豆包与中兴合作推出的AI手机助手。字节方面的逻辑很清晰:希望在推动新交互范式的同时,避免一刀切地否定AI的合理使用空间。
但真正的冲击,并不只来自安全层面。
随着豆包手机助手落地,多个头部App对其态度明显转为谨慎。微信率先出现无法登录的情况,随后支付宝、手机银行等涉及支付与隐私的应用,也不再支持豆包助手的自动操作。
这背后,是一场对“移动互联网规则”的正面冲撞。
360 集团创始人周鸿祎的评价在业内广泛流传:“字节不造手机,却要抢走所有手机的灵魂。”
在他看来,豆包AI手机的威力不在硬件,而在于它可能直接冲垮互联网大厂多年构建的护城河,用户必须打开App、停留页面、接受广告,才能获得服务。
一旦AI能跨App直接完成任务,用户不再刷首页、不再看推荐、不再点广告,原有的流量逻辑和KPI体系将被彻底改写。
从技术路径看,豆包AI手机并非凭空诞生的“黑科技”,其核心仍是视觉语言模型(VLM)方案:通过系统级权限读取屏幕内容,识别可交互区域,再通过模拟点击、滑动完成操作。
这类技术早已存在于自动化测试工具、无障碍服务之中,豆包真正做的,是把“大模型的语言理解能力”嫁接到这套体系上。
创新点不在于“能不能点”,而在于它不再是某个App里的功能,而是被植入操作系统,成为一个能够跨应用协同的执行代理。
这一步,恰恰也是争议的源头。
系统级AI助手意味着打破原本的“沙盒机制”。一旦指令理解错误、执行失误,可能直接影响本机数据安全甚至财产安全;而大量任务仍依赖云端模型完成,屏幕信息、聊天内容、支付页面在云端处理的过程,也让数据去向和安全边界变得模糊。
更现实的问题是,当前AI操作手机的技术路径本身并不稳固。
模拟点击极度依赖界面结构,一次App更新就可能导致流程失效;多步骤长任务中,单步误差会迅速累积,成功率呈断崖式下降。至少在现阶段,AI手机距离“稳定替代人类操作”还有不小差距。
从更长远看,行业共识正在逐渐形成,AI手机真正可持续的方向,不是无限索取系统最高权限,而是走向用户授权+应用授权的“双重授权机制”。
这意味着,AI想操作某个App,不仅要得到用户的明确同意,也要获得应用本身的授权许可;权限不再是“全给或全不给”,而是细粒度、可撤销、按任务临时生效。
只有当授权机制、责任边界、审计体系逐步清晰,AI手机才可能从“炫技产品”走向“可信赖的日常工具”。
否则,它更像是一场过早到来的革命。
AIPress.com.cn报道
JiaXu's Blog