“豆包手机”回应监管约谈

月初，字节跳动旗下AI大模型“豆包”宣布上线手机助手，并与中兴通讯合作推出搭载该助手的“豆包手机”。

“豆包手机”很快引发行业震动。围绕网络安全、数据安全以及是否扰乱既有App生态的讨论迅速发酵，甚至一度传出监管部门约谈字节跳动的消息。

12月13日，对于上述报道，知情人士向澎湃新闻记者回应称，相关传闻不实。

在争议声中，豆包此前也多次发布声明，为AI手机助手的安全边界“划线”。

12月3日，按照官方说法，豆包手机助手不会代替用户进行相关授权和敏感操作；在执行长任务时，屏幕会有明确提示，用户可随时中断；一旦涉及系统敏感权限或金融操作，任务会暂停并交还用户人工确认。

12月5日，豆包手机助手发布《关于调整AI操作手机能力的说明》，进一步宣布，将对AI操作手机能力进行阶段性规范化调整，包括限制刷分、刷激励等自动操作，收紧金融类App的代操作能力，并在涉及竞技排名的游戏场景中暂停 AI 使用。

12月9日，抖音副总裁李亮发微博谈及豆包与中兴合作推出的AI手机助手。字节方面的逻辑很清晰：希望在推动新交互范式的同时，避免一刀切地否定AI的合理使用空间。

但真正的冲击，并不只来自安全层面。

随着豆包手机助手落地，多个头部App对其态度明显转为谨慎。微信率先出现无法登录的情况，随后支付宝、手机银行等涉及支付与隐私的应用，也不再支持豆包助手的自动操作。

这背后，是一场对“移动互联网规则”的正面冲撞。

360 集团创始人周鸿祎的评价在业内广泛流传：“字节不造手机，却要抢走所有手机的灵魂。”

在他看来，豆包AI手机的威力不在硬件，而在于它可能直接冲垮互联网大厂多年构建的护城河，用户必须打开App、停留页面、接受广告，才能获得服务。

一旦AI能跨App直接完成任务，用户不再刷首页、不再看推荐、不再点广告，原有的流量逻辑和KPI体系将被彻底改写。

从技术路径看，豆包AI手机并非凭空诞生的“黑科技”，其核心仍是视觉语言模型（VLM）方案：通过系统级权限读取屏幕内容，识别可交互区域，再通过模拟点击、滑动完成操作。

这类技术早已存在于自动化测试工具、无障碍服务之中，豆包真正做的，是把“大模型的语言理解能力”嫁接到这套体系上。

创新点不在于“能不能点”，而在于它不再是某个App里的功能，而是被植入操作系统，成为一个能够跨应用协同的执行代理。

这一步，恰恰也是争议的源头。

系统级AI助手意味着打破原本的“沙盒机制”。一旦指令理解错误、执行失误，可能直接影响本机数据安全甚至财产安全；而大量任务仍依赖云端模型完成，屏幕信息、聊天内容、支付页面在云端处理的过程，也让数据去向和安全边界变得模糊。

更现实的问题是，当前AI操作手机的技术路径本身并不稳固。

模拟点击极度依赖界面结构，一次App更新就可能导致流程失效；多步骤长任务中，单步误差会迅速累积，成功率呈断崖式下降。至少在现阶段，AI手机距离“稳定替代人类操作”还有不小差距。

从更长远看，行业共识正在逐渐形成，AI手机真正可持续的方向，不是无限索取系统最高权限，而是走向用户授权+应用授权的“双重授权机制”。

这意味着，AI想操作某个App，不仅要得到用户的明确同意，也要获得应用本身的授权许可；权限不再是“全给或全不给”，而是细粒度、可撤销、按任务临时生效。

只有当授权机制、责任边界、审计体系逐步清晰，AI手机才可能从“炫技产品”走向“可信赖的日常工具”。

否则，它更像是一场过早到来的革命。

AIPress.com.cn报道

JiaXu's Blog