为什么我不看好豆包手机

想象一下你拥有一台自带 AI 助手的手机，想让它帮你用微信发送最近拍摄的合同照片给张总。

若是像以豆包手机为典型的基于屏幕内容读取和模拟点击操作的 AI 手机，大概会按照以下步骤来操作：

打开相册应用，使用 OCR 技术或多模态大语言模型分析每一张最近拍摄的照片，找到所需的合同照片。
调用相册应用的分享功能，使用微信分享。
在微信分享页面通过搜索好友昵称或翻看好友列表的方式，找到张总的账号，输入备注（“张总，这是上次的合同照片”之类）完成分享。

过程中可能会弹出多次授权请求，让用户同意 AI 打开并操作相册、微信等应用。当然不讲究的用户可能在首次配置 AI 手机的时候就永久授予了大部分常见应用的操作权限。

期间 AI 助手会分析识别手机相册中的近期照片（其中可能有家人近照，证件照等敏感照片），获取你的微信好友列表（以及经常互相分享的亲密联系人），给微信好友发消息。并且由于分析照片内容会消耗不少时间，总耗时可能也会长达一分钟以上。

简单来说，这些行为是对隐私和信息安全的极大侵犯，而且并未明显为用户节省时间。

侵犯隐私，安全隐患，效率低下，这就是我对目前讨论火热的豆包手机的看法。

问题的根源在于，若 AI 助手依赖通过读取屏幕内容的方式获取上下文信息，不可避免地需要频繁通过 AI 模型分析手机屏幕上的所有元素。

手机屏幕上往往不只是 AI 助手当前任务需要的信息。比如在上文提的示例中，AI 助手会读取多张图片的内容，直到它找到了合同的照片。并且 AI 助手在微信分享的联系人列表中找到张总之前，可能已经读取了用户大部分的联系人微信昵称和头像，毕竟按拼音排序张总大概率在列表的很后面的位置。同理，在让 AI 帮你在淘宝购买商品的场景下，AI 会获取你的首页推荐商品列表，最近订单，收货地址等隐私信息。即使用的是不联网的端侧模型，我也对 AI 手机们能否妥善处理这些隐私信息持怀疑态度。

当前 AI 模型识别图片需要的时间明显要长于人类，对于普通人来说从相册内的一堆图片中中找到合同照片轻而易举，而 AI 模型不可避免地要一张一张照片的读取并识别（大概率不会同时分析多张照片，端侧模型来不具有满足此类功能需求的性能，对于远程 AI 接口来说这样做成本会相当高）。对人类来说不到十秒的操作，AI 可能需要花费十分钟才能完成，期间用户还不能正常使用手机，实在不是多么优秀的体验。

此外 AI 手机可能还会出现误删除重要文件，发送错误信息给联系人等危险操作。毕竟作为相对很成熟 AI 编程领域，行业领先的 Google Gemini 3.0 Pro 都犯过删除用户整个磁盘文件的错误。尤其是当 AI 手机完成简单的日常操作十分优秀，用户为了省事不再逐一仔细检查 AI 手机的行为默认授权后，往往会有潜在的巨大安全隐患。

综上，不论豆包手机在二手平台炒到到了几万元的高级，它终究不是我理想中的 AI 手机的最佳形态。