为什么我不看好豆包手机
想象一下你拥有一台自带 AI 助手的手机,想让它帮你用微信发送最近拍摄的合同照片给张总。
若是像以豆包手机为典型的基于屏幕内容读取和模拟点击操作的 AI 手机,大概会按照以下步骤来操作:
- 打开相册应用,使用 OCR 技术或多模态大语言模型分析每一张最近拍摄的照片,找到所需的合同照片。
- 调用相册应用的分享功能,使用微信分享。
- 在微信分享页面通过搜索好友昵称或翻看好友列表的方式,找到张总的账号,输入备注(“张总,这是上次的合同照片”之类)完成分享。
过程中可能会弹出多次授权请求,让用户同意 AI 打开并操作相册、微信等应用。当然不讲究的用户可能在首次配置 AI 手机的时候就永久授予了大部分常见应用的操作权限。
期间 AI 助手会分析识别手机相册中的近期照片(其中可能有家人近照,证件照等敏感照片),获取你的微信好友列表(以及经常互相分享的亲密联系人),给微信好友发消息。并且由于分析照片内容会消耗不少时间,总耗时可能也会长达一分钟以上。
简单来说,这些行为是对隐私和信息安全的极大侵犯,而且并未明显为用户节省时间。
侵犯隐私,安全隐患,效率低下,这就是我对目前讨论火热的豆包手机的看法。
问题的根源在于,若 AI 助手依赖通过读取屏幕内容的方式获取上下文信息,不可避免地需要频繁通过 AI 模型分析手机屏幕上的所有元素。
手机屏幕上往往不只是 AI 助手当前任务需要的信息。比如在上文提的示例中,AI 助手会读取多张图片的内容,直到它找到了合同的照片。并且 AI 助手在微信分享的联系人列表中找到张总之前,可能已经读取了用户大部分的联系人微信昵称和头像,毕竟按拼音排序张总大概率在列表的很后面的位置。同理,在让 AI 帮你在淘宝购买商品的场景下,AI 会获取你的首页推荐商品列表,最近订单,收货地址等隐私信息。即使用的是不联网的端侧模型,我也对 AI 手机们能否妥善处理这些隐私信息持怀疑态度。
当前 AI 模型识别图片需要的时间明显要长于人类,对于普通人来说从相册内的一堆图片中中找到合同照片轻而易举,而 AI 模型不可避免地要一张一张照片的读取并识别(大概率不会同时分析多张照片,端侧模型来不具有满足此类功能需求的性能,对于远程 AI 接口来说这样做成本会相当高)。对人类来说不到十秒的操作,AI 可能需要花费十分钟才能完成,期间用户还不能正常使用手机,实在不是多么优秀的体验。
此外 AI 手机可能还会出现误删除重要文件,发送错误信息给联系人等危险操作。毕竟作为相对很成熟 AI 编程领域,行业领先的 Google Gemini 3.0 Pro 都犯过删除用户整个磁盘文件的错误。尤其是当 AI 手机完成简单的日常操作十分优秀,用户为了省事不再逐一仔细检查 AI 手机的行为默认授权后,往往会有潜在的巨大安全隐患。
综上,不论豆包手机在二手平台炒到到了几万元的高级,它终究不是我理想中的 AI 手机的最佳形态。