为客户维护权益,是我们永远不变的使命!
字节跳动又纵身跳入一个千亿级的“大坑”。
上周四(4 月 10 日),虎嗅了解到,字节跳动正在加速推进 AI 眼镜项目,产品会开创性与抖音生态形成支点,并内置自研大模型“豆包”的 AI 能力,考虑采用恒玄BES2800 作为主控芯片,不排除MCU ISP 方案,志在成为仅次于手机、智能手表向用户多场景渗透的智能穿戴硬件产品。
巧合的是,三天后(4 月 13 日),外媒 The Information 的报道进一步佐证了字节跳动推动自研 AI 眼镜的进度——该项目已推进到与供应链沟通阶段,具体开始商讨功能、技术方案、成本控制及上市节奏。
此前,国金证券产业链调研报告显示,国内互联网大厂正加速推进 AI 眼镜的研发进程,其中字节跳动及某头部 3C 大厂的产品有望在今年第二季度与消费者见面。
无独有偶,上周“阿里正式立项 AI 眼镜项目”的传闻亦在市场掀起了激烈讨论——据维深信息 Wellsenn XR 爆料,阿里 AI 眼镜项目主要由智能信息事业群天猫精灵业务线主导研发,硬件规格将超越 Ray-Ban Meta 智能眼镜,采用高通 AR1 恒玄BES2800 双芯片双系统架构,在功耗和续航方面将有更优秀的表现,预计将于 2025 年底发布。
再往前推,2024 年底市面有消息称某头部 3C 大厂正紧锣密鼓地筹备新一代 AI 眼镜,并已与歌尔达成合作,或会采用“电致变色”技术,涵盖智能视觉、智能识别物体等,甚至能自动识别餐厅并推送相关实用信息,预计产品最快于 2025 年面世。
值得一提的是,此前 IDC 曾预测,2025 年全球智能眼镜出货量预计将达到 1280万台,同比增长26%;其中,中国市场将同比激增 107% 突破 275万台,跃居全球*。
随着媒体爆料与第三方数据预测的轮番轰炸,可以预见的是:2025年或将成为“百镜大战”硝烟最浓烈的一年,也将成为国内互联网大厂再次扎堆新风口的时代注脚。
一个诱人的“大坑”
事实上,自从 2024 年大模型热浪席卷而过,Ray-Ban Meta 智能眼镜的成功惹得一众互联网大厂跃跃欲试。
一位行业研究人士向虎嗅分析,作为智能穿戴掀起的新风口,行业普遍认为AI 眼镜是千亿级的赛道,但目前市面上的 AI 眼镜在功能层面难言惊喜,主要提供语音交互、智能播报、翻译、拍摄及一些基础的识别功能,用户深度交互及联网方面的探索非常有限,可谓“浅尝辄止”。
上述人士认为,行业下一阶段探索的重点将会是如何给 AI 眼镜加上社交属性与图像理解能力;至于产品体验层面,难点在于如何兼顾轻量化设计实现低功耗、长续航——这很大程度上源于,目前市面上的产品均在功耗与续航方面存在明显短板,从而在向 C 端普及的过程中显得“鸡肋”。
不过,随着多模态能力的提升,未来的 Personal AI(与传统 ChatBot 不同,Personal AI 更注重场景细分和功能封装,能够理解复杂的自然语言输入,并提供个性化回应)在动态环境下至少针对图像识别可以呈现出更复杂的形态。
尤其,在架构和任务数据流方面,搭建工具流来处理用户意图识别及高频智能交互成为可能。
上述逻辑主要源于:
一是,Personal AI 的价值体现在模型能力的补全和世界模型的发展上,当前的模型能力补全速度大幅提升,大厂的模型研发和商业化是双向并行、相辅相成的。
二是,交互体验将随技术发展大幅提升、增强,工具流及任务能力有望迎来“质的飞跃”。
聚焦到字节跳动,其纵身跳入这场 AI “百镜大战”厮杀的优势在于:
一方面,字节跳动基于豆包的技术底座与抖音生态协同优势显著,包括直播电商、本地生活、云服务等丰富的业务场景,均可接入 AI 眼镜实现语音识别、视觉理解等任务。
另一方面,字节跳动的投资版图涉及十余个赛道,宏观能通过自身的供应链整合能力带动光学模组、语音交互、数据标注等细分赛道发展;微观依托自身渠道优势能在生态内实现带货转化到支付的场景闭环。
“一旦 AI 眼镜在图像理解方面实现突破,科幻片里帮助用户实时记录和标注信息的场景便能照进现实,届时用户获取信息的效率将大幅提升,只需辅助工人进行判断即可。当然,在业务协同方面,AI眼睛还广泛应用于医疗设备及工业设备中,未来前景广阔。”上述人士说道。
AI革命,猴子滞销?
除此之外,字节跳动还有其他硬件项目在悄悄推进,比如机器人的灵巧手和仓储相关的应用——这也符合当下行业的发展规律:
一方面,被动的任务流可能与现有模式类似,用户输入信息后,系统会根据用户需求进行相应的处理和呈现,这种任务流是根据用户的需求和指令进行响应,不主动发起交互。
另一方面,主动的任务流现阶段主要体现在机器人上,例如机器人可以通过环境光影变化主动判断危险情况,进行关怀式或陪伴式交互——具体到生活场景,机器人主动与用户互动包括天气预报、书籍伴读、影视推荐等。
当然,主动关怀场景涉及用户隐私授权,如需要录音、拍照或读取周围场景来提高交互体验的情形,厂商必须明确询问用户是否愿意授权、是否能接受这种主动服务——因为在某些职业场景下,主动式服务更容易被接受,但涉及情感关怀类的场景时,可能会过度收集个人隐私,从而面临一些法律问题。
有鉴于此,不乏行业人士认为,如果字节跳动拿内置自研大模型“豆包”的 AI 能力为卖点,智能穿戴产品向消费电子领域过渡确实会更丝滑、契合。
字节早已埋下“伏笔”
事实上,字节跳动觊觎智能穿戴领域已久。
比如,字节跳动专注自然语言处理、机器学习等技术探索的 AI 实验室早在2016年便已成立;比如,2023 年 ChatGPT 热浪席卷而过,字节“云雀”是首批通过国家《生成式人工智能服务管理暂行办法》名单的大模型。
然而,直到去年,很多实质性的硬件项目才浮出水面——2024 年 10 月 10 日,字节跳动发布的 Ola Friend 智能体耳机一度在市场掀起热议,该硬件团队前身是字节跳动在一个月前全资收购的耳机品牌 Oladance,并购数额约 3-5 亿元。
虎嗅注:Oladance 是由前 BOSE 高管李浩干与多名 BOSE 工程师共同创立,公司因率先推出 OWS (Open Wearable Stereo)开放式耳机概念及相关专利技术而闻名,并在 2021 年推出了全开放式 OWS 系列耳机。
彼时,字节跳动的野心是希望借此进一步拓展硬件矩阵,用以完善 AI 服务生态。
这很大程度上源于,字节跳动敲定 Oladance的 收购后,便迅速将 Oladance 的 OWS 技术整合至硬件生态,随后推出的*产品 Ola Friend 智能体耳机采用恒玄 BES2700 芯片(专精于低功耗完成音频处理相关算力需求),主打卖点就是接入豆包 AI 大模型。
此外,让人“耳目一新”的点在于,Ola Friend 智能体耳机能与手机豆包 APP 无缝衔接,支持随时问答、英语陪练、旅行导游、音乐控制、情绪加油站等多项 AI 功能,产品定位是为用户提供一个随时陪伴在耳边的 AI 朋友。
而且,当字节跳动收购 Oladance 的“靴子落地”,便有市场人士猜测,此举是在为 AI 眼镜埋伏笔。
上述猜测很大程度上源于,音频在 AI 眼镜“进化”中占据着不可或缺的重要地位——因为 AI 眼镜的形态不能采取入耳式耳机传递用户之间的音频交互,开放式耳机及技术便显得尤为重要,而 Oladance 则在开放式耳机领域拥有*的技术。
不过,一位行业人士分析,重度用户非常在意耳机的材质、功耗、音质、触控等反馈,目前字节跳动这款耳机智能交互能力有限,使用体验与宣传预期存在差距。
“Ola Friend 耳机除了调用豆包的通话功能外,创新体验有限——当然,用户体验一定程度上也取决于软件及接入大模型的智能交互,这非常考验团队的各个环节的协同能力,可字节跳动一直未能在硬件领域证明自己,无论是运营经验还是产品能力。”上述人士说道。
值得一提的是,无论 AI 耳机还是 AI 眼镜,字节跳动手里都捏着一个别人无可替代的“杀招”——在抖音跃升至头部国民级移动应用的同时,沉淀了大量用户数据及行为标签。
比如,现阶段抖音用户数据包括年龄、性别、地域、设备 ID、短期兴趣、历史兴趣图谱等,随着数据生成的用户标签越发丰富,这些标签最终会反哺给系统进行推荐内容优化。
这就像字节跳动后院囤下的“富矿”——虽然数据的开放性在监管要求下受到限制,但旗下各个业务部门可以受限制的使用部分数据,如此海量的数据叠加丰富多元的用户标签,字节跳动与其他大厂在用户场景及消费心智塑造上的差距,只会越拉越大。
尤其,作为移动互联网浪潮中的“APP 爆品工厂”,字节跳动极其擅长“大力出奇迹”的作战风格,一旦产业发展能够实现 AI 硬件的高效智能交互,其在流量 场景 技术的攻防体系下,便能基于业务、技术的协同和补充,迅速将外部资源嫁接到自身业务体系,并以闪电战的模式在局部“军备竞赛”中达成数据反超,进而迅速完成用户心智渗透和普及。