科技巨头加速布局无屏交互设备 语音技术或重塑人机交互格局

近日,据美国科技媒体The Information报道,人工智能公司OpenAI正在大幅强化音频智能技术研发,为推出革命性的语音交互设备做准备。

多位知情人士透露,该公司计划在2026年第一季度发布一款以听觉交互为主导的个人智能设备,彻底摆脱对传统屏幕的依赖。

当前,OpenAI面临的核心技术挑战在于音频模型的性能瓶颈。

公司内部研究显示,现有的ChatGPT语音功能所采用的模型与文本处理模型存在显著差异,在准确性和响应速度方面明显滞后。

为解决这一问题,OpenAI在过去两个月内进行了重大组织调整,将工程、产品和研究团队进行整合,集中力量攻克音频技术难题。

技术升级的成效已初步显现。

新一代音频模型能够生成更加自然、富有情感色彩的语音回应,并具备了与用户同时对话、应对中途打断等高级交互能力。

这些技术突破为OpenAI实现"通过自然语音指令操作设备"的目标奠定了基础。

在产品理念上,OpenAI与谷歌、亚马逊、Meta和苹果等科技巨头形成了相似判断:现有主流设备并非为未来人工智能交互而设计。

OpenAI团队认为,语音交互更贴近人类天然的交流方式,用户应当通过"说话"而非"看屏幕"与设备互动。

值得关注的是,苹果公司前首席设计官乔尼·艾维也参与了这一项目。

艾维强调,无屏幕设计不仅能提供更自然的交互体验,还有助于避免用户对电子设备产生过度依赖。

他表示,新一代智能设备应当承担起纠正传统消费电子产品负面影响的责任。

然而,OpenAI在推进这一战略时仍面临现实挑战。

内部数据显示,相当数量的ChatGPT用户尚未养成使用语音功能的习惯,这既与音频模型效果有关,也反映出用户对新功能认知不足的问题。

因此,在推出音频优先的智能设备之前,改变用户使用习惯成为关键任务。

为支撑长期发展规划,OpenAI已在组织架构和资本投入方面做出重大调整。

公司组建了专门的音频智能战略团队,由来自Character.AI的语音研究专家昆丹·库马尔负责整体方向,本·纽豪斯主导面向音频的底层架构重构工作。

同时,OpenAI在2025年初以近65亿美元的价格收购了乔尼·艾维联合创办的设计公司io,并同步推进供应链建设、工业设计和模型研发等多个工作线。

据了解,OpenAI的硬件产品规划并非局限于单一设备,而是涵盖智能眼镜、无屏幕智能音箱等多个品类的完整产品线。

公司设想这些设备将以"伴随式助手"的形态存在,能够主动理解环境和用户需求,在获得授权的前提下通过音频和视频持续提供智能服务。

从屏幕时代走向“听觉优先”,表面上是交互方式的变化,实质是人与技术关系的再校准:技术越强,越需要以更低打扰、更高可信的方式融入生活。

无论终端形态如何演进,能否把效率、克制与责任统一起来,决定了新一轮产品浪潮是昙花一现,还是走向长期可持续的普及。