通过AI转译功能 讯飞未来智能将耳机做成了一门新生意
发表于2022-05-13 22:29:45

  原标题:通过AI转译功能 讯飞未来智能将耳机做成了一门新生意 

  对于多数企业而言,真无线蓝牙(TWS)耳机早已成为了一片红海,尤其是当配套产业链愈发成熟之后,让TWS耳机几乎成为了“人人能做”的硬件品类。

  较低的赛道门槛,让TWS领域的竞争变得十分激烈,从目前的市场发展来看,已经有手机、音频、PC等品牌下场参与。在这样一个拥挤的战场中,是否还有依靠场景细分实现突破的可能?

  讯飞未来智能公司CEO马啸给出了肯定的答案:“我认为未来的TWS耳机会被分为两类:一类是作为手机的配件,替代目前的3.5mm耳机以及其他形态的蓝牙耳机,满足用户的娱乐需求;另一类将会是聚焦应用场景的功能性TWS产品,比如之前大家看到的骨传导耳机、运动耳机都属于这一范畴,而讯飞未来智能公司则要打造基于语音交互功能实现应用扩展的‘办公耳机’品类,满足用户的生产力需求。”

  做功能差异化的TWS耳机

  包括马啸在内的讯飞未来智能公司团队,其中很多员工都有科大讯飞的工作经历,而这也成为了讯飞未来智能能够在智能硬件领域站稳脚跟的基础。得益于科大讯飞此前在语音识别、语义识别方面的技术积累和领先优势,讯飞未来智能团队可以在短时间形成对智能硬件赛道的快速赋能,而马啸所说的发展机遇,也正是基于TWS耳机便携优势的语音场景。

  “在苹果推出Siri之后,我们就注意到了智能语音交互所拥有的发展潜力,虽然早期的智能助手被很多用户戏称为‘智障助手’,但我们认为这个问题的症结并不在助手或者说语音交互形态。”马啸表示,早期大家对于语音助手的过高期待值,反而成为了其应用普及的最大绊脚石。

  从目前便携智能设备的整体发展趋势来看,想要用语音完全替代触控交互,是不切实际的想法。以最简单的划动、点击操作为例,每次动作与结果的交互反馈已经非常高效,这显然要比说出语音指令要方便的多。

  而且语音交互的应用场景也并没有大家所想象的那么宽泛,无论是处于公司、咖啡馆还是火车上,都并不适合与机器进行语音交互,因为你在发出语音的同时,也会对周围的人产生影响。因此,讯飞未来智能公司将目光投入在智能语音领域的同时,也对产品使用场景进行了划分。

  “当你把TWS耳机日常应用的各种场景进行逐一剥离之后,你会看到有一些地方与语音的契合度是非常高的,比如疫情环境带来的办公方式改变,在线上办公、移动开会的时候,语音的沟通显然要比文字更加高效,而这就是讯飞未来智能公司目前专注的领域,即为这些金融圈精英、白领人士,提供一个便捷的‘工具性’产品。”马啸表示。

  讯飞未来智能推出的iFLYBUDS系列产品,被其定位为“会议耳机”,与其他TWS主打音质、佩戴或外形设计不同,它主打的功能是通话、会议录音以及语音转文字。实际上,在录音场景,用户其实有着很强的硬件需求,最早的录音机、录音笔再到这两年的智能录音设备,都表明了这个市场的发展空间是始终存在的。

  另一方面,随着半导体行业的发展,人们身边智能设备的算力都在提升,具体到TWS领域内,现在的处理芯片性能已经产生了冗余,即便厂家加入了主动降噪、通话降噪、低延迟优化、多设备连接等功能后,其处理能力依然没有被完全释放,因此讯飞未来智能公司才能将录音、文字转译等功能融入其中。

  这些功能应用除了在采访等专业场景,如今很多生活场景也需要录音进行辅助,但iOS系统在录音方面有着自己的限制,安卓系统的录制质量、可录音应用的覆盖范围,也非常地有限。讯飞未来智能公司的TWS产品,则在耳机中设立了两套工作流,声音会被分为两路,一条声音信息用于用户通讯,另一条声音链路则会用于声音记录及转写,形成生产力。

  算法、数据成为关键“软实力”

  “你可能会觉得,在TWS产品中加个录音功能,这并不是一件很高门槛的事情,但实际上是需要对芯片层进行深度的二次开发才能实现的。并且这项功能还有很大的场景扩展价值”马啸告诉钛媒体App。

对声音的提取其实只是产品的基础功能,而讯飞未来智能TWS耳机的杀手锏则在于“声音处理”,在线上办公过程中,电话会议的文字量往往是非常惊人的,以普通人每分钟120~200字的语速计算,1个小时的电话会议,形成的文字量就会超过1万字,如果某个产品只提供给用户1小时的录音文件,对于用户的工作而言帮助是很小的。

  即便用户通过软件进行文字转译,那么呈现在其面前的也会是一篇1万字的文字稿,并且当中不会有任何的段落标识,并且包含大量的语气词、重复词。目前,讯飞未来智能的TWS耳机产品,已经能够做到在对语音进行文字转换的同时,自动区分讲话者,并且对重复词、语气词进行自动识别与删除。还支持中文、中英混合、英语、日语、等7种语言以及国内12种方言的语音识别,以及针对专业领域词汇的理解。

  除卓越的软硬件实力之外,讯飞未来智能已经将“数据”变成了自身的护城河。讯飞未来智能已经搭建了一套支持多垂直场景交互的运营平台——未来智能AI平台,平台上累积近100万小时的电话数据,有效支持了服务平台的场景打磨。

  这些数据,让讯飞未来智能的智能交互平台能够为用户带来更好的服务体验,本身成为了一道赛道门槛。不同于传统的耳机厂商,数据的闭环,让讯飞未来智能的耳机在销售后仍然能够连接用户,从而形成粘性。据马啸介绍,iFLYBUDS的用户APP活跃度始终保持在70%,记录上云率95%。

  马啸在采访中提到,下一步讯飞未来智能将会进一步训练强化自己的AI模型,实现对成段文字提取关键词的能力,再向后发展,则有望通过AI智能,直接让录音形成纪要形式的文本。而AI的能力,也会是讯飞未来智能公司在TWS领域的核心竞争力之一。

  当下很多企业在入局TWS行业的时候,都是在利用品牌力破圈,至于产品与技术方面,更多地是用主流的算法、硬件方案组装而成。马啸表示,讯飞未来智能则希望能够利用自己的“软实力”实现破局,此前科大讯飞的语音技术基础,再加上面向会议场景的语音数据积累,这些算法和数据层面的实力,才是他眼中讯飞未来智能公司的核心竞争力。

  在初代产品发布后,马啸也在全国开始了路演,他提到:“我们的第一波用户群体相对集中,主要是白领人群,尤其是金融从业者、律师、记者等职业。我接触这些用户的时候发现,他们一般都有两个特点:首先,这些用户往往都已经拥有像Airpods这样的耳机产品,iFLYBUDS往往是它的第二个耳机,其次,他们接触到iFLYBUDS基本都是通过主动寻找或圈内朋友推荐而不是被广告、推广所吸引。”

  这些处于金融圈的精英群体,所需要的就是一个高效、可靠的会议录音转写工具,而iFLYBUDS的出现,则直接解决了他们的痛点,也因此在圈内快速火爆起来。这也就说明了目前讯飞未来智能所处“办公耳机”领域的特殊性,这部分用户群体往往有比较高的消费力,同时它们对录音这样的特殊应用场景的需求始终存在,讯飞未来智能能够在早期获得市场关注也是得益于此。

  未来除了完善目前已经布局的“会议耳机”和“运动耳机”产品线,讯飞未来智能还会针对出国人群、老年人等有特殊需求的用户群体推出翻译耳机、老人耳机等有着较强针对性的产品。正如马啸所说:“目前公司所在AI智能领域积累的技术,其应用前景是非常广泛的,对于讯飞未来智能而言,通过专注于垂直应用场景中的新需求,将能够不断创造TWS领域的科技新消费品,不断发现新的蓝海市场。”

投稿:lukejiwang@163.com
Copyright © 2002-2024 鹿科技