2017年1月,小米人工智能实验室语音组成立。初期仅有4人,截至2022年底,团队成员共98人,其中国内外博士20名,硕士75名。团队成立仅4个月,就上线了小米第一代语音识别系统,还公开了一篇小米在电视语音交互中端到端语音识别的研究成果。该研究成果展示了截至当时中文端到端语音识别技术最好的识别率。
从此语音团队一路披荆斩棘,除了小米电视,还成功把职能语音交互技术,应用到了小米手机,智能音箱系列。小米自研的语音引擎,不但速度快,识别率更是超越了微软、Nuance等知名公司提供的引擎,公司决定全面使用自研语音识别技术。有了这个技术,公司的智能产品就像有了耳朵一样,倾听用户的指令和诉说。
一、赋予世界最大的手机XAIoT平台耳朵和嘴巴
有了听用户语音的“耳朵”,团队开始为小米智能设备打造说话的“嘴巴”—和用户说话,即语音合成的算法能力。2017年的6月、团队开始跟踪最前沿的端到端语音合成技术。经过14个月反复的论文研读、试验以及评测,团队追平了国际最先进的语音合成技术水平。
有了在小米手机、音箱和电视上应用人工智能听说的能力之后,团队全面把自研语音技术应用于小米手表、耳机、平板电脑、手环、翻译机、大家电、儿童机器人、机器狗等50多个品类的智能产品中。
二、为世界上最忙的语音助手打造全栈语音技术
2019年,小米把手机×AIoT提高到战略高度,为了持续提升这个大生态上的语音交互体验,公司引入了首席语音科学家Daniel Povey博士。他是全世界开发者使用最多的开源语音识别社区Kaldi的创始人,被业界成为“Kaldi之父”。博士加入小米后,团队持续邀请了几十位业内顶尖的语音算法专家和研发人员加入,一起在全世界最肥沃的语音技术业务土壤上耕耘。把以语音识别为代表的一系列算法扩展为语音理解技术;同时把以语音合成为代表的一系列结束扩展为语音生成技术。形成了一个包含12个技术方向的完整语音交互技术栈。
2021年小爱同学月活跃用户数量过亿,成为世界上最忙的语音助手之一。小米手机收到日均2亿的语音识别请求,3亿语音合成请求,日均通过远场拾音触发语音交互5200万次,唤醒语音识别5500万次,进行1.85亿次声纹识别。
三、夺冠,挑战语音技术天花板
语音技术最早起源于欧美。随着2011年移动互联网时代的到来,华人语音的研究者和团队逐渐踏入语音技术的聚光灯下,小米的语音团队有幸成为其中的佼佼者。小米有世界上最大的智能设备生态网络,这些网络孕育了大量的人机语音交互需求。语音团队满足了这些真实的用户需求,为包括手机、耳机、手表、手环、笔记本电脑、大家电、机器人等5000多款智能产品提供声学语音人机交互技术,还用他们不断磨砺自己的人工智能算法。从2017年至今,团队研发的语音识别,声音降噪,语音合成等18项人工智能技术几乎覆盖了所有民生领域中的声学语音应用,惠及包括障碍群体在内的4亿多用户。该团队还不断挑战世界级的语音研究天花板,在该领域持续创新,研发出超级拟人、语音成分分析与重建、AI作曲和编曲等技术,回馈工业界和学术界。2021年,团队负责人王育军被聘请为国家知识产权局中国专利审查技术专家。37篇论文为国际顶级语音会议收录。参加了语音技术领域内一系列挑战赛,并获得了6项国际声学语音挑战赛冠军、两项国内比赛比赛亚军、两项季军。不仅证明在团队在业务紧密相关的技术领域上领先世界,也为小米和中国智造行业赢得了荣誉。
四、初心,做有温度的语音技术
小米一直致力于中国智能设备无障碍的建设。为了配合小米的无障碍体系,语音团队为听障人群开发了“闻声技术”,不但可以让设备帮听障用户“看到”其他人说话,也可以帮他们“看见”周围环境中的声音,例如警报声,敲门声等。读屏技术为视障人群“看到”屏幕上的内容。语音合成技术,为失去语言能力的用户发出声音。“聆听”技术为构音困难用户提供了个性化的语音识别,让他们也可以通过语音和设备交互,这项技术被提名为2021年世界互联网领先科技成果。
点个
分享给身边的朋友吧
文章来源: https://twgreatdaily.com/zh-hans/fbddd1deb69b526e7de569a4c82ddc08.html