开源语音识别系统 怎么深度学习做语音识别或其它音频识别

谷歌的工程师们经常被问到这样的一个问题——怎么上手用深度学习做语音识别或其它音频识别,比如关键词或指令?

目前,出现了一些很优秀的开源语音识别系统,例如Kaldi,就能把神经系统作为其中的一个模块。但其的高度复杂性,并不适合 解决简单问题的指南。更重要的是,对于新手而言,免费、公开可获取到的数据并不多,适合简单的关键词也不是很多。

为解决这一问题,谷歌的TensorFlow 和 AIY 团队创建了TensorFlow 和 AIY 团队创建了Speech Commands Dataset,即“语音命令数据集”。据了解,谷歌也开源该数据集。

TensorFlow和AIY团队开源的数据集包含65000个录音,每个录音时长几秒钟,包含30个左右的单词。它们是通过网站采集而来的,参与人数达到了数千人。团队贴心地附上了训练和预测的TensorFlow示例代码。数据集基于署名4.0 国际(CC By 4.0)许可发布,Google表示将继续扩充这个数据集。Google还指出,这个数据集特别适合新手入门。此外,他们也开源了收集录音的工具。

AIY团队同时将改款语音数据集应用Google人工智能一个新的开源硬件产品上,AIY Projects,AIY 项目(AIY Projects)全称为 Artificial Intelligence Yourself,意为动手创造你的人工智能。该项目由 Google 于 2017 年启动,目标是让每个 Maker(创客)都可以 DIY 自己的 AI 人工智能产品。

Google 先后在 5 月、12 月份分别推出该项目代表的两组套件 Voice Kit 和 Vision Kit。

Voice Kit 是 Google 首个推出的 DIY 人工智能产品。它可借助 Google Assistant SDK 和 Cloud Speech API,将树莓派 3 转换为语音数字助理。用户可在此基础上创建虚拟语音助手,为自己的项目添加语音交互功能。

Vision Kit 则是 Google 推出的第二弹 DIY 人工产品。它是一套简单的计算机视觉系统,可运行 3 种基于 TensorFlow 的类神经网路模型应用程序。

除了工作应用及个人开发爱好,Google AIY 套件也已经逐渐被运用到教育科学领域中,用来培养学生对计算机科学的兴趣

标签: 语音 系统