开源语音识别系统怎么深度学习做语音识别或其它音频识别_人工智能

谷歌的工程师们经常被问到这样的一个问题——怎么上手用深度学习做语音识别或其它音频识别，比如关键词或指令?

目前，出现了一些很优秀的开源语音识别系统，例如Kaldi，就能把神经系统作为其中的一个模块。但其的高度复杂性，并不适合解决简单问题的指南。更重要的是，对于新手而言，免费、公开可获取到的数据并不多，适合简单的关键词也不是很多。

为解决这一问题，谷歌的TensorFlow 和 AIY 团队创建了TensorFlow 和 AIY 团队创建了Speech Commands Dataset，即“语音命令数据集”。据了解，谷歌也开源该数据集。

TensorFlow和AIY团队开源的数据集包含65000个录音，每个录音时长几秒钟，包含30个左右的单词。它们是通过网站采集而来的，参与人数达到了数千人。团队贴心地附上了训练和预测的TensorFlow示例代码。数据集基于署名4.0 国际(CC By 4.0)许可发布，Google表示将继续扩充这个数据集。Google还指出，这个数据集特别适合新手入门。此外，他们也开源了收集录音的工具。

AIY团队同时将改款语音数据集应用Google人工智能一个新的开源硬件产品上，AIY Projects，AIY 项目(AIY Projects)全称为 Artificial Intelligence Yourself，意为动手创造你的人工智能。该项目由 Google 于 2017 年启动，目标是让每个 Maker(创客)都可以 DIY 自己的 AI 人工智能产品。

Google 先后在 5 月、12 月份分别推出该项目代表的两组套件 Voice Kit 和 Vision Kit。

Voice Kit 是 Google 首个推出的 DIY 人工智能产品。它可借助 Google Assistant SDK 和 Cloud Speech API，将树莓派 3 转换为语音数字助理。用户可在此基础上创建虚拟语音助手，为自己的项目添加语音交互功能。

Vision Kit 则是 Google 推出的第二弹 DIY 人工产品。它是一套简单的计算机视觉系统，可运行 3 种基于 TensorFlow 的类神经网路模型应用程序。

除了工作应用及个人开发爱好，Google AIY 套件也已经逐渐被运用到教育科学领域中，用来培养学生对计算机科学的兴趣

开源语音识别系统 怎么深度学习做语音识别或其它音频识别

相关推荐

开源语音识别系统怎么深度学习做语音识别或其它音频识别