语音芯片(MCU)识别声音是如何工作,将语音命令功能集成到您的硬件产品中的最佳方式是什么?

来源：日期：2022-4-27

一直梦想着智能语音识别芯片开发，智能扬声器互动

那么将语音命令功能集成到您的硬件产品中的最佳方式是什么？

基本上有两种方法可以将语音激活功能添加到产品中：在设备上或基于云。设备上语音激活意味着所有语音处理都在设备本身本地完成。

对于基于云的解决方案，大部分繁重的处理是在超高速计算机服务器上的云上执行的。但是，在我们研究将语音识别整合到您的产品中的两种方法之前，您必须了解语音识别工作原理的基础知识。语音识别是如何工作的？识别语音的第一步是实际识别正在说出的单个单词。这通常在硬件中完成。

三字平特

通过模数转换器 (ADC) 将传入的模拟语音转换为数字数据。

然后对该信号进行处理以消除背景噪声，并对其进行归一化以考虑幅度变化。然后可以重新采样以适应说话者说话的速率。接下来是语音分析。正常的语音只是由单个单词组成的句子，这些单词被沉默的时间分隔。每个句子与下一个句子之间有稍长的停顿。反过来，在一个简单的层面上，每个单词都是由音素和摩擦音的组合组成的。音素就像一个基本的语音单位，例如“but”一词中的“b”音，或“place”一词中的“p”音。擦音是一种不同的基本语音单位。擦音的例子包括“shut”中的“s”音，或“yes”中的“s”音。英语中有四十四个音素和九个擦音。

通过适当地分离这些语音片段，并匹配它们的序列和组合，可以通过字典查找来获得一个非常好的但并不总是完美的正在说出的单词的确定。如果语音识别应用程序是简单的单词匹配，或者识别单个单词的命令，那么以上就是所有需要的。如前所述，这可以通过微控制器在本地完成。图片包含 iPod, 电子产品描述已自动生成否则，下一个过程是句法分析。句法分析有助于提高单词识别的准确性。

例如，考虑以下句子：“人是鸟”和“人是鸟”。语音分析无法确定第三个单词是“is”还是“his”。在这种情况下，句法分析将立即能够确定它应该是“是”，因为第二个句子中没有动词。继续上一段中的句子，很容易看出，虽然“人是鸟”这句话在句法上是正确的，但它根本没有意义。确定句子是否有意义的过程称为语义分析。这有助于确定正在说出或请求的内容。在这种特殊情况下，智能语义分析器可能会确定正确的句子是：“这个人是个书呆子”。最后，有时甚至语义分析也无法确定被解码的确切句子。

考虑这两个短语：“这绝对是 CMOS”和“这绝对是海苔”。如果这是两个电气工程师之间的对话片段，那么第一句话可能是正确的。另一方面，两位海洋生物学家很可能指的是海苔，而不是 CMOS。因此，在这些情况下，上下文线索对于正确确定非常重要。人工智能通常用于根据先前收集和分析的示例来学习说话者的讲话风格。

设备上的语音命令

设备上的语音功能通常最适合具有简单语音激活功能的产品和/或没有互联网连接的产品。

例如，如果您的产品需要响应简单的单字命令，例如 go、stop、reset 等，那么在您的设备本身上本地执行所有操作是最有意义的。这通常称为关键字发现。

可以通过低成本的嵌入式微控制器来实现相对简单的语音命令功能，而不需要更快、更复杂的微处理器的速度和开销。

从硬件设计的角度来看，添加简单的语音命令并不是很复杂，大部分的开发工作都将在软件方面进行。

一种软件变通方法来自一家名为 Sensory 的公司，该公司提供了一个名为 Truly Handsfree 的嵌入式语音识别引擎，它的词汇量很小。它可以在 ARM Cortex-M4 微控制器上运行。

三字平特

ARM 还发布了一个开源库，用于在 Cortex-M 微控制器上运行的关键字识别应用程序。

另一个软件选项来自一家名为 Snips 的公司。他们提供了一个完整的语音识别平台，称为 Snips Flow，可以在 Linux 或 Android 操作系统上运行。 Snips Flow 正在推动在非常小的设备上使用 AI 的界限。它们提供了一个不错的用户界面，可让您自定义语音助手。

他们还提供了一种名为 Snips Commands 的语音命令解决方案，可在 Cortex-M4 微控制器上运行。

Snips 认为，您无需连接到云端即可开始喝咖啡或调低恒温器。相反，公司或企业家可以创建独特的语音工具，专门在他们的设备上运行。

Snips 是一种无需依赖科技巨头 Google 或 Amazon 即可为您的产品添加高级语音激活功能的方法。

对于完整的语音识别，语音分析阶段之后的附加阶段并不是由资源有限的微控制器轻松执行的。

然而，尽管简单的独立、基于微控制器的语音识别存在局限性，但一些复杂且看似智能的语音识别应用程序仍然可以由独立微控制器实现，尤其是具有适当大内存大小的 32 位 STM 之类的。

例如，考虑一个自动银行应用程序。用户可能会要求：

“你能告诉我美元兑欧元的汇率吗？”，或者

“美元对欧元的汇率是多少？”，或

“今天美元兑欧元的汇率是多少？”

完整的语音识别系统将尝试全面分析这些请求，然后得出用户只想知道美元兑欧元汇率的结论。然而，一个简单的单词识别可以识别出“dollar”、“euro”和“exchange”这些词，应该能够确定用户在银行应用程序的上下文中要问什么。在这种情况下，问题的具体提出方式无关紧要，微控制器的工作与成熟的语音识别一样好。由于不需要将请求发送到某个远程服务器，因此响应也可能会更快。与基于云的解决方案相比，设备上语音识别的主要优势在于不需要互联网连接，您可以获得更快的响应，并且由于您的所有语音数据都保留在本地，因此提供了更高级别的隐私和安全性。

对于只需要简单单词命令的产品，在设备上进行所有语音识别几乎总是更容易且更简单。基于云的语音识别目前，Google Assistant 和 Amazon Alexa 是两个主要的基于云的解决方案。但 Alexa 目前可用于更多产品，而且速度并没有放缓。那你怎么选？ ShadeCraft 的首席执行官 Armen Gharabegian 表示，他们选择 Alexa 而不是谷歌语音来开发他们的语音控制花园雨伞，因为“它更容易集成”。

三字平特

结论语音识别终于成为了主流，而且发展势头迅猛。越来越多的公司将语音功能整合到他们的产品中。对于简单的产品或没有互联网连接的产品，您最好的选择是实施简单的语音命令，所有处理都在设备上本地完成。更高性能的微控制器通常可以通过语音分析阶段执行语音分析。需要完整语音识别的复杂产品通常需要基于云的解决方案。基于云的语音识别系统将执行复杂语音识别功能所需的句法和语义分析。基于云的解决方案通常需要高性能微处理器或数字信号处理器 (DSP) 来在本地执行必要的预处理步骤。

返回顶部

上一条: 单片机(MCU)微控制器单元中内部 RC 振荡器的优缺点

下一条: 适用于电子玩具IC芯片录音机的耐用声音模块120 秒录音播放