基于C55xx C674x 和 PCM1864 语音识别 前端语音处理解决方案(1)
Loading the player...
将在30s后自动为您播放下一课程
嗯 我这部分跟大家简单介绍一下 TI现在 在这个语音识别上面做的一些工作 大家应该有所了解 这个语音识别最近还是比较火啊 莫过于亚马逊的 Apple 以及我们这边的京东 以及另外的像智能的 一些家电 比如说 电视 空调 可能将来会出现更多的 这种语音控制的家用电器 嗯 这些就是TI 的 处理器方面有很多 从低端到高端 从便宜的到非常贵的各种的这个器件 我们 就我所在的 是在这个部分 啊 这个processor 像WCS以及MCU这些啊 是 在TI 都是属于不同的部门 所以这个器件对于你们来说呢 如果你找TI 的支持 那就是找processors 找我或者是 像刚才Danny这种同事 属于一个Processor Team的 像MCU呢 是一个MCU Team的 WCS呢 是无线啊 是另外一个Team的 这都是在TI内部是有 互相要沟通的 嗯 像刚才嗯那个 工业总线啊 Sitara啊 Sitara系列都有一些工作 我们另外的 大家可能都知道 TI 以前最著名的一个就是 DSP 后来这个处理器的一块 ARM在发展 TI也在ARM上面有很多的产品 提一句其实就是 TI在 ARM上面是一直以来是 最大的ARM的客户 因为TI在以前是在手机上面 3G之前的手机 GSM那一代 那是TI的 基本上都是TI的平台 诺基亚 呀 那个 摩托罗拉 都是TI的平台 那里面 也是ARM+DSP的芯片 OMAP系列 那里面就有ARM 可是那时候 TI 没有把它做单独的ARM芯片 像三星啊 什么的 做一个单独的ARM芯片 这样来做一个产品 所以说 大家可能 对TI在ARM上面的这个 工作 印象深不深刻 嗯 也没什么 记住TI是做DSP的 就好了 因为我是做DSP的 呵呵 现在呢 就是TI在软件上面 因为 尤其在以前 嗯 在 或者说 八年吧 十年以前 TI其实光做DSP 那个 在DSP上面的提供的软件呢 不是那么丰富 因为那个时候 这个软件的生态系统 也 要求也没有那么多 然后 ARM之后呢 Linux等等一些操作系统的出现 所以 大家对软件的需求 依赖性就越来越强了 希望可以重用 以前没这个概念 以前都是自己拿个 芯片过来自己开发 所以说 现在TI这个要求 所以 TI呢 这个软件也越来越丰富了 嗯 中间经历了很多各种各样的SDK 软件开发包 现在呢 TI全部 所有的软件都集成到一个叫Processor SDK 不管是RTOS的或者是裸跑的 RTOS的 现在 其实呢 嗯 RTOS就是 DSP BIOS 但是它里面相同的驱动呢 它其实没有做成 跟 TI的BIOS管理器 那个 差不多系统要求的那个驱动 其实你可以把它单独拎起来用 另外 Linux的就不说了 嗯 有的熟悉 所以说 再一个好处呢就是 你用TI的平台 不同的这个软件包去 组件啊 结构啊 内容 都会比较熟悉 继承性比较强 这页就切到我要讲的 这个 这个topic的主题 的语音识别系统 嗯 这张图呢就是 一个总体的一个流程 不管怎样的语音识别系统 首先是一个输入 也是 呃 比如说是 模拟麦克风的话就要加ADC 要是数字麦克风的话 就直接出来就是I2S信号再做PDM处理转成数字信号 接到一个处理器 通过I2S接口进来 嗯 因为你 因为 目前市面上 已经进来就是两个麦克 目前市面上就是说 在收录的那些产品 尽管是两麦 两麦的话 就是 性能还不是那么好 其实大家都不满意 但是呢 没有的选择的选择 所以说在两麦克的基础上呢 大家 提出了多麦克这么一个效果 更好的这么一个产品 那就是多麦克来实现 多麦克实现呢 前面借助一个算法叫Beamforming 做一个波束合成 然后呢 再做降噪 因为采进来的有各种各样的噪声 背景噪声也好 怎么样也好 要降噪 然后呢 如果是 不是做本地识别 是做云端去识别呢 还要做一个编码 这个DPUS是做一个打包 可以根据云的需求 云需要的格式打一个包 然后送给后面的网络部分 呃 访问网络的部分 访问网络部分看你的需求啊 你可以一个简单的 呃 一个MCU也可以 那个复杂的ARM处理器也可以 基于你的那个部分 还要做额外的功能 可以简单可以复杂 然后到云端 让云端去识别 云端识别之后 把识别结果就返回来 到本地 也是说 也就是说 感觉到控制呢 那可能就要控制起IO 或者应用软件 你看看我在做什么 嗯 还是说 你只是down下来听 比如说 像那个Smart Speaker 智能音箱 那个是说 你要听什么歌 直接跟它说 我要听什么歌 然后云端 识别之后 云端把那个歌直接送下来 让你本地再放 嗯 就这样 比如说控制 空调 要开机关机 或调什么温度 或者是看电视 你要调到哪个台 还有识别之后 根据本地 识别的结果来控制本地的一个动作 就是说 不管这是用哪个平台实现 总的流程 云识别系统 都是这种一样的 只是说 这一块识别呢 你有可能是弄到云端去识别 或者说 你是在本地识别 那在你来说 啊 的能力 因为识别这一块呢 相对是里面的DSP 嗯 两块里面的呢 重要的一块 一块就是前面我们的这个 前处理 然后 后面一块呢就是识别 识别可以在本地做 也可以在云端去做 有的现在你 市面上 在做的方案 有像科达讯飞之类的 都是弄到云端去 在云端去识别 比如说 那个手机上的那个Strategy 或者说别的 都是到云端去识别 不是在本地手机上识别的 如果在本地呢 那就是说会 相应的会 快一点啊 显得会快一些 云呢它有它的一些好处 就是说 慢一点呢 它是 它有可能准确度会高一些 云的运算能力强 它的神经网络 之类的 它可以做得相对更强一些 就是实际能力会好一些 嗯 准确度好一点 嗯 当然最终 都是算法实现 算法实现是个选择 从来没有一个绝对的一定好的实现 还有一些数据限制 就是说 你的产品的需求 简单来说 是在互联网之间 是吧 最起码你需要 能够访问网络的东西 你是有线的话还是说无线 无线还要加一个无线的 芯片 嗯 有这个成本的 那你的成本是怎么定义的 对于我们来说 就是TI来说呢 我是 我们是 卖处理器和DSP的 这一块呢 我们推荐就是说 我们的DSP 是适合于做这个东西的 因为目前 为什么说呢 因为 嗯 当然 嗯 总的来说啊 只要是个处理器 有软件库 那都能做 是吧 也没有说一定 是用TI你能做 ATI不能做 那就没道理呀 呵呵 又不能说王婆卖瓜 是吧 只是说呢 我们DSP呢 确实适合于做这个东西 而且我们在上面也做了很多的工作 嗯 模拟这边就是 模拟声音进来了 我们有这个 四合一的一个1864的ADC 比如说做8个麦克呢 那就用两片就行了 四个麦克呢 用一片就行了 通常呢 对于这个云识别呢 大家关心的就是说 希望它准确 嗯 响应快 嗯 对它的这个性能的影响 通常是 什么 造成 通常是造成 呃 当然如果在安静的环境下 其实目前你是两麦克 还是四麦克 可能关系其实并不大 并不大 因为它噪声不大 背景噪声不大的话 它设备空间就是说五米还是说七米的距离 体现不出来 这个 安静的环境下 但是在噪声环境下 那就会很明显了 你比如说 两麦的也许就是说两三米 甚至于 就是 你站在桌子前那种一米的距离 就顶天了 在这种环境下 但是呢 你通过四麦克或者是七麦克这种 那可以达到七米开外 它还能够正常使用 识别 就是说 嗯 如果提高这个准确度 那首先 就是说 通过麦克风阵列 因为通过麦克风阵列呢 它是波束合成的这个算法的话 一定指向性 然后 定位到你说话人的方向 然后就屏蔽掉 你的这个方向之外的噪声 它就以这个原理来提高它的 实音的这个 精度 或者说能量 然后 通过这个 这个空间滤波啊 然后 还有一个 呃 呃 降噪 降噪 还有回声消除 因为在那种尤其是 智能音箱这种应用 声音是一直在放的 还有比如说电视机 它也是一直在放的 你不可能说 我要先把声音调低 或者调成静音 我再跟它说 这个用户体验不好 那不要说做了 没人愿意去 你要很现实的 要有人愿意去用啊 加这个功能本来是要 提高人家的便捷性 所以说 这些功能都要加进去 降噪可能要看效果 放进去 回声消除的话 那肯定就是说 你要给它一路参考的信号 或是依这种声音频率 给它一个参考的信号 在麦克风采进来的时候 通过这个参考信号之后 采进来的这里面 那一部分的声音是放出去的 是希望被采集到 云端或者后面识别器件去处理 所以说它 涉及到很多的算法在这里面 事实上这么一个 看上去简单的东西 它涉及到很多算法在里面 因为它每一个算法很多来说呢 你 你从不同的角度 或是 怎么样的角度呢 好像都不是那么容易 不是一个通用的 甚至说 或者 有些是一个研究的空白 或是一个已经解决了的东西 但是要做成产品的话呢 它要考虑到他的一个 嗯 稳定性或者说 可靠性 质量到底怎么样 比如说 在不同的房间 房间的大小 这个 嗯 墙面高度 因为涉及它的反射的不同 这些噪声 它的滤除的 噪声的自适应器 要做得好 因为你在房间里 比如说像这个房间 诶 这个房间可能还好 像这些 有些墙面比较光滑 比如玻璃房子 那个它的反射率很强 那你在这个里面 所以 其实 还怕里面没有地方 范围很小 要把这些东西都反射回来 不然你从它的角度 它采得是很快的 我们听 人听无所谓 有点反射 我后面跟你说的啥 它采进去的那个就是 这前后叠起来的声音 它可能会分辨不出来的 所以要有风险要去掉 从算法层 嗯 从这个云识别系统的 角度呢 第一个 比如说 嗯 那个智能音箱的话呢 第一个 唤醒 要把它唤醒 因为你不能让它一直在身边 尤其是那种可对话的 那种音箱 那种可对话的 你跟它说什么 它就从云端 找到下一个资源 告诉你是什么样的天气 它就告诉你天气怎么样等等之类的 嗯 所以说 一定要有一个唤醒词 不然的话 你把它放在电视机前的话 那它就一直在说来说去 跟电视机 是吧 所以就像 Apple HomePod 京东 把它唤醒 然后是否支持你本地的命令 像那些智能家居的话 那可能要加些本地的识别 本地的控制 不是说什么东西都要到云端去 你比如说开机关机 超过什么温度 希望在本地设置就好了 可能会方便一点 因为到云端里有可能延时 然后说了一句 过后一两秒才响应 你会感觉怪怪的 虽然它也实现了 不过它感觉有点怪 另外一些东西 资讯的那些东西呢 那可能只能从云端了 比如你要听首歌 或者是查询什么信息的话 那从云端可以 呵 预处理呵 其实这就是 我这个topic呢 就是说要 重点介绍的 TI的 在预处理里做的一些工作 对一个系统来说 基本上就是加起来 当然了你可以从这个把它分隔开 预处理加上后面的时延 或者是云访问 因为这部分是 可以是一个小ARM 也可以是一个大ARM来实现 然后 WiFi 啊什么之类的 前面这一部分呢 你就是说 用一个DSP 做一个预处理 把声音滤干净 送给后面的你去做实验
嗯 我这部分跟大家简单介绍一下 TI现在 在这个语音识别上面做的一些工作 大家应该有所了解 这个语音识别最近还是比较火啊 莫过于亚马逊的 Apple 以及我们这边的京东 以及另外的像智能的 一些家电 比如说 电视 空调 可能将来会出现更多的 这种语音控制的家用电器 嗯 这些就是TI 的 处理器方面有很多 从低端到高端 从便宜的到非常贵的各种的这个器件 我们 就我所在的 是在这个部分 啊 这个processor 像WCS以及MCU这些啊 是 在TI 都是属于不同的部门 所以这个器件对于你们来说呢 如果你找TI 的支持 那就是找processors 找我或者是 像刚才Danny这种同事 属于一个Processor Team的 像MCU呢 是一个MCU Team的 WCS呢 是无线啊 是另外一个Team的 这都是在TI内部是有 互相要沟通的 嗯 像刚才嗯那个 工业总线啊 Sitara啊 Sitara系列都有一些工作 我们另外的 大家可能都知道 TI 以前最著名的一个就是 DSP 后来这个处理器的一块 ARM在发展 TI也在ARM上面有很多的产品 提一句其实就是 TI在 ARM上面是一直以来是 最大的ARM的客户 因为TI在以前是在手机上面 3G之前的手机 GSM那一代 那是TI的 基本上都是TI的平台 诺基亚 呀 那个 摩托罗拉 都是TI的平台 那里面 也是ARM+DSP的芯片 OMAP系列 那里面就有ARM 可是那时候 TI 没有把它做单独的ARM芯片 像三星啊 什么的 做一个单独的ARM芯片 这样来做一个产品 所以说 大家可能 对TI在ARM上面的这个 工作 印象深不深刻 嗯 也没什么 记住TI是做DSP的 就好了 因为我是做DSP的 呵呵 现在呢 就是TI在软件上面 因为 尤其在以前 嗯 在 或者说 八年吧 十年以前 TI其实光做DSP 那个 在DSP上面的提供的软件呢 不是那么丰富 因为那个时候 这个软件的生态系统 也 要求也没有那么多 然后 ARM之后呢 Linux等等一些操作系统的出现 所以 大家对软件的需求 依赖性就越来越强了 希望可以重用 以前没这个概念 以前都是自己拿个 芯片过来自己开发 所以说 现在TI这个要求 所以 TI呢 这个软件也越来越丰富了 嗯 中间经历了很多各种各样的SDK 软件开发包 现在呢 TI全部 所有的软件都集成到一个叫Processor SDK 不管是RTOS的或者是裸跑的 RTOS的 现在 其实呢 嗯 RTOS就是 DSP BIOS 但是它里面相同的驱动呢 它其实没有做成 跟 TI的BIOS管理器 那个 差不多系统要求的那个驱动 其实你可以把它单独拎起来用 另外 Linux的就不说了 嗯 有的熟悉 所以说 再一个好处呢就是 你用TI的平台 不同的这个软件包去 组件啊 结构啊 内容 都会比较熟悉 继承性比较强 这页就切到我要讲的 这个 这个topic的主题 的语音识别系统 嗯 这张图呢就是 一个总体的一个流程 不管怎样的语音识别系统 首先是一个输入 也是 呃 比如说是 模拟麦克风的话就要加ADC 要是数字麦克风的话 就直接出来就是I2S信号再做PDM处理转成数字信号 接到一个处理器 通过I2S接口进来 嗯 因为你 因为 目前市面上 已经进来就是两个麦克 目前市面上就是说 在收录的那些产品 尽管是两麦 两麦的话 就是 性能还不是那么好 其实大家都不满意 但是呢 没有的选择的选择 所以说在两麦克的基础上呢 大家 提出了多麦克这么一个效果 更好的这么一个产品 那就是多麦克来实现 多麦克实现呢 前面借助一个算法叫Beamforming 做一个波束合成 然后呢 再做降噪 因为采进来的有各种各样的噪声 背景噪声也好 怎么样也好 要降噪 然后呢 如果是 不是做本地识别 是做云端去识别呢 还要做一个编码 这个DPUS是做一个打包 可以根据云的需求 云需要的格式打一个包 然后送给后面的网络部分 呃 访问网络的部分 访问网络部分看你的需求啊 你可以一个简单的 呃 一个MCU也可以 那个复杂的ARM处理器也可以 基于你的那个部分 还要做额外的功能 可以简单可以复杂 然后到云端 让云端去识别 云端识别之后 把识别结果就返回来 到本地 也是说 也就是说 感觉到控制呢 那可能就要控制起IO 或者应用软件 你看看我在做什么 嗯 还是说 你只是down下来听 比如说 像那个Smart Speaker 智能音箱 那个是说 你要听什么歌 直接跟它说 我要听什么歌 然后云端 识别之后 云端把那个歌直接送下来 让你本地再放 嗯 就这样 比如说控制 空调 要开机关机 或调什么温度 或者是看电视 你要调到哪个台 还有识别之后 根据本地 识别的结果来控制本地的一个动作 就是说 不管这是用哪个平台实现 总的流程 云识别系统 都是这种一样的 只是说 这一块识别呢 你有可能是弄到云端去识别 或者说 你是在本地识别 那在你来说 啊 的能力 因为识别这一块呢 相对是里面的DSP 嗯 两块里面的呢 重要的一块 一块就是前面我们的这个 前处理 然后 后面一块呢就是识别 识别可以在本地做 也可以在云端去做 有的现在你 市面上 在做的方案 有像科达讯飞之类的 都是弄到云端去 在云端去识别 比如说 那个手机上的那个Strategy 或者说别的 都是到云端去识别 不是在本地手机上识别的 如果在本地呢 那就是说会 相应的会 快一点啊 显得会快一些 云呢它有它的一些好处 就是说 慢一点呢 它是 它有可能准确度会高一些 云的运算能力强 它的神经网络 之类的 它可以做得相对更强一些 就是实际能力会好一些 嗯 准确度好一点 嗯 当然最终 都是算法实现 算法实现是个选择 从来没有一个绝对的一定好的实现 还有一些数据限制 就是说 你的产品的需求 简单来说 是在互联网之间 是吧 最起码你需要 能够访问网络的东西 你是有线的话还是说无线 无线还要加一个无线的 芯片 嗯 有这个成本的 那你的成本是怎么定义的 对于我们来说 就是TI来说呢 我是 我们是 卖处理器和DSP的 这一块呢 我们推荐就是说 我们的DSP 是适合于做这个东西的 因为目前 为什么说呢 因为 嗯 当然 嗯 总的来说啊 只要是个处理器 有软件库 那都能做 是吧 也没有说一定 是用TI你能做 ATI不能做 那就没道理呀 呵呵 又不能说王婆卖瓜 是吧 只是说呢 我们DSP呢 确实适合于做这个东西 而且我们在上面也做了很多的工作 嗯 模拟这边就是 模拟声音进来了 我们有这个 四合一的一个1864的ADC 比如说做8个麦克呢 那就用两片就行了 四个麦克呢 用一片就行了 通常呢 对于这个云识别呢 大家关心的就是说 希望它准确 嗯 响应快 嗯 对它的这个性能的影响 通常是 什么 造成 通常是造成 呃 当然如果在安静的环境下 其实目前你是两麦克 还是四麦克 可能关系其实并不大 并不大 因为它噪声不大 背景噪声不大的话 它设备空间就是说五米还是说七米的距离 体现不出来 这个 安静的环境下 但是在噪声环境下 那就会很明显了 你比如说 两麦的也许就是说两三米 甚至于 就是 你站在桌子前那种一米的距离 就顶天了 在这种环境下 但是呢 你通过四麦克或者是七麦克这种 那可以达到七米开外 它还能够正常使用 识别 就是说 嗯 如果提高这个准确度 那首先 就是说 通过麦克风阵列 因为通过麦克风阵列呢 它是波束合成的这个算法的话 一定指向性 然后 定位到你说话人的方向 然后就屏蔽掉 你的这个方向之外的噪声 它就以这个原理来提高它的 实音的这个 精度 或者说能量 然后 通过这个 这个空间滤波啊 然后 还有一个 呃 呃 降噪 降噪 还有回声消除 因为在那种尤其是 智能音箱这种应用 声音是一直在放的 还有比如说电视机 它也是一直在放的 你不可能说 我要先把声音调低 或者调成静音 我再跟它说 这个用户体验不好 那不要说做了 没人愿意去 你要很现实的 要有人愿意去用啊 加这个功能本来是要 提高人家的便捷性 所以说 这些功能都要加进去 降噪可能要看效果 放进去 回声消除的话 那肯定就是说 你要给它一路参考的信号 或是依这种声音频率 给它一个参考的信号 在麦克风采进来的时候 通过这个参考信号之后 采进来的这里面 那一部分的声音是放出去的 是希望被采集到 云端或者后面识别器件去处理 所以说它 涉及到很多的算法在这里面 事实上这么一个 看上去简单的东西 它涉及到很多算法在里面 因为它每一个算法很多来说呢 你 你从不同的角度 或是 怎么样的角度呢 好像都不是那么容易 不是一个通用的 甚至说 或者 有些是一个研究的空白 或是一个已经解决了的东西 但是要做成产品的话呢 它要考虑到他的一个 嗯 稳定性或者说 可靠性 质量到底怎么样 比如说 在不同的房间 房间的大小 这个 嗯 墙面高度 因为涉及它的反射的不同 这些噪声 它的滤除的 噪声的自适应器 要做得好 因为你在房间里 比如说像这个房间 诶 这个房间可能还好 像这些 有些墙面比较光滑 比如玻璃房子 那个它的反射率很强 那你在这个里面 所以 其实 还怕里面没有地方 范围很小 要把这些东西都反射回来 不然你从它的角度 它采得是很快的 我们听 人听无所谓 有点反射 我后面跟你说的啥 它采进去的那个就是 这前后叠起来的声音 它可能会分辨不出来的 所以要有风险要去掉 从算法层 嗯 从这个云识别系统的 角度呢 第一个 比如说 嗯 那个智能音箱的话呢 第一个 唤醒 要把它唤醒 因为你不能让它一直在身边 尤其是那种可对话的 那种音箱 那种可对话的 你跟它说什么 它就从云端 找到下一个资源 告诉你是什么样的天气 它就告诉你天气怎么样等等之类的 嗯 所以说 一定要有一个唤醒词 不然的话 你把它放在电视机前的话 那它就一直在说来说去 跟电视机 是吧 所以就像 Apple HomePod 京东 把它唤醒 然后是否支持你本地的命令 像那些智能家居的话 那可能要加些本地的识别 本地的控制 不是说什么东西都要到云端去 你比如说开机关机 超过什么温度 希望在本地设置就好了 可能会方便一点 因为到云端里有可能延时 然后说了一句 过后一两秒才响应 你会感觉怪怪的 虽然它也实现了 不过它感觉有点怪 另外一些东西 资讯的那些东西呢 那可能只能从云端了 比如你要听首歌 或者是查询什么信息的话 那从云端可以 呵 预处理呵 其实这就是 我这个topic呢 就是说要 重点介绍的 TI的 在预处理里做的一些工作 对一个系统来说 基本上就是加起来 当然了你可以从这个把它分隔开 预处理加上后面的时延 或者是云访问 因为这部分是 可以是一个小ARM 也可以是一个大ARM来实现 然后 WiFi 啊什么之类的 前面这一部分呢 你就是说 用一个DSP 做一个预处理 把声音滤干净 送给后面的你去做实验
嗯 我这部分跟大家简单介绍一下
TI现在 在这个语音识别上面做的一些工作
大家应该有所了解 这个语音识别最近还是比较火啊
莫过于亚马逊的 Apple 以及我们这边的京东
以及另外的像智能的 一些家电 比如说
电视 空调 可能将来会出现更多的 这种语音控制的家用电器
嗯 这些就是TI 的 处理器方面有很多
从低端到高端 从便宜的到非常贵的各种的这个器件
我们 就我所在的
是在这个部分 啊 这个processor
像WCS以及MCU这些啊 是
在TI 都是属于不同的部门
所以这个器件对于你们来说呢 如果你找TI 的支持
那就是找processors 找我或者是 像刚才Danny这种同事
属于一个Processor Team的
像MCU呢 是一个MCU Team的
WCS呢 是无线啊 是另外一个Team的
这都是在TI内部是有 互相要沟通的
嗯 像刚才嗯那个 工业总线啊 Sitara啊
Sitara系列都有一些工作
我们另外的 大家可能都知道
TI 以前最著名的一个就是
DSP 后来这个处理器的一块
ARM在发展 TI也在ARM上面有很多的产品
提一句其实就是 TI在 ARM上面是一直以来是
最大的ARM的客户
因为TI在以前是在手机上面
3G之前的手机 GSM那一代
那是TI的 基本上都是TI的平台
诺基亚 呀 那个 摩托罗拉 都是TI的平台
那里面 也是ARM+DSP的芯片
OMAP系列 那里面就有ARM
可是那时候 TI 没有把它做单独的ARM芯片 像三星啊
什么的 做一个单独的ARM芯片 这样来做一个产品
所以说 大家可能 对TI在ARM上面的这个
工作 印象深不深刻 嗯 也没什么
记住TI是做DSP的 就好了
因为我是做DSP的 呵呵
现在呢 就是TI在软件上面 因为 尤其在以前 嗯
在 或者说 八年吧 十年以前
TI其实光做DSP 那个
在DSP上面的提供的软件呢 不是那么丰富
因为那个时候 这个软件的生态系统
也 要求也没有那么多
然后 ARM之后呢
Linux等等一些操作系统的出现
所以 大家对软件的需求 依赖性就越来越强了
希望可以重用 以前没这个概念
以前都是自己拿个 芯片过来自己开发
所以说 现在TI这个要求
所以 TI呢 这个软件也越来越丰富了
嗯 中间经历了很多各种各样的SDK
软件开发包 现在呢
TI全部 所有的软件都集成到一个叫Processor SDK
不管是RTOS的或者是裸跑的
RTOS的 现在 其实呢 嗯 RTOS就是
DSP BIOS
但是它里面相同的驱动呢
它其实没有做成 跟
TI的BIOS管理器 那个 差不多系统要求的那个驱动
其实你可以把它单独拎起来用
另外 Linux的就不说了
嗯 有的熟悉
所以说 再一个好处呢就是
你用TI的平台 不同的这个软件包去
组件啊 结构啊 内容 都会比较熟悉
继承性比较强
这页就切到我要讲的 这个 这个topic的主题
的语音识别系统
嗯 这张图呢就是 一个总体的一个流程
不管怎样的语音识别系统
首先是一个输入 也是 呃
比如说是 模拟麦克风的话就要加ADC
要是数字麦克风的话 就直接出来就是I2S信号再做PDM处理转成数字信号
接到一个处理器 通过I2S接口进来
嗯 因为你 因为 目前市面上 已经进来就是两个麦克
目前市面上就是说 在收录的那些产品
尽管是两麦 两麦的话 就是
性能还不是那么好 其实大家都不满意
但是呢 没有的选择的选择
所以说在两麦克的基础上呢 大家
提出了多麦克这么一个效果 更好的这么一个产品
那就是多麦克来实现 多麦克实现呢 前面借助一个算法叫Beamforming
做一个波束合成 然后呢 再做降噪
因为采进来的有各种各样的噪声
背景噪声也好
怎么样也好 要降噪
然后呢 如果是 不是做本地识别
是做云端去识别呢 还要做一个编码
这个DPUS是做一个打包
可以根据云的需求 云需要的格式打一个包
然后送给后面的网络部分 呃
访问网络的部分 访问网络部分看你的需求啊
你可以一个简单的 呃 一个MCU也可以
那个复杂的ARM处理器也可以
基于你的那个部分 还要做额外的功能
可以简单可以复杂 然后到云端 让云端去识别
云端识别之后 把识别结果就返回来
到本地 也是说
也就是说 感觉到控制呢
那可能就要控制起IO 或者应用软件
你看看我在做什么 嗯 还是说
你只是down下来听 比如说
像那个Smart Speaker 智能音箱
那个是说 你要听什么歌 直接跟它说 我要听什么歌
然后云端 识别之后 云端把那个歌直接送下来
让你本地再放 嗯 就这样
比如说控制 空调 要开机关机 或调什么温度
或者是看电视 你要调到哪个台
还有识别之后 根据本地 识别的结果来控制本地的一个动作
就是说 不管这是用哪个平台实现
总的流程 云识别系统 都是这种一样的
只是说 这一块识别呢
你有可能是弄到云端去识别
或者说 你是在本地识别
那在你来说 啊 的能力
因为识别这一块呢 相对是里面的DSP
嗯 两块里面的呢 重要的一块
一块就是前面我们的这个 前处理
然后 后面一块呢就是识别
识别可以在本地做 也可以在云端去做
有的现在你 市面上 在做的方案 有像科达讯飞之类的
都是弄到云端去 在云端去识别
比如说 那个手机上的那个Strategy 或者说别的
都是到云端去识别 不是在本地手机上识别的
如果在本地呢 那就是说会 相应的会
快一点啊 显得会快一些
云呢它有它的一些好处 就是说 慢一点呢 它是
它有可能准确度会高一些
云的运算能力强 它的神经网络 之类的
它可以做得相对更强一些
就是实际能力会好一些 嗯 准确度好一点
嗯 当然最终 都是算法实现
算法实现是个选择 从来没有一个绝对的一定好的实现
还有一些数据限制 就是说 你的产品的需求
简单来说 是在互联网之间 是吧
最起码你需要 能够访问网络的东西
你是有线的话还是说无线 无线还要加一个无线的
芯片 嗯 有这个成本的
那你的成本是怎么定义的
对于我们来说 就是TI来说呢 我是
我们是 卖处理器和DSP的
这一块呢 我们推荐就是说 我们的DSP
是适合于做这个东西的 因为目前 为什么说呢
因为 嗯 当然 嗯 总的来说啊
只要是个处理器 有软件库
那都能做 是吧 也没有说一定 是用TI你能做
ATI不能做 那就没道理呀
呵呵 又不能说王婆卖瓜 是吧
只是说呢 我们DSP呢
确实适合于做这个东西
而且我们在上面也做了很多的工作
嗯 模拟这边就是 模拟声音进来了 我们有这个
四合一的一个1864的ADC
比如说做8个麦克呢 那就用两片就行了
四个麦克呢 用一片就行了
通常呢 对于这个云识别呢 大家关心的就是说
希望它准确 嗯 响应快
嗯 对它的这个性能的影响
通常是 什么 造成 通常是造成
呃 当然如果在安静的环境下
其实目前你是两麦克 还是四麦克 可能关系其实并不大
并不大 因为它噪声不大 背景噪声不大的话
它设备空间就是说五米还是说七米的距离
体现不出来 这个 安静的环境下
但是在噪声环境下 那就会很明显了
你比如说 两麦的也许就是说两三米
甚至于 就是 你站在桌子前那种一米的距离
就顶天了 在这种环境下 但是呢
你通过四麦克或者是七麦克这种
那可以达到七米开外 它还能够正常使用 识别
就是说 嗯 如果提高这个准确度
那首先 就是说
通过麦克风阵列 因为通过麦克风阵列呢
它是波束合成的这个算法的话
一定指向性 然后 定位到你说话人的方向
然后就屏蔽掉 你的这个方向之外的噪声
它就以这个原理来提高它的
实音的这个 精度 或者说能量
然后 通过这个 这个空间滤波啊
然后 还有一个 呃 呃 降噪
降噪 还有回声消除
因为在那种尤其是 智能音箱这种应用
声音是一直在放的
还有比如说电视机 它也是一直在放的
你不可能说 我要先把声音调低 或者调成静音
我再跟它说 这个用户体验不好
那不要说做了 没人愿意去 你要很现实的 要有人愿意去用啊
加这个功能本来是要 提高人家的便捷性
所以说 这些功能都要加进去
降噪可能要看效果 放进去
回声消除的话 那肯定就是说 你要给它一路参考的信号
或是依这种声音频率 给它一个参考的信号
在麦克风采进来的时候
通过这个参考信号之后
采进来的这里面 那一部分的声音是放出去的
是希望被采集到 云端或者后面识别器件去处理
所以说它 涉及到很多的算法在这里面
事实上这么一个 看上去简单的东西
它涉及到很多算法在里面 因为它每一个算法很多来说呢
你 你从不同的角度 或是 怎么样的角度呢 好像都不是那么容易
不是一个通用的 甚至说
或者 有些是一个研究的空白 或是一个已经解决了的东西
但是要做成产品的话呢 它要考虑到他的一个 嗯
稳定性或者说 可靠性 质量到底怎么样
比如说 在不同的房间 房间的大小
这个 嗯 墙面高度 因为涉及它的反射的不同
这些噪声 它的滤除的
噪声的自适应器
要做得好 因为你在房间里 比如说像这个房间
诶 这个房间可能还好 像这些
有些墙面比较光滑 比如玻璃房子 那个它的反射率很强
那你在这个里面 所以 其实
还怕里面没有地方 范围很小
要把这些东西都反射回来
不然你从它的角度 它采得是很快的
我们听 人听无所谓 有点反射 我后面跟你说的啥
它采进去的那个就是 这前后叠起来的声音
它可能会分辨不出来的 所以要有风险要去掉 从算法层
嗯 从这个云识别系统的
角度呢 第一个 比如说
嗯 那个智能音箱的话呢 第一个 唤醒
要把它唤醒 因为你不能让它一直在身边
尤其是那种可对话的 那种音箱 那种可对话的
你跟它说什么 它就从云端 找到下一个资源
告诉你是什么样的天气 它就告诉你天气怎么样等等之类的
嗯 所以说 一定要有一个唤醒词 不然的话
你把它放在电视机前的话 那它就一直在说来说去 跟电视机 是吧
所以就像 Apple HomePod 京东 把它唤醒
然后是否支持你本地的命令
像那些智能家居的话 那可能要加些本地的识别 本地的控制
不是说什么东西都要到云端去
你比如说开机关机
超过什么温度 希望在本地设置就好了
可能会方便一点
因为到云端里有可能延时 然后说了一句
过后一两秒才响应 你会感觉怪怪的
虽然它也实现了 不过它感觉有点怪
另外一些东西 资讯的那些东西呢
那可能只能从云端了
比如你要听首歌 或者是查询什么信息的话
那从云端可以 呵
预处理呵 其实这就是 我这个topic呢 就是说要
重点介绍的 TI的 在预处理里做的一些工作
对一个系统来说 基本上就是加起来
当然了你可以从这个把它分隔开
预处理加上后面的时延
或者是云访问 因为这部分是
可以是一个小ARM 也可以是一个大ARM来实现
然后 WiFi 啊什么之类的
前面这一部分呢 你就是说
用一个DSP 做一个预处理 把声音滤干净
送给后面的你去做实验
嗯 我这部分跟大家简单介绍一下 TI现在 在这个语音识别上面做的一些工作 大家应该有所了解 这个语音识别最近还是比较火啊 莫过于亚马逊的 Apple 以及我们这边的京东 以及另外的像智能的 一些家电 比如说 电视 空调 可能将来会出现更多的 这种语音控制的家用电器 嗯 这些就是TI 的 处理器方面有很多 从低端到高端 从便宜的到非常贵的各种的这个器件 我们 就我所在的 是在这个部分 啊 这个processor 像WCS以及MCU这些啊 是 在TI 都是属于不同的部门 所以这个器件对于你们来说呢 如果你找TI 的支持 那就是找processors 找我或者是 像刚才Danny这种同事 属于一个Processor Team的 像MCU呢 是一个MCU Team的 WCS呢 是无线啊 是另外一个Team的 这都是在TI内部是有 互相要沟通的 嗯 像刚才嗯那个 工业总线啊 Sitara啊 Sitara系列都有一些工作 我们另外的 大家可能都知道 TI 以前最著名的一个就是 DSP 后来这个处理器的一块 ARM在发展 TI也在ARM上面有很多的产品 提一句其实就是 TI在 ARM上面是一直以来是 最大的ARM的客户 因为TI在以前是在手机上面 3G之前的手机 GSM那一代 那是TI的 基本上都是TI的平台 诺基亚 呀 那个 摩托罗拉 都是TI的平台 那里面 也是ARM+DSP的芯片 OMAP系列 那里面就有ARM 可是那时候 TI 没有把它做单独的ARM芯片 像三星啊 什么的 做一个单独的ARM芯片 这样来做一个产品 所以说 大家可能 对TI在ARM上面的这个 工作 印象深不深刻 嗯 也没什么 记住TI是做DSP的 就好了 因为我是做DSP的 呵呵 现在呢 就是TI在软件上面 因为 尤其在以前 嗯 在 或者说 八年吧 十年以前 TI其实光做DSP 那个 在DSP上面的提供的软件呢 不是那么丰富 因为那个时候 这个软件的生态系统 也 要求也没有那么多 然后 ARM之后呢 Linux等等一些操作系统的出现 所以 大家对软件的需求 依赖性就越来越强了 希望可以重用 以前没这个概念 以前都是自己拿个 芯片过来自己开发 所以说 现在TI这个要求 所以 TI呢 这个软件也越来越丰富了 嗯 中间经历了很多各种各样的SDK 软件开发包 现在呢 TI全部 所有的软件都集成到一个叫Processor SDK 不管是RTOS的或者是裸跑的 RTOS的 现在 其实呢 嗯 RTOS就是 DSP BIOS 但是它里面相同的驱动呢 它其实没有做成 跟 TI的BIOS管理器 那个 差不多系统要求的那个驱动 其实你可以把它单独拎起来用 另外 Linux的就不说了 嗯 有的熟悉 所以说 再一个好处呢就是 你用TI的平台 不同的这个软件包去 组件啊 结构啊 内容 都会比较熟悉 继承性比较强 这页就切到我要讲的 这个 这个topic的主题 的语音识别系统 嗯 这张图呢就是 一个总体的一个流程 不管怎样的语音识别系统 首先是一个输入 也是 呃 比如说是 模拟麦克风的话就要加ADC 要是数字麦克风的话 就直接出来就是I2S信号再做PDM处理转成数字信号 接到一个处理器 通过I2S接口进来 嗯 因为你 因为 目前市面上 已经进来就是两个麦克 目前市面上就是说 在收录的那些产品 尽管是两麦 两麦的话 就是 性能还不是那么好 其实大家都不满意 但是呢 没有的选择的选择 所以说在两麦克的基础上呢 大家 提出了多麦克这么一个效果 更好的这么一个产品 那就是多麦克来实现 多麦克实现呢 前面借助一个算法叫Beamforming 做一个波束合成 然后呢 再做降噪 因为采进来的有各种各样的噪声 背景噪声也好 怎么样也好 要降噪 然后呢 如果是 不是做本地识别 是做云端去识别呢 还要做一个编码 这个DPUS是做一个打包 可以根据云的需求 云需要的格式打一个包 然后送给后面的网络部分 呃 访问网络的部分 访问网络部分看你的需求啊 你可以一个简单的 呃 一个MCU也可以 那个复杂的ARM处理器也可以 基于你的那个部分 还要做额外的功能 可以简单可以复杂 然后到云端 让云端去识别 云端识别之后 把识别结果就返回来 到本地 也是说 也就是说 感觉到控制呢 那可能就要控制起IO 或者应用软件 你看看我在做什么 嗯 还是说 你只是down下来听 比如说 像那个Smart Speaker 智能音箱 那个是说 你要听什么歌 直接跟它说 我要听什么歌 然后云端 识别之后 云端把那个歌直接送下来 让你本地再放 嗯 就这样 比如说控制 空调 要开机关机 或调什么温度 或者是看电视 你要调到哪个台 还有识别之后 根据本地 识别的结果来控制本地的一个动作 就是说 不管这是用哪个平台实现 总的流程 云识别系统 都是这种一样的 只是说 这一块识别呢 你有可能是弄到云端去识别 或者说 你是在本地识别 那在你来说 啊 的能力 因为识别这一块呢 相对是里面的DSP 嗯 两块里面的呢 重要的一块 一块就是前面我们的这个 前处理 然后 后面一块呢就是识别 识别可以在本地做 也可以在云端去做 有的现在你 市面上 在做的方案 有像科达讯飞之类的 都是弄到云端去 在云端去识别 比如说 那个手机上的那个Strategy 或者说别的 都是到云端去识别 不是在本地手机上识别的 如果在本地呢 那就是说会 相应的会 快一点啊 显得会快一些 云呢它有它的一些好处 就是说 慢一点呢 它是 它有可能准确度会高一些 云的运算能力强 它的神经网络 之类的 它可以做得相对更强一些 就是实际能力会好一些 嗯 准确度好一点 嗯 当然最终 都是算法实现 算法实现是个选择 从来没有一个绝对的一定好的实现 还有一些数据限制 就是说 你的产品的需求 简单来说 是在互联网之间 是吧 最起码你需要 能够访问网络的东西 你是有线的话还是说无线 无线还要加一个无线的 芯片 嗯 有这个成本的 那你的成本是怎么定义的 对于我们来说 就是TI来说呢 我是 我们是 卖处理器和DSP的 这一块呢 我们推荐就是说 我们的DSP 是适合于做这个东西的 因为目前 为什么说呢 因为 嗯 当然 嗯 总的来说啊 只要是个处理器 有软件库 那都能做 是吧 也没有说一定 是用TI你能做 ATI不能做 那就没道理呀 呵呵 又不能说王婆卖瓜 是吧 只是说呢 我们DSP呢 确实适合于做这个东西 而且我们在上面也做了很多的工作 嗯 模拟这边就是 模拟声音进来了 我们有这个 四合一的一个1864的ADC 比如说做8个麦克呢 那就用两片就行了 四个麦克呢 用一片就行了 通常呢 对于这个云识别呢 大家关心的就是说 希望它准确 嗯 响应快 嗯 对它的这个性能的影响 通常是 什么 造成 通常是造成 呃 当然如果在安静的环境下 其实目前你是两麦克 还是四麦克 可能关系其实并不大 并不大 因为它噪声不大 背景噪声不大的话 它设备空间就是说五米还是说七米的距离 体现不出来 这个 安静的环境下 但是在噪声环境下 那就会很明显了 你比如说 两麦的也许就是说两三米 甚至于 就是 你站在桌子前那种一米的距离 就顶天了 在这种环境下 但是呢 你通过四麦克或者是七麦克这种 那可以达到七米开外 它还能够正常使用 识别 就是说 嗯 如果提高这个准确度 那首先 就是说 通过麦克风阵列 因为通过麦克风阵列呢 它是波束合成的这个算法的话 一定指向性 然后 定位到你说话人的方向 然后就屏蔽掉 你的这个方向之外的噪声 它就以这个原理来提高它的 实音的这个 精度 或者说能量 然后 通过这个 这个空间滤波啊 然后 还有一个 呃 呃 降噪 降噪 还有回声消除 因为在那种尤其是 智能音箱这种应用 声音是一直在放的 还有比如说电视机 它也是一直在放的 你不可能说 我要先把声音调低 或者调成静音 我再跟它说 这个用户体验不好 那不要说做了 没人愿意去 你要很现实的 要有人愿意去用啊 加这个功能本来是要 提高人家的便捷性 所以说 这些功能都要加进去 降噪可能要看效果 放进去 回声消除的话 那肯定就是说 你要给它一路参考的信号 或是依这种声音频率 给它一个参考的信号 在麦克风采进来的时候 通过这个参考信号之后 采进来的这里面 那一部分的声音是放出去的 是希望被采集到 云端或者后面识别器件去处理 所以说它 涉及到很多的算法在这里面 事实上这么一个 看上去简单的东西 它涉及到很多算法在里面 因为它每一个算法很多来说呢 你 你从不同的角度 或是 怎么样的角度呢 好像都不是那么容易 不是一个通用的 甚至说 或者 有些是一个研究的空白 或是一个已经解决了的东西 但是要做成产品的话呢 它要考虑到他的一个 嗯 稳定性或者说 可靠性 质量到底怎么样 比如说 在不同的房间 房间的大小 这个 嗯 墙面高度 因为涉及它的反射的不同 这些噪声 它的滤除的 噪声的自适应器 要做得好 因为你在房间里 比如说像这个房间 诶 这个房间可能还好 像这些 有些墙面比较光滑 比如玻璃房子 那个它的反射率很强 那你在这个里面 所以 其实 还怕里面没有地方 范围很小 要把这些东西都反射回来 不然你从它的角度 它采得是很快的 我们听 人听无所谓 有点反射 我后面跟你说的啥 它采进去的那个就是 这前后叠起来的声音 它可能会分辨不出来的 所以要有风险要去掉 从算法层 嗯 从这个云识别系统的 角度呢 第一个 比如说 嗯 那个智能音箱的话呢 第一个 唤醒 要把它唤醒 因为你不能让它一直在身边 尤其是那种可对话的 那种音箱 那种可对话的 你跟它说什么 它就从云端 找到下一个资源 告诉你是什么样的天气 它就告诉你天气怎么样等等之类的 嗯 所以说 一定要有一个唤醒词 不然的话 你把它放在电视机前的话 那它就一直在说来说去 跟电视机 是吧 所以就像 Apple HomePod 京东 把它唤醒 然后是否支持你本地的命令 像那些智能家居的话 那可能要加些本地的识别 本地的控制 不是说什么东西都要到云端去 你比如说开机关机 超过什么温度 希望在本地设置就好了 可能会方便一点 因为到云端里有可能延时 然后说了一句 过后一两秒才响应 你会感觉怪怪的 虽然它也实现了 不过它感觉有点怪 另外一些东西 资讯的那些东西呢 那可能只能从云端了 比如你要听首歌 或者是查询什么信息的话 那从云端可以 呵 预处理呵 其实这就是 我这个topic呢 就是说要 重点介绍的 TI的 在预处理里做的一些工作 对一个系统来说 基本上就是加起来 当然了你可以从这个把它分隔开 预处理加上后面的时延 或者是云访问 因为这部分是 可以是一个小ARM 也可以是一个大ARM来实现 然后 WiFi 啊什么之类的 前面这一部分呢 你就是说 用一个DSP 做一个预处理 把声音滤干净 送给后面的你去做实验
嗯 我这部分跟大家简单介绍一下
TI现在 在这个语音识别上面做的一些工作
大家应该有所了解 这个语音识别最近还是比较火啊
莫过于亚马逊的 Apple 以及我们这边的京东
以及另外的像智能的 一些家电 比如说
电视 空调 可能将来会出现更多的 这种语音控制的家用电器
嗯 这些就是TI 的 处理器方面有很多
从低端到高端 从便宜的到非常贵的各种的这个器件
我们 就我所在的
是在这个部分 啊 这个processor
像WCS以及MCU这些啊 是
在TI 都是属于不同的部门
所以这个器件对于你们来说呢 如果你找TI 的支持
那就是找processors 找我或者是 像刚才Danny这种同事
属于一个Processor Team的
像MCU呢 是一个MCU Team的
WCS呢 是无线啊 是另外一个Team的
这都是在TI内部是有 互相要沟通的
嗯 像刚才嗯那个 工业总线啊 Sitara啊
Sitara系列都有一些工作
我们另外的 大家可能都知道
TI 以前最著名的一个就是
DSP 后来这个处理器的一块
ARM在发展 TI也在ARM上面有很多的产品
提一句其实就是 TI在 ARM上面是一直以来是
最大的ARM的客户
因为TI在以前是在手机上面
3G之前的手机 GSM那一代
那是TI的 基本上都是TI的平台
诺基亚 呀 那个 摩托罗拉 都是TI的平台
那里面 也是ARM+DSP的芯片
OMAP系列 那里面就有ARM
可是那时候 TI 没有把它做单独的ARM芯片 像三星啊
什么的 做一个单独的ARM芯片 这样来做一个产品
所以说 大家可能 对TI在ARM上面的这个
工作 印象深不深刻 嗯 也没什么
记住TI是做DSP的 就好了
因为我是做DSP的 呵呵
现在呢 就是TI在软件上面 因为 尤其在以前 嗯
在 或者说 八年吧 十年以前
TI其实光做DSP 那个
在DSP上面的提供的软件呢 不是那么丰富
因为那个时候 这个软件的生态系统
也 要求也没有那么多
然后 ARM之后呢
Linux等等一些操作系统的出现
所以 大家对软件的需求 依赖性就越来越强了
希望可以重用 以前没这个概念
以前都是自己拿个 芯片过来自己开发
所以说 现在TI这个要求
所以 TI呢 这个软件也越来越丰富了
嗯 中间经历了很多各种各样的SDK
软件开发包 现在呢
TI全部 所有的软件都集成到一个叫Processor SDK
不管是RTOS的或者是裸跑的
RTOS的 现在 其实呢 嗯 RTOS就是
DSP BIOS
但是它里面相同的驱动呢
它其实没有做成 跟
TI的BIOS管理器 那个 差不多系统要求的那个驱动
其实你可以把它单独拎起来用
另外 Linux的就不说了
嗯 有的熟悉
所以说 再一个好处呢就是
你用TI的平台 不同的这个软件包去
组件啊 结构啊 内容 都会比较熟悉
继承性比较强
这页就切到我要讲的 这个 这个topic的主题
的语音识别系统
嗯 这张图呢就是 一个总体的一个流程
不管怎样的语音识别系统
首先是一个输入 也是 呃
比如说是 模拟麦克风的话就要加ADC
要是数字麦克风的话 就直接出来就是I2S信号再做PDM处理转成数字信号
接到一个处理器 通过I2S接口进来
嗯 因为你 因为 目前市面上 已经进来就是两个麦克
目前市面上就是说 在收录的那些产品
尽管是两麦 两麦的话 就是
性能还不是那么好 其实大家都不满意
但是呢 没有的选择的选择
所以说在两麦克的基础上呢 大家
提出了多麦克这么一个效果 更好的这么一个产品
那就是多麦克来实现 多麦克实现呢 前面借助一个算法叫Beamforming
做一个波束合成 然后呢 再做降噪
因为采进来的有各种各样的噪声
背景噪声也好
怎么样也好 要降噪
然后呢 如果是 不是做本地识别
是做云端去识别呢 还要做一个编码
这个DPUS是做一个打包
可以根据云的需求 云需要的格式打一个包
然后送给后面的网络部分 呃
访问网络的部分 访问网络部分看你的需求啊
你可以一个简单的 呃 一个MCU也可以
那个复杂的ARM处理器也可以
基于你的那个部分 还要做额外的功能
可以简单可以复杂 然后到云端 让云端去识别
云端识别之后 把识别结果就返回来
到本地 也是说
也就是说 感觉到控制呢
那可能就要控制起IO 或者应用软件
你看看我在做什么 嗯 还是说
你只是down下来听 比如说
像那个Smart Speaker 智能音箱
那个是说 你要听什么歌 直接跟它说 我要听什么歌
然后云端 识别之后 云端把那个歌直接送下来
让你本地再放 嗯 就这样
比如说控制 空调 要开机关机 或调什么温度
或者是看电视 你要调到哪个台
还有识别之后 根据本地 识别的结果来控制本地的一个动作
就是说 不管这是用哪个平台实现
总的流程 云识别系统 都是这种一样的
只是说 这一块识别呢
你有可能是弄到云端去识别
或者说 你是在本地识别
那在你来说 啊 的能力
因为识别这一块呢 相对是里面的DSP
嗯 两块里面的呢 重要的一块
一块就是前面我们的这个 前处理
然后 后面一块呢就是识别
识别可以在本地做 也可以在云端去做
有的现在你 市面上 在做的方案 有像科达讯飞之类的
都是弄到云端去 在云端去识别
比如说 那个手机上的那个Strategy 或者说别的
都是到云端去识别 不是在本地手机上识别的
如果在本地呢 那就是说会 相应的会
快一点啊 显得会快一些
云呢它有它的一些好处 就是说 慢一点呢 它是
它有可能准确度会高一些
云的运算能力强 它的神经网络 之类的
它可以做得相对更强一些
就是实际能力会好一些 嗯 准确度好一点
嗯 当然最终 都是算法实现
算法实现是个选择 从来没有一个绝对的一定好的实现
还有一些数据限制 就是说 你的产品的需求
简单来说 是在互联网之间 是吧
最起码你需要 能够访问网络的东西
你是有线的话还是说无线 无线还要加一个无线的
芯片 嗯 有这个成本的
那你的成本是怎么定义的
对于我们来说 就是TI来说呢 我是
我们是 卖处理器和DSP的
这一块呢 我们推荐就是说 我们的DSP
是适合于做这个东西的 因为目前 为什么说呢
因为 嗯 当然 嗯 总的来说啊
只要是个处理器 有软件库
那都能做 是吧 也没有说一定 是用TI你能做
ATI不能做 那就没道理呀
呵呵 又不能说王婆卖瓜 是吧
只是说呢 我们DSP呢
确实适合于做这个东西
而且我们在上面也做了很多的工作
嗯 模拟这边就是 模拟声音进来了 我们有这个
四合一的一个1864的ADC
比如说做8个麦克呢 那就用两片就行了
四个麦克呢 用一片就行了
通常呢 对于这个云识别呢 大家关心的就是说
希望它准确 嗯 响应快
嗯 对它的这个性能的影响
通常是 什么 造成 通常是造成
呃 当然如果在安静的环境下
其实目前你是两麦克 还是四麦克 可能关系其实并不大
并不大 因为它噪声不大 背景噪声不大的话
它设备空间就是说五米还是说七米的距离
体现不出来 这个 安静的环境下
但是在噪声环境下 那就会很明显了
你比如说 两麦的也许就是说两三米
甚至于 就是 你站在桌子前那种一米的距离
就顶天了 在这种环境下 但是呢
你通过四麦克或者是七麦克这种
那可以达到七米开外 它还能够正常使用 识别
就是说 嗯 如果提高这个准确度
那首先 就是说
通过麦克风阵列 因为通过麦克风阵列呢
它是波束合成的这个算法的话
一定指向性 然后 定位到你说话人的方向
然后就屏蔽掉 你的这个方向之外的噪声
它就以这个原理来提高它的
实音的这个 精度 或者说能量
然后 通过这个 这个空间滤波啊
然后 还有一个 呃 呃 降噪
降噪 还有回声消除
因为在那种尤其是 智能音箱这种应用
声音是一直在放的
还有比如说电视机 它也是一直在放的
你不可能说 我要先把声音调低 或者调成静音
我再跟它说 这个用户体验不好
那不要说做了 没人愿意去 你要很现实的 要有人愿意去用啊
加这个功能本来是要 提高人家的便捷性
所以说 这些功能都要加进去
降噪可能要看效果 放进去
回声消除的话 那肯定就是说 你要给它一路参考的信号
或是依这种声音频率 给它一个参考的信号
在麦克风采进来的时候
通过这个参考信号之后
采进来的这里面 那一部分的声音是放出去的
是希望被采集到 云端或者后面识别器件去处理
所以说它 涉及到很多的算法在这里面
事实上这么一个 看上去简单的东西
它涉及到很多算法在里面 因为它每一个算法很多来说呢
你 你从不同的角度 或是 怎么样的角度呢 好像都不是那么容易
不是一个通用的 甚至说
或者 有些是一个研究的空白 或是一个已经解决了的东西
但是要做成产品的话呢 它要考虑到他的一个 嗯
稳定性或者说 可靠性 质量到底怎么样
比如说 在不同的房间 房间的大小
这个 嗯 墙面高度 因为涉及它的反射的不同
这些噪声 它的滤除的
噪声的自适应器
要做得好 因为你在房间里 比如说像这个房间
诶 这个房间可能还好 像这些
有些墙面比较光滑 比如玻璃房子 那个它的反射率很强
那你在这个里面 所以 其实
还怕里面没有地方 范围很小
要把这些东西都反射回来
不然你从它的角度 它采得是很快的
我们听 人听无所谓 有点反射 我后面跟你说的啥
它采进去的那个就是 这前后叠起来的声音
它可能会分辨不出来的 所以要有风险要去掉 从算法层
嗯 从这个云识别系统的
角度呢 第一个 比如说
嗯 那个智能音箱的话呢 第一个 唤醒
要把它唤醒 因为你不能让它一直在身边
尤其是那种可对话的 那种音箱 那种可对话的
你跟它说什么 它就从云端 找到下一个资源
告诉你是什么样的天气 它就告诉你天气怎么样等等之类的
嗯 所以说 一定要有一个唤醒词 不然的话
你把它放在电视机前的话 那它就一直在说来说去 跟电视机 是吧
所以就像 Apple HomePod 京东 把它唤醒
然后是否支持你本地的命令
像那些智能家居的话 那可能要加些本地的识别 本地的控制
不是说什么东西都要到云端去
你比如说开机关机
超过什么温度 希望在本地设置就好了
可能会方便一点
因为到云端里有可能延时 然后说了一句
过后一两秒才响应 你会感觉怪怪的
虽然它也实现了 不过它感觉有点怪
另外一些东西 资讯的那些东西呢
那可能只能从云端了
比如你要听首歌 或者是查询什么信息的话
那从云端可以 呵
预处理呵 其实这就是 我这个topic呢 就是说要
重点介绍的 TI的 在预处理里做的一些工作
对一个系统来说 基本上就是加起来
当然了你可以从这个把它分隔开
预处理加上后面的时延
或者是云访问 因为这部分是
可以是一个小ARM 也可以是一个大ARM来实现
然后 WiFi 啊什么之类的
前面这一部分呢 你就是说
用一个DSP 做一个预处理 把声音滤干净
送给后面的你去做实验
视频报错
手机看
扫码用手机观看
收藏本课程
视频简介
基于C55xx C674x 和 PCM1864 语音识别 前端语音处理解决方案(1)
所属课程:TI EP day 研讨会课程
发布时间:2017.12.06
视频集数:26
本节视频时长:00:16:15
TI EP day 研讨会课程合辑。
//=$v1;?>
//=$v['id']?>//=$v['down_category']?>//=$v['link']?>//=$v['is_dl']?>//=$v['link']?>//=$v['name']?>//=$v['name']?>
//=$v['id']?>//=$v['down_category']?>//=$v['path']?>//=$v['is_dl']?>//=$v['path']?>//=$v['name']?>//=$v['name']?>
////=count($lesson['bbsinfo'])?>
//=$elink?>//=$elink?>//=$tags[0]?>//=$tags[0]?>//=$elink?>//= $elink?>//=$tags[1]?>//=$tags[1]?>
//=$lesson['bbs'];?>
//=count($lesson['bbsinfo'])?>