处理器

基于C55xx C674x 和 PCM1864 语音识别前端语音处理解决方案(1)

Loading the player...

嗯我这部分跟大家简单介绍一下 TI现在在这个语音识别上面做的一些工作大家应该有所了解这个语音识别最近还是比较火啊莫过于亚马逊的 Apple 以及我们这边的京东以及另外的像智能的一些家电比如说电视空调可能将来会出现更多的这种语音控制的家用电器嗯这些就是TI 的处理器方面有很多从低端到高端从便宜的到非常贵的各种的这个器件我们就我所在的是在这个部分啊这个processor 像WCS以及MCU这些啊是在TI 都是属于不同的部门所以这个器件对于你们来说呢如果你找TI 的支持那就是找processors 找我或者是像刚才Danny这种同事属于一个Processor Team的像MCU呢是一个MCU Team的 WCS呢是无线啊是另外一个Team的这都是在TI内部是有互相要沟通的嗯像刚才嗯那个工业总线啊 Sitara啊 Sitara系列都有一些工作我们另外的大家可能都知道 TI 以前最著名的一个就是 DSP 后来这个处理器的一块 ARM在发展 TI也在ARM上面有很多的产品提一句其实就是 TI在 ARM上面是一直以来是最大的ARM的客户因为TI在以前是在手机上面 3G之前的手机 GSM那一代那是TI的基本上都是TI的平台诺基亚呀那个摩托罗拉都是TI的平台那里面也是ARM+DSP的芯片 OMAP系列那里面就有ARM 可是那时候 TI 没有把它做单独的ARM芯片像三星啊什么的做一个单独的ARM芯片这样来做一个产品所以说大家可能对TI在ARM上面的这个工作印象深不深刻嗯也没什么记住TI是做DSP的就好了因为我是做DSP的呵呵现在呢就是TI在软件上面因为尤其在以前嗯在或者说八年吧十年以前 TI其实光做DSP 那个在DSP上面的提供的软件呢不是那么丰富因为那个时候这个软件的生态系统也要求也没有那么多然后 ARM之后呢 Linux等等一些操作系统的出现所以大家对软件的需求依赖性就越来越强了希望可以重用以前没这个概念以前都是自己拿个芯片过来自己开发所以说现在TI这个要求所以 TI呢这个软件也越来越丰富了嗯中间经历了很多各种各样的SDK 软件开发包现在呢 TI全部所有的软件都集成到一个叫Processor SDK 不管是RTOS的或者是裸跑的 RTOS的现在其实呢嗯 RTOS就是 DSP BIOS 但是它里面相同的驱动呢它其实没有做成跟 TI的BIOS管理器那个差不多系统要求的那个驱动其实你可以把它单独拎起来用另外 Linux的就不说了嗯有的熟悉所以说再一个好处呢就是你用TI的平台不同的这个软件包去组件啊结构啊内容都会比较熟悉继承性比较强这页就切到我要讲的这个这个topic的主题的语音识别系统嗯这张图呢就是一个总体的一个流程不管怎样的语音识别系统首先是一个输入也是呃比如说是模拟麦克风的话就要加ADC 要是数字麦克风的话就直接出来就是I2S信号再做PDM处理转成数字信号接到一个处理器通过I2S接口进来嗯因为你因为目前市面上已经进来就是两个麦克目前市面上就是说在收录的那些产品尽管是两麦两麦的话就是性能还不是那么好其实大家都不满意但是呢没有的选择的选择所以说在两麦克的基础上呢大家提出了多麦克这么一个效果更好的这么一个产品那就是多麦克来实现多麦克实现呢前面借助一个算法叫Beamforming 做一个波束合成然后呢再做降噪因为采进来的有各种各样的噪声背景噪声也好怎么样也好要降噪然后呢如果是不是做本地识别是做云端去识别呢还要做一个编码这个DPUS是做一个打包可以根据云的需求云需要的格式打一个包然后送给后面的网络部分呃访问网络的部分访问网络部分看你的需求啊你可以一个简单的呃一个MCU也可以那个复杂的ARM处理器也可以基于你的那个部分还要做额外的功能可以简单可以复杂然后到云端让云端去识别云端识别之后把识别结果就返回来到本地也是说也就是说感觉到控制呢那可能就要控制起IO 或者应用软件你看看我在做什么嗯还是说你只是down下来听比如说像那个Smart Speaker 智能音箱那个是说你要听什么歌直接跟它说我要听什么歌然后云端识别之后云端把那个歌直接送下来让你本地再放嗯就这样比如说控制空调要开机关机或调什么温度或者是看电视你要调到哪个台还有识别之后根据本地识别的结果来控制本地的一个动作就是说不管这是用哪个平台实现总的流程云识别系统都是这种一样的只是说这一块识别呢你有可能是弄到云端去识别或者说你是在本地识别那在你来说啊的能力因为识别这一块呢相对是里面的DSP 嗯两块里面的呢重要的一块一块就是前面我们的这个前处理然后后面一块呢就是识别识别可以在本地做也可以在云端去做有的现在你市面上在做的方案有像科达讯飞之类的都是弄到云端去在云端去识别比如说那个手机上的那个Strategy 或者说别的都是到云端去识别不是在本地手机上识别的如果在本地呢那就是说会相应的会快一点啊显得会快一些云呢它有它的一些好处就是说慢一点呢它是它有可能准确度会高一些云的运算能力强它的神经网络之类的它可以做得相对更强一些就是实际能力会好一些嗯准确度好一点嗯当然最终都是算法实现算法实现是个选择从来没有一个绝对的一定好的实现还有一些数据限制就是说你的产品的需求简单来说是在互联网之间是吧最起码你需要能够访问网络的东西你是有线的话还是说无线无线还要加一个无线的芯片嗯有这个成本的那你的成本是怎么定义的对于我们来说就是TI来说呢我是我们是卖处理器和DSP的这一块呢我们推荐就是说我们的DSP 是适合于做这个东西的因为目前为什么说呢因为嗯当然嗯总的来说啊只要是个处理器有软件库那都能做是吧也没有说一定是用TI你能做 ATI不能做那就没道理呀呵呵又不能说王婆卖瓜是吧只是说呢我们DSP呢确实适合于做这个东西而且我们在上面也做了很多的工作嗯模拟这边就是模拟声音进来了我们有这个四合一的一个1864的ADC 比如说做8个麦克呢那就用两片就行了四个麦克呢用一片就行了通常呢对于这个云识别呢大家关心的就是说希望它准确嗯响应快嗯对它的这个性能的影响通常是什么造成通常是造成呃当然如果在安静的环境下其实目前你是两麦克还是四麦克可能关系其实并不大并不大因为它噪声不大背景噪声不大的话它设备空间就是说五米还是说七米的距离体现不出来这个安静的环境下但是在噪声环境下那就会很明显了你比如说两麦的也许就是说两三米甚至于就是你站在桌子前那种一米的距离就顶天了在这种环境下但是呢你通过四麦克或者是七麦克这种那可以达到七米开外它还能够正常使用识别就是说嗯如果提高这个准确度那首先就是说通过麦克风阵列因为通过麦克风阵列呢它是波束合成的这个算法的话一定指向性然后定位到你说话人的方向然后就屏蔽掉你的这个方向之外的噪声它就以这个原理来提高它的实音的这个精度或者说能量然后通过这个这个空间滤波啊然后还有一个呃呃降噪降噪还有回声消除因为在那种尤其是智能音箱这种应用声音是一直在放的还有比如说电视机它也是一直在放的你不可能说我要先把声音调低或者调成静音我再跟它说这个用户体验不好那不要说做了没人愿意去你要很现实的要有人愿意去用啊加这个功能本来是要提高人家的便捷性所以说这些功能都要加进去降噪可能要看效果放进去回声消除的话那肯定就是说你要给它一路参考的信号或是依这种声音频率给它一个参考的信号在麦克风采进来的时候通过这个参考信号之后采进来的这里面那一部分的声音是放出去的是希望被采集到云端或者后面识别器件去处理所以说它涉及到很多的算法在这里面事实上这么一个看上去简单的东西它涉及到很多算法在里面因为它每一个算法很多来说呢你你从不同的角度或是怎么样的角度呢好像都不是那么容易不是一个通用的甚至说或者有些是一个研究的空白或是一个已经解决了的东西但是要做成产品的话呢它要考虑到他的一个嗯稳定性或者说可靠性质量到底怎么样比如说在不同的房间房间的大小这个嗯墙面高度因为涉及它的反射的不同这些噪声它的滤除的噪声的自适应器要做得好因为你在房间里比如说像这个房间诶这个房间可能还好像这些有些墙面比较光滑比如玻璃房子那个它的反射率很强那你在这个里面所以其实还怕里面没有地方范围很小要把这些东西都反射回来不然你从它的角度它采得是很快的我们听人听无所谓有点反射我后面跟你说的啥它采进去的那个就是这前后叠起来的声音它可能会分辨不出来的所以要有风险要去掉从算法层嗯从这个云识别系统的角度呢第一个比如说嗯那个智能音箱的话呢第一个唤醒要把它唤醒因为你不能让它一直在身边尤其是那种可对话的那种音箱那种可对话的你跟它说什么它就从云端找到下一个资源告诉你是什么样的天气它就告诉你天气怎么样等等之类的嗯所以说一定要有一个唤醒词不然的话你把它放在电视机前的话那它就一直在说来说去跟电视机是吧所以就像 Apple HomePod 京东把它唤醒然后是否支持你本地的命令像那些智能家居的话那可能要加些本地的识别本地的控制不是说什么东西都要到云端去你比如说开机关机超过什么温度希望在本地设置就好了可能会方便一点因为到云端里有可能延时然后说了一句过后一两秒才响应你会感觉怪怪的虽然它也实现了不过它感觉有点怪另外一些东西资讯的那些东西呢那可能只能从云端了比如你要听首歌或者是查询什么信息的话那从云端可以呵预处理呵其实这就是我这个topic呢就是说要重点介绍的 TI的在预处理里做的一些工作对一个系统来说基本上就是加起来当然了你可以从这个把它分隔开预处理加上后面的时延或者是云访问因为这部分是可以是一个小ARM 也可以是一个大ARM来实现然后 WiFi 啊什么之类的前面这一部分呢你就是说用一个DSP 做一个预处理把声音滤干净送给后面的你去做实验

嗯我这部分跟大家简单介绍一下

TI现在在这个语音识别上面做的一些工作

大家应该有所了解这个语音识别最近还是比较火啊

莫过于亚马逊的 Apple 以及我们这边的京东

以及另外的像智能的一些家电比如说

电视空调可能将来会出现更多的这种语音控制的家用电器

嗯这些就是TI 的处理器方面有很多

从低端到高端从便宜的到非常贵的各种的这个器件

我们就我所在的

是在这个部分啊这个processor

像WCS以及MCU这些啊是

在TI 都是属于不同的部门

所以这个器件对于你们来说呢如果你找TI 的支持

那就是找processors 找我或者是像刚才Danny这种同事

属于一个Processor Team的

像MCU呢是一个MCU Team的

WCS呢是无线啊是另外一个Team的

这都是在TI内部是有互相要沟通的

嗯像刚才嗯那个工业总线啊 Sitara啊

Sitara系列都有一些工作

我们另外的大家可能都知道

TI 以前最著名的一个就是

DSP 后来这个处理器的一块

ARM在发展 TI也在ARM上面有很多的产品

提一句其实就是 TI在 ARM上面是一直以来是

最大的ARM的客户

因为TI在以前是在手机上面

3G之前的手机 GSM那一代

那是TI的基本上都是TI的平台

诺基亚呀那个摩托罗拉都是TI的平台

那里面也是ARM+DSP的芯片

OMAP系列那里面就有ARM

可是那时候 TI 没有把它做单独的ARM芯片像三星啊

什么的做一个单独的ARM芯片这样来做一个产品

所以说大家可能对TI在ARM上面的这个

工作印象深不深刻嗯也没什么

记住TI是做DSP的就好了

因为我是做DSP的呵呵

现在呢就是TI在软件上面因为尤其在以前嗯

在或者说八年吧十年以前

TI其实光做DSP 那个

在DSP上面的提供的软件呢不是那么丰富

因为那个时候这个软件的生态系统

也要求也没有那么多

然后 ARM之后呢

Linux等等一些操作系统的出现

所以大家对软件的需求依赖性就越来越强了

希望可以重用以前没这个概念

以前都是自己拿个芯片过来自己开发

所以说现在TI这个要求

所以 TI呢这个软件也越来越丰富了

嗯中间经历了很多各种各样的SDK

软件开发包现在呢

TI全部所有的软件都集成到一个叫Processor SDK

不管是RTOS的或者是裸跑的

RTOS的现在其实呢嗯 RTOS就是

DSP BIOS

但是它里面相同的驱动呢

它其实没有做成跟

TI的BIOS管理器那个差不多系统要求的那个驱动

其实你可以把它单独拎起来用

另外 Linux的就不说了

嗯有的熟悉

所以说再一个好处呢就是

你用TI的平台不同的这个软件包去

组件啊结构啊内容都会比较熟悉

继承性比较强

这页就切到我要讲的这个这个topic的主题

的语音识别系统

嗯这张图呢就是一个总体的一个流程

不管怎样的语音识别系统

首先是一个输入也是呃

比如说是模拟麦克风的话就要加ADC

要是数字麦克风的话就直接出来就是I2S信号再做PDM处理转成数字信号

接到一个处理器通过I2S接口进来

嗯因为你因为目前市面上已经进来就是两个麦克

目前市面上就是说在收录的那些产品

尽管是两麦两麦的话就是

性能还不是那么好其实大家都不满意

但是呢没有的选择的选择

所以说在两麦克的基础上呢大家

提出了多麦克这么一个效果更好的这么一个产品

那就是多麦克来实现多麦克实现呢前面借助一个算法叫Beamforming

做一个波束合成然后呢再做降噪

因为采进来的有各种各样的噪声

背景噪声也好

怎么样也好要降噪

然后呢如果是不是做本地识别

是做云端去识别呢还要做一个编码

这个DPUS是做一个打包

可以根据云的需求云需要的格式打一个包

然后送给后面的网络部分呃

访问网络的部分访问网络部分看你的需求啊

你可以一个简单的呃一个MCU也可以

那个复杂的ARM处理器也可以

基于你的那个部分还要做额外的功能

可以简单可以复杂然后到云端让云端去识别

云端识别之后把识别结果就返回来

到本地也是说

也就是说感觉到控制呢

那可能就要控制起IO 或者应用软件

你看看我在做什么嗯还是说

你只是down下来听比如说

像那个Smart Speaker 智能音箱

那个是说你要听什么歌直接跟它说我要听什么歌

然后云端识别之后云端把那个歌直接送下来

让你本地再放嗯就这样

比如说控制空调要开机关机或调什么温度

或者是看电视你要调到哪个台

还有识别之后根据本地识别的结果来控制本地的一个动作

就是说不管这是用哪个平台实现

总的流程云识别系统都是这种一样的

只是说这一块识别呢

你有可能是弄到云端去识别

或者说你是在本地识别

那在你来说啊的能力

因为识别这一块呢相对是里面的DSP

嗯两块里面的呢重要的一块

一块就是前面我们的这个前处理

然后后面一块呢就是识别

识别可以在本地做也可以在云端去做

有的现在你市面上在做的方案有像科达讯飞之类的

都是弄到云端去在云端去识别

比如说那个手机上的那个Strategy 或者说别的

都是到云端去识别不是在本地手机上识别的

如果在本地呢那就是说会相应的会

快一点啊显得会快一些

云呢它有它的一些好处就是说慢一点呢它是

它有可能准确度会高一些

云的运算能力强它的神经网络之类的

它可以做得相对更强一些

就是实际能力会好一些嗯准确度好一点

嗯当然最终都是算法实现

算法实现是个选择从来没有一个绝对的一定好的实现

还有一些数据限制就是说你的产品的需求

简单来说是在互联网之间是吧

最起码你需要能够访问网络的东西

你是有线的话还是说无线无线还要加一个无线的

芯片嗯有这个成本的

那你的成本是怎么定义的

对于我们来说就是TI来说呢我是

我们是卖处理器和DSP的

这一块呢我们推荐就是说我们的DSP

是适合于做这个东西的因为目前为什么说呢

因为嗯当然嗯总的来说啊

只要是个处理器有软件库

那都能做是吧也没有说一定是用TI你能做

ATI不能做那就没道理呀

呵呵又不能说王婆卖瓜是吧

只是说呢我们DSP呢

确实适合于做这个东西

而且我们在上面也做了很多的工作

嗯模拟这边就是模拟声音进来了我们有这个

四合一的一个1864的ADC

比如说做8个麦克呢那就用两片就行了

四个麦克呢用一片就行了

通常呢对于这个云识别呢大家关心的就是说

希望它准确嗯响应快

嗯对它的这个性能的影响

通常是什么造成通常是造成

呃当然如果在安静的环境下

其实目前你是两麦克还是四麦克可能关系其实并不大

并不大因为它噪声不大背景噪声不大的话

它设备空间就是说五米还是说七米的距离

体现不出来这个安静的环境下

但是在噪声环境下那就会很明显了

你比如说两麦的也许就是说两三米

甚至于就是你站在桌子前那种一米的距离

就顶天了在这种环境下但是呢

你通过四麦克或者是七麦克这种

那可以达到七米开外它还能够正常使用识别

就是说嗯如果提高这个准确度

那首先就是说

通过麦克风阵列因为通过麦克风阵列呢

它是波束合成的这个算法的话

一定指向性然后定位到你说话人的方向

然后就屏蔽掉你的这个方向之外的噪声

它就以这个原理来提高它的

实音的这个精度或者说能量

然后通过这个这个空间滤波啊

然后还有一个呃呃降噪

降噪还有回声消除

因为在那种尤其是智能音箱这种应用

声音是一直在放的

还有比如说电视机它也是一直在放的

你不可能说我要先把声音调低或者调成静音

我再跟它说这个用户体验不好

那不要说做了没人愿意去你要很现实的要有人愿意去用啊

加这个功能本来是要提高人家的便捷性

所以说这些功能都要加进去

降噪可能要看效果放进去

回声消除的话那肯定就是说你要给它一路参考的信号

或是依这种声音频率给它一个参考的信号

在麦克风采进来的时候

通过这个参考信号之后

采进来的这里面那一部分的声音是放出去的

是希望被采集到云端或者后面识别器件去处理

所以说它涉及到很多的算法在这里面

事实上这么一个看上去简单的东西

它涉及到很多算法在里面因为它每一个算法很多来说呢

你你从不同的角度或是怎么样的角度呢好像都不是那么容易

不是一个通用的甚至说

或者有些是一个研究的空白或是一个已经解决了的东西

但是要做成产品的话呢它要考虑到他的一个嗯

稳定性或者说可靠性质量到底怎么样

比如说在不同的房间房间的大小

这个嗯墙面高度因为涉及它的反射的不同

这些噪声它的滤除的

噪声的自适应器

要做得好因为你在房间里比如说像这个房间

诶这个房间可能还好像这些

有些墙面比较光滑比如玻璃房子那个它的反射率很强

那你在这个里面所以其实

还怕里面没有地方范围很小

要把这些东西都反射回来

不然你从它的角度它采得是很快的

我们听人听无所谓有点反射我后面跟你说的啥

它采进去的那个就是这前后叠起来的声音

它可能会分辨不出来的所以要有风险要去掉从算法层

嗯从这个云识别系统的

角度呢第一个比如说

嗯那个智能音箱的话呢第一个唤醒

要把它唤醒因为你不能让它一直在身边

尤其是那种可对话的那种音箱那种可对话的

你跟它说什么它就从云端找到下一个资源

告诉你是什么样的天气它就告诉你天气怎么样等等之类的

嗯所以说一定要有一个唤醒词不然的话

你把它放在电视机前的话那它就一直在说来说去跟电视机是吧

所以就像 Apple HomePod 京东把它唤醒

然后是否支持你本地的命令

像那些智能家居的话那可能要加些本地的识别本地的控制

不是说什么东西都要到云端去

你比如说开机关机

超过什么温度希望在本地设置就好了

可能会方便一点

因为到云端里有可能延时然后说了一句

过后一两秒才响应你会感觉怪怪的

虽然它也实现了不过它感觉有点怪

另外一些东西资讯的那些东西呢

那可能只能从云端了

比如你要听首歌或者是查询什么信息的话

那从云端可以呵

预处理呵其实这就是我这个topic呢就是说要

重点介绍的 TI的在预处理里做的一些工作

对一个系统来说基本上就是加起来

当然了你可以从这个把它分隔开

预处理加上后面的时延

或者是云访问因为这部分是

可以是一个小ARM 也可以是一个大ARM来实现

然后 WiFi 啊什么之类的

前面这一部分呢你就是说

用一个DSP 做一个预处理把声音滤干净

送给后面的你去做实验

视频报错

手机看

扫码用手机观看

收藏本课程

未学习 Simplelink™ MCU平台介绍以及Simplelink™ Academy深度学习
00:23:15 播放
未学习 TI嵌入式产品总览
00:21:57 播放
未学习基于 AM335x 国网充电桩 HM& 计费模块和采集系统 2.0 终端解决方案
00:29:20 播放
未学习 C2000 F2004x 在实时控制系统中的新特性介绍 (1)
00:10:04 播放
未学习 C2000 F2004x 在实时控制系统中的新特性介绍 (2)
00:10:22 播放
未学习 C2000 F2004x 在实时控制系统中的新特性介绍 (3)
00:10:07 播放
未学习 MSP430 USS 超声波传感和 LEA 低功耗加速 (1)
00:10:17 播放
未学习 MSP430 USS 超声波传感和 LEA 低功耗加速 (2)
00:07:54 播放
未学习如何在C2000上实现小于1微秒的电流环的设计(1)
00:14:48 播放
未学习如何在C2000上实现小于1微秒的电流环的设计(2)
00:24:23 播放
未学习 77GHz 单芯片毫米波产品介绍
00:36:54 播放
未学习基于 AM57xx 和 AMIC110-120 工业现场总线 EtherCAT 主从解决方案
00:34:04 播放
未学习基于C55xx C674x 和 PCM1864 语音识别前端语音处理解决方案(1)
00:16:15 播放中

播放中
未学习基于C55xx C674x 和 PCM1864 语音识别前端语音处理解决方案(2)
00:19:05 播放
未学习基于C55xx C674x 和 PCM1864 语音识别前端语音处理解决方案(3)
00:16:16 播放
未学习基于AM57xx 和 DLP4500 结构光原理的嵌入式 3D 扫描仪
00:40:21 播放
未学习 TI蓝牙5.0方案介绍以及CC2640R2F动手实验
00:32:50 播放
未学习应用 SimpleLink Wi-Fi 平台设计安全超低功耗的产品 (1)
00:20:44 播放
未学习应用 SimpleLink Wi-Fi 平台设计安全超低功耗的产品 (2)
00:05:57 播放
未学习应用 SimpleLink Wi-Fi 平台设计安全超低功耗的产品 (3)
00:15:36 播放
未学习传感器到云端，以及低功耗广域网IoT网络及其应用 (1)
00:09:26 播放
未学习传感器到云端，以及低功耗广域网IoT网络及其应用 (2)
00:13:15 播放
未学习传感器到云端，以及低功耗广域网IoT网络及其应用 (3)
00:12:22 播放
未学习基于小于1GHz和低功耗蓝牙BLE双频产品CC1350,设计创新的本地和云端连接产品(1)
00:15:03 播放
未学习基于小于1GHz和低功耗蓝牙BLE双频产品CC1350,设计创新的本地和云端连接产品(2)
00:15:13 播放
未学习 CC1310详细介绍以及软件开发教程
00:30:16 播放

视频简介