人工智能

1.1 TI 甘为 AI 大脑的顺风耳(1)

Loading the player...

家可能看到这么多云识别的市场应用很热因为从年底亚马逊音响带来一个市场蓬勃的发展所以现在国内很多厂商各种应用都习惯加上语音识别的功能上去以前主要是两麦克现在更多的需求是多麦克四麦克甚至往上六麦克看你的成本的一个需求了两麦克大家也是知道市面上多数方案已经很成熟了因为对距离测试准确度有一个更高的要求所以提出多麦克的一个需求我们TI提供了一些平台方案基本上能满足2麦以上6麦8麦的需求 C55的话从我们的硬件接口来说是可以满足4麦的需求 c674基本上没怎么限制 8麦克甚至更多都可以 DM3725是大家熟悉的亚马逊第一代的平台语音信号处理语音识别分为两部分一个是信号的前处理一个是后端的识别识别我们后面去提 TI的平台来说呢包括我们今天主要讲的是语音信号的前处理前处理声音进来也是模拟麦克风要加一个ADC （听不清）多通道合一的ADC 数字麦克出来就是数字信号FS或者是PDM的信号也可以接到我们的FS接口我们的674XFS接口它名字不是叫FS 叫MCSP或者是MCBSP 大家记住啊它的时序就是FS 有很多个通路做完前处理之后一般送到后面的芯片或者任何别的平台去本地的识别或送到云端通过WIFI 或者有限网络连接送到云端去做云端的识别看你的需求是本地识别还是云端识别设计的一个流程信号红线表示从信号采集到前处理然后送到云端在处理完之后送到这个蓝线的回路送到本地来执行（听不清）交给执行机构也好云像的前处理其实是一个很复杂的部分因为它是可繁可简繁的话要把效果做好就要不停的加各种算法进去你的算法可能也做的越来越复杂效果更好我们通常的就列了几个前处理的部分在这里面一个是消除尤其是对音响内的有范音的产品的话呢这个你采集的声音肯定不希望把自己的声音才进来把它送到云端你会采到这是没办法避免的所以你要在处理器里面算法把它去掉这就是回声消除你麦克风呢一般来说为了增强性价比（听不清）还有声源定位定位通常你其实它跟（听不清）这个也是相关的其实也找出你最强的声音来源能量最强的方向还有一个问题今后的应用的话你也可以（听不清）有摄像头希望对着说话的人呢自动的跟踪这是C原的一个原理这是相关的（听不清）在（听不清）那种会议室墙面比较光滑这种玻璃啊其他声音的反射是很厉害的所以合进去之后呢你听到的声音其实不是那么很自然就像你唱卡拉OK一样当然它是通过算法特意加了混响延迟比较大的相当于（听不清）房间里看情况房间里你会听到回音很厉害这是靠算法去因为这个产品没办法知道将来你在什么样的环境里算法要把这些考虑到还有一个自动争议控制比如说像会议像以前产品可能没有新的好的会议变化的你把电话放在桌子上你人走远走进对方听到的声音其实没有什么变化因为它通过算法把自动争议加上去了这是得益于处理器以及算法的发展这些产品用起来更方便至于智能语音交换这一段是属于后端云端后面一个很大的处理器ARM来做的一个后处理前面讲的前处理后处理这部分要做个唤醒然后再做SR 就是自动语音识别因为有的家电控制的话要支持几十条的命令还有声纹识别和语音合成声纹识别的话那就可以用它来针对特定的人他来识别你的语音其他的他就不识别类似于生物识别一般对这个唤醒是有一定要求的就是说包括你唤醒一个是物唤醒物唤醒就是说也不是想唤醒它就唤醒了还有一个就是唤醒率唤醒率就是你说的是这个话但他没识别出来这两种唤醒率和物唤醒率物唤醒其实是大家不太希望看到的所以说这个是越低越好因为你说不是打开空调它把电视打开了或者说我在说话的时候把电视机也打开了这是大家不愿意看到的所以这个物唤醒率就是要求是比较高的唤醒率的话呢稍微低一点大家不会那么的敏感大不了多说一遍也不能说你老唤醒他老叫唤醒不了也不好所以说一般来说对于一个云识别的产品会有一些指标去考虑这是我的一个第三方他用我们平台做的产品的一个性能指标熟悉TI 的都知道很多产品线产品也丰富这是从处理器的角度来说我们的connectivity 还有MCU processor 这都是从TI的角度讲嵌入式处理器产品也是从很便宜的几毛钱到几百美金的高性能的适合于各种应用场景包括高性能的（听不清）等等我们TI其实前面问题里也有人提就是说跟ARM的比较啊 TI 有很多ARM 也有（听不清）也有（听不清）右边这这块 processor 就是从SOC这一块角度来说呢我们的产品一个是Sitara 产品线一个是DSP产品线 Sitara呢主要是指从ARM或带ARM加DSP的处理器右边指的是DSP产品 TI的一个大家众所周知的一个也是业界广为接受的 TI 的这个主打产品 DSP 现在呢软件方面呢我们不管是DSP还是ARM 还是ARM加DSP的产品我们所有的软件现在提供的软件包都叫做processor SDK 这给大家比较好的用户体验最起码让大家熟悉软件包的框架结构不像以前可能产品线之间没有统一不同的产品提供不同的开发包大家从开始入手的时候有一些包括需要时间来熟悉这个软件包的产品

家可能看到这么多云识别的市场应用很热

因为从年底亚马逊音响带来一个市场蓬勃的发展

所以现在国内很多厂商各种应用都习惯加上语音识别的功能上去

以前主要是两麦克现在更多的需求是多麦克四麦克甚至往上六麦克

看你的成本的一个需求了

两麦克大家也是知道市面上多数方案已经很成熟了

因为对距离测试准确度有一个更高的要求

所以提出多麦克的一个需求

我们TI提供了一些平台方案基本上能满足2麦以上6麦8麦的需求

C55的话从我们的硬件

接口来说是可以满足4麦的需求

c674基本上没怎么限制

8麦克甚至更多都可以

DM3725是大家熟悉的亚马逊第一代的平台

语音信号处理语音识别分为两部分

一个是信号的前处理一个是后端的识别

识别我们后面去提

TI的平台来说呢包括我们今天主要讲的是

语音信号的前处理

前处理声音进来也是模拟麦克风要加一个ADC

（听不清）多通道合一的ADC

数字麦克出来就是数字信号FS或者是PDM的信号

也可以接到我们的FS接口

我们的674XFS接口它名字不是叫FS

叫MCSP或者是MCBSP

大家记住啊

它的时序就是FS 有很多个通路

做完前处理之后一般送到后面的芯片或者任何别的平台

去本地的识别或送到云端通过WIFI

或者有限网络连接送到云端去做云端的识别

看你的需求是本地识别还是云端识别

设计的一个流程信号红线表示从信号采集到前处理然后送到云端

在处理完之后送到这个蓝线的回路送到本地来执行

（听不清）交给执行机构也好

云像的前处理其实是一个很复杂的部分

因为它是可繁可简繁的话要把效果做好就要不停的加各种算法进去

你的算法可能也做的越来越复杂

效果更好

我们通常的就列了几个前处理的部分在这里面

一个是消除尤其是对音响内的有范音的产品的话呢

这个你采集的声音肯定不希望把自己的声音才进来

把它送到云端你会采到这是没办法避免的

所以你要在处理器里面算法把它去掉这就是回声消除

你麦克风呢一般来说为了增强性价比

（听不清）

还有声源定位定位通常你其实它跟（听不清）这个也是相关的

其实也找出你最强的声音来源

能量最强的方向

还有一个问题今后的应用的话你也可以（听不清）有摄像头

希望对着说话的人呢

自动的跟踪这是C原的一个原理

这是相关的（听不清）

在（听不清）那种会议室墙面比较光滑这种玻璃啊其他声音的反射

是很厉害的

所以合进去之后呢你听到的声音其实不是那么很自然就像你唱卡拉OK一样

当然它是通过算法特意加了混响延迟比较大的

相当于（听不清）房间里看情况房间里你会听到回音很厉害

这是靠算法去因为这个产品没办法知道将来你在什么样的环境里

算法要把这些考虑到

还有一个自动争议控制比如说像会议

像以前产品可能没有新的好的会议变化的

你把电话放在桌子上你人走远走进对方听到的声音其实没有什么变化

因为它通过算法把自动争议加上去了

这是得益于处理器以及算法的发展这些产品用起来更方便

至于智能语音交换这一段是属于后端云端后面一个很大的处理器ARM来做的一个后处理

前面讲的前处理

后处理这部分要做个唤醒

然后再做SR 就是自动语音识别

因为有的家电控制的话要支持几十条的命令

还有声纹识别和语音合成声纹识别的话那就

可以用它来针对特定的人他来识别你的语音

其他的他就不识别

类似于生物识别

一般对这个唤醒是有一定要求的

就是说包括你唤醒一个是物唤醒物唤醒就是说

也不是想唤醒它就唤醒了

还有一个就是

唤醒率唤醒率就是你说的是这个话但他没识别出来

这两种唤醒率和物唤醒率

物唤醒其实是大家不太希望看到的所以说

这个是越低越好

因为你说不是打开空调它把电视打开了

或者说我在说话的时候把电视机也打开了这是大家不愿意看到的

所以这个物唤醒率就是要求是比较高的

唤醒率的话呢稍微低一点大家不会那么的敏感

大不了多说一遍

也不能说你老唤醒他老叫唤醒不了

也不好

所以说一般来说对于一个云识别的产品会有一些指标去考虑

这是我的一个第三方他用我们平台做的产品

的一个性能指标

熟悉TI 的都知道很多产品线产品也丰富

这是从处理器的角度来说我们的connectivity 还有MCU processor

这都是从TI的角度讲嵌入式处理器

产品也是从很便宜的几毛钱到几百美金的高性能的

适合于各种应用场景

包括高性能的（听不清）等等

我们TI其实前面问题里也有人提就是说

跟ARM的比较啊

TI 有很多ARM

也有（听不清）也有（听不清）

右边这这块 processor 就是从SOC这一块角度来说呢我们的产品一个是Sitara

产品线一个是DSP产品线

Sitara呢主要是指从ARM或带ARM加DSP的处理器

右边指的是DSP产品 TI的一个大家众所周知的一个也是业界广为接受的

TI 的这个主打产品

DSP 现在呢

软件方面呢我们不管是DSP还是ARM 还是ARM加DSP的产品我们所有的软件现在

提供的软件包都叫做processor SDK

这给大家比较好的用户体验最起码让大家熟悉软件包的框架结构

不像以前可能产品线之间没有统一

不同的产品提供不同的开发包

大家从开始入手的时候有一些包括需要时间来熟悉

这个软件包的产品

视频报错

手机看

扫码用手机观看

收藏本课程

未学习 1.1 TI 甘为 AI 大脑的顺风耳(1)
00:11:29 播放中

播放中
未学习 1.2 TI 甘为 AI 大脑的顺风耳(2)
00:15:01 播放
未学习 1.3 TI 甘为 AI 大脑的顺风耳(3)
00:03:58 播放

视频简介