首页 > 应用与设计 > 中国新基建  > TI 甘为 AI 大脑的顺风耳 >

人工智能

最新课程

热门课程

1.1 TI 甘为 AI 大脑的顺风耳(1)

家可能看到这么多云识别的市场应用很热 因为从年底亚马逊音响带来一个市场蓬勃的发展 所以现在国内很多厂商各种应用都习惯加上语音识别的功能上去 以前主要是两麦克 现在更多的需求是多麦克 四麦克 甚至往上 六麦克 看你的成本的一个需求了 两麦克大家也是知道市面上多数方案已经很成熟了 因为对距离 测试准确度有一个更高的要求 所以提出多麦克的一个需求 我们TI提供了一些平台方案基本上能满足2麦以上6麦8麦的需求 C55的话 从我们的硬件 接口来说 是可以满足4麦的需求 c674基本上没怎么限制 8麦克甚至更多都可以 DM3725是大家熟悉的亚马逊第一代的平台 语音信号处理 语音识别分为两部分 一个是信号的前处理 一个是后端的识别 识别我们后面去提 TI的平台来说呢 包括我们今天主要讲的是 语音信号的前处理 前处理声音进来也是模拟麦克风要加一个ADC (听不清)多通道合一的ADC 数字麦克出来就是数字信号FS或者是PDM的信号 也可以接到我们的FS接口 我们的674XFS接口它名字不是叫FS 叫MCSP或者是MCBSP 大家记住啊 它的时序就是FS 有很多个通路 做完前处理之后一般送到后面的芯片或者任何别的平台 去本地的识别或送到云端 通过WIFI 或者有限网络连接送到云端去做云端的识别 看你的需求是本地识别还是云端识别 设计的一个流程 信号红线表示从信号采集到前处理然后送到云端 在处理完之后送到这个蓝线的回路 送到本地来执行 (听不清)交给执行机构也好 云像的前处理其实是一个很复杂的部分 因为它是可繁可简 繁的话要把效果做好就要不停的加各种算法进去 你的算法可能也做的越来越复杂 效果更好 我们通常的 就列了几个前处理的部分在这里面 一个是消除 尤其是对音响内的有范音的产品的话呢 这个 你采集的声音肯定不希望把自己的声音才进来 把它送到云端 你会采到 这是没办法避免的 所以你要在处理器里面 算法把它去掉 这就是回声消除 你麦克风呢 一般来说为了增强性价比 (听不清) 还有声源定位 定位通常你 其实它跟(听不清)这个也是相关的 其实也找出你最强的声音来源 能量最强的方向 还有一个问题 今后的应用的话 你也可以(听不清)有摄像头 希望对着说话的人呢 自动的跟踪 这是C原的一个原理 这是相关的(听不清) 在(听不清) 那种会议室墙面比较光滑这种玻璃啊 其他声音的反射 是很厉害的 所以合进去之后呢 你听到的声音其实不是那么很自然 就像你唱卡拉OK一样 当然它是通过算法特意加了混响延迟比较大的 相当于(听不清)房间里看情况 房间里你会听到回音很厉害 这是靠算法去 因为这个产品没办法知道将来你在什么样的环境里 算法要把这些考虑到 还有一个自动争议控制 比如说像会议 像以前产品可能没有新的 好的会议变化的 你把电话放在桌子上 你人走远走进 对方听到的声音其实没有什么变化 因为它通过算法把自动争议加上去了 这是得益于处理器以及算法的发展 这些产品用起来更方便 至于智能语音交换这一段是属于后端 云端 后面一个很大的处理器ARM来做的一个后处理 前面讲的前处理 后处理这部分要做个唤醒 然后再做SR 就是自动语音识别 因为有的家电控制的话 要支持几十条的命令 还有声纹识别和语音合成 声纹识别的话那就 可以用它来针对特定的人 他来识别你的语音 其他的他就不识别 类似于生物识别 一般对这个唤醒是有一定要求的 就是说 包括你唤醒 一个是物唤醒 物唤醒就是说 也不是想唤醒它就唤醒了 还有一个 就是 唤醒率 唤醒率就是你说的是这个话 但他没识别出来 这两种唤醒率和物唤醒率 物唤醒其实是大家不太希望看到的 所以说 这个是越低越好 因为你说不是打开空调 它把电视打开了 或者说我在说话的时候 把电视机也打开了 这是大家不愿意看到的 所以这个物唤醒率就是要求是比较高的 唤醒率的话呢 稍微低一点大家不会那么的敏感 大不了多说一遍 也不能说你老唤醒他 老叫 唤醒不了 也不好 所以说一般来说 对于一个云识别的产品会有一些指标去考虑 这是我的一个第三方他用我们平台做的产品 的一个性能指标 熟悉TI 的都知道 很多产品线 产品也丰富 这是从处理器的角度来说 我们的connectivity 还有MCU processor 这都是 从TI的角度讲 嵌入式处理器 产品也是从很便宜的几毛钱到几百美金的高性能的 适合于各种应用场景 包括高性能的(听不清)等等 我们TI其实前面问题里也有人提 就是说 跟ARM的比较啊 TI 有很多ARM 也有(听不清)也有(听不清) 右边这这块 processor 就是从SOC这一块角度来说呢 我们的产品一个是Sitara 产品线 一个是DSP产品线 Sitara呢 主要是指从ARM或带ARM加DSP的处理器 右边指的是DSP产品 TI的一个 大家众所周知的一个 也是业界广为接受的 TI 的这个主打产品 DSP 现在呢 软件方面呢 我们不管是DSP还是ARM 还是ARM加DSP的产品 我们所有的软件现在 提供的软件包都叫做processor SDK 这给大家比较好的用户体验 最起码让大家熟悉软件包的框架 结构 不像以前可能产品线之间没有统一 不同的产品提供不同的开发包 大家从开始入手的时候有一些 包括需要时间来熟悉 这个软件包的产品

家可能看到这么多云识别的市场应用很热

因为从年底亚马逊音响带来一个市场蓬勃的发展

所以现在国内很多厂商各种应用都习惯加上语音识别的功能上去

以前主要是两麦克 现在更多的需求是多麦克 四麦克 甚至往上 六麦克

看你的成本的一个需求了

两麦克大家也是知道市面上多数方案已经很成熟了

因为对距离 测试准确度有一个更高的要求

所以提出多麦克的一个需求

我们TI提供了一些平台方案基本上能满足2麦以上6麦8麦的需求

C55的话 从我们的硬件

接口来说 是可以满足4麦的需求

c674基本上没怎么限制

8麦克甚至更多都可以

DM3725是大家熟悉的亚马逊第一代的平台

语音信号处理 语音识别分为两部分

一个是信号的前处理 一个是后端的识别

识别我们后面去提

TI的平台来说呢 包括我们今天主要讲的是

语音信号的前处理

前处理声音进来也是模拟麦克风要加一个ADC

(听不清)多通道合一的ADC

数字麦克出来就是数字信号FS或者是PDM的信号

也可以接到我们的FS接口

我们的674XFS接口它名字不是叫FS

叫MCSP或者是MCBSP

大家记住啊

它的时序就是FS 有很多个通路

做完前处理之后一般送到后面的芯片或者任何别的平台

去本地的识别或送到云端 通过WIFI

或者有限网络连接送到云端去做云端的识别

看你的需求是本地识别还是云端识别

设计的一个流程 信号红线表示从信号采集到前处理然后送到云端

在处理完之后送到这个蓝线的回路 送到本地来执行

(听不清)交给执行机构也好

云像的前处理其实是一个很复杂的部分

因为它是可繁可简 繁的话要把效果做好就要不停的加各种算法进去

你的算法可能也做的越来越复杂

效果更好

我们通常的 就列了几个前处理的部分在这里面

一个是消除 尤其是对音响内的有范音的产品的话呢

这个 你采集的声音肯定不希望把自己的声音才进来

把它送到云端 你会采到 这是没办法避免的

所以你要在处理器里面 算法把它去掉 这就是回声消除

你麦克风呢 一般来说为了增强性价比

(听不清)

还有声源定位 定位通常你 其实它跟(听不清)这个也是相关的

其实也找出你最强的声音来源

能量最强的方向

还有一个问题 今后的应用的话 你也可以(听不清)有摄像头

希望对着说话的人呢

自动的跟踪 这是C原的一个原理

这是相关的(听不清)

在(听不清) 那种会议室墙面比较光滑这种玻璃啊 其他声音的反射

是很厉害的

所以合进去之后呢 你听到的声音其实不是那么很自然 就像你唱卡拉OK一样

当然它是通过算法特意加了混响延迟比较大的

相当于(听不清)房间里看情况 房间里你会听到回音很厉害

这是靠算法去 因为这个产品没办法知道将来你在什么样的环境里

算法要把这些考虑到

还有一个自动争议控制 比如说像会议

像以前产品可能没有新的 好的会议变化的

你把电话放在桌子上 你人走远走进 对方听到的声音其实没有什么变化

因为它通过算法把自动争议加上去了

这是得益于处理器以及算法的发展 这些产品用起来更方便

至于智能语音交换这一段是属于后端 云端 后面一个很大的处理器ARM来做的一个后处理

前面讲的前处理

后处理这部分要做个唤醒

然后再做SR 就是自动语音识别

因为有的家电控制的话 要支持几十条的命令

还有声纹识别和语音合成 声纹识别的话那就

可以用它来针对特定的人 他来识别你的语音

其他的他就不识别

类似于生物识别

一般对这个唤醒是有一定要求的

就是说 包括你唤醒 一个是物唤醒 物唤醒就是说

也不是想唤醒它就唤醒了

还有一个 就是

唤醒率 唤醒率就是你说的是这个话 但他没识别出来

这两种唤醒率和物唤醒率

物唤醒其实是大家不太希望看到的 所以说

这个是越低越好

因为你说不是打开空调 它把电视打开了

或者说我在说话的时候 把电视机也打开了 这是大家不愿意看到的

所以这个物唤醒率就是要求是比较高的

唤醒率的话呢 稍微低一点大家不会那么的敏感

大不了多说一遍

也不能说你老唤醒他 老叫 唤醒不了

也不好

所以说一般来说 对于一个云识别的产品会有一些指标去考虑

这是我的一个第三方他用我们平台做的产品

的一个性能指标

熟悉TI 的都知道 很多产品线 产品也丰富

这是从处理器的角度来说 我们的connectivity 还有MCU processor

这都是 从TI的角度讲 嵌入式处理器

产品也是从很便宜的几毛钱到几百美金的高性能的

适合于各种应用场景

包括高性能的(听不清)等等

我们TI其实前面问题里也有人提 就是说

跟ARM的比较啊

TI 有很多ARM

也有(听不清)也有(听不清)

右边这这块 processor 就是从SOC这一块角度来说呢 我们的产品一个是Sitara

产品线 一个是DSP产品线

Sitara呢 主要是指从ARM或带ARM加DSP的处理器

右边指的是DSP产品 TI的一个 大家众所周知的一个 也是业界广为接受的

TI 的这个主打产品

DSP 现在呢

软件方面呢 我们不管是DSP还是ARM 还是ARM加DSP的产品 我们所有的软件现在

提供的软件包都叫做processor SDK

这给大家比较好的用户体验 最起码让大家熟悉软件包的框架 结构

不像以前可能产品线之间没有统一

不同的产品提供不同的开发包

大家从开始入手的时候有一些 包括需要时间来熟悉

这个软件包的产品

视频报错
手机看
扫码用手机观看
收藏本课程

视频简介

1.1 TI 甘为 AI 大脑的顺风耳(1)

所属课程:TI 甘为 AI 大脑的顺风耳 发布时间:2018.03.01 视频集数:3 本节视频时长:00:11:29
语音识别的发展可谓飞速。当下,多家企业声称,其研发的云端语音识别技术已经达到了97%的准确率。谷歌、苹果和微软等巨头都公布了自己在语音识别上的进展和突破,语音识别也将是今后的发展重点之一。那么让这些 AI 有一双听得清听得远的耳朵是多么的重要,运用 TI DSP 的语音前端处理技术在实时会议系统,和非实时的智能音响,智能家电,智能汽车的应用。
TI培训小程序