1.2 TI 甘为 AI 大脑的顺风耳(2)
Loading the player...
将在30s后自动为您播放下一课程
云处理 我们今天的Topic 主要是指(包括TI)前端 前处理 因为后处理主要是 一个AI的算法或者说是云端 所以说语音识别的应用上各有专长 因为它有这个专长的话 就随便找那个ARM或者说用云端吧 就不需要专门来说这个事情 就是这个应用技术的关键点 或者说是瓶颈 其实是在前处理 这是大家来区分 产品好坏的一个关键点 谁前处理做得好 谁的产品 比如说 识别率 优化率这些指标就会更好 基本上是这么一个概念 前处理从TI能 提供的芯片的device来说 我们有两个方向可以选择 一个是C5000的低功耗 一个低功耗 一个是C6000高性能 C5000的低功耗呢 当然因为我们的 主频限制50M或者到200MHz 目前我们的C5000是这么一个水平 所以说你要做很多Micro 或者说很多功能都加进去的话 可能不一定够 就是说你要去 权衡你加进去的一些算法 以及Micro数啊做一个权衡 是选C5000够不够的 这个问题需要进一步的确认 当然首先你低功耗要求比较苛刻的话 可能就只能在C5000里面来做选择 只能在基本的功能上做一些平衡 有些你想的很好的 功能可能就不能搬进去了 C6000就是高性能 高性能呢 C5000和C6000虽然都是TI的DSP 但他们之间是没有间隔性的 因为芯片的架构完全不一样 则连接不一样 基本上从理论上 C6000 C5000有可能是 一个同频4倍以上性能的提升 C6000目前我们主打的是 C6743 它其实在C6000里面 也算是低功耗的产品 主频最高456M 片刻内存也还可以 有三百多K 它的I2S接口 就是说MCASP我们有16个脉 也就是说可以支持16个通道的I2S 其中的方向是灵活可配的 所以基本上对Micro数没有限制 TI基于C5000 C6000 我们做了一个TI Designs 就是说仓口设计 就是硬件基本上一般是基于开发吧 这个设计主要是软件 大家如果有这个power板的话 可以下载它的软件下来试一试 这里面的软件 包括Voice Trigger也是TI的一个识别 但它指的是英文 回声消除 其实回声消除很多产品下 大家都有这个需求 当然 因为它不是一个简单的概念 回声消除涉及到各种指标的一个需求 比如说你的延时长度 比如说回声你要消的是 D级声还是单声道 这都不一样 所以它里面很多需要调整 所以说用EC的话 大家需要有这方面的一个知识背景 当然 如果你有这个知识背景 再去看我们提供的算法 用起来会方便一些 如果不懂这方面的话 用起来还是会 有些你需要去研究的地方 前面是C5000的Voice Trigger 一个简单的参考设计 这里讲的是基于我们的 语音识别预处理的一个参考设计 算法不一样 就把前处理这一块都换进去了 这是基于C6000K2G 做的同样的一套前处理的一直到KWS 就是有关进制唤醒这一部分的软件 这个图 这个硬件中间 是一个K2G的原板 左边圆形的是 我们一个环形的麦克风阵电 这个都在我们的官网上可以直接订购 如果有兴趣需要拿来评估的话 因为其实做一个语音识别系统的话 这个麦克风阵电摆放的 位置等等都是有讲究有要求的 我们的这个麦克风把 是一个7+1的环阵 中间一个 作为一个参考麦克风 作为17个 我们也会有一个4Micro的线阵 就是直的 线阵 然后很快也会放到网上来 然后这个环阵呢 可以跟我们的SK2G CDU74X以及C5517开发板 都可以连接我们提供 的相应的TI Designs的软件包 就是直接可以在上面弄 可以看到效果 可以去调整你的算法 可以加入你们的算法 左边这个黑色的4个Micro就是 我们马上要推出的4个Micro的线阵 因为针对于不同的产品 有的比如说 你的产品是放在桌子上的 那肯定需要 一个环阵要360度去唤醒它 或者去跟它通讯交流 比如说挂在墙上的产品 比如说空调 电视机等等 一般放在墙上的产品的话 它就不需要四格环阵不是360度 是180度的 所以线阵就可以了 这样效果会更好 比如说现在你的beamforming的话 你拿到的比如说是4Micro的话 你只是4个Micro的 beanforming的一个提升 环阵的话一般来说 你一个对角线这种的话 就是中间有一个 你就是对角只有三个麦克风 拿到的信号的能量是不一样的 所以真正的线阵 比环阵效果可能还要好一些 我们的这个demo里面 就是那个KWS 就是说唤醒那一块 唤醒那一块用的是第三方的 这个唤醒用的是第三方的 因为它支持各种语言 sensory 它是一家专门做唤醒 或者说语音识别的一家公司 它不做前处理 它只做识别这一块 目前很多这个语音识别的产品 里面用的其实很多都是sensory的 当然慢慢的 也会有很多其他家也做得很好的 这里只是声明一下里面做的那个 因为后面假如 用TI的平台用到这一块的话呢 因为后面识别的这一块 还是要自己去跟sensory去谈的 因为不是TI的 这个图呢就比较清晰了 就是说这个从声音 信号 进来的流程到一些算法的流程 左边是声音 比如说 1到8Mic的这种 那个板是八个Mic 最终用户你可以 比如说4Mic 比如说6Mic 都无所谓 声音信号进来之后 经过做beamforming算法 如果是说还要做AEC的话 有可能在beamforming之前 就要做一个AEC的 因为每个麦克风 都采集了你放出去的声音 如果你有本地扩音这种产品的话 在做AEC板的时候 你有多出多少个麦克风通道 就要做多少的路的AEC 可以说这个处理量是非常大的 在beamforming 在做这个支持云降噪 看你是用哪种的算法 TI我们也有算法来做 你自己实现了 之后你可能得出 一个相对比较干净的信号 然后再来从选择是哪一路 麦克风或者是 哪一路方向的beamforming信号 作为最终输送去做识别引擎 这是sensory 大家可以去它的网站上 去了解它基于哪些平台 或者是做的 哪些语音识别方面的一些成功案例 大家现在在TI的平台上 是做了C5000版本的移植 我们后面也在做C6000版本的移植 这是目前TI在TI Designs 在自己的平台上 评估下来的一个性能需求 所以从这里可以看到 我们的比如说C5535到C5517 各适合于做多少个 麦克风 阵列 预处理 需要多少的处理能力 以及内存大小 不过这个表里面是 没有包括AEC的算法进来 因为不是所有的产品都需要AEC 只有那种本地有回放的才需要AEC 如果加AEC的话 就还要考虑到 几个通道AEC的处理能力 以及内存需求 这个表加上了KWS的唤醒 就语音识别的唤醒值 这部分的内存需求 那就是说如果选择TI的平台 那如何开始 TI的平台 就是 C5000 C6000 K2G开发板 以及CNB麦克风硬件板 软件TI到底提供哪些东西 就预处理需要哪些 一般来说是包括哪些算法 TI的以及提供的情况如何 首先就是说 DSP库 DSP库就是那些 ft ift以及fir等等这些录合器 这些都是在DSP库里面 不管C5000 C6000 TI都做了不同版本的提供 可以在官网上直接免费下载 还有AEC 就是AEC以及AER 这里面包括 自动阵列控制 均衡等等动态范围压缩 声音降噪 都放到一起了 你可以在TI的官网上直接搜 搜到它的链接 还有VoLIB 里面包括一些voice的检测 以及语音增强 这是做VIP的一个库 VIP的一个库 里面包括一些跟语音相关的 VIP也是跟voice相关的 就是预处理它不是一个单一的概念 就是我们提供的前面这些 当然不仅仅是这些 可能你还有更多的 自己的想法来实现一些其它的算法 来提高你的处理或者效果 因为它不像一个标准 比如说打个比方 比如说264 264它就公式给你的 就是把一个low data转成264的文件 而预处理它不是这样 就包括video做图像 预处理也是一样的一个道理 它不是一个标注格式的东西 你可以加很多 很多自己的算法进去也可以 TI提供的很多已经提供的 大部分的通用的一些算法 用TI的平台可以有一个很好的开始 OPUS这是指你处理好的声音 你要是交给云端做一个打包 dm码打包 交给云端去识别的一个格式
云处理 我们今天的Topic 主要是指(包括TI)前端 前处理 因为后处理主要是 一个AI的算法或者说是云端 所以说语音识别的应用上各有专长 因为它有这个专长的话 就随便找那个ARM或者说用云端吧 就不需要专门来说这个事情 就是这个应用技术的关键点 或者说是瓶颈 其实是在前处理 这是大家来区分 产品好坏的一个关键点 谁前处理做得好 谁的产品 比如说 识别率 优化率这些指标就会更好 基本上是这么一个概念 前处理从TI能 提供的芯片的device来说 我们有两个方向可以选择 一个是C5000的低功耗 一个低功耗 一个是C6000高性能 C5000的低功耗呢 当然因为我们的 主频限制50M或者到200MHz 目前我们的C5000是这么一个水平 所以说你要做很多Micro 或者说很多功能都加进去的话 可能不一定够 就是说你要去 权衡你加进去的一些算法 以及Micro数啊做一个权衡 是选C5000够不够的 这个问题需要进一步的确认 当然首先你低功耗要求比较苛刻的话 可能就只能在C5000里面来做选择 只能在基本的功能上做一些平衡 有些你想的很好的 功能可能就不能搬进去了 C6000就是高性能 高性能呢 C5000和C6000虽然都是TI的DSP 但他们之间是没有间隔性的 因为芯片的架构完全不一样 则连接不一样 基本上从理论上 C6000 C5000有可能是 一个同频4倍以上性能的提升 C6000目前我们主打的是 C6743 它其实在C6000里面 也算是低功耗的产品 主频最高456M 片刻内存也还可以 有三百多K 它的I2S接口 就是说MCASP我们有16个脉 也就是说可以支持16个通道的I2S 其中的方向是灵活可配的 所以基本上对Micro数没有限制 TI基于C5000 C6000 我们做了一个TI Designs 就是说仓口设计 就是硬件基本上一般是基于开发吧 这个设计主要是软件 大家如果有这个power板的话 可以下载它的软件下来试一试 这里面的软件 包括Voice Trigger也是TI的一个识别 但它指的是英文 回声消除 其实回声消除很多产品下 大家都有这个需求 当然 因为它不是一个简单的概念 回声消除涉及到各种指标的一个需求 比如说你的延时长度 比如说回声你要消的是 D级声还是单声道 这都不一样 所以它里面很多需要调整 所以说用EC的话 大家需要有这方面的一个知识背景 当然 如果你有这个知识背景 再去看我们提供的算法 用起来会方便一些 如果不懂这方面的话 用起来还是会 有些你需要去研究的地方 前面是C5000的Voice Trigger 一个简单的参考设计 这里讲的是基于我们的 语音识别预处理的一个参考设计 算法不一样 就把前处理这一块都换进去了 这是基于C6000K2G 做的同样的一套前处理的一直到KWS 就是有关进制唤醒这一部分的软件 这个图 这个硬件中间 是一个K2G的原板 左边圆形的是 我们一个环形的麦克风阵电 这个都在我们的官网上可以直接订购 如果有兴趣需要拿来评估的话 因为其实做一个语音识别系统的话 这个麦克风阵电摆放的 位置等等都是有讲究有要求的 我们的这个麦克风把 是一个7+1的环阵 中间一个 作为一个参考麦克风 作为17个 我们也会有一个4Micro的线阵 就是直的 线阵 然后很快也会放到网上来 然后这个环阵呢 可以跟我们的SK2G CDU74X以及C5517开发板 都可以连接我们提供 的相应的TI Designs的软件包 就是直接可以在上面弄 可以看到效果 可以去调整你的算法 可以加入你们的算法 左边这个黑色的4个Micro就是 我们马上要推出的4个Micro的线阵 因为针对于不同的产品 有的比如说 你的产品是放在桌子上的 那肯定需要 一个环阵要360度去唤醒它 或者去跟它通讯交流 比如说挂在墙上的产品 比如说空调 电视机等等 一般放在墙上的产品的话 它就不需要四格环阵不是360度 是180度的 所以线阵就可以了 这样效果会更好 比如说现在你的beamforming的话 你拿到的比如说是4Micro的话 你只是4个Micro的 beanforming的一个提升 环阵的话一般来说 你一个对角线这种的话 就是中间有一个 你就是对角只有三个麦克风 拿到的信号的能量是不一样的 所以真正的线阵 比环阵效果可能还要好一些 我们的这个demo里面 就是那个KWS 就是说唤醒那一块 唤醒那一块用的是第三方的 这个唤醒用的是第三方的 因为它支持各种语言 sensory 它是一家专门做唤醒 或者说语音识别的一家公司 它不做前处理 它只做识别这一块 目前很多这个语音识别的产品 里面用的其实很多都是sensory的 当然慢慢的 也会有很多其他家也做得很好的 这里只是声明一下里面做的那个 因为后面假如 用TI的平台用到这一块的话呢 因为后面识别的这一块 还是要自己去跟sensory去谈的 因为不是TI的 这个图呢就比较清晰了 就是说这个从声音 信号 进来的流程到一些算法的流程 左边是声音 比如说 1到8Mic的这种 那个板是八个Mic 最终用户你可以 比如说4Mic 比如说6Mic 都无所谓 声音信号进来之后 经过做beamforming算法 如果是说还要做AEC的话 有可能在beamforming之前 就要做一个AEC的 因为每个麦克风 都采集了你放出去的声音 如果你有本地扩音这种产品的话 在做AEC板的时候 你有多出多少个麦克风通道 就要做多少的路的AEC 可以说这个处理量是非常大的 在beamforming 在做这个支持云降噪 看你是用哪种的算法 TI我们也有算法来做 你自己实现了 之后你可能得出 一个相对比较干净的信号 然后再来从选择是哪一路 麦克风或者是 哪一路方向的beamforming信号 作为最终输送去做识别引擎 这是sensory 大家可以去它的网站上 去了解它基于哪些平台 或者是做的 哪些语音识别方面的一些成功案例 大家现在在TI的平台上 是做了C5000版本的移植 我们后面也在做C6000版本的移植 这是目前TI在TI Designs 在自己的平台上 评估下来的一个性能需求 所以从这里可以看到 我们的比如说C5535到C5517 各适合于做多少个 麦克风 阵列 预处理 需要多少的处理能力 以及内存大小 不过这个表里面是 没有包括AEC的算法进来 因为不是所有的产品都需要AEC 只有那种本地有回放的才需要AEC 如果加AEC的话 就还要考虑到 几个通道AEC的处理能力 以及内存需求 这个表加上了KWS的唤醒 就语音识别的唤醒值 这部分的内存需求 那就是说如果选择TI的平台 那如何开始 TI的平台 就是 C5000 C6000 K2G开发板 以及CNB麦克风硬件板 软件TI到底提供哪些东西 就预处理需要哪些 一般来说是包括哪些算法 TI的以及提供的情况如何 首先就是说 DSP库 DSP库就是那些 ft ift以及fir等等这些录合器 这些都是在DSP库里面 不管C5000 C6000 TI都做了不同版本的提供 可以在官网上直接免费下载 还有AEC 就是AEC以及AER 这里面包括 自动阵列控制 均衡等等动态范围压缩 声音降噪 都放到一起了 你可以在TI的官网上直接搜 搜到它的链接 还有VoLIB 里面包括一些voice的检测 以及语音增强 这是做VIP的一个库 VIP的一个库 里面包括一些跟语音相关的 VIP也是跟voice相关的 就是预处理它不是一个单一的概念 就是我们提供的前面这些 当然不仅仅是这些 可能你还有更多的 自己的想法来实现一些其它的算法 来提高你的处理或者效果 因为它不像一个标准 比如说打个比方 比如说264 264它就公式给你的 就是把一个low data转成264的文件 而预处理它不是这样 就包括video做图像 预处理也是一样的一个道理 它不是一个标注格式的东西 你可以加很多 很多自己的算法进去也可以 TI提供的很多已经提供的 大部分的通用的一些算法 用TI的平台可以有一个很好的开始 OPUS这是指你处理好的声音 你要是交给云端做一个打包 dm码打包 交给云端去识别的一个格式
云处理 我们今天的Topic 主要是指(包括TI)前端 前处理
因为后处理主要是 一个AI的算法或者说是云端
所以说语音识别的应用上各有专长
因为它有这个专长的话
就随便找那个ARM或者说用云端吧
就不需要专门来说这个事情
就是这个应用技术的关键点 或者说是瓶颈
其实是在前处理
这是大家来区分 产品好坏的一个关键点
谁前处理做得好
谁的产品 比如说 识别率 优化率这些指标就会更好
基本上是这么一个概念
前处理从TI能 提供的芯片的device来说
我们有两个方向可以选择
一个是C5000的低功耗 一个低功耗
一个是C6000高性能
C5000的低功耗呢
当然因为我们的 主频限制50M或者到200MHz
目前我们的C5000是这么一个水平
所以说你要做很多Micro
或者说很多功能都加进去的话
可能不一定够
就是说你要去 权衡你加进去的一些算法
以及Micro数啊做一个权衡
是选C5000够不够的 这个问题需要进一步的确认
当然首先你低功耗要求比较苛刻的话
可能就只能在C5000里面来做选择
只能在基本的功能上做一些平衡
有些你想的很好的 功能可能就不能搬进去了
C6000就是高性能 高性能呢
C5000和C6000虽然都是TI的DSP 但他们之间是没有间隔性的
因为芯片的架构完全不一样 则连接不一样
基本上从理论上
C6000 C5000有可能是 一个同频4倍以上性能的提升
C6000目前我们主打的是
C6743 它其实在C6000里面 也算是低功耗的产品
主频最高456M
片刻内存也还可以 有三百多K
它的I2S接口
就是说MCASP我们有16个脉
也就是说可以支持16个通道的I2S
其中的方向是灵活可配的
所以基本上对Micro数没有限制
TI基于C5000 C6000 我们做了一个TI Designs
就是说仓口设计
就是硬件基本上一般是基于开发吧
这个设计主要是软件
大家如果有这个power板的话 可以下载它的软件下来试一试
这里面的软件 包括Voice Trigger也是TI的一个识别
但它指的是英文
回声消除
其实回声消除很多产品下 大家都有这个需求
当然 因为它不是一个简单的概念
回声消除涉及到各种指标的一个需求
比如说你的延时长度
比如说回声你要消的是 D级声还是单声道
这都不一样 所以它里面很多需要调整
所以说用EC的话 大家需要有这方面的一个知识背景
当然
如果你有这个知识背景
再去看我们提供的算法 用起来会方便一些
如果不懂这方面的话
用起来还是会 有些你需要去研究的地方
前面是C5000的Voice Trigger 一个简单的参考设计
这里讲的是基于我们的 语音识别预处理的一个参考设计
算法不一样 就把前处理这一块都换进去了
这是基于C6000K2G 做的同样的一套前处理的一直到KWS
就是有关进制唤醒这一部分的软件
这个图 这个硬件中间 是一个K2G的原板
左边圆形的是 我们一个环形的麦克风阵电
这个都在我们的官网上可以直接订购
如果有兴趣需要拿来评估的话
因为其实做一个语音识别系统的话
这个麦克风阵电摆放的 位置等等都是有讲究有要求的
我们的这个麦克风把
是一个7+1的环阵
中间一个 作为一个参考麦克风
作为17个
我们也会有一个4Micro的线阵
就是直的 线阵
然后很快也会放到网上来
然后这个环阵呢
可以跟我们的SK2G CDU74X以及C5517开发板
都可以连接我们提供 的相应的TI Designs的软件包
就是直接可以在上面弄 可以看到效果
可以去调整你的算法
可以加入你们的算法
左边这个黑色的4个Micro就是 我们马上要推出的4个Micro的线阵
因为针对于不同的产品
有的比如说 你的产品是放在桌子上的
那肯定需要 一个环阵要360度去唤醒它
或者去跟它通讯交流
比如说挂在墙上的产品
比如说空调 电视机等等 一般放在墙上的产品的话
它就不需要四格环阵不是360度 是180度的 所以线阵就可以了
这样效果会更好
比如说现在你的beamforming的话
你拿到的比如说是4Micro的话
你只是4个Micro的 beanforming的一个提升
环阵的话一般来说
你一个对角线这种的话
就是中间有一个 你就是对角只有三个麦克风
拿到的信号的能量是不一样的
所以真正的线阵 比环阵效果可能还要好一些
我们的这个demo里面
就是那个KWS 就是说唤醒那一块
唤醒那一块用的是第三方的 这个唤醒用的是第三方的
因为它支持各种语言
sensory 它是一家专门做唤醒 或者说语音识别的一家公司
它不做前处理 它只做识别这一块
目前很多这个语音识别的产品
里面用的其实很多都是sensory的
当然慢慢的 也会有很多其他家也做得很好的
这里只是声明一下里面做的那个
因为后面假如 用TI的平台用到这一块的话呢
因为后面识别的这一块 还是要自己去跟sensory去谈的
因为不是TI的
这个图呢就比较清晰了
就是说这个从声音 信号 进来的流程到一些算法的流程
左边是声音
比如说 1到8Mic的这种 那个板是八个Mic
最终用户你可以 比如说4Mic 比如说6Mic 都无所谓
声音信号进来之后
经过做beamforming算法
如果是说还要做AEC的话
有可能在beamforming之前 就要做一个AEC的
因为每个麦克风 都采集了你放出去的声音
如果你有本地扩音这种产品的话
在做AEC板的时候 你有多出多少个麦克风通道
就要做多少的路的AEC
可以说这个处理量是非常大的
在beamforming
在做这个支持云降噪
看你是用哪种的算法
TI我们也有算法来做 你自己实现了
之后你可能得出 一个相对比较干净的信号
然后再来从选择是哪一路
麦克风或者是 哪一路方向的beamforming信号
作为最终输送去做识别引擎
这是sensory 大家可以去它的网站上
去了解它基于哪些平台 或者是做的 哪些语音识别方面的一些成功案例
大家现在在TI的平台上 是做了C5000版本的移植
我们后面也在做C6000版本的移植
这是目前TI在TI Designs
在自己的平台上 评估下来的一个性能需求
所以从这里可以看到 我们的比如说C5535到C5517
各适合于做多少个 麦克风 阵列 预处理
需要多少的处理能力
以及内存大小
不过这个表里面是 没有包括AEC的算法进来
因为不是所有的产品都需要AEC
只有那种本地有回放的才需要AEC
如果加AEC的话 就还要考虑到 几个通道AEC的处理能力
以及内存需求
这个表加上了KWS的唤醒
就语音识别的唤醒值
这部分的内存需求
那就是说如果选择TI的平台
那如何开始
TI的平台 就是 C5000 C6000 K2G开发板
以及CNB麦克风硬件板
软件TI到底提供哪些东西
就预处理需要哪些
一般来说是包括哪些算法
TI的以及提供的情况如何
首先就是说
DSP库
DSP库就是那些 ft ift以及fir等等这些录合器
这些都是在DSP库里面
不管C5000 C6000 TI都做了不同版本的提供
可以在官网上直接免费下载
还有AEC
就是AEC以及AER 这里面包括
自动阵列控制
均衡等等动态范围压缩
声音降噪 都放到一起了
你可以在TI的官网上直接搜 搜到它的链接
还有VoLIB
里面包括一些voice的检测
以及语音增强
这是做VIP的一个库
VIP的一个库
里面包括一些跟语音相关的 VIP也是跟voice相关的
就是预处理它不是一个单一的概念
就是我们提供的前面这些
当然不仅仅是这些
可能你还有更多的 自己的想法来实现一些其它的算法
来提高你的处理或者效果
因为它不像一个标准
比如说打个比方
比如说264 264它就公式给你的
就是把一个low data转成264的文件
而预处理它不是这样
就包括video做图像
预处理也是一样的一个道理
它不是一个标注格式的东西
你可以加很多 很多自己的算法进去也可以
TI提供的很多已经提供的 大部分的通用的一些算法
用TI的平台可以有一个很好的开始
OPUS这是指你处理好的声音
你要是交给云端做一个打包
dm码打包 交给云端去识别的一个格式
云处理 我们今天的Topic 主要是指(包括TI)前端 前处理 因为后处理主要是 一个AI的算法或者说是云端 所以说语音识别的应用上各有专长 因为它有这个专长的话 就随便找那个ARM或者说用云端吧 就不需要专门来说这个事情 就是这个应用技术的关键点 或者说是瓶颈 其实是在前处理 这是大家来区分 产品好坏的一个关键点 谁前处理做得好 谁的产品 比如说 识别率 优化率这些指标就会更好 基本上是这么一个概念 前处理从TI能 提供的芯片的device来说 我们有两个方向可以选择 一个是C5000的低功耗 一个低功耗 一个是C6000高性能 C5000的低功耗呢 当然因为我们的 主频限制50M或者到200MHz 目前我们的C5000是这么一个水平 所以说你要做很多Micro 或者说很多功能都加进去的话 可能不一定够 就是说你要去 权衡你加进去的一些算法 以及Micro数啊做一个权衡 是选C5000够不够的 这个问题需要进一步的确认 当然首先你低功耗要求比较苛刻的话 可能就只能在C5000里面来做选择 只能在基本的功能上做一些平衡 有些你想的很好的 功能可能就不能搬进去了 C6000就是高性能 高性能呢 C5000和C6000虽然都是TI的DSP 但他们之间是没有间隔性的 因为芯片的架构完全不一样 则连接不一样 基本上从理论上 C6000 C5000有可能是 一个同频4倍以上性能的提升 C6000目前我们主打的是 C6743 它其实在C6000里面 也算是低功耗的产品 主频最高456M 片刻内存也还可以 有三百多K 它的I2S接口 就是说MCASP我们有16个脉 也就是说可以支持16个通道的I2S 其中的方向是灵活可配的 所以基本上对Micro数没有限制 TI基于C5000 C6000 我们做了一个TI Designs 就是说仓口设计 就是硬件基本上一般是基于开发吧 这个设计主要是软件 大家如果有这个power板的话 可以下载它的软件下来试一试 这里面的软件 包括Voice Trigger也是TI的一个识别 但它指的是英文 回声消除 其实回声消除很多产品下 大家都有这个需求 当然 因为它不是一个简单的概念 回声消除涉及到各种指标的一个需求 比如说你的延时长度 比如说回声你要消的是 D级声还是单声道 这都不一样 所以它里面很多需要调整 所以说用EC的话 大家需要有这方面的一个知识背景 当然 如果你有这个知识背景 再去看我们提供的算法 用起来会方便一些 如果不懂这方面的话 用起来还是会 有些你需要去研究的地方 前面是C5000的Voice Trigger 一个简单的参考设计 这里讲的是基于我们的 语音识别预处理的一个参考设计 算法不一样 就把前处理这一块都换进去了 这是基于C6000K2G 做的同样的一套前处理的一直到KWS 就是有关进制唤醒这一部分的软件 这个图 这个硬件中间 是一个K2G的原板 左边圆形的是 我们一个环形的麦克风阵电 这个都在我们的官网上可以直接订购 如果有兴趣需要拿来评估的话 因为其实做一个语音识别系统的话 这个麦克风阵电摆放的 位置等等都是有讲究有要求的 我们的这个麦克风把 是一个7+1的环阵 中间一个 作为一个参考麦克风 作为17个 我们也会有一个4Micro的线阵 就是直的 线阵 然后很快也会放到网上来 然后这个环阵呢 可以跟我们的SK2G CDU74X以及C5517开发板 都可以连接我们提供 的相应的TI Designs的软件包 就是直接可以在上面弄 可以看到效果 可以去调整你的算法 可以加入你们的算法 左边这个黑色的4个Micro就是 我们马上要推出的4个Micro的线阵 因为针对于不同的产品 有的比如说 你的产品是放在桌子上的 那肯定需要 一个环阵要360度去唤醒它 或者去跟它通讯交流 比如说挂在墙上的产品 比如说空调 电视机等等 一般放在墙上的产品的话 它就不需要四格环阵不是360度 是180度的 所以线阵就可以了 这样效果会更好 比如说现在你的beamforming的话 你拿到的比如说是4Micro的话 你只是4个Micro的 beanforming的一个提升 环阵的话一般来说 你一个对角线这种的话 就是中间有一个 你就是对角只有三个麦克风 拿到的信号的能量是不一样的 所以真正的线阵 比环阵效果可能还要好一些 我们的这个demo里面 就是那个KWS 就是说唤醒那一块 唤醒那一块用的是第三方的 这个唤醒用的是第三方的 因为它支持各种语言 sensory 它是一家专门做唤醒 或者说语音识别的一家公司 它不做前处理 它只做识别这一块 目前很多这个语音识别的产品 里面用的其实很多都是sensory的 当然慢慢的 也会有很多其他家也做得很好的 这里只是声明一下里面做的那个 因为后面假如 用TI的平台用到这一块的话呢 因为后面识别的这一块 还是要自己去跟sensory去谈的 因为不是TI的 这个图呢就比较清晰了 就是说这个从声音 信号 进来的流程到一些算法的流程 左边是声音 比如说 1到8Mic的这种 那个板是八个Mic 最终用户你可以 比如说4Mic 比如说6Mic 都无所谓 声音信号进来之后 经过做beamforming算法 如果是说还要做AEC的话 有可能在beamforming之前 就要做一个AEC的 因为每个麦克风 都采集了你放出去的声音 如果你有本地扩音这种产品的话 在做AEC板的时候 你有多出多少个麦克风通道 就要做多少的路的AEC 可以说这个处理量是非常大的 在beamforming 在做这个支持云降噪 看你是用哪种的算法 TI我们也有算法来做 你自己实现了 之后你可能得出 一个相对比较干净的信号 然后再来从选择是哪一路 麦克风或者是 哪一路方向的beamforming信号 作为最终输送去做识别引擎 这是sensory 大家可以去它的网站上 去了解它基于哪些平台 或者是做的 哪些语音识别方面的一些成功案例 大家现在在TI的平台上 是做了C5000版本的移植 我们后面也在做C6000版本的移植 这是目前TI在TI Designs 在自己的平台上 评估下来的一个性能需求 所以从这里可以看到 我们的比如说C5535到C5517 各适合于做多少个 麦克风 阵列 预处理 需要多少的处理能力 以及内存大小 不过这个表里面是 没有包括AEC的算法进来 因为不是所有的产品都需要AEC 只有那种本地有回放的才需要AEC 如果加AEC的话 就还要考虑到 几个通道AEC的处理能力 以及内存需求 这个表加上了KWS的唤醒 就语音识别的唤醒值 这部分的内存需求 那就是说如果选择TI的平台 那如何开始 TI的平台 就是 C5000 C6000 K2G开发板 以及CNB麦克风硬件板 软件TI到底提供哪些东西 就预处理需要哪些 一般来说是包括哪些算法 TI的以及提供的情况如何 首先就是说 DSP库 DSP库就是那些 ft ift以及fir等等这些录合器 这些都是在DSP库里面 不管C5000 C6000 TI都做了不同版本的提供 可以在官网上直接免费下载 还有AEC 就是AEC以及AER 这里面包括 自动阵列控制 均衡等等动态范围压缩 声音降噪 都放到一起了 你可以在TI的官网上直接搜 搜到它的链接 还有VoLIB 里面包括一些voice的检测 以及语音增强 这是做VIP的一个库 VIP的一个库 里面包括一些跟语音相关的 VIP也是跟voice相关的 就是预处理它不是一个单一的概念 就是我们提供的前面这些 当然不仅仅是这些 可能你还有更多的 自己的想法来实现一些其它的算法 来提高你的处理或者效果 因为它不像一个标准 比如说打个比方 比如说264 264它就公式给你的 就是把一个low data转成264的文件 而预处理它不是这样 就包括video做图像 预处理也是一样的一个道理 它不是一个标注格式的东西 你可以加很多 很多自己的算法进去也可以 TI提供的很多已经提供的 大部分的通用的一些算法 用TI的平台可以有一个很好的开始 OPUS这是指你处理好的声音 你要是交给云端做一个打包 dm码打包 交给云端去识别的一个格式
云处理 我们今天的Topic 主要是指(包括TI)前端 前处理
因为后处理主要是 一个AI的算法或者说是云端
所以说语音识别的应用上各有专长
因为它有这个专长的话
就随便找那个ARM或者说用云端吧
就不需要专门来说这个事情
就是这个应用技术的关键点 或者说是瓶颈
其实是在前处理
这是大家来区分 产品好坏的一个关键点
谁前处理做得好
谁的产品 比如说 识别率 优化率这些指标就会更好
基本上是这么一个概念
前处理从TI能 提供的芯片的device来说
我们有两个方向可以选择
一个是C5000的低功耗 一个低功耗
一个是C6000高性能
C5000的低功耗呢
当然因为我们的 主频限制50M或者到200MHz
目前我们的C5000是这么一个水平
所以说你要做很多Micro
或者说很多功能都加进去的话
可能不一定够
就是说你要去 权衡你加进去的一些算法
以及Micro数啊做一个权衡
是选C5000够不够的 这个问题需要进一步的确认
当然首先你低功耗要求比较苛刻的话
可能就只能在C5000里面来做选择
只能在基本的功能上做一些平衡
有些你想的很好的 功能可能就不能搬进去了
C6000就是高性能 高性能呢
C5000和C6000虽然都是TI的DSP 但他们之间是没有间隔性的
因为芯片的架构完全不一样 则连接不一样
基本上从理论上
C6000 C5000有可能是 一个同频4倍以上性能的提升
C6000目前我们主打的是
C6743 它其实在C6000里面 也算是低功耗的产品
主频最高456M
片刻内存也还可以 有三百多K
它的I2S接口
就是说MCASP我们有16个脉
也就是说可以支持16个通道的I2S
其中的方向是灵活可配的
所以基本上对Micro数没有限制
TI基于C5000 C6000 我们做了一个TI Designs
就是说仓口设计
就是硬件基本上一般是基于开发吧
这个设计主要是软件
大家如果有这个power板的话 可以下载它的软件下来试一试
这里面的软件 包括Voice Trigger也是TI的一个识别
但它指的是英文
回声消除
其实回声消除很多产品下 大家都有这个需求
当然 因为它不是一个简单的概念
回声消除涉及到各种指标的一个需求
比如说你的延时长度
比如说回声你要消的是 D级声还是单声道
这都不一样 所以它里面很多需要调整
所以说用EC的话 大家需要有这方面的一个知识背景
当然
如果你有这个知识背景
再去看我们提供的算法 用起来会方便一些
如果不懂这方面的话
用起来还是会 有些你需要去研究的地方
前面是C5000的Voice Trigger 一个简单的参考设计
这里讲的是基于我们的 语音识别预处理的一个参考设计
算法不一样 就把前处理这一块都换进去了
这是基于C6000K2G 做的同样的一套前处理的一直到KWS
就是有关进制唤醒这一部分的软件
这个图 这个硬件中间 是一个K2G的原板
左边圆形的是 我们一个环形的麦克风阵电
这个都在我们的官网上可以直接订购
如果有兴趣需要拿来评估的话
因为其实做一个语音识别系统的话
这个麦克风阵电摆放的 位置等等都是有讲究有要求的
我们的这个麦克风把
是一个7+1的环阵
中间一个 作为一个参考麦克风
作为17个
我们也会有一个4Micro的线阵
就是直的 线阵
然后很快也会放到网上来
然后这个环阵呢
可以跟我们的SK2G CDU74X以及C5517开发板
都可以连接我们提供 的相应的TI Designs的软件包
就是直接可以在上面弄 可以看到效果
可以去调整你的算法
可以加入你们的算法
左边这个黑色的4个Micro就是 我们马上要推出的4个Micro的线阵
因为针对于不同的产品
有的比如说 你的产品是放在桌子上的
那肯定需要 一个环阵要360度去唤醒它
或者去跟它通讯交流
比如说挂在墙上的产品
比如说空调 电视机等等 一般放在墙上的产品的话
它就不需要四格环阵不是360度 是180度的 所以线阵就可以了
这样效果会更好
比如说现在你的beamforming的话
你拿到的比如说是4Micro的话
你只是4个Micro的 beanforming的一个提升
环阵的话一般来说
你一个对角线这种的话
就是中间有一个 你就是对角只有三个麦克风
拿到的信号的能量是不一样的
所以真正的线阵 比环阵效果可能还要好一些
我们的这个demo里面
就是那个KWS 就是说唤醒那一块
唤醒那一块用的是第三方的 这个唤醒用的是第三方的
因为它支持各种语言
sensory 它是一家专门做唤醒 或者说语音识别的一家公司
它不做前处理 它只做识别这一块
目前很多这个语音识别的产品
里面用的其实很多都是sensory的
当然慢慢的 也会有很多其他家也做得很好的
这里只是声明一下里面做的那个
因为后面假如 用TI的平台用到这一块的话呢
因为后面识别的这一块 还是要自己去跟sensory去谈的
因为不是TI的
这个图呢就比较清晰了
就是说这个从声音 信号 进来的流程到一些算法的流程
左边是声音
比如说 1到8Mic的这种 那个板是八个Mic
最终用户你可以 比如说4Mic 比如说6Mic 都无所谓
声音信号进来之后
经过做beamforming算法
如果是说还要做AEC的话
有可能在beamforming之前 就要做一个AEC的
因为每个麦克风 都采集了你放出去的声音
如果你有本地扩音这种产品的话
在做AEC板的时候 你有多出多少个麦克风通道
就要做多少的路的AEC
可以说这个处理量是非常大的
在beamforming
在做这个支持云降噪
看你是用哪种的算法
TI我们也有算法来做 你自己实现了
之后你可能得出 一个相对比较干净的信号
然后再来从选择是哪一路
麦克风或者是 哪一路方向的beamforming信号
作为最终输送去做识别引擎
这是sensory 大家可以去它的网站上
去了解它基于哪些平台 或者是做的 哪些语音识别方面的一些成功案例
大家现在在TI的平台上 是做了C5000版本的移植
我们后面也在做C6000版本的移植
这是目前TI在TI Designs
在自己的平台上 评估下来的一个性能需求
所以从这里可以看到 我们的比如说C5535到C5517
各适合于做多少个 麦克风 阵列 预处理
需要多少的处理能力
以及内存大小
不过这个表里面是 没有包括AEC的算法进来
因为不是所有的产品都需要AEC
只有那种本地有回放的才需要AEC
如果加AEC的话 就还要考虑到 几个通道AEC的处理能力
以及内存需求
这个表加上了KWS的唤醒
就语音识别的唤醒值
这部分的内存需求
那就是说如果选择TI的平台
那如何开始
TI的平台 就是 C5000 C6000 K2G开发板
以及CNB麦克风硬件板
软件TI到底提供哪些东西
就预处理需要哪些
一般来说是包括哪些算法
TI的以及提供的情况如何
首先就是说
DSP库
DSP库就是那些 ft ift以及fir等等这些录合器
这些都是在DSP库里面
不管C5000 C6000 TI都做了不同版本的提供
可以在官网上直接免费下载
还有AEC
就是AEC以及AER 这里面包括
自动阵列控制
均衡等等动态范围压缩
声音降噪 都放到一起了
你可以在TI的官网上直接搜 搜到它的链接
还有VoLIB
里面包括一些voice的检测
以及语音增强
这是做VIP的一个库
VIP的一个库
里面包括一些跟语音相关的 VIP也是跟voice相关的
就是预处理它不是一个单一的概念
就是我们提供的前面这些
当然不仅仅是这些
可能你还有更多的 自己的想法来实现一些其它的算法
来提高你的处理或者效果
因为它不像一个标准
比如说打个比方
比如说264 264它就公式给你的
就是把一个low data转成264的文件
而预处理它不是这样
就包括video做图像
预处理也是一样的一个道理
它不是一个标注格式的东西
你可以加很多 很多自己的算法进去也可以
TI提供的很多已经提供的 大部分的通用的一些算法
用TI的平台可以有一个很好的开始
OPUS这是指你处理好的声音
你要是交给云端做一个打包
dm码打包 交给云端去识别的一个格式
视频报错
手机看
扫码用手机观看
收藏本课程
视频简介
1.2 TI 甘为 AI 大脑的顺风耳(2)
所属课程:TI 甘为 AI 大脑的顺风耳
发布时间:2018.03.01
视频集数:3
本节视频时长:00:15:01
语音识别的发展可谓飞速。当下,多家企业声称,其研发的云端语音识别技术已经达到了97%的准确率。谷歌、苹果和微软等巨头都公布了自己在语音识别上的进展和突破,语音识别也将是今后的发展重点之一。那么让这些 AI 有一双听得清听得远的耳朵是多么的重要,运用 TI DSP 的语音前端处理技术在实时会议系统,和非实时的智能音响,智能家电,智能汽车的应用。
//=$v1;?>
//=$v['id']?>//=$v['down_category']?>//=$v['link']?>//=$v['is_dl']?>//=$v['link']?>//=$v['name']?>//=$v['name']?>
//=$v['id']?>//=$v['down_category']?>//=$v['path']?>//=$v['is_dl']?>//=$v['path']?>//=$v['name']?>//=$v['name']?>
////=count($lesson['bbsinfo'])?>
//=$elink?>//=$elink?>//=$tags[0]?>//=$tags[0]?>//=$elink?>//= $elink?>//=$tags[1]?>//=$tags[1]?>
//=$lesson['bbs'];?>
//=count($lesson['bbsinfo'])?>