音频资讯

音频监控，如何让“好声音”从听得见到听得懂？

发布日期:2017-02-20 09:46:49

声纹识别

音频监控经过多年的发展，已经可以做到通过声音的识别来判断说话人的情绪、所处的环境等问题。而在音频监控环节中，声纹识别提供了重要的技术支撑。

声纹识别属于生物识别技术的一种，是一项根据语音波形中反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。这里需要强调的是，和语音识别不同，声纹识别利用的是语音信号中的说话人信息，而不考虑语音中的字词意思，它强调说话人的个性，而语音识别的目的是识别出语音信号中的言语内容，并不考虑说话人是谁，它强调共性。

同时，与其他生物识别相比，声纹识别的应用有一些特殊的优势：

(1)蕴含声纹特征的语音获取方便、自然，声纹提取可在不知不觉中完成，因此使用者的接受程度也高；

(2)获取语音的识别成本低廉，使用简单，一个麦克风即可，在使用通讯设备时更无需额外的录音设备；

(3)适合远程身份确认，只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录；

(4)声纹辨认和确认的算法复杂度低；

(5)配合一些其他措施，如通过语音识别进行内容鉴别等，可以提高准确率；

这些优势使得声纹识别的应用越来越受到系统开发者和用户青睐，声纹识别的世界市场占有率15.8%，仅次于指纹和掌纹的生物特征识别，并有不断上升的趋势。

声音定位

人们经常借助听觉来判断发音物体的位置。例如，当你独自行走时，突然听到一个响声，你会立刻判断出这个声音是什么声音、对你有无威胁、它来自何方等等。确定声音的方向和距离需要比较来自两耳信息，虽然你会很快做判断和反应，但声音定位过程是听觉系统复杂综合的功能。

而声音定位则是通过强度差、时间差、因色差、相位差等来实现。

音频场景分析

作为人们感知外界环境的一个重要通道,听觉在视线障碍、不利光照条件等情况中可起到视觉无法替代的作用,是视觉的重要补充。相比于图像数据,音频信号往往可使用相对简单的设备进行采集并且占用更少的存储空间和处理时间。随着当前移动平台计算能力的不断提高,出现了越来越多基于音频的各类应用,所涉及的音频处理算法一直是相关研究领域的重点。

其中，提取、分析和有效利用音频数据所携带的语义信息,对基于内容的多媒体检索、摘要以及开发上下文自适应的应用等具有重要意义。

音频场景分析主要是为了分析、决策、预警所监听环境下发生的异常行为。其核心技术是基于各类异常声音在时域、频域的特征，结合模式识别的分类方法对异常事件报警。

语音识别

与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。

语音识别技术经过几十年的发展，基于深度学习的人工智能语音将得到大范围的应用。

音频监控在安防领域大有可为

由于传统视频监控系统，受摄像机镜头和安装角度限制，监控区域很难做到无死角覆盖，即使通过多角度安装摄像机，也无法保证全覆盖，由于摄像机图像采集受诸多环境因素(例如：现场照明、强光源干扰等)影响而无法有效采集现场图像。而音频监控技术由于音频本身的技术特性，基本上不存监控死角，能更有效的掌控现场的实时情况。所以音频监控技术越来可以更好的弥补视频监控技术的不足。