时间:2019-05-07 08:56:50 来源:四川省自贡市贡井区人民检察院
[法安导读] 1 项目概述 2017年以来,在四川省检察院、自贡市检察院的指导下,我院充分把握智能语音识别系统被四川省检察院确定为全省检察系统
1. 项目概述
2017年以来,在四川省检察院、自贡市检察院的指导下,我院充分把握智能语音识别系统被四川省检察院确定为全省检察系统唯一试点院的历史机遇,加强组织领导,周密开展项目论证,举全院之力建设智能语音识别系统,激活检察发展新动能。
1.1. 建设背景
随着社会经济的迅猛发展,社会矛盾日益凸显。各类违法犯罪案件呈现逐年上升趋势。检察机关肩负的责任和承担的工作任务越来越重。多年来案多人少、办案力量不足,一直是基层检察院比较突出的问题。据统计,我国80%的案件在基层,80%的司法人员在基层。修改后的《刑事诉讼法》和《民事诉讼法》实施以来,新的工作职能拓展出新的工作量。办案力量不足,不仅影响本职工作的开展,还影响其他工作的有效发挥和齐头并进。如何提高工作效率以破解“案多人少”的难题,如何革新现有技术手段以简化工作人员办公过程,成为当前检察领域日益凸显的问题。与此同时,公众对检察院执法部门的工作效率、反应和应变能力也提出了更高的要求,执法工作的移动性、突发性和紧急性与传统工作模式的矛盾正日益凸显。为了适应新的执法环境和检察实战要求,伴随着物联网、云计算、移动互联网的迅猛发展,检察行业正朝着移动化、物联化、智能化的理念和形态发展。
2016年7月20日,时任最高人民检察院党组书记、检察长曹建明在第十四次全国检察工作会议上指出:检察工作要紧紧围绕“五位一体”总体布局和“四个全面”战略布局,深入实施科技强检战略,全面实施电子检务工程,探索完善“互联网+检察”工作模式,打造智慧检务,努力提高检察工作信息化水平。
2016年9月,最高人民检察院陆续发布《“十三五”时期检察工作发展规划纲要》和《“十三五”时期科技强检规划纲要》。《规划纲要》指出,要强化检务保障,深入实施科技强检战略,全面推进基层检察院建设,夯实检察事业创新发展基础。其中,《规划纲要》把信息化建设作为独立部分,强调要坚持科技引领、信息支撑,适应以大数据推动经济社会发展、完善社会治理的大趋势,加快建立智慧检务体系,促进现代科技与检察工作深度融合,推进检察工作现代化。重点内容有:
1、建设数据标准体系和内外部数据共享平台;
2、推进检务云和国家检察大数据中心建设;
3、探索开展语音识别、视频搜索、视频智能分析、犯罪嫌疑人心理分析、大数据分析等新技术应用。
随着最高人民检察院及各省级院加速推进信息化建设和应用,各业务系统和综合性平台汇集了上百类信息资源,这些海量数据的急速增加,给检务信息化工作带来两个方面的变化:一方面是受过去信息技术局限无法实现的高端应用现在可以逐步实现;另一方面,从数据匮乏时代到大数据时代的转变,给信息资源的采集与应用模式带来新的挑战和机遇。当前,简单的信息录入、查询检索功能已不能满足深化应用的需求,如何满足多元信息实时采集、整合,如何在海量数据中高效的获取有效信息,如何利用在发达国家已广泛应用的语音技术为检务工作服务,成为当前检务信息化工作推进重点。
自贡市贡井区人民检察院为进一步落实科技强检规划要求,结合实际情况和现实需求,提出建设智能审讯系统、智能会议系统、智能检务输入法的应用,通过智能语音技术实现自然便捷的人机交互,服务于检务工作中的数据采集、信息查询、分析研判与执法监督,以提高检察机关办公、办案技术的水平,增强检察机关信息化水平的科技含量。
2017年11月我院与科大讯飞公司签订了智能语音识别系统建设合同。现在,已经全面建成并投入使用。
1.2. 建设前的需求分析
审讯作为案件侦破中不可或缺的一个重要环节,如何利用现代化的侦查手段和当今的科学技术把现场审讯人员和指挥人员紧密结合起来,通过内外互动、上下协作、整体联动,实现分散到集中、个案到系统、单一到共同的转变,协调利用各个方面的资源,汇集每个侦查指挥人员的智慧,从而实现案件的快速侦破,更好更快更准的打击犯罪是我们检察机关所迫切需要解决的事情。目前自贡市贡井区人民检察院普遍使用的办公系统中,审讯系统占有重要的地位,也是数字化改造的重要目标之一,同时,根据修改后的刑事诉讼法,对案件的庭审方式作了重大的改革,由过去传统的纠问式改为控辩式,视听资料被列为新的法定证据之一,强化了审讯工作的地位和作用,进一步加大了公诉人控诉的举证责任。目前在自贡市贡井区检察机关的办案工作中,审讯过程要求全程同步录音录像记录。检察官在讯(询)问过程中,需要有专门的检察官负责笔录记录。一般一个案件涉及多个讯(询)问对象,一天会涉及多个案件和讯(询)问对象,审讯的周期会非常长,不能快速出笔录记录,讯(询)问笔录效率低下,对记录笔录的检察官是个不小的挑战;案件复查时需要调用大量同步录音录像数据和比对笔录记录,需要人工仔细去观看辨别,无法快速定位,对于追查笔录是个非常大的工作量;审讯过程的音视频数据量较大,未能对数据进行综合分析和充分应用,形成了数据孤岛,造成了资源浪费。
另外,2016年9月28日最高人民检察院召开新闻发布会发布《关于完善人民检察院司法责任制的若干意见》。围绕检察委员会工作机制中与司法责任制相关的内容,明确了检委会讨论决定具体案件的范围,并明确检委会决策实行主持人末位表态制,要求议事程序按照“事前告知、充分讨论、末位定论、如实记录”程序进行,对集体研究的重大问题和事项,对每位班子成员的陈述意见,特别是对最终决策的方式、内容必须详细、如实记录在案。对一些重大事项,要写出会议纪要,由全体班子成员签字认可,以作为决策责任的依据。同时检察机关还有除了检委会以外其他如党委会、党支部会议、办公会、电视电话会议等各类型会议,传统的基于人工、键盘交互的检察机关会议办公方式由于会议记要整理时间长、会议中心思想因记录人员的理解而可能出现的偏差、会议录音及关键点难以查找等问题,其较低的工作效率已经难以满足当前检察机关信息化时代背景下的工作要求,基于语音技术的新型交互手段由于其高效便捷性正在成为检察机关会议办公的新方式。
在智能语音系统建设前,自贡市贡井区人民检察院会议记录主要采取传统的人工整理方式,费事耗力、准确率低,且缺乏对会议信息的统一管控。会议语音文字化的主要难题总结如下:
1)会议过程中:记录工作量繁重、信息记录不全面、内容准确率较低;
2)会后整理时:纪要整理费时耗力、录音内容整理困难、模糊信息难以复核;
3)纪要发出后:安全管理有风险、信息检索难度大、快速传播难实现。
结合自贡市贡井区人民检察院日常办公现状,当前各类型会议,特别是重大、大型会议,需要指派专职会议记录人员全场记录,而大部分会议介于涉密等原因,只能依靠内部人员进行记录。很多重要会议具备时间长、信息量大、纪要输出严等特点,这对会议记录人员提出更高要求,会议记录和整理的工作强度大,且仍可能存在信息遗漏或会议思想理解偏差等问题,亟需得到解决。
同时,输入法为较为传统的人机交互方式,包括键盘、触屏、手写笔等,由于屏幕小、键盘小,传统的交互方式相对比较笨拙,对使用者的技能也有较高的要求,效率低下、不够便捷。
1.3. 建设重要性
1、为了适应厉行法治的新形势,更好地履行法律监督的职能,推进检务信息化建设,促进提审数据一体化、网络化进程,方便检察人员迅速掌握案件情况,彻底解决笔录漏记、错记以及同步录音录像时间长、容量大,回溯监督难等问题,迫切希望引入新技术手段解决这些存在的问题。
在当前案多人少的情况越来越突出,对于快速审查案件的要求也越来越高,检察官的精力将很大程度上制约了案件的进展,急迫需要通过技术手段改变这些现状问题。
通过建设讯(询)问笔录系统,能够让检察官专注案件的分析和侦查,解放检察官的双手,在办案过程中自动通过语音识别技术生成自动笔录,从而提高办案的工作效率。
2、语音识别(Speech Recognize )技术,是让机器通过识别和理解过程使之听懂人类语言的技术。语音识别技术是信息技术中人机交互的关键技术,目前已经在呼叫中心、电信增值业务、企业信息化系统中有了广泛的应用。随着语音识别在语音搜索、语音控制等全新应用领域的深入应用,语音识别技术被业界权威人士誉为有可能引发人机界面领域革命的关键技术。近年来,语音识别技术取得了长足的进步。智能会议系统是基于语音识别技术所研发,可满足会议演讲、会议研讨、沟通交流、大型会议等一系列需要进行实时文字转写的场景。
通过建设智能会议系统项目,主要解决纯语言交流场景下容易造成的信息偏差、会议记要整理工作量大、重要会议信息得不到体系化管控等问题。项目建成后即可使用,每次会议完成后短时间内即可完成所有相关会议记要的整理工作,同时,每一个人的发言均可记录在纪要当中,可有效减少因不同原因造成的会议精神理解的偏差,提升纪要整理的效率。
此部分项目的实施,对办公信息化水平革新具有战略性意义:
1)通过“语音+文字”的双重信息输入,加强与会人员对会议精神的理解程度,提升会议成果;
2)降低了会议记录人员的工作强度和难度,提升了他们的工作效率和工作成果的准确性;
3)智能会议产品的应用,可以大大缩短会议纪要输出周期、会议信息检索时长,降低人员及时间成本;
4)系统提供对会议的统一管控,通过信息的积累,有助于会议知识库成果的建设与应用。
3、较为传统的人机交互方式包括键盘、触屏、手写笔等,由于屏幕小、键盘小,传统的交互方式相对比较笨拙,对使用者的技能也有较高的要求,效率低下、不够便捷。尤其是在文书编写、会议记录等对输入要求高、时效性要求高等场景下,对信息的录入速度与输入设备的便携性都提出更高的要求。
通过建设智能检务输入法,通过语音输入结合智能语音技术,将用户口述内容自动转为与语音对应的文本,改变现有的信息采录方式,比传统方式要快3~5倍,可以大大降低对技能的要求,让打字慢的用户在采录工作中也可以变的很快,提高工作效率。
2. 建设内容及应用情况
增强实用性,开发自贡语音包。我院针对检察办案多使用自贡方言的特点,而科大讯飞公司现有语音识别系统对自贡方言的识别率较低的问题,委托建设方量身定做开发自贡语音包,增强语音识别准确率,目前自贡方言的识别准确率达到85%以上。
基于私有云搭建网络版智能会议系统,完成3个会议室,即检委会会议室、检察官联席会议室、党组会议室的智能化语音转写会议室的接入,进行基于会议场景下的新型语音转写技术的应用,实现会议过程中音频实时转写成文字,辅助会议记录人员进行纪要的整理与校正,实现快速成稿;为提升转写内容的呈现效果,通过麦克风对领导及各发言人的角色进行自动区分,在整体上打造样板化智能语音转写会议室。还通过单机版智能会议系统,实现了大会议室的语音转写及录音等功能。目前已通过智能语音会议系统召开检委会12次,检察官联系会议30次,语音识别率达到85%以上,大大提高了工作效率。同时,会议全程录音,便于会后进行记录修改。
通过智能语音会议系统召开检委会
同时部署一套网络版讯(询)问笔录系统,包括4个工审讯笔录系统和1个远程提讯笔录系统,系统通过利用专业麦克风等硬件设备,采用语音识别、关键要素提取等技术,实现将审讯过程的语音自动采集,实时将语音转写成文字,快速形成审讯笔录;并提供审讯笔录关联语音,快速检索,精准回溯。实现实时语音转写和审讯笔录管理,应用该系统,提高检察人员的办案能力,增加新的办案手段,有效提高记录人员的工作效率,弥补当前仅靠双手全过程记录案件笔录的缺陷。目前,已通过讯(询)问系统开展讯(询)问87次,提高了讯(询)问笔录的效率和完整性,通过笔录系统的录音和精准语音回放功能,也防止了讯(询)问时犯罪嫌疑人翻供的情况发生。
通过智能智能讯(询)问笔录系统讯问犯罪嫌疑人
另外建设了一套智能检务输入法,提供70个终端、30路并发的智能检务输入法应用。由于检察机关业务的特殊性,对安全保密性的要求非常高,要保证所有数据必须处于封闭安全的网络内不得外泄,因此需要提供检务专用的智能语音私有云平台。该平台是基于硬件和软件的一整套解决方案,立足于国际领先、应用成熟的智能语音技术,提供检务版语音输入法的应用,适用于电脑终端、笔记本电脑等设备,实现语音识别输入、手写输入、拼音输入等全方位的文字输入功能。将语音输入法嵌入检务办公、办案等多个业务应用系统中,加快输入速度,提高工作效率。普通话录入每分钟达400余字,准确率为95%以上,四川话和自贡话录入准确率为85%以上。通过智能检务输入法,以前制作需要8到10个工作日的案件审查报告现在只需要2个工作日即可完成。
通过智能检务输入法进行案件信息录入
3. 建设方案
3.1. 建设原则
自贡市贡井区人民检察院智能语音系统总体建设遵循以下主要原则:
1、实用性和先进性
采用先进成熟的技术满足系统各种应用的需求,兼顾其他相关的管理需求,保证满足各种应用系统业务的同时,又体现出硬件系统、软件系统的先进性。在设计中把先进的技术与现有的成熟技术、标准和设备结合起来,充分考虑到应用的需求和未来的发展趋势,尽可能采用成熟、先进的技术以适应更高的数据、语音、视频(多媒体)的传输需要,确保系统在国内5年内不落后,并能适应目前及今后潜在的技术要求。
2、高可靠性
平台的稳定可靠是应用系统正常运行的关键保证,为保证各项业务应用,网络、硬件必须具有高可靠性,尽量避免系统的单点故障,软件需要支持虚拟化和负载均衡。要对网络结构、网络设备、存储等各个方面进行高可靠性的设计和建设。在网络、存储设计上应采用硬件备份、冗余等可靠性技术,合理设计冗余,制订可靠的备份策略,保证系统具有故障自愈的能力,最大限度地保障系统的7×24小时长期可靠运行。
3、标准性与开放性
所选用的设备和软件技术支持国际通用的通信协议和标准,采用标准协议进行互连互通,确保本次建设是网络平台、与原有系统、其他系统能够无缝互联,在结构上真正实现开放。坚持统一规范的原则,从而为未来的发展奠定基础。
4、高安全性
数据涉及社会公众,具有一定敏感性和私密性。项目在建设设计初期,就必须充分考虑平台的安全性。采用先进的安全产品和技术,为平台提供边界安全、数据云中心安全、计算机终端的接入安全,并对操作行为进行实时有效的监控和日志记录。
5、高性能
系统用户包括检察机关各业务机构工作者,以及多样的高并发的请求服务,还有包括各类复杂的使用环境,因此需要系统在基于海量数据的检索、应用、接口服务等方面均提供高性能、高稳定的服务。
6、灵活性及可扩展性
信息化系统是一个不断发展的系统,平台不仅需要保持对以前技术的兼容性,还必须具有良好的灵活性和可扩展性,具备支持多种应用系统的能力,提供设备扩容和技术升级灵活性。能够根据社会服务信息化不断深入发展的需要,平滑的扩充和升级现有的覆盖范围、扩大平台容量,最大程度的减少对现有设备、现有投入的调整。
7、易操作性和可管理性
系统提供清晰、简洁、友好的中文操作界面,操控简便、灵活,易学易用,便于管理和维护,能自动纠错和系统恢复。整个系统的操作简单、快捷、环节少,以保证不同文化层次的操作者及有关领导的熟练操作。平台具有高度友好的界面和使用性。平台有非常强的纠错操作能力,使得在各种可能发生的误操作下,不引起系统的混乱。
8、采用开放技术兼容原有系统数据
系统采用J2EE多层体系架构设计,支持Windows、Linux系列操作系统,支持Oracle、SqlServer、MySQL主流成熟大型数据库。
3.2. 总体框架
3.2.1. 系统体系架构
自贡市贡井区人民检察院智能语音系统是基于硬件和软件的一整套架构解决方案,具体主要包括接入层,业务层,服务层三块,每层服务都是建立在相应的硬件设施(服务器,网络连接等)上。智能语音系统的总体架构如下图:
智能语音系统的构建主体分为三层分别是接入层,业务层和服务层,这三层相互结合,提供适应具体业务的高质量的语音处理服务。
Ø 接入层:主要负责网络服务的接入,传输层分发负载均衡,以及web管理页面的处理等前端功能。
Ø 业务层:主要提供语音合成、识别、接口服务的具体业务处理,处理过程会结合相关业务资源数据库,同时进行日志记录和服务监控。
Ø 服务层:服务层包含最核心的语音服务处理引擎,其中主要有合成网络服务引擎,识别网络服务引擎,以及接口服务引擎,对于服务集群还需要提供相应的引擎负载均衡管理等服务。
3.2.2. 系统逻辑结构
智能语音系统的逻辑结构细化为五层,其中智能语音业务层在应用、服务、核心引擎层提供面向用户的具体服务,而智能语音基础架构和硬件抽象层则作为整个智能语音业务层的基础。
逻辑架构采用分布式计算架构,共分为五层,硬件抽象层(HAL),基础架构层(IaaS)、核心引擎层,平台服务层(PaaS),数据应用层(SaaS)。
Ø 硬件抽象层(HAL)
通过虚拟化技术,针对自贡市贡井区人民检察院的硬件资源进行虚拟化抽象,建立各式资源池满足信息化平台应用的硬件底层框架
Ø 基础架构层(IaaS)
通过大数据技术和并行计算等基础架构技术,搭建满足应用的底层基础架构,建立满足上层应用的底层基础架构层。
Ø 核心引擎层
整个项目建立一个核心引擎层,来使底层的基础框架对上层应用透明。通过此核心引擎,使上层应用直接调用资源,而不需管资源是在大数据平台中还是传统的关系型数据库中。
Ø 平台服务层(PaaS)
在本项目中,基于SOA的架构,搭建检察业务服务总线。通过服务总线的建立,使整个自贡市贡井区人民检察院各业务机构的应用可通过此平台服务层进行各式各样的服务请求和调用。
Ø 数据应用层(SaaS)
按照整个项目的标准,构建数据应用层,通过数据应用层可建立满足检察院规定API的数据应用,建立整个检察机关的应用开发框架。
3.2.3. 系统拓扑结构
智能语音系统将部署于自贡市贡井区人民检察院检察专网中,信息数据通过检察专网进行传输,保障数据的安全性。
根据系统规划与应用的接入量,系统服务器资源主要划分如下:
1、业务服务器:包括MSS、redis缓存服务器、Tomcat,安装语音业务处理、数据/日志分析汇总等组件,提供语音服务的业务分发处理。
2、引擎服务器:包括语音网络服务引擎及负载均衡管理等组件,用来提供最核心的语音处理服务。
3.3. 讯(询)问笔录系统建设方案
3.3.1. 物理架构
讯(询)问笔录系统由服务器平台和部署在各审讯室的终端设备构成。服务端设备主要包含:中文转写引擎服务、应用服务器。
各终端设备主要包括:专业定制拾音设备、应用端主控电脑,设备连接图及数据走向示意图如下:
3.3.2. 软件部分
在自贡市贡井区人民检察院部署了4个审讯室的网络版讯(询)问笔录系统和1个远程提讯笔录系统,提供审讯笔录应用。系统设计如下:
(1)基于麦克风阵列技术的语音采集设备
审讯应用环境中,说话人离话筒距离不可控、问答双方声音在不同话筒间相互干扰、封闭环境回声、混响等一系列问题造成审讯收音效果较差。为解决收音效果的问题,系统在音频采音方面,通过八路麦克风阵列的硬件方案,降低噪声和混响水平,提升信噪比;在音频处理方面,通过基于自适应滤波的噪声消除、多通道线性预测、干音提取等方法进一步减少噪声,提取有效音频。
(2)自动化审讯语音转写笔录系统
系统基于VAD语音端点检测技术,将每个人的语音进行自动分段,基于说话人自动分离技术,采用微信的对话方式,更好的展现双方对话内容。书记员可对审讯笔录进行按句回听、排版布局、快速编辑、快速出材。
利用语义理解相关技术,对审讯录音进行语义分析,并构建语义索引,开发语义检索服务,实现面向审讯笔录的语义检索。基于内容识别和后处理技术,显示同步文字、标点,支持边点边听,针对可懂度较好的,可以直接跳听;红色高亮显示用户预设、自动抽取的关键词,快速了解关键信息,提供快速听音功能,实现通过文字定位语音片段,实现精准回溯。
系统支持网络化、集群化部署,有效提升运算能力,同时又能做到数据随时随地、多人共享。
具体功能包括:
Ø 实时转写
能够通过专业拾音设备对讯询问过程全程采音,并提供连续语音的实时转写,和对已转写文字的后处理及字音同步对齐能力。
Ø 实时编辑
在实时审讯转写过程中书记员可以实时对转写出的结果进行编辑,并进行文字的排版布局。书记员可以一边即时播放音频进行文本校对编辑,也可选择查看原始结果,对比修改,方便快捷,讯问或询问结束后即可直接成稿。
Ø 笔录模板
完善的笔录模板管理,可以从系统中选择预置笔录模块,也可以从历史记录或硬盘中选择底稿模板。笔录模板支持自定义功能,书记员可根据实际需要自行设定模板,同时用户可对模板进行修改、删除操作。
Ø 常用短语
笔录录入过程中,可直接选择审讯中经常问到的问题插入到笔录中,关联常用的回答,可减少常见问答的录入,同时常用问答短语支持用户自定义编辑。
Ø 自动追加
通过自动追加功能实现转写结果实时显示在右侧笔录文档编辑区域中。
Ø 热词优化
可以在任何状态下,通过热词优化功能将此次审讯相关的关键词进行添加,并且可以实时生效,能有效提升该关键词的识别准确率。
Ø 拼写检查
系统自动检查整篇笔录的拼写错误以及基本语法错误,帮助检察人员快速校对笔录文稿。
Ø 按句回听
选中审讯对话内容,鼠标点击即可直接播放当时现场审讯录音,还原真实审讯情况。
Ø 角色分离
基于说话人自动分离技术,采用微信的对话方式,更好的了解问答双方通话内容。
Ø 自动分段
基于VAD语音端点检测技术,提供根据VAD+固定字数和VAD+固定关键词两种自动分段方式,将每个人的语音进行分段。
Ø 文本顺滑
系统自动将语气词和多余的词汇去除,以保证文稿的规整。
Ø 要素提取
通过NLP自然语音理解技术,在识别结果上自动提取关键要素,如时间、地点、人物、事件、事由,支持一键定位到包含关键词的语音片段,结合上下文听音,进行重要性的预判。
Ø 快速听音
基于内容识别和后处理技术,同步显示文字、标点,支持边点边听,针对可懂度较好的,可以直接跳听;红色高亮显示用户预设、自动抽取的关键词,快速了解关键信息,提供快速听音功能。
Ø 笔录朗读
针对不认识字的嫌疑人可以通过机器朗读笔录的方式播放给犯罪嫌疑人听,有效减轻检察人员的工作压力。
Ø 笔录管理
所有审讯数据集中管理,有效避免数据孤岛,为后续的基于审讯记录的公安大数据分析奠定基础和创造条件。
Ø 统计分析
支持分组织、分账户统计审讯工作量情况。
Ø 自动学习
系统自带智能化、自动化语言训练模型,实现用户上传卷宗、讯问题纲等相关材料让机器自动学习,有效提升识别效果。
Ø 自动升级
部署在各个讯问室或询问室的客户端软件支持自动升级,服务端只需一个指令即可实现所有客户端自动升级,减少维护时间。
(3)中文语音识别转写引擎
基于长短时记忆的循环神经网络的声学建模和语言模型建模技术,同时考虑后续智能审讯巡查监督技术的应用需求,研发基于识别结果的分段、分词、顺滑、置信度评估等后处理技术,实现审讯语音数据的自动笔录、关键信息抽取、结构化存储、信息检索、智能分析及语速检测等技术。
(4)数据交换平台
可以为第三方系统(如:办案系统、同步录音录像系统)可提供相关业务信息查询等外部接口,方便与其他业务系统数据交换。
3.4. 智能会议系统建设方案
3.4.1. 物理架构
智能会议系统由服务器平台和部署在各会议室的终端设备构成。服务端设备主要包含:中文转写引擎服务、应用服务器、全文检索及存储服务器。
各终端会议室配置包括:声卡、展板服务器、智能会议客户端电脑等终端设备,设备连接图及数据走向示意如下:
3.4.2. 软件部分
本项目软件部分的建设内容包括:中文语音转写引擎、智能会议系统的建设。
3.4.2.1. 核心引擎建设
智能会议平台需要解决语音转换成文字的问题。机器语音识别技术是一种实现从“声音”到“文字”转换的技术,通过将人的语音直接转换成相应的文本。语音识别技术的研究工作开始于上世纪五十年代。Bell实验室的研究人员利用模拟元器件提取了语音信号元音共振峰频率变化的信息,有史以来第一次实现了识别十个英文数字的语音识别系统-Audry系统。八十年代,Bell实验室的Rabiner等科学家将原本艰涩难懂的隐马尔科夫模型(Hidden Markov Model-HMM)理论工程化,形成了较为完善的概率统计模型体系,识别性能也得到了很大的提高。2006年以来Deep Learning理论和技术成为了模式识别领域的一个热门研究方向,G. E. Hinton等深入研究了深度置信网络(Deep Belief Network-DBN)以及深度神经网络(Deep Neural Network-DNN)等模型结构,微软通过与Hinton合作率先将DNN应用于语音识别任务,识别性能取得了显著提升。此后谷歌、蒙特利尔,以及IBM又将循环神经网络(Recurrent Neural Netwok-RNN)成功应用于语音识别领域,特别是长短时记忆(Long-Short Term Memory)神经网络结构,取得非常出色的语音识别性能。加上目前图形处理器(GPU)计算能力的提升,以及互联网时代大规模标注数据获取成为可能,基于深度学习的语音识别技术已经在多个领域达到实用水平。
传统的语音识别技术主要用于解决人与机器的交互问题。而在会议场景需要需要转成文字的音频内容是人与人之间交互,智能会议平台需要基于机器语音识别技术构建语音转写引擎。智能会议平台构建的语音转写引擎需要能够实时、高效的把人与人之间交流的语音转换为文字的能力,具体包括中文语音转写引擎与英文语音转写引擎,本系统完成中文语音转写引擎的建设。
智能会议系统
3.4.2.2. 应用功能建设
4.2.2.2.1 用户管理
智能会议系统采用账号密码登录,在提升安全体验的同时,分账号进行管理;系统可根据需要配置提供管理员账号和普通账号,管理员账号可查看全部列表内容,普通账号仅支持查看当前账号下的内容。不同账号间的数据进行逻辑和物理隔离,保证数据安全性和私密性,实现了分权管理。
4.2.2.2.2 实时语音转写
智能会议系统通过对实时音频流信号的处理完成从信号获取、转换、处理、识别、输出、展示等一整套流程动作,需要由强大的音频采集处理模块。系统讲通过使用特定的录音服务,通过麦克风收集后,送达后台服务端完成编码工作,实时上传到系统,供后续的转写文字等功能使用,同时保存到内容管理模块中。
系统通过专业麦克风对会议全程进行高保真录音,并针对连续中文语流进行实时语音转写识别,并持续进行转写结果文本内容的输出。
4.2.2.2.3 历史语音转写
相比于实时语音转写模块,历史语音转写模块提供对于已经录制好的历史音频需要转写情况下的解决能力;用户可以通过系统提供的功能按钮,导入历史音频并实现快速离线转写;支持音频批量导入。
4.2.2.2.4 角色分离
系统提供两种角色分离方案:一是通过软件自动的角色分离功能实现手动角色分离,另外可借助会议室现场的麦克风设备实现硬件自动角色分离。
手动角色分离
如果在会议开始前已经添加了相关的发言人姓名,那么此时界面左下方会显示已添加的发言人信息,相应发言人发言时,点击该发言人姓名,该发言人的发言内容前即会带上角色名称。如果事先没有添加,或者添加数量不够,那么在会议过程中也可以点击进行添加,最多支持20人。
硬件自动角色分离
在检察官联席会议室、配备8路声卡实现硬件角色分离。界面左下方会显示在会议开始前设置的每个麦克风对应的发言人,相关发言人发言时对应麦克风标志会高亮显示,并且发言内容前会自动添加上角色名。每个麦克风对应的角色在会议过程中可以修改,如果都没有设置,那么会显示默认编号。
如果想替换某段文本前的发言人信息,将鼠标键入在该段任意处,再点击角色名即可替换。
对于党组会议室和检委会会议室这些8路以上的硬件角色分离需求,进行了会议室内麦克风及主机设备的改造和替换。在新建会议页面和设置项中都可以进行角色的设置,角色名称在会议过程中都可以双击修改。
4.2.2.2.5 内容编辑
在实时语音转写过程中书记员可以实时对转写出的文本结果进行编辑,并进行重点内容标记。在实时编辑的过程中采用延时播放的策略,书记员可以在查看到转写文本之后及时根据听到的音频进行文本校对编辑。书记员也可配戴耳机直接听现场的实时音频。支持选择查看原始结果,对比修改,方便快捷,会议结束后即可直接成稿,并根据重点内容,整理导出会议纪要。具体功能包括:
延时播放:在实时语音转写过程中,识别结果展现之后再开始连续播放音频,即书记员在看到转写文本的时候,同步听到对应的音频,使得校对和编辑更加便利。
重点内容标记:在实时语音转写过程中或者暂停和结束时,书记员均可以选中文本来进行重点内容的标记,已标记的文本也可以进行修改和标记取消,方便整理会议纪要,会议结束会后即可或直接成稿。
音字对照:在实时语音转写暂停的时候,书记员如果对于有些内容没有听清,对于文本内容不确定的情况下,双击原始结果即可听到文本对应的音频,方便对转写结果进行编辑,尤其是不小心误删除了编辑文本,可以通过回听原始结果来进行回溯。实时语音转写结束状态时,原始结果及编辑结果均可双击进行音频回听。
4.2.2.2.6 效果优化
在实时语音转写过程中,智能会议系统通过提供语气词过滤、自动分段等功能自动优化文字转写和显示结果。具体包括:
自动分段:在会议内容实时语音转写成文字的过程中,为了方便用户编辑何查看,系统提供根据VAD+固定字数和 VAD+固定关键词两种自动分段方式。系统提供最佳的默认自动分段方式,用户也可根据实际情况进行设置。
语气词过滤:用户可以在实时语音转写开始前或者进行文稿整理时可以根据需要选择是否开启语气词过滤按钮,若开启按钮可将语气词和多余的词汇去除,以保证文稿的规整。语气词过滤只针对新转写的结果,已经修改过的内容不支持过滤。
关键词优化:用户可通过关键词优化功能将此次会议相关的关键词进行添加,能有效提升该关键词的识别准确率。实时转写过程中书记员也可添加关键词,并且可以实时生效,后续识别结果可得到有效优化。
4.2.2.2.7 内容管理
所有通过智能会议系统转写的实时录制的音频文本数据和本地上传的音频文本数据系统都会以列表形式进行管理,后台通过分布式存储集群实现高效安全存储,整个过程用户无感知。用户可以通过内容管理模块随时查看和编辑,并且可以根据名称等信息快速检索。此外,编辑后的全文本、重点文本以及音频、某一角色的文本,书记员都可以快速导出,方便快捷。
系统通过自然语言理解、语音识别和语义分析技术理解用户意图,执行书记员的检索指令(包括语音、文本等),实现资源文本内容的语音搜索服务能力,不仅能检索文本资源,也能根据文件名对音频内容进行搜索。该服务在传统的文字输入搜索方式基础上,不仅能支持搜索语音时的相对自由表述,也能够支持传统文字检索时的相对自由表述。
4.2.2.2.8 上屏展示
系统通过提供展板上屏等形式进行实时语音转写结果的展示。具体功能包括:
实时上屏:通过展板上屏展示实时语音转写结果。并且,字体颜色和展板背景颜色可以根据实际情况需要进行调整。
上屏后台修改:如果在实时转写过程中使用了实时上屏功能,希望保障上屏效果,那么可以使用上屏后台修改功能进行展板端的结果纠正。在开始时点击展板按钮,调出展板,此时该展板端会同步出现识别文字。如果在转写过程中出现明显错误或不适宜展示的词语,则可以在主控端进行展板编辑,可以修改或删除,修改之后按Enter 键则修改的内容会同步到现场的投影屏幕上。
3.5. 智能检务输入法
较为传统的人机交互方式包括键盘、触屏、手写笔等,由于移动终端屏幕小、键盘小,传统的交互方式相对比较笨拙,对使用者的技能也有较高的要求。
在智能语音云平台服务的基础上,提供语音输入法,适用于台式机、笔记本等设备,实现语音识别输入、手写输入、拼音输入等全方位的文字输入功能。
语音输入结合智能语音技术,将用户口述内容自动转为与语音对应的文本,改变现有的信息采录方式,比传统方式要快3~5倍,可以大大降低对技能的要求,让打字慢的干警在录入工作中也可以变的很快,提高工作效率。
4. 智能语音系统未来应用展望
未来将通过采集干警声纹,实现基于声纹识别的会议签到和角色分离;与统一业务应用系统、检委会子系统对接,完善智能语音系统的能力;进行会议材料自主学习,进行篇张级优化,解决会议中人名、地名、证据名、公司名等特定词汇识别准确率问题;实现会议过程中文档、图像等会议材料的实时调取、同步显示;法律条文随讲随查;通过角色筛选,导出指定发言人的发言文本;建设智能辅助审查系统,辅助公诉、侦监人员实现对公安移交过来的卷宗材料、审讯笔录、视听资料的合法性、完整性、客观性、关联性、规范性等进行快速核查;建设智能语音示证系统,实现电子卷宗便捷制作、示证材料灵活展示、示证过程全程留痕等功能,提升举证质证能力及科技含量,提升展示证据的公正与效率;建设智能语音调度系统,基于语音识别、语音合成等技术构建讯飞智能调度系统;实现智能卷宗归档功能。
编辑:广翰楼
声明:
本网站图片,文字之类版权申明,因为网站可以由注册用户自行上传图片或文字,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。
征稿启事
品牌推荐更多>>