时间:2023-09-01 10:02:41 来源:武汉百智诚远科技有限公司
[法安导读] 一、适用业务 百智诚远打造的基于人工智能深度学习和法律知识图谱构建的电子卷宗深度应用整体解决方案。 通过深度挖掘电子卷宗数...
一、适用业务
百智诚远打造的基于人工智能深度学习和法律知识图谱构建的电子卷宗深度应用整体解决方案。
通过深度挖掘电子卷宗数据资源,利用深度学习、图像识别、自然语言处理NLP和知识图谱技术,从电子卷宗的海量信息中实现实体抽取、关系抽取、属性抽取和事件抽取,为人民法院提供电子卷宗知识图谱能力平台,为法官办案提供全方位的数据服务,以智能化手段破解法院“案多人少”的压力。
目前市场上对电子卷宗深度应用仅限于自动编目、身份信息抽取、地址信息抽取,而忽略了电子卷宗中含有的大量的可分析知识图谱,而这些未被分析的电子卷宗信息,对法官办案效率的提升具有重大影响。
本解决方案通过深度学习、图像识别、自然语言处理NLP和知识图谱技术对电子卷宗数据进行多维度全方面的分析,实现想法官所想,供法官所需,全方位的为法官办案、案件管理、案件质量评查提供数据支撑。
二、业务流程
本解决方案是面向法院行业、律师群体、法律服务企业等需要定制AI需求、零算法基础及追求高效率开发AI的企业用户提供的零门槛法律AI服务平台。
本方案通过深度挖掘电子卷宗或法律文书中的数据资源,利用深度学习、图像识别、自然语言处理NLP技术,将资源中的实体、属性和关系进行体系化梳理,并建立逻辑关联,通过知识图谱和大数据技术进行数据挖掘,从而运用于法律知识检索和推送、案件文书自动生成、裁判结果预测预警、知识智能问答、数据可视化等方面,为相关人员办公办案提供高效参考和科学依据。
图 1 解决方案总体技术方案图
原始数据通过知识抽取或数据整合的方式转换为三元组形式,然后三元组数据再经过实体对齐,加入数据模型,形成标准的知识表示,过程中如产生新的关系组合,通过知识推理形成新的知识形态,与原有知识共同经过质量评估,完成知识融合,最终形成完整形态上的知识图谱。
在法院行业,海量的数据源均为文本类非结构化数据(经OCR识别转换后形成的大量txt格式数据),或表格及列表类的半结构化数据,半结构化数据需要通过D2R(DRF格式转换器)、包装器(格式解析工具)等工具完成处理,而文本类的非结构化数据需要通过自然语言处理的相关技术进行知识抽取,最终生成的所有数据都要通过处理转化为标准数据供图谱使用。因此对电子卷宗进行深度应用的前提是使用知识抽取技术,将海量的非结构化数据转换为结构化数据,进而形成可供使用的知识图谱。
对电子卷宗的知识抽取主要按照自然语义中的主谓宾语法进行抽取,分为实体抽取、关系抽取、属性抽取和事件抽取等。实体抽取指在电子卷宗中识别出特定的元素标签(如当事人姓名、地址、案由等),并与实体库中的标签相链接,是信息抽取中最基础的部分;关系抽取意在找到电子卷宗中实体间的关系(如当事人关系网络图);事件抽取是将电子卷宗中指定的事件信息(如鉴定、保全、撤诉、调查等),并结构化地表现出来,包括案件的时间、地点、人物、原因、结果等,通过使用将事件划分多个分类阶段的pipeline方法和利用神经网络的深度学习方法,将赋予事件抽取时间维度,并通过与时俱进地迭代学习,从而使汇聚而成的法律知识图谱更加完整。
三、核心技术
本方案涉及到的关键技术分别有:深度学习、图像识别、自然语言处理NLP和知识图谱。
1、深度学习。机器学习是通过多层非线性的特征学习和分层特征提取,对图像、声音等数据进行预测的计算机算法。深度学习为一种进阶的机器学习,又称深度神经网络。针对不同场景(信息)进行的训练和推断,建立不同的神经网络与训练方式,而训练即是通过海量数据推演,优化每个神经元的权重与传递方向的过程。而卷积神经网络,能考虑单一像素与周边环境变量并简化数据提取数量,进一步提高神经网络算法的效率。
2、图像识别。图像识别的核心技术是计算机视觉。计算机视觉是用机器替代人眼,对目标进行识别、跟踪和测量等,并处理为人眼观察或易于机器检测的图像的技术。技术上需要大量的图像数据对计算机进行训练,如人脸、动物图片、证件图片等,依靠AI芯片和深度学习算法进行归类判断,最终对输入图像进行识别。
3、自然语言处理。自然语言处理是研究人机之间以人类语言进行交流的方法的过程。NLP包括多方面步骤,基本由认知、理解、生成等部分。基于数据及知识图谱,计算机通过阅读(知识)自动获取信息,通过NLP可以将输入的语言变为有具体含义的符号,再根据使用者意图进行处理,重新编为人类语言输出。与语音识别关注准确度不同,NLP更多关注语言的具体含义及语境,试图理解句子意图和上下文含义。
语义理解仍有很多基础工作要积累,譬如算法建模、数据标签、知识图谱等。NLP在智能语音中负责将计算机语音重新编为人类语言进行输出,要尽可能缩小歧义,是智能语音的核心技术。以语音识别+NLP的智能语音技术在芯片算力和深度神经算法加持下其准确度正进一步提高。
4、知识图谱。知识图谱提供了管理组织海量数据的能力。知识图谱融合了认知计算、知识表示和推理、信息检索与抽取、自然语言处理与语义Web、数据挖掘与机器学习,是人工智能的重要研究领域。知识图谱的应用可以直接为用户提供答案和解决方案,直接显示满足客户需求的结构化信息内容。
以电子卷宗数据作为知识图谱,AI技术快速渗透。从电子卷宗的海量信息中实现实体抽取、关系抽取、属性抽取和事件抽取。如:当事人身份信息、代理人身份信息、其他案件相关人员身份信息、法律实体、案件实体、争议焦点、地址信息、案由、案件标的、案情时间逻辑线、诉讼参与人关联关系、关联案件等。
通过以上四大技术对法院电子卷宗中的非结构数据进行统一整合并解决法院业务过程中最具影响的四类问题,从而实现司法业务场景的智能应用,最终提升办案质效、辅助司法管理、服务群众诉讼,加速推进司法智慧化、数字化、现代化转型升级。
四、适用技术平台
本系统能提供通用接口,可与法院内部业务系统及各平台无缝对接,且部署方式灵活,无特殊部署环境要求,安全可靠。
五、创新点
通过智能化手段,实现电子卷宗中如人、物、地、组织机构、服务标识等实体的抽取,并根据实体的属性联系、空间联系、语义联系、特征联系等建立相互关联,构建一张具有法院业务特性的多维、多层的实体与实体、实体与事件的关系网络,并按法律要素实现结构化管理,辅助法官办案时对要素信息的自动引用、排列、归纳和分析全要素案件数据。
六、可解决的问题
本解决方案主要是借助科技手段使人民法院海量的电子卷宗向电子档案转换。目前人民法院都已逐步实现卷宗扫描生成电子化卷宗,而扫描后生成的电子卷宗数据大多都为非结构化数据,只有利用自然语言处理后将其转变为可利用的结构化数据,才能够真正实现电子卷宗的深度应用。
通过自然语言处理技术对海量电子卷宗内容在语义上进行初步认知和自动抓取,经由知识图谱对概念间的关系属性进行联结、转换,从而对案件过程进行描绘,实现业务规范梳理、审理流程可视化、身份关系及其他要素挖掘等应用,来打通各业务对要素数据的需求梗阻点,进一步推进贯穿立案、调解、审理、合议、裁判、执行、结案、归档等全流程、全要素无纸化办案。
七、运用成效
当前绝大多数人民法院只能实现对电子卷宗的初步应用,即通过左看右写、复制粘贴的方式,人工将部分非结构化内容转化为结构化数据。但是想要实现电子卷宗的深度利用、智能生成,还需要有海量的结构化数据提供强支撑,即形成可支撑现有业务的智慧大脑/知识图谱。
通过人工智能深度学习、自然语言处理形成的法律知识图谱,已实现在法院以下五大较成熟的业务场景上进行深度应用。
图 2 解决方案深度应用业务场景及成效
(一)管理当事人地址库。通过技术手段对地址数据统一提取、集中管理、实时更新、定期维护,形成当事人地址库。结构化当事人地址要素数据可在法官办理送达事项时,快速关联当事人地址库要素信息,解决送达工作中地址不精准的问题。
(二)管理当事人身份类信息。通过对所有诉讼参与人的身份信息要素提取,将其从非结构化转化为结构化,能在法官办案时快速关联、精准核对、一键提取,并扩充法院未来线上诉讼业务的受众人群,形成全方位身份信息数据网。
(三)管理申请事项类。完成申请事项要素信息的提取工作,法官确认信息要素信息无误后,对应的撤诉裁定、保全裁定、鉴定委托书、证据调查函等文书就能具备一键生成的可能。
(四)管理要素化审判。精准提取、定期维护相关要素表即可快速生成裁判文书,实现各类型案件文书的批量生成、全流程的批量化操作,助力要素化审判。
(五)预测与监督服务。预测指的是人工智能系统对电子卷宗进行情节特征的自动提取和类似裁判文书判决结果的智能学习,建立具体案件裁判模型,根据法官点选的关键词或提供的事实、情节,自动统计、实时展示同类案件裁判情况,预测正在审理案件的实体裁判,同时推送更为精准的相似案例,供法官参考。
基于人工智能深度学习和法律知识图谱构建的电子卷宗深度应用整体解决方案不仅利用数据分析、文本语义分析等,抽取出人、物、地、组织机构、服务标识等实体,并根据实体的属性联系、空间联系、语义联系、特征联系等建立相互关联,构建一张具有法院业务特性的多维、多层的实体与实体、实体与事件的关系网络;还深入业务场景、与参与办案各环节的信息系统打通、对数据进行统一整合并首要解决法院业务过程中最具影响的五类问题,从而实现司法业务场景的智能应用,最终提升办案质效、辅助司法管理、服务群众诉讼,加速推进司法智慧化、数字化、现代化转型升级。
责任编辑:广汉
声明:
本网站图片,文字之类版权申明,因为网站可以由注册用户自行上传图片或文字,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。
征稿启事
品牌推荐更多>>