法安网

法安网内容检索

当前位置:首页 > 解决方案 > 检察院 >

无锡市公益诉讼智能研判平台技术方案

时间:2020-12-11 13:47:22   来源:上海理想信息产业(集团)有限公司

[法安导读]  锡山区检察院作为试点单位通过公益诉讼智能研判平台,已经初步实现智能推送线索、科学评估线索、智慧分析研判、辅助决策办案,效果显著,已走在全国检察监督信息化建设的前列。

  一、项目概述

  (一)项目背景

  我国宪法第129条规定:中华人民共和国人民检察院是国家的法律监督机关。党的十八届四中全会提出“探索建立检察机关提起公益诉讼制度”。习近平总书记主持中央全面深化改革领导小组第十二次会议时又指出,党的十八届四中全会提出探索建立检察机关提起公益诉讼制度,目的是充分发挥检察机关法律监督职能作用,促进依法行政、严格执法,维护宪法法律权威,维护社会公平正义,维护国家利益和社会公共利益。

  党中央高度重视公益诉讼工作,习近平总书记在第二十二届国际检察官联合会年会暨会员代表大会的贺信中指出:“检察官作为公共利益的代表,肩负着重要责任。”

  做大做强公益诉讼工作,很重要的一个方面就是要获取一定规模的监督信息数据,拥有充足的线索来源。针对以往线索获取的滞后性和局限性,无锡检察机关率先在全国探索检察监督信息化建设,这其中重要的一块就有公益诉讼信息化建设,其中锡山区检察院作为试点单位通过公益诉讼智能研判平台,已经初步实现智能推送线索、科学评估线索、智慧分析研判、辅助决策办案,效果显著,已走在全国检察监督信息化建设的前列。根据市院的统一部署,此次规划将基于锡山检察院公益诉讼信息化实战经验,建设无锡市公益诉讼智能研判平台。

  (二)建设目标

  本项目建设目标如下:

  公益诉讼智能研判平台是集信息采集、案件智能分析于一体的综合系统,平台引入大数据分析挖掘算法、人工智能等技术,通过与市检务大数据中心(在建)对接,整合全市公、检、法、地税、国税、生态环境、农林、自然资源、市民热线等多个部门的各类线索信息,借助强大的数据集成、存取、搜索、共享、分析功能,实现数据的快速处理、便捷统计、个性查询及可视化呈现,并根据业务需要,对信息关联整合,快速获取公益诉讼线索,评估线索价值,为无锡市两级检察机关掌握辖区内公益诉讼线索情况,合理分配检务资源提供依据。

  平台通过建设公益诉讼信息库,对公益诉讼数据进行综合分析研判,完善数据查询、自动匹配和比对,案件线索自动推送、分析研判,典型案例和法律法规的自动关联、指引,相关领域办案模块的自动生成等功能。为无锡市两级检察机关公益诉讼业务提供精准、及时、可靠、全面的信息数据支撑。

  平台需搭建一套拥有集公益诉讼信息查询模块、生态资源地图模块、智能线索发现模块、价值线索推送模块、公益诉讼智能研判分析模块、公益诉讼辅助办案模块、可视化展现、报表输出、权限管理等功能模块为基础,深入数据分析建立公益诉讼线索评估模型对案件线索文本进行分析评估的系统,提升检察工作人员处理公益诉讼业务的工作效率,保障检察工作科学有序的开展。

  (三)建设依据

  2017年6月27日,十二届全国人大常委会第二十八次会议决定对《中华人民共和国民事诉讼法》、《中华人民共和国行政诉讼法》作出修改,正式建立检察机关提起公益诉讼制度。依据修改后的《中华人民共和国民事诉讼法》第五十五条、《中华人民共和国行政诉讼法》第二十五条规定,检察机关提起民事公益诉讼的范围是生态环境和资源保护、食品药品安全领域的案件;提起行政公益诉讼的范围是生态环境和资源保护、食品药品安全、国有财产保护、国有土地使用权出让等领域的案件。6月30日,最高人民检察院下发《关于全面开展公益诉讼工作有关问题的通知》,要求全国检察机关从2017年7月1日起全面开展公益诉讼工作。

  2018年3月2日,最高人民法院、最高人民检察院联合出台《关于检察公益诉讼案件适用法律若干问题的解释》,丰富和完善了中国特色的检察公益诉讼制度,为统一办理检察公益诉讼案件提供了法律依据。

  2018年江苏省无锡市检察院与市监委联合发布《关于在行政公益诉讼案件中加强协作配合的意见》,从线索移送、协作配合、信息共享等三个方面对双方的权力义务作出了明确具体的规定,从一定程度上缓解了检察机关公益诉讼调查难的问题。探索双向移送机制,对促进依法行政、强化公益保护具有重要意义。

  (四)项目意义

  公益诉讼智能研判平台重要性:

  当前检察机关正处于转型发展的“窗口期”,要适应新形势新变化,就必须跳出惯性思维,在更高起点上推动思想解放,实现高质量发展。认真贯彻最高检张军检察长提出的“讲政治、顾大局、谋发展、重自强”的要求,力争做到“五个走在前列”。

  以公益诉讼为突破,聚焦主责主业,力争转型先行走在前列。解放思想既是一次“头脑风暴”,更是一次真抓实干。坚持把顾大局作为新时代检察工作的主旨。坚持以办案为中心,以诉前建议、公益诉讼等法治手段和强有力的举措,着力解决生态环境领域、工业固废处置、食药品安全等方面的问题,帮助党委、政府树立权威,促进法治政府建设。加大基层检察院建设力度,推动均衡协调发展。加快科技强检步伐,推动互联网、大数据、人工智能与检察工作深度融合。

  以数据技术为基础,建设智慧检务,力争创新引领走在前列,充分认识数据技术对检察工作发展的战略性意义。聚焦“科学化、智能化、人性化”,将司法办案需求和科技应用实务深度创新融合,强力推进公益诉讼数据采集,集中精力抓关键性数据采集,大力研发“公益诉讼智能研判平台”,实现智能推送线索、科学评估线索、智慧分析研判、辅助决策办案等功能。

  实现对于公益诉讼线索和公益诉讼案件信息的分析和挖掘只是系统带来的浅层效益,在此基础之上,借助分析和挖掘结果,还能够对多项工作的机制、方法和成果进行改进。

  二、现状调研

  (一)单位概况

  无锡市人民检察院位于无锡市中心东段,崇宁路9号,内设23个部门,217人。下辖江阴、宜兴两市院和梁溪、锡山、惠山、滨湖、新吴区五个区检察院。全市检察机关现有人员1030人,大学以上文化程度占94.5%,硕士研究生占15.4%,博士研究生1名,全国检察业务专家1名,全省检察业务专家3名。

  近年来,无锡全市检察机关深入贯彻党的十八大及十八届三中、四中、五中全会精神和习近平总书记系列重要讲话精神, 认真落实中央、省市政法工作会议和全国、全省检察长会议的新部署、新要求,紧紧围绕“争当全省检察机关科学发展排头兵、争做中国特色社会主义检察制度示范院”的“双争”工作目标,全面履行法律监督职能,切实加强自身监督制约,深入推进检察改革创新,着力建设过硬检察队伍,为无锡经济社会发展营造更加良好的法治环境。

  (二)业务现状

  2018年,无锡市检察机关切实强化法律监督,扎实推进公益诉讼工作,交出了一份让人民满意的答卷,紧扣公益核心,竭力当好公益“看护人”,共立案调查公益诉讼案件1159件,发出诉前检察建议1063件,提起公益诉讼26件,推动修复水域、复垦耕地林地2626亩,督促清除危险废物2.4万余吨,挽回国有资产损失1659.5万余元,索赔环境损害修复费用2141.3万余元,该项新增检察职能被省人大常委会专题调研组评价为“干出了深度、干出了水平、干出了成效”。。

  无锡检察机关围绕生态资源和环境保护、食品药品安全、国有资产保护等重点领域靶向发力,共摸排线索2221件,立案调查961件,提起公益诉讼26件,分别占相应总量的96.2%、96%和100%。宜兴市检察院与国土、环保等部门联合启动无人机巡航监控系统,并在全省率先运用区块链和卫星遥感取证技术,对宜南山区等公益损害高发区域进行月度航拍巡查,发现违法毁绿点38处,督促恢复植被绿地463亩。该院关于加强废铝灰监管的检察建议被评为全省十大精品检察建议。江阴市检察院探索成立全国检察机关首家生态环保和食品安全快速检测中心,滨湖区检察院挂牌成立全省首家生态环境与旅游检察室,锡山区检察院制发全市首份督促履职令协助人防部门解决国有财产领域公益损害问题,市检察院办理的一起跨省非法运输、倾倒生活垃圾公益诉讼案获“推动中国法治进程十大案件”提名,无锡检察公益诉讼工作呈现出强劲发展的态势。

  但关于公益诉讼仍存在一些业务痛点:

  缺少标准化的业务流程

  目前公益诉讼还没有标准化的业务流程,办案过程依赖经验,不利于新的检务人员快速掌握业务办理步骤,以及办案过程中需要的材料和要点事项。

  线索发现难

  检察机关获取公益诉讼线索,主要通过案件办理或者当事人控告举报。这样获取的线索有一定的滞后性,而且线索数量较小。

  调查取证难

  由于前期线索收集困难,导致了调查取证过程时,缺乏关键、及时、准确有效的线索。

  整改执行难

  发布整改执行通知后,缺乏有效实时的监督机制和监控手段,对需整改执行的企业或单位等缺乏有效监控。

  人工智能化不足

  在办案过程中,需要经过大量的卷宗审阅,需要了解该案件的相关信息,相关证据是否确凿和刑法条例等相关因素,然后通过人工经验方式来判断该案件是否存在违规违法,该过程耗时耗力,由于人的主观参与,还不排除出错及偏向性的情况出现。

  (三)网络设备情况

  目前无锡市两级检察机关建设和使用的网络有单位内网、检察专网、政务外网,以及互联网。

  本系统的开发和建设,将充分利用已有的网络资源和设备。对检察院现有网络情况进行充分调研,了解内部网络架构,作好内外网互通等相关准备。

  (四)业务应用范围

  本次项目的需求调研对象是无锡市检察院及区检察院。

  系统建成后的使用对象是无锡市两级检察机关公益诉讼相关部门。

  (五)项目建设条件

  数据中心建设

  市检务大数据中心目前还处于建设阶段,在建设完成前,公益诉讼平台只能基于自建信息库实现(目前可使用的是锡山区检察院数据中心),各外部数据源的采集也需要自行处理,需要有一段时间的过渡期,待市大数据中心建设完成后,再将数据和应用迁移至正式环境下。由于全市各类数据的总量较大,锡山区承载能力有限,在过渡期可能不能接入全量全市数据,但数据标准和架构可以按全量数据设计建设。为确保后期的平稳过渡,需要市院统一协调制定数据标准。

  三、需求分析

  (一)业务需求分析

  由于本项目的实际需求,对系统有着如下的具体需求:

  提供公益诉讼标准化业务流程

  平台应能提供公益诉讼业务流程管理功能,明确业务办理过程中需要提供的材料和要点事项,并能自动生成流程指引和清单,辅助检务人员高效办案。

  汇聚各类检务相关数据资源,实现公益诉讼线索自动发现

  平台应能汇聚公安、检察、法院、自然资源、生态环境、城管、水务、市场监督、税务、12345市民热线等信息系统数据、无人机航拍影像,以及互联网网络舆情数据等,为公益诉讼工作提供综合性的信息服务,提升业务系统的关联分析和统计分析能力,为公益诉讼线索发现提供更多信息渠道。

  综合利用信息资源,实现价值线索评估推送

  平台应能在集成各业务系统信息资源的基础上,从多维度对公益诉讼线索进行价值评估,提供价值线索的自动推送能力。

  平台应能提供多维度的统计分析功能,如变化趋势分析、同比环比分析、分布分析等,并以简洁、直观的图形化方式进行展示,帮助各级检察机关快速掌握辖区公益诉讼线索和业务分布情况。

  建立业务分析模型,实现公益诉讼分析研判,辅助公益诉讼办案

  利用OCR识别、自然语言处理、语义理解等人工智能技术建立业务分析模型,对案件文书等相关材料进行智能化分析比对,能够自动关联相关法规条款和涉及职能部门的权力清单,实现公益诉讼分析研判,辅助公益诉讼办案。

  引入无人机技术,实现远程巡察、监控,案件现场图像采集等,减轻现场调查工作量和难度。

  同时建立案件生命周期管理,跟踪公益诉讼案件流程,从线索发现到整改反馈或者成案处置的各流程环节状态,监管公益诉讼整改执行全过程。

  提供公益诉讼案件办理过程中各类定制报表输出功能。

  引入GIS技术,实现基于地图的生态资源信息展示与统计分析

  引入GIS技术,并与公益诉讼案件分析相结合,通过撒点图、聚合图、热力图、辖区统计图等多种形式,在地图上直观地展现土地资源、森林资源、水系资源、畜牧资源、化工企业、固废危废企业的位置信息和分布情况,帮助无锡检察院快速定位线索相关企业单位和资源信息。

  多级权限管控,保证系统的应用安全和数据安全

  系统需要提供为不同岗位的使用者设置不同的操作权限和数据权限,从而保证系统数据的安全性。

  综上所述,本项目将完成以下业务应用需求:

  \

  (二)业务流程分析

  锡山区人民检察院率先创新性提出公益诉讼八步标准化业务流程:

\

  平台通过采集分析多源数据,智能发现疑似公益诉讼线索;辅助制定调查预案,智能检测相关辖区、相关行政机关、是否存在违法行为或不作为、是否侵害国家利益等情形;根据线索影响和危害综合评估线索价值,对线索进行分级,将高价值线索的推送给相关工作人员;辅助制定调查计划(调查方案、重点和步骤);经检务工作人员调查核实后,平台可对案件进行研判分析(自动匹配关联提供相关法律法规条款,自动提供相似案例参考),自动生成检察建议;在相关行政机构整改后将反馈回复录入系统中;如未按时整改,可对其提起公益诉讼;系统提供公益诉讼案件整改落实情况的跟踪监督。

  (三)数据分析

  数据量及来源分析

  平台与数据中心库对接并利用多种方式对接公安、检察院、法院,以及各行政机关、司法机关和基层组织、收集数据、职权清单、立案标准数据,同时汇集检察院案件数据,支持结构及非结构化数据,借助强大的数据集成、存取、搜索、智能分析功能,实现数据的快速处理、便捷统计、个性查询及可视化呈现。

\

  本系统的总用户数:预计本系统将无锡全市检察院公益诉讼相关部门人员使用,预计总用户数为200-300,系统按500承载能力设计。

  本系统涉及到的数据量较为庞大,预计正常运行时的数据量为1000余万条记录,静态数据存储量约为5TB。预计近3年内将达到的总存储约为15TB。系统采用分布式可扩展设计,后期可根据业务量、数据量的增长随时扩容。

  数据备份方式为每月全盘备份、每天增量备份。

  数据处理及集成分析

  在数据处理上,本项目将完成以下几个主要的工作

  数据采集

  数据清洗

  数据分析与统计

  在数据集成上,本项目将采用多种数据集成方式(包括数据导入、数据库接口、文件导入等),实现相关业务平台数据的采集与汇聚,并对集成的业务数据进行清洗、过滤、转化,形成专题数据,保证信息的完整性、准确性、一致性。

  (四)安全需求分析

  从数据分析,本平台将涉及到案件信息和个人隐私信息,具有一定的保密性。通过系统安全登录认证和系统用户的权限控制来保障平台的数据不会被非法访问和窃取。

  权限控制

  平台对数据的安全访问控制分为2级:

  第一级为菜单的安全访问控制:

  平台每个用户对应多个不同的系统角色,而角色可以对应多个菜单,系统用户通过自己所拥有的角色列表来获取他可以访问到的菜单列表,进而访问菜单引向的页面内容。

  第二级为数据的安全访问控制:

  平台每个用户对应一个或多个单位。当用户查询数据时,他所属的单位列表将被平台用来限制他所能看到的数据范围。缺省状态下只能看到本单位的数据,其他单位的数据需要授权后才能呈现。

  四、技术方案

  针对无锡检察院的业务需求,研判分析平台依托大数据处理、数据仓库和数据挖掘技术,以服务于公益诉讼业务为目标,围绕着公益诉讼线索信息从需求到应用的信息化工作流程,实现公益诉讼信息的查询、统计、分析、预警、评估、展现等功能,不断提升公益诉讼信息的发现评估能力和综合研判能力,为检察院各级领导及时掌握情况和决策提供帮助和支持,为各个业务部门开展工作提供实际指导。

  (一)系统总体架构

\

  数据源层:接入公安、检察院、法院、自然资源、生态环境、税务、城管、水利、市民热线等多个政府部门信息系统数据、无人机数据、网络舆情数据等;数据源层的实施不在项目内,由市检务大数据中心负责;

  数据采集汇聚层:负责数据的采集、预处理、配置管控等工作;

  数据存储处理:包括结构化和非结构化数据存储的数据仓库、工作流引擎;

  分析挖掘层:可插拔式的分析建模框架和算法模型,提供模型管理、样本管理、模型训练、模型加载、任务高度、运行监控等服务,各单位可自行设计擅长的业务模型;

  数据服务层:负责底层数据的封装,为应用提供数据服务,主要包括数据封装、报表封装,以及分析报告封装;

  平台展现层:为用户提供友好的应用功能和数据展示界面;

  系统管理:提供平台用户、权限管理,以及数据质量、安全配置等。

  (二)网络拓扑

  本平台的工作环境最终部署在检察专网内,但平台建设中需要使用的数据分布在不同的网络环境中,主要包括检察专网、检察内网、政务外网,以及互联网等,这些网络之间目前已建立了数据采集通道,基于网络安全考虑,本平台将使用现有通道能力实现数据采集汇聚,不再新建跨网络数据采集通道,数据由梁溪区检察院建设的数据资源中心负责采集汇聚,公益诉讼平台通过数据资源中心提供的数据资源目录和数据通道实现业务数据的请求调用。网络间的拓扑关系及数据路径如下图所示:

\

  公益诉讼平台内部环境的网络拓扑如下图所示:

\

  注:图中服务器为逻辑服务器,可使用虚拟服务器资源搭建。

  在市检务大数据中心建设完成前,公益诉讼智能研判平台自行采集接入锡山区公益诉讼相关数据源。待市检务大数据中心建设完成后,通过数据交换服务器接入市检务大数据中心作为数据源(全市数据)。对不可直接对接的外部应用及互联网数据,采用单向网闸的方式接入数据。

  (三)系统功能

  本项目在软件开发层面主要功能模块包括:

  公益诉讼信息库、生态资源地图、数据查询比对、智能线索发现、价值线索推送、公益诉讼智能研判、公益诉讼辅助办案、数据可视化展现、定制报表、系统管理。

\

  1.公益诉讼信息库建设

  平台采用多种数据集成方式(包括数据导入、数据库接口、文件导入等),实现公益诉讼相关业务平台数据的采集与汇聚。主要信息库包括:

  生态资源信息库:包括旅游资源、风景名胜、森林资源、水资源等信息;

  行政执法信息库:公安、自然资源、城管、市场监督、财税等执法机构近年来的行政处罚资料;

  行政机关职权信息库:包括各行政机关权力清单信息,主要有职权依据、许可范围及条件、期限、收费标准、责任事项等信息;

  法律法规库:包括国家和地方法律法规条款、司法解释;

  非诉执行案件信息库:近年来的非诉执行案件信息;

  案件信息库:近年来的与公益诉讼领域相关的案件信息;

  法院裁判文书数据库:近年来的与公益诉讼领域相关案件的法院裁判文书;

  公益诉讼典型案例信息库:近年来有较强典型意义及较大社会影响的公益诉讼案例信息;

  统一业务应用系统数据库:检察机关统一业务应用系统的数据接入;

  公益诉讼影像资料数据库:与公益诉讼案件相关的视频、图像资料数据;

  公益诉讼案件线索来源信息库:公益诉讼案件线索来源相关信息,如来源网站、来源单位、情况描述、诉求信息等;

  知识库:公益诉讼领域相关知识百科资料;

  专家库:公益诉讼相关领域的专家、学者资料;

  平台提供信息库关键词、行政区划、业务类型、录入时间、数据状态等条件组合查询。

  2.生态资源地图建设

  平台引入GIS技术,提供无锡生态资源电子地图的查询浏览和维护功能,主要图层和内容包括:

  土地资源:农业用地、建设用地、未使用地块、疑似污染地块、化工企业遗留地块等;

  森林资源:有林地、特灌林、四旁树、造林区等;

  水系资源:河流、湖泊、水库、水源地保护区、自来水厂、污水管网、排污口、黑臭河等;

  畜牧资源:禁养区、限养区、适养区、养殖物种、养殖规模、异常情况等;

  化工企业:国控企业、市控企业、产废企业、重污染企业、拟关停企业等。

  固废危废企业:固废处理厂、危废产生单位、固废产生点、垃圾填埋点、垃圾中转站;

  基于生态资源地图,平台提供:

  生态资源分布查询:可通过撒点图、聚合图、热力图、辖区统计图等多种形式,在地图上直观地展现土地资源、森林资源、水系资源、畜牧资源、化工企业、固废危废企业的位置和状态分布情况;

  线索位置周边查询:在公益诉讼业务处理过程中,可随时通过地址或坐标定位线索位置,自动检索周边相关企业,通过企业信息可关联查看历史排污检测记录、排污许可证、环境影响评价、环境违法处罚记录、违法违规建设记录、土壤状况等信息,帮助无锡检察院快速定位线索相关企业单位和生态资源信息。

  生态资源历史沿革查询:可根据时间周期在地图上查看生态资源状态的历史演变信息。

  3.数据查询比对

  ①线索分布查询统计

  系统提供公益诉讼线索数量分类查询统计功能,展现线索的结构分布情况,用户可以通过选择不同条件进行过滤筛选,主要包括:

  线索分类

  线索来源

  时间粒度:年、季、月、周、日

  案件发生时间范围:指定时间、特殊时段

  案件发生地域:各区检察院辖区、地理位置

  展现方式:饼图,柱状图,可选择按辖区分组对比

  ②价值线索成案比对分析

  系统提供线索发现数量、价值线索推送数量、发起检察建议数量、成案数量的分类占比分析功能,主要查询筛选条件包括:

  线索分类

  线索来源

  时间粒度:年、季、月、周、日

  案件发生时间范围:指定时间、特殊时段

  案件发生地域:各区检察院辖区、地理位置

  展现方式:饼图,柱状图,可选择按辖区分组对比

  ③整改未成案与提起诉讼比对分析

  系统提供发起检察建议数量、整改未成案数量、提起诉讼数量的分类占比分析功能,主要查询筛选条件包括:

  线索分类

  线索来源

  时间粒度:年、季、月、周、日

  案件发生时间范围:指定时间、特殊时段

  案件发生地域:各区检察院辖区、地理位置

  展现方式:饼图,柱状图,可选择按辖区分组对比

  ④线索清单查询

  系统提供公益诉讼线清单的信息查询浏览功能,并在权限范围内提供内容下载。

  ⑤各区检察院排行

  系统提供各区检察院公益诉讼线索数量的排名统计功能,可选择全量数据或特定分类浏览。

  ⑥案件分类排行

  系统提供各区检察院按公益诉讼线索分类的排名统计功能,可选择全量数据或特定分类浏览。

  ⑦线索热力图

  系统提供基于电子地图的线索热力分布图形化展示,将分类线索的坐标位置标注在在电子地图上,可以直观的发现线索高发区域以及线索态势变化。可选择查看实时热力分布或历史数据。

  ⑧线索趋势分析

  系统提供线索趋势分析展现功能,将不同周期内的分类线索数量按时间轴生成趋势曲线,了解各类线索的历史变化趋势和未来走势。

  4.智能线索发现

  平台通过汇聚多源数据,建立筛选规则算法,自动发现提取疑似公益诉讼线索,并按线索属性自动分类,根据当前公益诉讼有关规定,在程序中设定环保、食药、国土、国资四大分类,形成相应的数据库。

  案件线索识别具备自主学习功能,例如原系统自动推送的线索,在用户人工审核时设为“不构成线索”后,平台能够学习记住(平台会弹出一个不构成线索的理由录入界面),再有类似案例时,平台会自动使用学习后的规则,自动判定为不构成线索。

  根据线索的来源不同主要包括:

  ①行政处罚等案情线索发现

  平台通过汇集公安、自然资源、城管、市场监督、财税等执法机构的行政处罚资料,与公益诉讼领域相关案件的法院裁判文书,如起诉书、起诉意见、裁定书、处罚决定书、案源文书(卷宗、裁决、审查报告、检察建议)等文档,通过自然语言处理、语义分析等人工智能算法,根据行政许可、行政处罚、事由、依据、结果内容的比对分析,找出不一致性或不合理之处,将与公益诉讼领域相关且疑似存在违法违规或相关部门不作为的记录生成公益诉讼线索。

  ②环保固废线索发现

  通过自然语言处理、语义分析等人工智能算法对生态环境局检查工厂生产过程的问题笔录和出具建议书的文书内容比对,发现两份文书陈述事实不一致的地方进行推送,同时也推送不符合业务规则的线索,以便减少办案人员的人工检索劳动,提高部门处理流转效率。

  ③12345市民热线线索发现

  12345市民热线数据中有大量高质量的投诉举报信息,如关于环境保护、食品卫生安全、国有资产非法占用等与公用权益相关的投诉举报数据。

  通过接入12345市民热线工单信息,对市民诉求描述内容文本、委办单位的反馈内容文本、处理结果描述文本的综合分析,将与公益诉讼领域相关且疑似存在违法违规或相关部门不作为的记录生成公益诉讼线索。

  此外很多行政单位建设了自有投诉举报热线服务或领导信箱服务,如生态环境局、自然资源局等,这些服务系统的数据中也存在与公益诉讼相关的投诉举报信息,通过接入这些服务系统的,对市民诉求描述内容文本的分析,将与公益诉讼领域相关且疑似存在违法违规或相关部门不作为的记录生成公益诉讼线索。

  ④生态数据异常线索发现

  建设生态数据实时接入接口,采集环境监测数据(如水质、空气质量等),包括相关行政单位数据、网络公开数据、举报及舆情数据,构建数据模型实时监控分析生态数据指标,及时发现生态数据异常变化,生成公益诉讼线索记录。

  ⑤网络舆情线索发现

  通过抓取无锡市地方主要网络媒体、论坛和一些官方网站网页,对其中的用户留言信息文本内容进行分析挖掘,将与公益诉讼领域相关且疑似存在违法违规或相关部门不作为的记录生成公益诉讼线索。

  ⑥无人机巡航线索发现

  部分辖区引进了无人机巡航产品和服务,可通过设定巡航路线定期对辖区进行全区覆盖航拍或重点区域覆盖航拍,平台通过接入历次航拍图像,根据图像记录的坐标,建立分析算法对同位置不同时间的图像进行智能比对,找出存在大面积(门限可设置)色斑变化的图像,根据图像特征生成疑似土地占用、违建、违法采矿等公益诉讼线索。

  部分无人机产品还提供三维建模等额外功能(需要在发现可疑线索位置后派专业的建模无人机去重拍),对辖区内矿产资源丰富的行政区比较适用,可作为第三方产品服务采购。

  5.价值线索推送

  平台利用自然语言处理技术,通过对线索中的文本内容分析,根据预设规则评估线索价值,如危害程度、紧急程度等、损失价值等,对高价值线索自动推送,可帮助检察院人员减少重复劳动,提高办案效率。

  ①线索价值评估

  平台通过建立科学线索价值评估机制,根据线索概况、举报内容、所附证据等综合因素进行打分,对线索的危害、紧急、损失等进行预估分级:

  1)对于可查性强的线索,应制定周密的初查方案,迅速组只力量进行核查;

  2)对于可查性较强的线索,应制定初查计划,根据人力资源情况开展核查;

  3)对于可查性较小的线索,需进一步收集更详细情况信息,或联系举报人补充相关材料后安排核查。

  4)对于可查性很小的线索,不具备初查价值,可暂作存查处理,如有新的相关内容补充,再对该线索重新评估。

  ②价值线索分级预警

  根据预设规则,将价值线索分为高、中、低三级,通过红、黄、绿(不构成线索)背景色列表预警展现。

  ③价值线索推送

  根据模型算法提取有价值的线索信息后,根据人员职能分工与线索分类,推送至检察院相关用户进行后续检务工作。如果检索到数据则推送提示,线索状态更新为推送。提示完毕后,检察院工作人员根据提示对后续工作进行跟进处理,线索状态更新为处理中。经过人工审查后,同时经过线下处理后可回传建议书至系统做存档。

  在线索发现以屏幕动态预警或邮件提醒等方式给相关责任人进行线索推送,实现异常的快速响应及跟进。

  检务人员对线索推送流程中提交的评估信息进行审核工作。

  回传系统检察建议书等处理结果文书或者人工判定后系统填入结果,由系统生成建议书并支持下载打印。

  6.公益诉讼智能算法模型

  公益诉讼智能研判平台整合办案资源,集成案件线索大数据,研发公益诉讼智能分析模型,提供案件线索智能分类、自动关联相关法律法规条款、责任单位责权清单,生成检察建议及办案流程指导等服务。同时能够提供相似案例(自动关联推送)、相同领域、相似案情的处置结果供检务人员参考。

  对同一地点或同一问题存在多次举报的,平台将引导工作人员进行重点关注,必要时进行类案监督。

  ①环保固废分析研判模型

  平台提供环保固废分析研判模型,基于公益诉讼信息库中的信息资源,根据环保固废业务规则,分析评估环保固废类公益诉讼线索案件。关联相关法规条款、责任单位责权清单,生成检察建议及办案流程指导。分析要素主要包括:

  线索分类

  线索区域

  线索周边生态资源数据、固废危废企业

  线索案情描述

  环保固废相关法律法规

  环保固废相关责任单位责权清单

  ②舆情信息分析研判模型

  平台提供舆情信息分析研判模型,基于公益诉讼信息库中的信息资源,根据网络舆情业务规则,分析评估网络舆情来源线索案件。关联相关法规条款、责任单位责权清单,生成检察建议及办案流程指导。分析要素主要包括:

  线索分类

  线索区域

  线索周边生态资源数据、相关企业

  线索案情描述

  相关法律法规

  相关责任单位责权清单

  ③环保263分析研判模型

  平台提供环保263分析研判模型,基于公益诉讼信息库中的信息资源,根据环保类业务规则,分析评估环保类公益诉讼线索案件。关联相关法规条款、责任单位责权清单,生成检察建议及办案流程指导。分析要素主要包括:

  线索分类

  线索区域

  线索周边生态资源数据、化工企业、排污企业

  线索案情描述

  环保相关法律法规

  环保相关责任单位责权清单

  环保263线索推送规则:预警颜色是红色的推送,推送原因是超过办理时限,预警颜色是黄色的推送,推送原因是接近办理时间。

  ④国土资源分析研判模型

  平台提供国土资源分析研判模型,基于公益诉讼信息库中的信息资源,根据国土资源业务规则,分析评估国土资源类公益诉讼线索案件。关联相关法规条款、责任单位责权清单,生成检察建议及办案流程指导。分析要素主要包括:

  线索分类:违法用地、违章建筑、非法采矿等

  线索区域

  线索周边生态资源数据、土地用途信息、企业信息

  线索案情描述

  国土资源相关法律法规

  国土资源相关责任单位责权清单

  国土推送规则:经营性用地/工业性用地如果约定缴纳时间和约定缴纳金额和实际缴纳时间和实际缴纳金额不对应进行推送;卫片执法中整改状态为否的进行推送。

  ⑤环境评测分析研判模型

  平台提供环境评测分析研判模型,基于公益诉讼信息库中的信息资源,根据环境评测业务规则,分析评估环境评测类公益诉讼线索案件。关联相关法规条款、责任单位责权清单,生成检察建议及办案流程指导。分析要素主要包括:

  线索分类

  线索区域

  线索周边生态资源数据、企业信息

  线索案情描述

  环境评测相关法律法规

  环境评测相关责任单位责权清单

  环评推送规则:锡山区政府环评报告中的企业在生态环境局平台中的转移联单中没找到与之对应的进行推送,如果找到对应的企业,但是对应的危废种类和数量不对应的也进行推送。

  7.公益诉讼辅助办案

  平台提供公益诉讼辅助办案功能服务,将案件办理过程中需要涉及的数据信息合理的组织集中呈现、并提供办案流程指引(操作指南,不同类型的案件能区别),可辅助检务人员快速掌握办案流程,有效提高办案质量和办案效率。

  ①公益诉讼标准化流程

  平台提供行政公益诉讼诉前程序的标准化业务流程,流程节点主要包括:

  线索来源:来源方式、时间、线索评估意见、线索主要情况等,根据不同领域和不同来源,及时推送和提醒相关检务人员介入研判;

  初步核查:制定调查预案,智能检测相关辖区、相关行政机关、是否存在违法行为或不作为等情形、是否侵害国家利益;

  分级评估:根据难易度、风险、是否涉嫌刑事罪等,对线索进行分级,生成立案立案审批表、立案审查报告、立案决定书;

  调查计划:制定调查计划,包括调查方案、重点和步骤;

  调查核实:生成询问提纲、调取证据通知书等,录入现场调查信息或相关执法卷宗材料信息等;

  检察建议:根据案件相关行政机关、国家利益或社会公共利益损害后果,自动生成合理化检察建议;

  整改回复:录入案件相关行政机关的整改回复信息;

  跟踪监督:录入案件相关行政机关整改落实信息,对于法定期限内未完成整改的行政机关,依法提起行政公益诉讼,对于有整改意愿但确实有整改困难的,帮助推动形成整改方案后跟踪监督。

  ②案件信息集中展现

  平台提供案件信息集中展现,主要包括:

  案件信息:线索来源、采集时间、内容描述、诉求目的、事发时间、详细地址、处理意见、紧急程度、业务类型;

  分析研判信息:成案详情、依据规则、预警内容、执行结果、权力清单(案件涉及相关委办局的权责信息)、法律法规(案件涉及相关法律法规条款)、案例信息(相似案例信息)、案件地图位置

  案件生命周期管理:线索发现(采集时间、信息来源、成案评估指数)、线索推送(或线索分配,分配时间、接收单位、接收人、接收时间)、案源初查、案源调查结果(操作人、时间、结果)、检察建议、处置反馈、成案各流程环节状态,当前案件节点,后续指导意见。

  办案过程实时监控:提供时效提醒、整改监督。

  ③虚假诉讼识别

  平台通过对案件文书材料的分析,尤其是具有多案原告/被告等特征的案件,建立分析模型,评估发现存在疑视虚假诉讼的情况,供负责人员核查。对于该类人员,在后续工作中平台能自动识别和提醒受理工作人员,向案件原被告再次确认案情真实性和警示违法风险。

  ④辅助生成证据清单、检察建议

  平台提供案件相关证据清单生成服务,自动根据规则提取线索来源相关信息、相关文书材料、现场照片、检测记录等数据组织成证据清单,同时可根据案件类别、案情特征,提供检察建议文本自动生成(审查报告)等,经检务人员确认(可人工修改)后发给相关部门。

  ⑤一键生成分析报告

  平台提供公益诉讼研判分析信息的一键生成分析报告功能,可选择报告模板,快速生成和导出,分析报告主要内容包括:

  线索来源信息

  案件详情信息

  相关人员信息

  案件地点地图

  适用法律法规条款

  涉及相关部门权力清单

  相关数据分析报表

  8.公益诉讼分析研判可视化展现

  平台提供界面友好,栏目可配的可视化展现功能服务,用户可以根据个人的工作职能、关注信息设定页面展现的图表内容栏目,组织个性化的首页呈现。也要根据需要设定用于大屏展现的界面呈现效果,可选的图表栏目包括:

  数据采集量统计:日、周、月数据采集总量;趋势线;

  不同来源数据采集量统计:各接口数据采集总量;趋势线;

  数据分类日采集量统计:每日不同分类(行政处罚、行政许可、投诉举报、新闻媒体、司法案件):

  行政执法单位数据分布:各行政执法单位接入数据的分布统计

  成案量统计:立案审查数、诉前检察建议数、提起公益诉讼数;趋势线;

  司法案件分类数据量统计:非法占用农业用地罪、污染环境罪、滥伐林木罪、环境监管失职罪等;

  各领域案源情况分布:行政处罚、行政许可、投诉举报、新闻媒体、司法案件

  预警案源分布:环保、自然资源、市场监管、农业、国税、建委、卫计委、安监、水利、其他;

  预警案源内容类型分布:行政处罚、投诉举报、新闻媒体、司法案件不同级别预警(红色预警、黄色预警、蓝色预警)

  预警案源位置分布:根据案源辖区统计呈现。

  9.定制报表输出

  ①区检察院日/周/月报

  系统提供各区检察院线索统计周报的查询浏览功能,并提供word格式下载。主要内容包括:

  昨日/一周/一月数据采集总量

  一周线索分类数量及占比,分类升幅排序

  一周线索量变化趋势

  一周各区检察院线索数量,升幅排序

  一周各区检察院线索数量,分类升幅排序

  一周内线索高发时段排名

  一周内线索高发小区场所排名

  ②区检察院线索统计

  系统提供区检察院线索统计汇总查询浏览功能,并提供结果word格式下载。统计结果以表格形式呈现,可根据表头字段排序,自动根据查询条件对结果进行汇总,计算同比、环比,缺省状态呈现一月全量数据统计结果。可选查询条件包括:

  线索分类级别

  时间粒度:年、季、月、周、日

  线索发生时间范围:指定时间、特殊时段

  线索发生地域:区检察院辖区、分类场所

  ③各单位线索统计

  系统提供各区检察院线索统计汇总查询浏览功能,并提供结果word格式下载。统计结果以表格形式呈现,可根据表头字段排序,自动根据查询条件对结果进行汇总,计算同比、环比,缺省状态呈现一月全量数据统计结果。可选查询条件包括:

  线索分类级别

  时间粒度:年、季、月、周、日

  线索发生时间范围:指定时间、特殊时段

  线索发生地域

  ④自定义报表

  系统提供自定义报表查询浏览功能,并提供结果word格式下载。用户可通过自定义报表设定数据过滤条件、结果呈现字段、结果输出风格、自定义指标及计算公式等配置信息,并可将自定义结果保存为查询模板,下次可直接调用模板生成统计结果,同时可将自定义模板共享给其它部门同事使用。

  10.系统管理

  ①地址库、知识库等数据维护修正

  通过多源采集来的数据,可能存在数据不规范、不统一的问题,如同一对象的所在地址,由于各系统录入方式的差异,可能会出现多种格式,系统提供手工维护的地址库、知识库等数据的增删改查等维护功能。

  系统提供电子地图辅助位置修正,利用地理信息平台的API,查看和修正地址所在的地理位置,同时更新对应的地理坐标数据。

  ②用户管理

  系统提供平台用户基本信息的录入和维护功能,包括新增用户、编辑用户、删除用户、修改密码、设置角色、单独授权、组织调动、用户有效性、用户排序等。

  ③角色管理

  系统提供用户的角色权限配置管理功能,用于控制不同级别、不同辖区、不同职责的工作人员的数据访问权限,包括新增角色、编辑角色、删除角色、角色权限配置等。

  ④菜单管理

  系统提供业务用户菜单定制功能,用户可以自定义工作界面上的常用功能模块列表,便于提高工作效率。包括自定义菜单的创建,修改,删除等功能。

  菜单指向的功能模块受用户自身的角色权限限制,用户只能在角色权限范围内的功能模块进行选择。

  (四)接口对接

  1.接口设计

  接口实现遵循如下接口要求:

  提供必要的第三方接口调用说明文档。

  接口系统具备离线存储功能,可在网络短时故障情况下,不丢失数据,网络恢复后继续数据传输。

  接口定义符合开放系统互联标准和协议,方便系统间的互联。

  接口定义简单明了,便于数据生成和传送。

  为了保证数据传送的安全可靠,对重要数据要有加密机制,并且可以对交互的过程和状态进行监控,支持交互失败时的恢复。

  支持接口平滑扩充,包括处理能力、处理节点、业务功能的扩充。

  接口设计充分考虑并遵循灵活、规范、方便、安全的原则,保证接口方式的灵活性、多样性、适应性。

  根据需要支持实时和定时数据交换方式。

  具备完善的日志和监控手段。

  2.对接传输方式

  ①数据接口方式:对于位于同一网络环境下的外部系统数据采集,此方式最为高效,可实现数据实时采集;

  ②前置机/网闸方式:对于安全性要求较高的外部系统,可采用此方式实现数据交换,任一时刻前置机只接入一方(数据提供方/数据使用方)的网络,可实现数据准实时采集;。

  ③离线数据导入方式:对于安全性有特殊要求,或因其他原因,确实不能互通的,可采用定期/不定期离线数据导入方式实现数据交换。

  3.数据采集接口

  提供安全、可靠、易用的第三方调用接口,具有较高的可靠性、安全性;能够将大量、复杂的配置项组织成版本化的构件。

  支持FTP、TFTP、HTTP等协议数据接入API接口,同时接口满足数据采集高速通道(Data highway)技术架构和分布式负载均衡架构。

  4.数据服务接口

  提供高性能数据查询接口:支持低延时、高并发的查询接口,支持快速查询、即席查询,支持高性能数据库,为第三方系统对接服务提供渠道。接口满足:

  ①用户访问权限控制

  基于查询数据库的元数据管理,增加用户对元数据的权限信息,查询访问的时候首先进行用户识别,然后根据用户的元数据权限信息进行访问控制。

  ②高并发低延时的查询接口

  采用web服务的方式封装查询数据库的高速查询接口,并提供短连接和长连接两种方式。需要支持对查询数据库的接口分发功能。

  ③查询缓存服务

  对一些访问热度较高的数据或表通过缓存的方式提高查询响应效率,并减少访问频率,增加寿命。

  5.接口数据质量控制

  平台通过数据稽核保证接口数据的质量和完整性,重点工作包括:

  ①对源数据格式、对文件格式进行检查;

  ②对数据的稽核校验规则,提供维护界面,系统维护人员可以对所有数据的稽核校验规则进行增加、删除、修改操作。

  ③稽核校验规则,包括对数据的主键唯一性、外键完整性、空值检查、约束条件等数据质量进行检查;

  ④提供数据校验稽核结果展示功能,提供数据校验稽核结果进行分析统计功能,可以查看数据清单;

  ⑤当发现数据质量问题,需要及时地将质量问题形成报告,提供相应的预告警信息,便于针对这些预告警信息进行处理。

  ⑥根据稽核的结果,对稽核文件进行处理。如空文件,要求接口重新传输文件;如文件中字段稽核未通过,则报于数据源生产方,要求数据更改。

  接口稽核的具体功能,包括稽核规则管理、稽核任务管理、稽核任务监控、稽核结果展示、稽核异常告警及稽核处理。

  接口稽核文件样例:

  (1)单文件稽核

  为了保证单个数据文件在传输过程中的一致性和完整性,需要对处理的每个日志文件进行稽核。

  首先,要在采集服务器上,针对每个数据文件,生成一个稽核文件。

  文件名格式为:xxxx_yyyyMMdd_HHmmss_ssss.chk

  文件内容为一行文本,记录对应的xxxx_yyyyMMdd_HHmmss_ssss.txt.gz文件的相关信息,具体字段为:

  对应数据文件名(不含目录)

  文件包含记录行数

  压缩前文件总字节数

  压缩后文件总字节数

  文件最后修改时间戳(格式为:yyyyMMddHHmmss)

  稽核文件生成完毕后,需要放到ftp上与数据文件相同的目录中。

  稽核文件无须压缩。

  文件在传输到汇聚集群以后,会检查数据文件与稽核文件是否一致,如果不一致会启动数据文件的重传。如果多次重传(重传次数可配置)以后仍然不一致,将异常信息记录到日志,并且发出预警(邮件或者短信网关)。

  (2)每日稽核

  为了保证每天所有数据文件的一致性和完整性,需要对当天的总文件数进行稽核。

  首先,要在采集服务器上,针对每天的总数据文件数,生成一个日稽核文件。

  文件名格式为:xxxx_yyyyMMdd.fileend

  文件内容为当日所有数据文件的稽核文件的列表,每行代表一个稽核文件,例如:mr_20150101.fileend中

  稽核文件生成完毕后,需要放到ftp上与数据文件相同的目录中。

  稽核文件无须压缩。

  每日在约定的时间后,对前一日的所有接收到的文件,与日稽核文件进行比对,检查数据文件总数与日稽核文件是否一致,如果不一致会启动数据文件的重传。如果多次重传(重传次数可配置)以后仍然不一致,将异常信息记录到日志,并且发出预警(邮件或者短信网关)。

  6.数据处理

  为满足系统间的数据对接要求,需要对接入数据做必要的ETL数据处理,如数据清洗、数据一般性映射等。

  (五)关键技术

  1.OCR识别技术

  业务背景描述:无锡检察院环保固废的纸质卷宗众多,手工输入费时费力,迫切需要机器识别扫描并生成电子文档,同时提取电子文档的内容,以便对接到无锡公益诉讼平台数据流,而且因为检察院的机密性,只能使用离线模型,同时文书中有表格和下划线等格式,具有一定的复杂性,因此我们开发了先进的OCR识别模型,完美地解决了甲方的业务难题。并且通过研发解决了识别算法中存在的下划线干扰等问题。

  ORC识别模型架构:

  公益诉讼业务处理过程中采集到的很多法律文书等材料都是以图片扫描件的格式存在,计算机无法直接获取其中的业务信息,平台引入 OCR识别技术,通过算法自动识别和提取其中的文本内容。本平台采用的目前先进的YOLO算法。

  YOLO将输入图像分成SxS个格子,若某个物体 Ground truth 的中心位置的坐标落入到某个格子,那么这个格子就负责检测出这个物体;

  每个格子预测B个bounding box及其置信度(confidence score),以及C个类别概率;bbox信息(x,y,w,h)为物体的中心位置相对格子位置的偏移及宽度和高度,均被归一化。

  在OCR识别模型中,开始使用基于CTPN + DenseNet + CTC的端到端中文OCR算法,但是发现它不能识别重复字母或数字的情况,也不能识别带框或者下划线文字的情况;更换为目标检测网络算法,CTPN是从Faster R-CNN改进而来,此次的算法跟之前相比,它多尺度预测和统一网络的设计能更有效更快地检测出复杂场景的横向分布的文字,背景误检率低,通用性更强。通过增加专业领域中的样本量,使模型识别率更高。

  2.多标签文本分类技术

  业务背景描述:对于一个热点事件,其一:对于事件的性质以及部门自身的权力定位不清晰,从而导致本不应该是某部门的权力管辖范畴中的事却管理了。其二:此事件可能会牵扯到市场监督、生态环境、税务等多个部门,这样的话就会有责任互相推诿的现象发生,通过对事件的文本描述进行分析处理,事件的性质就会比较清晰,再分析各部门的职权清单文本,从而可以有效的对应到相关部门的职责范畴中。

  文本分类业务流程:

  多标签文本分类模型架构:

  公益诉讼业务处理过程中需要使用到很多法律文书,其中有大量的文本信息,通过简单的关键字过滤查询,不仅需要投入很多人工判别,而且还会产生疏漏,需要使用自然语言处理技术对这些文本进行智能化处理。

  自然语言处理(NLP)是人工智能的一个重要子领域,传统的分类问题假定每个文档都分配给一个且只分配给一个类别,即标签。这有时也被称为多元分类,比如类别数量是2的话,就叫做二元分类。而多标签分类假设文档可以同时独立地分配给多个标签或类别。多标签分类具有许多实际应用,例如业务分类或为文档分配多个类型。

  此模型架构解决了传统的用关键词搜索或规则判断无法穷举的弊端;

  将自然语言句子进行向量化处理,使得计算机对语言的处理不再停留在简单的字面匹配层面,而是进一步深入到语义理解的层面;

  该模型的核心是成功地在深度学习上应用了一种类似于AdaBoost的做法,通过训练多层来不断修复前面层的偏差。我们在分析数据的时候发现,一个模型的输出是具有类别倾向性的,所以在某些类别上可能全对,而在某些类别上可能全错,所以我们针对这种偏差做了一些改进,通过人为地定义偏差的计算方式,指导下一层模型更多关注那些错的多的类,从而达到整体效果的提升。

  模型输出:

  系统将舆情数据进行热点排序,根据舆情数据的文本描述通过二分类模型输出是否需要处理,对于需要处理的舆情数据再输入系统的多标签文本分类模型,预测出属于哪些职能部门管辖,最后与职权清单进行相似性对比,输出此事件归属某职能部门的职权清单中的某条款,后续再经过人工审核予以反馈。

  3.语义理解技术

  业务背景描述:无锡检察院希望通过比对生态环境局出具的笔录问题和处罚决议书,通过智能系统找出处罚建议书中不合理的地方并进行价值线索推送,同时也希望通过检索法律法规条文提高智能系统研判的精准性,在后期可以实现自动化数据输入和实现智能化建议输出的功能。

  文本相似性模型架构:

  由于自然语言的多样性,案件文书内存在大量含义相同但文字描述有差异的内容,如同义词、语句组织差异等,在公益诉讼研判分析模型中需要让算法理解这些差异,平台使用了BERT模型语义理解技术解决该问题。

  BERT模型架构特点:

  架构创新,不采用传统CNN或RNN模式;可将任意两个词的距离映射为1,有力解决长期依赖问题,从而带来性能提升。

  算法并行性好,符合目前的硬件环境

  文本任务类问题主要在于网络结构设计和通用训练语料的问题。现在使用的文本任务类算法采用的是最先进的自带预训练端到端的模型,其优点在于进一步增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征,它的双向Transformer编码器可以使网络有更深的层,具有更好的并行能力。也可以在后期加入领域语料微调该算法,它的预训练产生词向量和下游具体NLP任务绑定的特点,对客户多元业务问题具有充分的适应性。

  责任编辑:广汉

声明:

本网站图片,文字之类版权申明,因为网站可以由注册用户自行上传图片或文字,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。

征稿启事

  • 投稿信箱:195024562@qq.com

品牌推荐更多>>