时间:2019-08-02 09:46:04 来源:温州市公安局
[法安导读] 一个从来没有被处理过的小偷,半夜在某处转悠,伺机寻找作案目标,正在这个时候,我们的辖区巡防民警拍马赶到,对该对象进行了盘问,及
“一个从来没有被处理过的小偷,半夜在某处转悠,伺机寻找作案目标,正在这个时候,我们的辖区巡防民警拍马赶到,对该对象进行了盘问,及时制止了他的犯罪念头。”以上描述,是我们温州市公安局联合阿里算法团队开发的时空分析平台进行精准防控的实战场景,看似简单的一个应用,要实现起来有很大的挑战,第一,一个没有被处理过的对象怎么判断是属于小偷的ID。第二,怎么判断该对象的行为属于犯罪预谋而不是经过或者就是常驻地。第三,怎么判断该对象所处位置是小区等高发案地区。要解决这些问题,需要几个核心的算法来帮忙,第一个算法是对所有ID的犯罪嫌疑指数算法。第二个是ID行为模式的判断算法。判断到底该对象的行为方式。第三个是常驻地的算法。第四个是地域属性算法。而所有这些算法,归根结底,是对公安数据的一个挖掘的结果。智慧警务,说白了就是三个问题,怎么收集数据,怎么管理数据,怎么使用数据。数据,才是我们智慧警务的命根子。
作为一个基层信息化建设民警,也参与了我省“云上公安”项目的整体规划工作,我想从宏观和微观两个角度,根据数据这条主线,从采集到管理到应用,来说说我们在智慧警务建设过程中的一些得失体会。
一,源源不断的数据流是我们的源头活水
数据的采集是我们的源头活水,公安大数据似乎汇集了够多的数据,貌似一个人的信息在公安的大数据里面面面具到。然而,一旦你希望利用这些数据来对人进行全面的画像,就会发现我们的数据还远远未够。主要是几个方面的问题,第一,数据的采集范围有限,要全面分析一个人的行为特征,不管从时间还是空间上,我们的数据都没有达到足够的连续性。第二,数据的精确性要打折扣,这里有主观上的原因,比如很多地方为了考核,刻意伪造的假数据,还有些采集设备初试设置就有问题;也有客观上的原因,比如我们的报警信息里面,关于发案时间本来就是不确定,只能提供大概的时间范围。在数据分析领域,有一条规律叫 garbage in garbage out,不准确的数据不可能得到准确的算法。
为了解决这两个问题,我们想了很多的办法。第一,我们从省级层面开始,就尽力汇聚各方数据,包括电力部门、税务部门、医疗单位等等单位的数据,丰富我们的数据种类。第二,从互联网公司以合作或购买的方式,补充互联网数据。第三,增加采集设备的同时,更加注重采集设备安装的位置和方式,我们在加油站、小区出入口、商场停车场、出租车上等待敏感位置安装我们的采集设备,单单出租车上的采集设备,作为一个个流动的采集站,就极大的丰富了人员轨迹的信息。第四,在采集设备的经纬度和时钟的纠偏上,我们针对各类采集设备的特点,开发了几款特别用于纠偏的算法,让数据自动去找出错误的采集点。省去了人工纠偏的限制。第五,将人脸车脸数据进行结构化处理,丰富我们的轨迹数据。
虽然,我们在数据的采集上花了很大的精力,“雪亮工程”的建设更是丰富我们数据的良好契机。对于我们数据分析的领域,数据永远是不够的,就像女人的衣橱里总是少一件衣服,我们的数据仓库也总是少几样数据。
二,稳定强大的云架构是我们的泰山基石
云架构是我们信息化的必由之路,在大数据时代,像我们公安的数据,特别是轨迹类的数据,一天一个地市就是几十亿条的数据,每天还要跑很多的离线和在线的分析,没有一个强大的云平台提供这些OLAP和OLTP的能力是做不到的。在云平台的规划和建设问题上,我们也面临着一些问题,第一个问题,选择什么样的云,是选择开源的还是集成的?我们局在建设时空分析平台时,开始选择了搭建开源的云平台,hadoop加spark的最新框架结构,一开始数据量没上去,10来台服务器的时候还是不错的,后面随着数据量的增加,服务器集群加大以后,性能的提升并没有明显改观,计算能力受到了限制。开源的架构虽然搭建方便,可是不够稳定,且性能的提升需要非常强大的公司的技术能力的支撑,而和我们业务合作较深的isv往往在大数据平台的架构上还是新手,没有那么强的技术实力。随着我们省厅阿里云的建成,我们将系统移植到了阿里云,基本解决了计算能力的问题。第二个问题是,该全省统一建云还是各地建云?我们省的做法是全省建设一朵云,这么做的好处有几点,第一,全省建云更有利于数据的统一管理和使用,把全省的数据规集到一个云平台里面,才能更好的发挥全量数据的优势,也能使用统一的标准,更加有利于后期的调用。第二,全省建云能让下面地市级更加专心的去做上层应用和数据采集,而不用分心去关心中间的环节。第三,大平台更能体现云的优势,我们的云就像是一个大的电站,哪里需要计算的能力,拉个网线就能分享到。第四,统一的平台能够得到更多的技术支撑和保障。阿里的云平台和我们公安的配合也是一个需要逐步完善的过程,为了优化我们的省云平台,阿里投入了相当大的人力物力,他们的王坚博士也是我们整体规划的成员之一。
三,精雕细琢的数据挖掘是我们的立身之本
要在茫茫大数据中挖掘出为我所用的数据模型,比如我们开始提到的精准防控应用里,这个ID的主人可能属于小偷吗?这个人是常驻这里吗?这个地域属于可能发案的案件高发地吗?要做好这个事情,并不是找一家厉害的公司就能解决问题,经过这次和阿里核心算法团队的合作,我总结了几个要点。
第一,数据的挖掘,未必就需要高深算法来支持。根据经验,其实很多的模型,只需要几个重要的条件就非常贴近实战。比如,开始的例子里面,什么人具有高风险的作案可能,部分从事夜晚盗窃高危地区来的,且近期与夜盗人员联系紧密的男子,就属于非常好的一个标签。还有比如说,我们要确定对象活动的区域是否属于高档的小区,那么,我们通过对具有高档车辆车主的经常活动地域的一个排序,就可以大体算出来。第二,机器学习的算法不难,难的是对于特质的提炼和样本的收集。而这两个事情,绝对需要我们精通业务专家的帮忙。阿里的算法团队与我们合作的时候,一开始就是要广泛的听取了我们刑侦的业务专家的建议,围绕轨迹、关系、行为三个要素,分析、归纳、提炼各类犯罪对象的“特征因子”,算法根据这些特征来进行学习。第三,慢工出细活,机器学习比的是特征,特征比的是数据和业务的,精准和大量的数据是我们一切的基础。由于公安数据特别是轨迹类数据,数据量很大,一个算法从数据准备到不断的根据实践改进完善,是一个长期的并且需要慢慢迭代的过程。第四,机器学习的不是万能的,甚至可以说目前能力非常有限。因为所有公安的业务涉及到人、物、环境等等因素,各种因素本事就具有非常多的不确定性,而且我们拿到的数据也非常有限,所以,alphago可以打败所有的围棋高手,但发明一个警界的alphago就很困难了。很多的算法其实还处于慢慢探索的阶段,未来,随着数据种类和质量的提高,还有算法科学的进步,我们能制造出更加智慧的机器学习算法。
四,精兵强将的数据人才是我们的根本保障
信息化的人才是我们进行智能警务的基石。关于信息化人才,我们有三大困境,第一,我们需要什么样的人。信息化建设并不是找几个大公司来帮我们做几个应用就能一步登天的。我们需要大公司替我们搭建好云架构,需要isv帮我们用代码实现我们的设想,但是,对于新时代的智慧警务的建设,我们最需要的是具有“数据观”的业务能手,能利用我们新时代的应用手段去工作,而且对应用后面的数据理解较深入的民警才是我们智慧警务建设的坚强后盾,不管是利用规律来查找数据还是利用数据特征进行机器学习,都非常需要这些人才来提供他们的经验。而另外一个方面,我们的智慧警务也只能通过这些人才对应用的不断深入使用,不断完善,才能日臻完美。
第二,去哪里找信息化的人才?其实在我们公安队伍里面,有很多原来计算机专业的本科甚至研究生在基层一线工作,他们一般会特别喜欢利用信息化的手段来工作,而且里面有很多的业务能手。我们局17年组队参加公安部组织的数据分析比武大赛,获得冠军,里面有两位就是基层的办案民警,而他们原来的专业就是计算机的研究生。
第三,具有数据观的领导才是智能警务建设的第一战斗力。一个相信数据的威力,相信科技的威力,重视而且懂的信息化建设要领的领导是引导我们智慧警务的核心战斗力。
“雄关漫道真如铁,而今漫步从头越”写下来是一句诗,真正到达胜利的彼岸,需要踏过无数个坑。习大大在新年贺词有一句话一直记得,’不驰于空想,不鹜于虚声’ ,对我们公安搞新时代信息化工作人员是非常重要的鞭策和勉励,智慧警务绝对不是几个方案,几家公司、几个唬人的噱头就能搞出来的事情,需要我们全体从业干警,以科学的方法、刻苦的努力、严谨的态度,紧紧盯着数据这个源头,脚踏实地,一步一步的建设我们的智慧警务大平台。
作者:金朝星
编辑:广汉
声明:
本网站图片,文字之类版权申明,因为网站可以由注册用户自行上传图片或文字,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。
征稿启事
品牌推荐更多>>