2020-05-08
龙哥死,白衣哥伤,大数据如何帮助到杀人双方当人事
文/涵诚
龙哥死了,白衣哥受伤了,大家议论的很热闹,龙哥死的大快人心,白衣哥受伤了,不要判刑、是打抱不平,是当代英雄等观点,跃然朋友圈。各种文字看后,大体可以分为系统性分析的,有做技术细节分析的,有做社会价值分析的,专业案件分析等等,总之都很精彩、很正能量。就是没有想要利用大数据来解决这个问题,故笔者试图利用计算机与数据科学提出这个问题的解决方案。
闲话少说,直接上干货:
第一步,杀人大数据采集
这一步自然是要采集人类历史上尽可能多的杀人数据案例,可以肯定,大部分是文字描述,不管如何,咱假定采集到了10万个典型案例,形成10T的文本资料吧。
数据源:案件文库,互联网爬虫,只要设计好采集的关键词、国内外各种案件文库网址等规则相信专业公司可以轻松完成;
第二步,杀人大数据治理
文本资料是需要经过NLP技术进行数据治理的,文言文要修改为白话文,英语要翻译成中文这两部可以不拘泥于细节。有系统可以做。因为自然语言是人类智慧的结晶,自然语言处理也是我们理解案例中最为困难的问题之一,我们拿到了10个T的文本资料,10万个案例,就需要利用NLP对这些案例进行文本分析,
先是分类,假定我们主要分4类: 1)坏人杀好人,直接杀杀人成功了 2)坏人杀好人没有成功但被好人反杀死一类 3)好人杀坏人,直接杀死的 4)好人杀坏人,反被坏人杀死了。这里需要对好人和坏人也要做些检索,比如利用舆论定义主人公是好人,还是坏人,机器先辨认一遍,然后按照人的分类再分一次。
然后,我们对于分类好的案例,做两个事情,自动分词:
好人姓名,特点,网络标注信息;
坏人特点,名称,网络标注信息;
然后我们根据分类会形成宽表,包括杀人者、被杀者、年龄、动机、时间、国家、地区、原因,职业、社会议论,社会影响、社会环境、具体描述等;
第三步,杀人大数据算法与建模
根据上一步我们宽表,我们需要提取好人的标签,比如,见义勇为,忠诚、正义、为民除害等;
当事人标签:主要区分当事人的属性特征,如职业信息可设定诸如古代英雄、历史忠臣,企业高管、普通白领、职场新人、全职妈妈、小企业、社会知名人士,人物分类很难,需要根据案件上的经验进行数据的标签化。
案件标签:主要根据案件发生的场景设定标签,白天,晚上,事件起因等。这个需要律师来参与。
行为标签:用刀杀、用枪杀、用身体杀、推下楼,用毒品,还是活埋,这个应该可以从10万个案例根据词频提取,也可以根据律师的经验总结;
社会背景标签:社会背景,人文情况,朝代、文化属性等;
确定应用场景的模型设计。假定我们建立两个模型
1)告诉杀人的人,杀人的后果?
2)告诉被杀人你如何正当防卫?
这里可能用到的算法
推荐算法: 基于关联规则的推荐(Association Rule-based Recommendation)是以关联规则为基础,把之前的案件作为参考,根据目前的案例标签找到相似的案例,为本案件推荐对象作出建议,关联规则挖掘可以发现不同案件在实施过程中的相关性,在案件案件中为当事人提供行为参考。可以了解为,相同属性的当事人的行为规则和判案结果之间必然有联系。通过这种联系预测判案结果。
聚类:主要解决对犯罪案件的动态分类,将当事人标签、案件标签、社会标签、行为标签的集合分成由类似的标签组成的多个类,这个符合 “物以类聚,人以群分”,这里聚类分析可称群分析,它是研究分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。10万个案例估计聚类后就十多个。这样我们再处理起来就比较方便了。最后我们可以可以通过图形化感知案件。为当时人提供决策依据;
还可以应用回归、决策树:、支持向量机、深度学习、神经网络等算法,具体也是不断的完善和反馈的过程;
第四步,杀人大数据分析
这里有一个非常重要的数据源要在这个时候输入,就是当时的杀人情况,假定我们采取意念输入,我要杀人,愿意,动机,杀人设想,以及我要防卫,我为什么防卫等;
场景一:输入数据后,我们根据模型1)杀人后果分析模型,立刻给你得出结果,后果是什么?坐牢,失去亲人,孩子,老婆,父母后半生的生活窘迫等;
场景二、输入数据后,我们正当防卫分析模型1)如何正当防卫,正当防卫的时间把握,防卫前是否要沟通,防卫后可能遇到的案件风险,经济损失,刑期多久。
模型是假设的,清楚逻辑,不断试错(这种事情不知道如何试错,笔者还没有思考好);
第五步,杀人大数据应用产品
“防杀人” APP下载,手动输入杀人的动机,时间,方式,工具,周围环境等因素,然后系统自动告知,你TMD还是不要杀了,伤财害命,得不偿失,冲动是魔鬼;
这样我们的大数据产品从数据采集,到数据治理,到数据结构化,数据标签化,标签结合算法模型,应用分析,然后把结果推荐到APP端基本就完成了一个杀人大数据解决方案;
当然,大数据杀人的大数据解决方案总结下需要的人才和工具:
人才队伍:产品经理,数据分析师,技术工程师,架构师,律师。
工具:大数据采集平台,自然语言分析平台、大数据标签管理系统、大数据建模、数据分析挖掘,数据可视化,APP快速开发定制系统等,因为考虑到实时性,系统要部署在云端;
当然,肯定没有那么简单,数据是需要不断训练和反馈优化的,我们的大数据杀人系统解决的问题是惩恶杨善,利用大数据技术,利用机器学习人工智能,辅助杀人和被杀者做出理性的判断;数据与技术仅仅是在人与世间之间构建起桥梁,把深藏在案例的数据中的价值挖掘出来并加以应用。这不仅顺应了当下的大数据思维模式,也符合案件判案未来的发展方向。
最后,我们基于这个案例,我们不难发现以下法律案件大数据的重要建设思路:
观点一:案件数据的重要性。广泛的采集全世界各种相关联的案件资源,数据资源化,资源资产化是关键。我们应该形成法律案件的资源库。
观点二:案件大数据与数据科学将深度融合,利用各种机器学习算法理解案件的共性,提炼案件的个性,为当事人双方提供有效的行为措施,大数据所提出的关联分析的思路对于数据律法提供了新的治理思路;
观点三:大数据将改变法律案件研究的范式。法学不是严格意义上的科学,法学设计的内容很多社会学,物理学,化学,数学,心理学等很多因素和大数据研究的范畴很相似,现在全国建立的大数据学院也多多学科沟通的体系。
观点四:国家39号文要求,深化大数据在各行业的创新应用,探索与传统产业协同发展新业态新模式,加快完善大数据产业链。加快海量数据采集、存储、清洗、分析发掘、可视化、安全与隐私保护等领域关键技术攻关。促进大数据软硬件产品发展。完善大数据产业公共服务支撑体系和生态体系,加强标准体系和质量技术基础建设。法律大数据的开放和共享必然会带来新的法律研判体系的变革;
我相信:有一天,数据辅助判案,判案结果倒逼人的行为,利用数据治理案件行业将可期!而大数据正在挑战传统法律案件的研究方式,挑战法学的研究方式。
白衣哥走好,大数据分析来迟了!
张涵诚(欢迎微信咨询:waynezhanghc) 研究领域主要包括: 大数据基础概论,大数据在企业和政府的应用实践,数据驱动业务变革的商业模式,医疗大数据运营体系、财税大数据、海关大数据、扶贫大数据、运营商大数据建设方案,旅游大数据平台建设方案,数据资产管理,大数据产业生态分析、数据交易市场,区块链,人工智能等新技术对于传统企业的价值和赋能方案。
完 谢谢观看
上一篇: 把大数据的发展推动到下一个新的阶段 下一篇: 梁福坤:基于 Druid 的大数据采集即计算实践
CDA认证
关于CDA考试 最新考试安排 考试报名入口 CDA证书查询CDA合作
CDA教育 CDMS Pearson CVA协会关注CDA
关于我们 Email:exam@cdaglobal.com 电 话:010-68454276 微 信:15311595173