大数据时代下新型网络犯罪分析研究

2024-02-18 00:12 来源:厦门市美亚柏科信息股份有限公司

一、背景介绍

随着互联网、物联网、大数据和人工智能技术的高速发展,新型网络犯罪案件持续高发,严重破坏了我国社会经济秩序,如何有效遏制和打击新型网络犯罪成为了全国执法部门的一大难题。本文通过对新型网络犯罪产业链条的深度剖析,总结犯罪产业链中的关键环节、上下游关系、角色分工及其属性行为特征,并将其投射到大数据范畴下进行数字化呈现,从新型网络犯罪案件特点和当前执法部门涉网数据分析难点出发,结合工作实际,提出在大数据时代下新型网络犯罪分析思路,助力执法部门开展新型网络犯罪综合治理。

二、现状分析

01.

统一术语定义

当前,利用网络、大数据等现代手段进行犯罪有多个名称:数字犯罪、电信网络诈骗、网络犯罪等,现在又常统称之为新型犯罪[1]。涉网犯罪和网络犯罪在广义上都包含针对网络的犯罪和网络扶持的犯罪,与新型网络犯罪意义相同[2]。因此,本文中提到的“涉网犯罪”、“网络犯罪”统一指“新型网络犯罪”。

02.

涉网案件特点

新型网络犯罪的非接触式特征导致大量案件无法有效还原“案发现场”,涉网犯罪中涉及各类互联网身份的虚拟化、易变性特性,以及GOIP、猫池、卡池等新型物联设备的出现,使得此类案件的案发时空要素无法真实呈现。

新型网络犯罪产业链条跨度长、人员分散在各地,关键环节很难掌握,链条上的节点往往都有“备份”机制。即使打掉了某个环节上的团伙,出于共同的经济利益目的,它们的上下游之间很快又能建立起关联,新的节点会在很短的时间内恢复“上线”,因而执法部门和涉网犯罪团伙之间俨然变成了一场“打地鼠”游戏。

03.

数据分析难点

传统接触式案件中的数据分析模型往往是基于关联关系和时空碰撞方法来实现,这种方式难以支撑新型网络犯罪案件的分析。而且,新型网络犯罪活动经过多年的发展,已经完成相关产业的布局和精细化分工,除了犯罪实施环节,还存在推广引流、技术支持、洗钱销赃等紧密的黑灰色产业链。犯罪分子利用互联网的便捷性进行信息的高效共享和资金的快速转移,使得犯罪手法和相关技术得到快速复制和广泛传播,给执法部门案件分析工作带来了非常大的挑战。

以新型网络诈骗为例,诈骗团伙中的关键角色往往人在境外,而且不会轻易露面,团伙架构中的各个环节基于共同利益驱使,在环境准备、作案实施、资金转移等工作上分工明确、配合默契,针对此类案件,如果仅通过受害人报案时提取到的信息,以传统案件扩线分析的方式去挖掘目标嫌疑人,往往无法核实这些号码的真实身份,导致执法部门在办理相关案件时面临分析难、打击难等问题。

三、分析思路

面对持续爆发的新型网络犯罪,迫切需要改变传统案件以“个案”突破到“类案”延伸的研判思维。涉网犯罪的核心是互联网的“数字孪生[3]”特性,即每个环节在实施的时候往往在互联网上会有对应的数字化映射,网络上虚拟的案发现场会留下数字化痕迹,这也是案件分析的关键突破口。通过分析各类涉网犯罪链条的组织架构、上下游环节、角色人员特点、行为活动规律,总结提炼对应的网络身份属性、网络行为特征,形成新型涉网犯罪特征数据集,从广泛的数据采集、提取流程,到大数据治理和存储,基于特征驱动下的涉网犯罪成果挖掘,构建多维积分模型实现不同类型涉网犯罪的角色认定,最终将挖掘的角色通过多维关系串联形成涉网犯罪完整链条。基于对新型涉网犯罪成果的分析,扭转执法部门长期以来以“预防”为主的被动局面,助力实现集“预防”“研判”“打击”于一体的全流程工作模式,提升对新型涉网犯罪的治理能力。

四、分析方法

01.

准备工作

为满足新型网络犯罪分析需求,首先要实现对涉网特征数据的收集,收集方式主要有两种:一种是来自涉网犯罪案件经办人员的日常工作经验积累,形成一系列涉网犯罪的特征;另一种是通过部署人工智能引擎,基于现有案件取证的高价值样本数据进行机器学习,通过训练形成的AI模型实现对涉网犯罪新特征的发现。

根据各类涉网要素的不同特点,这里将文本属性类特征归类为属性特征,各类异常行为规则归类为行为特征,下面阐述两类特征的区别和联系。

11.jpg

图1特征形成示意图

(1)属性特征

属性特征是指执法办案人员在日常办理各类涉网案件工作中积累形成的属性特征数据集,主要获取手段包括涉网案件电子取证、案件分析、网络巡查等,通过批量导入或者人工添加的方式进行维护更新。

(2)行为特征

行为特征是指基于已经掌握的新型网络犯罪产业链知识图谱,提取产业链上各个环节涉及角色间互动的异常行为,由于不同角色在不同时期、不同业务场景下所体现的行为会有所不同,所以行为特征往往是动态的,行为特征可以是基于属性特征下的具体业务规则体现。对各类涉网犯罪案件特点进行归纳总结,梳理黑灰产业链下不同环节和角色在行为方面表现的异常规则,形成行为特征。

12.jpg

图2涉网数据治理分析

02.

数据处理

通过对多源头、多结构数据进行标准化接入和治理,形成涉网数据专项资源,基于涉网特征驱动成果挖掘和研判分析机制,支撑涉网实战应用。

(1)数据接入

为了更加有效地支撑执法部门开展涉网犯罪研判分析工作,首要任务是对海量涉网相关数据进行汇聚,重点接入的数据来源类型主要包括:电子取证数据、窝点勘查数据、受害人采集数据、调证数据、开源采集数据集及其他数据等六大类。

(2)数据治理

现有大数据平台在数据治理方面主要是围绕人、地、事、物、组织几大方面展开,构建对应的专项数据资源池,这些数据治理和组织的方式在服务各类传统案件特别是追逃类案件具有很好的支撑作用。面对新型网络犯罪,通过调整数据治理工作的侧重点,依托前面积累的各类特征,对海量涉网数据开展以实战为导向的数据专项治理工作,重点围绕涉网数据中的属性内容型数据和行为关系型数据进行标准化提取、清洗、关联、比对、标识处理,通过深度治理,形成涉网专项资源。

(3)数据存储

海量涉网数据在标准化处理之后的近原始数据,这些数据体量大、类型杂且需要提供多业务字段的模糊检索能力,优先考虑采用分布式全文索引类数据库进行存储,满足实战应用中数据高效检索和成果溯源的业务需求。

涉网各类要素包括身份证、手机号、IMEI、虚拟身份号码等虚实数据形成内部关联,鉴于一级关系类数据的特点,优先考虑采用分布式文档型数据库进行存储,这些数据可以作为支撑涉网案件关联分析和信息核查的公共资源。

涉网主题信息围绕涉网主体对象和各类行为进行建库,实现对实体以及实体之间的关系进行全面刻画,优先可以考虑采用图数据库进行存储。基于图计算的各类算法,可以有效支撑数据分析挖掘工作,特别是针对多种涉网异常行为特征的广度遍历和黑灰产业链多层关系的深度遍历具有很好的支撑作用。

考虑到涉网特征数据的完整性、一致性要求,而且数据规模不大,可以采用传统关系型数据库进行统一存储,方便用户进行维护管理。

03.

数据分析

13.jpg

图3整体流程

(1)分析流程

整体分析流程实现从原始数据到样本、特征、模型、分析成果的闭环。

①汇聚海量涉网原始数据进行统一治理,形成专项数据资源。

②通过分析模型智能推荐产生疑似样本由人工标记确认后形成样本数据,通过人工标记和自动提炼方式形成涉网特征。

③样本数据通过训练构建形成AI模型,借助AI模型和基于特征的分析模型实现对海量涉网数据进行挖掘从而产生涉网分析结果。

(2)分析引擎

基于特征的不同分类特点,分析引擎可分为两类,一类应用于数据预处理环节,另一类应用在全库数据建模环节。其中属性特征可以应用于预处理和建模两种场景,通过特征匹配、聚类分析等方法,挖掘初始成果信息,例如在预处理环节对涉网原始内容型数据与涉网关键词或APP特征进行比对,挖掘这些特征的手机号、虚拟身份、硬件特征等信息。而行为特征更适合用于建模场景实现,基于异常行为规则进行批量数据建模,利用数据集合运算、过滤、去重、聚合、连接以及高级处理,可以快速发现一批符合规则的初始成果信息,再利用虚实和虚虚关联数据、主体和关系数据,完成对初始成果对象的刻画。

(3)积分模型

通过特征驱动产生的初始成果数据普遍存在干扰数据多、准确性低等问题。通过设定积分规则,利用多维度、多权重模型,对初始成果进行二次加工和综合评分。

(4)分析成果

基于多维积分模型进行综合分析,可以得到一系列业务角色对象,涵盖新型网络犯罪产业链条的准备、推广、实施、资金转移等环节,通过大数据分析进一步寻找各个角色之间在信息流、资金流、网络流上的关系,通过构建知识图谱的方式将产业链中各个环节发现的人员串联起来,整个犯罪链条就会浮出水面,最终向执法部门输出完整的涉网产业链条及角色成果数据,每个角色属性和链条关系都会显示对应的业务标签,并且业务规则可以在原始库中进行溯源,进一步为分析成果转化成为证据提供关键数据支撑。

五、结语

面对层出不穷的新型涉网案件,本文结合各类涉网犯罪业务特点,构建形成涉网特征,并对海量涉网数据进行专项治理工作,形成服务于实战的各类数据库,基于特征驱动和积分模型进行数据挖掘和成果分析,快速发现涉网产业链条上的关键角色节点,进一步通过三流分析打通产业链的各个环节建立关联形成网状知识结构,形成新型网络犯罪产业链分析结果,大大提升执法部门涉网犯罪分析人员的工作效率,推进公共安全信息化、智能化建设,助力提高社会治理水平。

责任编辑:超级管理员