三、数据特征
用于支持风控计算的最终数据,在静态与动态数据为基础计算出来的带置信度的推算数据为主的离散数据,有点绕
口,我们详细分析下这里涉及到的几个概念,来说明最终用来支持风控计算的数据有什么特征。
3.1 静态数据与动态数据
上述采集到的数据,大部分是静态数据。也就是这些数据一旦产生,一般不会被修改。但在分析时,还需要一些易
变的动态数据来,比如用户的 年龄,每天的访问量,每天消费金额等。
3.2 原始数据与推算数据
不管静态还是动态数据,他们都是从用户输入或者系统采集的方式产生。但我们知道,互联网的数据可靠性是有问
题的。网上千娇百媚的姑娘,在现实中可能是一位抠脚大汉。虽然系统中设计了复杂的表格来收集用户信息,但会
提供全部信息的用户还是很少,大家对隐私内容还是捂得很紧。所以,在进行风险计算前,还需要对数据进行验证
和补充。这都需要借助其他数据来进行推算,这些数据被称为推算数据。推算数据和原始数据不同之处在于它会有
多个可能取值,每个值都带有置信度。完全可信为100%,不可信为0。置信度总和为1。比如正常情况下,用户的
性别要么男,要么女。假如有个用户注册时选择性别女,但经常买刮胡刀,衬衣,没有买过女性用品,那实际性别
为男的置信度就非常高。
3.3 离散数据与连续数据
这是从属性值的取值范围来评估。比如用户每天的订单额,一般来说是连续分布的。而性别,职业,爱好等,是离
散值。一般来说,离散值更容易做分析处理,刻画特征,所以在分析前,需要对连续数值做离散化处理。
四、名单数据
名单数据是支付风控数据仓库中最重要的内容。 风控系统数据仓库建设,也一般都从名单数据开始。 名单加上简
单的拦截规则,已经可以解决绝大部分风控的问题。就算在更先进的风控系统中,名单仍然是风控中的基础数据。
在评估事件风险时,名单往往是用来执行第一道拦截时所用的数据。比如用户交易时使用的手机是黑名单中的手
机,则必须终止本次交易。
4.1 黑白灰名单
大家都熟知黑名单与白名单,一个是必须阻止,一个是必须放行。 除此之外,还有灰名单。灰名单用于对一些高风
险的用户进行监控。 这些用户的行为不是直接阻止,而是延迟交易,经人工确认无问题后再放行。
1