欺诈是电信行业面临的主要挑战。 这些欺诈者损失了大量收入,这些欺诈者开发了不同的技术和策略来欺骗服务提供商。 对于要保留在该行业中的任何服务提供商,应将这些欺诈者的活动造成的预期损失降到最低,甚至不能完全消除。 但是由于海量数据的性质和所涉及的数百万订户的缘故,要发现这一群人变得非常困难。 为此,需要一种最佳的分类器和预测概率模型,该模型可以捕获订户的当前和过去的历史,并对它们进行相应的分类。 在本文中,我们开发了一些预测模型和最佳分类器。 我们模拟了八十(80)个订户的样本:他们的呼叫数量和呼叫持续时间,并将其分类为四个子样本,每个样本大小为二十(20)个。 我们获得了各组的先验概率和后验概率。 我们将这些后验概率分布分为两个样本多元数据,每个样本都有两个变量。 我们开发了区分真实订阅者和欺诈订阅者的线性分类器。 最优分类器(βA+ B)的后验概率为0.7368,我们根据该最优点对订户进行分类。 本文关注的是国内用户,感兴趣的参数是每小时的通话次数和通话时间。
1