因为朋友再移动外包公司上班,有手机号码去重删选的需要,朋友用的python,也是用的哈希去重方式,大概1000W手机数据去重处理速度在5到6秒左右,于是乎我也想用易语言实现以下,想试下易语言能否实现大数据的处理以及实现速度,论坛各种哈希表试了个便,最终得出结论,速度最快的是ASM哈希表,1000W处理时间在4到5秒之间,可以说是非常的快的了,但是用哈希表在易语言运行存在一个问题,我实测1000W号码占用内存大约是400多M,也就是说易语言最大能处理不过三四千万的数据,由于易语言是32位的,最大支持内存仅1.7G这样,内存占用到达1.7G就会自动程序崩溃,无法处理上亿的手机号码,不论你内存条有10G还是100G,但是易语言程序最大仅支持1.7G,实在是非常的限制。但是单从处理速度而言,论坛大神ASM哈希表确实是效率极高的了。后面网上看到bitmap处理上亿级别的手机号码处理,于是到易语言论坛查了下,发现还没人实现过,那我就来做下把。在特定的数据处理情况下,使用bitmap方式去重效率就会显得比哈希表去重更加高效,不仅速度有极大的提升,内存占用方面,即使999亿的手机号码,也仅仅占用1.2
2022-01-23 11:04:17 1.55MB python 哈希算法 big data
两个文件对比重复号码,对比不重复号码,单个文件找出重复的号码,找出不重复的号码,数据去重,发短信的号码整理助手 具体使用技巧参考博客:https://blog.csdn.net/bbyn1314/article/details/89788189
1
一、改善:加强运算速度,尤其是百万级以上数据,运行速度明显加强。 二、新增:支持上下显示框中的内容分别导出。 三、新增:支持上下显示框中的内容直接复制,这个功能特别适合小批量数据直接复制处理。 四、改善:“导入文件”去除提醒功能,可以省略一步,直接导入文件。 五、新增:按号码段导出,可以自定义按前N位进行统计并导出,导出后可以详细查看每个号码段情况及条数。 六、新增:按重复次数直接导出,方便一步到位找出重复的数据。 七、改善:过滤功能改善工作原理,新原理如下:如窗口文件中有3个A,而外部文件中有1个A,则过滤后在窗口文件中还将保留2个A。如要完全过滤重复,则只需要过滤前将窗口文件先进行“消除重号”,然后再进行过滤号码就可以了。 八、新增:在提取号码功能中,新增可以提取或从文件导入中提取邮件。号码魔方不仅可以处理手机号码,同样也可以处理邮件、电话等,同样可以实现过滤重复等功能。 九、改善:由于小灵通即将退市,因此从5.0版本起,将不再将小灵通纳入手机处理范围中。
2013-07-05 00:00:00 159KB 破解手机 手机号码 去掉重复 排序
1