分区哈希连接
这是针对以下问题的作业解决方案。
给定两个1.3 GB大文件,每个文件有 1 亿个条目,找到这些文件的交集。 该程序不得使用超过50 MB的 RAM。
输入文件的单个条目的格式为A1234567890\r\n 。 如果条目的数字部分相等,则两个条目相等。 例如是A1234567890等于B1234567890 。
压缩的输入文件可以在这里找到:
正如项目名称所暗示的那样,问题是使用分区哈希连接算法解决的。
运行脚本
首先,克隆这个 repo 或 :
$ git clone https://github.com/dschwertfeger/partitioned-hash-join.git
然后,切换到目录:
$ cd partitioned-hash-join
确保脚本是可执行的:
$ chmod +x partitioned_hash_join.py
该
2021-08-31 13:45:52
7KB
Python
1