partitioned-hash-join:一个计算两个内存受限的大文件交集的小python脚本-源码

上传者: 42151599 | 上传时间: 2021-08-31 13:45:52 | 文件大小: 7KB | 文件类型: ZIP
分区哈希连接 这是针对以下问题的作业解决方案。 给定两个1.3 GB大文件,每个文件有 1 亿个条目,找到这些文件的交集。 该程序不得使用超过50 MB的 RAM。 输入文件的单个条目的格式为A1234567890\r\n 。 如果条目的数字部分相等,则两个条目相等。 例如是A1234567890等于B1234567890 。 压缩的输入文件可以在这里找到: 正如项目名称所暗示的那样,问题是使用分区哈希连接算法解决的。 运行脚本 首先,克隆这个 repo 或 : $ git clone https://github.com/dschwertfeger/partitioned-hash-join.git 然后,切换到目录: $ cd partitioned-hash-join 确保脚本是可执行的: $ chmod +x partitioned_hash_join.py 该

文件下载

资源详情

[{"title":"( 5 个子文件 7KB ) partitioned-hash-join:一个计算两个内存受限的大文件交集的小python脚本-源码","children":[{"title":"partitioned-hash-join-master","children":[{"title":"LICENSE <span style='color:#111;'> 1.06KB </span>","children":null,"spread":false},{"title":".gitignore <span style='color:#111;'> 675B </span>","children":null,"spread":false},{"title":"tests.py <span style='color:#111;'> 1.03KB </span>","children":null,"spread":false},{"title":"README.md <span style='color:#111;'> 7.47KB </span>","children":null,"spread":false},{"title":"partitioned_hash_join.py <span style='color:#111;'> 3.56KB </span>","children":null,"spread":false}],"spread":true}],"spread":true}]

评论信息

免责申明

【只为小站】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网的特殊性,【只为小站】 无法对用户传输的作品、信息、内容的权属或合法性、合规性、真实性、科学性、完整权、有效性等进行实质审查;无论 【只为小站】 经营者是否已进行审查,用户均应自行承担因其传输的作品、信息、内容而可能或已经产生的侵权或权属纠纷等法律责任。
本站所有资源不代表本站的观点或立场,基于网友分享,根据中国法律《信息网络传播权保护条例》第二十二条之规定,若资源存在侵权或相关问题请联系本站客服人员,zhiweidada#qq.com,请把#换成@,本站将给予最大的支持与配合,做到及时反馈和处理。关于更多版权及免责申明参见 版权及免责申明