逐步指南:
时间线
2021/03/09
添加了cmatch.c,尝试使用C而不是Python进行匹配过程以提高性能,这一过程仍在进行中。
已知问题:CIQ清理过程存在错误。
待办事项:完成cmatch。
2021/03/07
分开进行预清洁,清洁和后清洁,以使清洁过程更清晰。
已知问题:CIQ清理过程存在错误。
2021/03/04
添加了比赛后流程以减少样本。
添加了以查找成对的相似公司名称,这主要是由拼写错误引起的。 使用城市名称数据来确保它们是同一公司。
已知问题:案例文件中的城市名称是非标准的,并且也有拼写错误。
2021/02/28
添加了TMC清理过程,更新了所有其他清理过程。
更新了dict json。
添加了Combine_all_names.py
待办事项:使用字符串距离方法减小公司名称的大小。
2021/02/07
添加了CIQ清理过
2022-01-03 10:57:04
24KB
Python
1