政治网络
斯洛文尼亚政治数据的命名实体识别项目。
安装开发
# Python 2.7.6
mkvirtualenv --no-site-packages politiki
workon politiki
pip install --upgrade -r requirements.txt
使用的库和工具
准备和抓取数据
手动抓取每个门户或运行“./bin/small_crawl.sh”脚本
scrapy crawl delo -o data/urls/delo.csv -t csv -O --nolog
将 URL 列表合并为一个巨大的列表。
cat data/urls/*.csv | cut -d ',' -f1 | grep -v -e "url" | uniq -u > data/lists/big.txt
使用 Aria2 下载所有内容以供离线处理
aria2c --con
2021-12-17 22:38:57
9KB
Python
1