爬取百度百科中文页面,抽取三元组信息,构建中文知识图谱
2021-08-03 16:18:38 1.47MB 知识图谱
1
百度百科约500万条词条,可用于语义关联或简单的知识网络建立,xml格式,解压后638M,请不要用记事本直接打开,我是用UE打开的,sublime好像会有乱码,文件内容示例如下: =1 <TITLE>=百度百科 =百度,百度百科,网络,百科全书,百科词典 =百度知道;贴吧;百度空间;百度地图;百度新闻搜索;百度图片;百度mp3;百度Hi;百度工具栏;百度影视;百度邮编搜索;百度黄页搜索;百度杀毒;百度语音搜索;科利尔百科全书;苏联大百科全书;汇吃百科;维基百科;百度视频;百度蜘蛛;百度文库;互动百科;百度文档;百度文化共享搜索;百度盲道;百度会员;百度搜藏;百度TV;百科全书;知识掌门人;百度游戏;百度有啊;张震;科友; =http://baike.baidu.com/view/1.htm =2 <TITLE>=词条 =百度,百度百科 =相关词条; =http://baike.baidu.com/view/2.htm =3 <TITLE>=编辑实验 =百度,百度百科,帮助,词条,编辑 =词条;百度; =http://baike.baidu.com/view/3.htm =4 <TITLE>=馒头 =食品,饮食,面食,食谱,蒸馍 =大饼;油条;面包;饺子;花卷;包子;麻花;食品;主食;糯米饭;蛋糕;鲜肉包;米粥;面条;凉拌菜;年糕;饼干;窝头;粽子;烤饼;酥饼;汤圆;烧饼; =http://baike.baidu.com/view/4.htm =6 <TITLE>=雁荡山 =地理,旅游,旅游景点,自然景观,地质公园 =华山;泰山;普陀山;恒山;嵩山;莫干山;浣江;衡山;括苍山;双龙洞;雪窦山;天台山;天目山;楠溪江;天柱山;景宁香炉山;乌镇;杭州西湖;泽雅;白水洋;武夷山;洞宫山;桃花岛;三清山;黄山;新安江水库;崂山区;溪口;太姥山;南麂列岛;野鹤湫;庐山;江心屿;瑶溪;朱家尖;石桅岩;绍兴县;杨家溪;仙岩山;仙都风景区;大龙湫;三折瀑;五岳; =http://baike.baidu.com/view/6.htm =7 <TITLE>=灵峰 =风景,雁荡山,地理,旅游,温州 = =http://baike.baidu.com/view/7.htm
2021-07-28 11:01:18 103.28MB 百科 知识库
1
百度百科563万数据2019年新版,一行一条,json格式
2021-06-10 02:36:54 70B 百度百科
1
爬取百度百科词条页面,并进行数据的存储及简单管理,带界面; 开发工具:pycharm+MySQL+pyqt5。
2021-06-03 10:59:29 9.35MB 爬虫程序 界面 python qt
1
升级软件:1.7.8.1 1、升级了百科ID获取方式; 2、修改了替换模式; 3、修改注册模块功能;
2021-06-01 14:06:14 9.7MB 百科工具
1
爬取百度百科词条内容以及递归爬取当前页面所有链接的内容
2021-05-23 15:02:58 3KB 百度百科 爬虫
1
代码可以运行,提供关键词,然后将百度百科的内容保存到txt文件中
2021-05-05 14:02:40 9KB python 爬虫
抽取方式:infobox同义词、近义词、别称等
2021-04-20 19:09:20 9.91MB nlp
1
介绍的是利用python3根据关键词爬取百度百科的内容,注意本文用的是python3版本以及根据关键词爬取,爬取也只是单纯的爬网页信息,有需要的可以参考借鉴。
1
入门级爬虫,爬取百度百科词条和简介
2021-03-21 16:22:26 137KB Python开发-Web爬虫
1