项目说明
爬取新浪微博用户数据,为用户画像、情感分析和关系建模等提供结构化数据。
项目依赖的第三方库
HTTPClient
Jsoup :解析HTML
fastjson
程序核心逻辑:
在 useVersion2014/WeiboCrawler3.main() 中,WeiboCrawler3的实例对象crawler调用crawl()爬取原始数据后存在文件里,剩余代码再解析磁盘上的文件进行抽取和转换得到最后的数据。
crawl()是执行爬取动作的具体函数
String html = crawl.getHTML(url) //根据url获取网址
crawler.isVerification(html) //判断是否需要输入验证码
如果连接超时重新连接
新浪微博模拟登录逻辑 Sina.main()
Sina.login(username,passwprd)
preLogin(encodeAcco
2024-04-22 22:49:14
185KB
Java
1