主要是通过R语言,对网页上的数据进行进行爬取,并且整理成文本格式,或者excel格式。
Sys.setlocale("LC_TIME", "C")
## [1] "C"-----------------------------------------------------------
## Create a function,the parameter 'i' means page number.
getdata <- function(i){
url <- paste0("www.cnblogs.com/p",i)##generate url
combined_info %html_session()%>%html_nodes("div.post_item div.post_item_foot")%>%html_text()%>%strsplit(split="\r\n")
#对日期数据的处理-------------------------------------------------------------
post_date %str_sub(9,24)%>%as.POSIXlt()##get the date
post_year <- post_date$year+1900
post_month <- post_date$mon+1
post_day <- post_date$mday
post_hour <- post_date$hour
post_weekday <- weekdays(post_date)
#对主题数据的读取 文本的格式的读取
title %html_session()%>%html_nodes("div.post_item h3")%>%html_text()%>%as.character()%>%trim()
1