ToP4CAS 协作创作系统的来源追踪器 “top4cas.jar”提取每个令牌在最新版本中的作者身份数据,用于修订的基于文本的内容。 “Test.java”是使用 Top4cas 的示例代码。 Top4cas 是一个系统,用于识别为每个版本管理的合着内容中每个词的来源。例如,通过提供维基百科文章每个版本的数据(将文本分成词的词和该版本的编辑者)作为输入,谁在文章最终版本的正文中撰写了每个描述以及何时。在单词级别输出。您还可以获取有关编辑者在哪个版本中添加了哪些词,以及哪些词是由谁编写并删除、保留或恢复的数据。具体执行示例程序Test.java。
2021-07-06 17:07:01 37KB Java
1
DocumentAnalysis Wikipedia document analysis using Hadoop Map的每个输入是XML文档的 标签到 标签。其中key没有意义,value就是这两个标签(包括标签本身)的值,可以通过 .toString() 方法转化为字符串进行下一步处理 src/documentParser TextParser.java 正则表达式处理String,能够去除大部分标点符号,需要补全 XMLHandler.java SAX流形式处理XML格式的字符串
2021-07-06 17:06:49 84KB Java
1
易读 自定义 JS/CSS 使维基百科页面更易于阅读。 如果您有注册的 Wikipedia 帐户,则可以通过将其复制到您的自定义 JS/CSS 文件来使用它。 请注意,这仅适用于默认的 Vector 皮肤——它需要对任何其他皮肤进行认真的调整。 ##安装 将 JS 文件的内容复制到您的。 将 CSS 文件的内容复制到您的 。 。
2021-07-03 18:03:37 2KB wikipedia CSS
1
最新疯狂益智答题百科题库
1
电影推荐电影详细介绍电影百科微信小程序.zip
2021-06-30 18:06:36 1.2MB 小程序
一个简单的 Python 维基百科爬虫。 运行: celery worker -A crawler.tasks --loglevel=info -Q fetch_queue -n 'fetcher' celery worker -A crawler.tasks --loglevel=info -Q parse_queue -n 'parser' 用于监控:celery -A crawler.tasks 花 --broker=amqp://guest:guest@localhost:5672// --broker_api=http://guest:guest@localhost:15672/api/ rabbitmq-plugins 启用 rabbitmq_management 花: RabbitMQ: 为什么只有维基百科 => 几乎可以保证健全的 HTML
2021-06-29 19:23:50 4KB Python
1
20210625-华创证券-债券品种小百科系列之二:非金融企业永续债,价值再审视.pdf
2021-06-27 10:01:41 1.91MB 行业
某个健康网站整站的文章内容,2万多条的记录数35个详细的健康文件分类表足够让你完善一个关于健康方面产品的内容,在表结构方面字段包含的 TAG(fkeyword) 可以让你做更多的搜索优化。
1
包含:中國旅游(3868)、海外旅游(2076)、護照簽證(1402)、旅游常識(3489)、交通工具(1237)、汽車常識(3898)。
1
I2C维基百科.pdf
2021-06-21 18:07:00 7.17MB I2C IIC
1