新闻搜索引擎 使用方法 安装python 3.4+环境(推荐或 ) 安装lxml html解析器,命令为pip install lxml 安装jieba分词组件,命令为pip install jieba 安装Flask Web框架,命令为pip install Flask 进入web文件夹,运行main.py文件 :浏览器,访问输入关键字开始测试 如果想抓取最新新闻数据并编制索引,一键运行./code/setup.py ,再按上面的方法测试。 2020.4.5:添加抓取的爬虫程序。先运行./code/spider.chinanews.com.py爬取最近5天新闻(约2500条);然后注释./
2022-05-03 12:21:54 7.9MB search-engine flask news jieba
1
WorldCup_news-数据集
2022-04-30 13:57:53 28.1MB 数据集
1
Word2Vec 模型word2vec-google-news-300。在 Google News 数据集上训练完成的 Word2Vec 模型,覆盖了大约 300 万的词汇和短语。该模型是利用了整个 Google News 大约 1000 亿个词的语料训练而成!由于文件太大,将压缩包分成了10个部分。
2022-04-14 10:53:33 43.3MB 自然语言处理 预训练模型
1
JSON-LD生成器 极其简单的JSON-LD生成器。 安装 从命令行运行 $ composer require torann/json-ld 方法 /JsonLd/Context.php create($context, array $data = []) getProperties() generate() 上下文类型 文章 有声读物 海滩 blog_posting 书 面包屑列表 接触点 公司 creative_work 期间 事件 geo_coordinates image_object 发票 项目清单 本地业务 media_object 音乐专辑 music_group music_playlist 音乐录制 新闻文章 提供 命令 组织 人 地方 邮寄地址 价格规格 产品 评分 食谱 审查 雕塑 搜索框 事物 video_object 网页 网站 例子
2022-04-01 10:13:57 53KB article json-ld people news-articles
1
新闻分类 根据新闻标题将新闻分类。 尝试了各种分类器-决策树,支持向量分类器,多项朴素贝叶斯分类器,多层感知器,随机森林。 多项式朴素贝叶斯分类器效果最好。 即使我们人类根据关键字进行分类,多项式朴素贝叶斯算法也能发挥最佳效果,这是合乎逻辑的。 我们很可能会预测“政治”,因为我们会看到诸如奥巴马,大选,共和国之类的关键词;如果我们看到诸如毒品,监狱之类的关键词,我们可能会预测“犯罪”。 朴素贝叶斯扫描整个数据集,并找到标题中每个单词与某个类别相关联的概率,然后找到整个标题的概率,因此效果很好。 安装 pip install numpy pip install scikit-learn pip
1
零基础入门推荐系统 - 新闻推荐 Top2 比赛地址: 解决方案 采用3种召回方式:itemcf 召回,binetwork 召回和基于 word2vec 的 i2i 召回。合并去重并删除没有召回到真实商品的用户数据后,利用特征工程+ LGB 二分类模型进行排序。 复现步骤 操作系统:ubuntu 16.04 pip install requirements.txt cd code bash test.sh
2022-03-30 18:02:09 19KB news-recommendation Python
1
fake_news_TFIDF_analysis 使用TFIDF分析进行假新闻预测 资料来源:Kaggle资料集 网址: : 目的: 阿拉伯联合酋长国TF-IDF数据处理和相关单词的特征提取 使用新闻数据集来训练MLlib中的不同分类回归模型。 使用训练有素的模型来确定哪些绩效更好。 要求: 安装了Spark 客观的 : 使用TF-IDF数据处理和特征提取来识别文本中更相关的单词 执行步骤以提取特征并标记并提交给分类回归模型。 演示使用MLlib库的不同方法。
2022-03-29 22:58:06 29.01MB
1
该项目是通过引导的。 您将在下面找到一些有关如何执行常见任务的信息。 您可以在找到本指南的最新版本。 目录 自动格式化代码 更改页面<title> 安装依赖项 导入组件 代码分割 添加样式表 后处理CSS 添加CSS预处理器(Sass,Less等) 添加图像,字体和文件 使用public文件夹 更改HTML 在模块系统之外添加资产 何时使用public文件夹 使用全局变量 添加引导程序使用自定义主题 增加流量 添加路由器 添加自定义环境变量 在HTML中引用环境变量 在Shell中添加临时环境变量 在.env添加开发环境变量 我可以使用装饰器吗? 使用AJAX请求获取数据 与API后端集成 节点 Ruby on Rails 在开发中代理API请求 配置代理后出现“无效的主机头”错误 手动配置代理 配置WebSocket代理 在开发中使用HTTPS 在服务器上生成动态<met
2022-03-26 16:08:44 135KB JavaScript
1
一个带有React的HackerNews Stories应用程序 使用HackerNews API和React的示例应用程序。 npm install npm start
2022-03-08 13:25:47 167KB TypeScript
1
kNN(k-nearest neighbors algorithm) 此专案以新闻分类进行kNN范例之实作 kNN Introduction: 最近鄰居法(KNN演算法,又譯K-近鄰演算法)是一種用於分類和回歸的無母數統計方法,KNN常用來做資料分類。 KNN是一種監督式學習(Supervised Learning),監督式學習需透過資料訓練出一個model,但KNN沒有做training的動作。 K為使用者自己定義的常數,KNN就是選擇離自己最近的K的鄰居(Data),之後觀察哪一種類別(Tag)的鄰居最多就將自己也當成該類別。 Input: 测试文章: 1.使用ETtoday新聞作為訓練集分類。 2.使用Jieba作為分詞,取出Top 100 Words 作為每篇文章的關鍵詞。 3.取出k=3個最近鄰居作為分類依據,此外對最近的第一個鄰居作為加權*2 Output:
2022-03-04 15:56:12 605KB news tf-idf cosine-similarity knn
1