搜索【提取中文】的结果

js提取中文拼音首字母的封装工具类

前言本文主要记录了如何用js提前中文拼音首字母的方法。封装一个函数，假如有需要的，可以直接拿去用。下面话不多说了，来一起看看详细的介绍吧。原理主要是根据中文的unicode码来进行的。主要是在收集的中文范围内查找，大家可以多收集一些。假如中文是多音字，那可能有点坑了！ var getPy = (function() { //函数使用,本表收录的字符的Unicode编码范围为19968至40869, XDesigner 整理 var strChineseFirstPY = YDYQSXMWZSSXJBYMGCCZQPSSQBYCDSCDQLDYLYBSSJGYZZJJFKCCL

2023-02-21 15:46:20 82KB js 字母封装

1

spark实现财经新闻搜索引擎（正文提取、中文分词、倒排索引构建、执行搜索）

财经新闻搜索引擎从财经新闻网页数据开始，进行正文提取、中文分词、倒排索引构建、执行搜索和UI。要求技术：MapReduce或Spark；执行搜索和UI采用Spark或Java 步骤：（1）新闻正文提取，采用正则表达式提取指定网站栏目新闻的标题、正文和发表时间。评分标准：一个栏目15分（多一个栏目+5分）（25分）；使用通用算法提取不固定格式正文（不算很难）40分（2）中文分词（worldcount），将正文进行中文分词，保存每个新闻的URL、标题、正文等数据评分标准：分词并将正文存储到文件15分；存储到HBase（本地）+5分（3）倒排索引构建，将词汇、次数和文章ID构建成倒排索引和对应的TF值评分标准：计算倒排索引并存储到文本文件15分；存储到HBase（本地）+5分；计算TF值5分（4）执行搜索，对用户搜索词进行分词，从倒排索引读取对应词汇，读取TF值，读取数据计算IDF值，根据IF×IDF值对词汇对应的文章进行排序，显示排序后的正文摘要评分标准：25分，有交互式UI（如网页）+10分（5）优化和执行评分标准：shuffle优化并做对比测试+10分；第（2）

2022-04-06 02:48:23 6.88MB 搜索引擎 spark 中文分词 大数据

强大的资源提取工具——AbstractChinese

需要从代码中提取所有的中文资源！这纯粹是件体力活，头昏眼花不说，一不留神还经常让鱼漏网。于是我想能不能自己开发一个便捷工具，自动提取所有的中文资源呢？但再一想，代价太大，可能开发的时间都会超出手工提取的时间。于是我上网找，不出一会，真找了一个绝对让所有为资源提取而苦恼的程序员欣喜的工具“AbstractChinese”。连我一个新手都为提取资源而长吁短叹，那么如果让我们的高级程序员去干这体力活，得浪费多少的精力跟时间呢，好钢得用在刀刃上。你还在手工提取资源么？你OUT了！

2022-03-22 09:37:23 212KB 提取中文

1

基于语义的中文文本关键词提取算法

机器学习中的算法，中文文本的关键词提取算法。

2021-05-16 20:42:53 306KB 语义 关键词提取 中文文本

1

信息提取-中文：使用IDCNNbiLSTM + CRF的中文命名实体识别，以及使用biGRU + 2ATT的关系提取中文实体识别与关系提取-源码

信息提取中文中文信息提取（包括命名实体识别，关系提取等）专注于最新的深度学习方法。为了清楚起见，该项目有几个子任务，分别带有详细的README.md。文件夹RE_BGRU_2ATT /中的详细信息文件夹NER_IDCNN_CRF /中的详细信息详情参考

2021-04-01 15:26:35 58.12MB nlp information-extraction named-entity-recognition chinese-nlp

1

采用tesseract3.02+mfc+opencv提取中文、英文、数字字符

2019-12-21 21:05:19 38.68MB ocr;mfc;识别

1

个人信息

热门下载

最新下载

其他资源