主要是读取文本,然后进行分词、词干提取、去停用词、计算词频,有界面,很实用
2023-03-10 13:37:17 70KB 词频计算
1
Big5-性格React烧瓶 这是一个项目,我们可以在该项目上构建一个React应用并调用端点进行预测。 使用的模型是随机森林回归器和随机森林分类器。 使用myPersonality项目( )的数据集对模型进行训练。 模型使用回归模型生成预测的人格得分,并使用分类模型针对每个人格特征生成二元类别的概率。 技术领域 后端烧瓶 前端React 修改后的准备 Create-react-app创建一个基本的React应用程序。 接下来,加载了引导程序,该引导程序使我们可以为每个屏幕尺寸创建响应式网站。 在App.js文件中,添加了带有textarea和Predict按钮的表单。 将每个表单属性添加到状态,并在按下Predict按钮时,将数据发送到Flask后端。 将样式添加到页面的App.css文件。 Flask应用程序具有POST终结点/预测。 它接受输入值作为json,将其转换为数组,并使
2023-03-08 15:34:48 116.93MB deep-learning reactjs word word-embeddings
1
为您提供CudaText 代码文本编辑器下载,CudaText(代码文本编辑器)能够用来编辑代码及文本,内置的代码高亮功能非常适合编辑程序代码,绝大部分编程语言代码都可以高亮显示,支持代码折叠、拆分视图及正则表达式查找、替换!软件特色  1、语法高亮许多语言:C,C ++,Java和JavaScript的HTML,CSS,PHP,Python和XML...arpun.com完全从SynWrite约140词法分析器支持。  2、代码折叠。  3
1
让我们从具有Amazon产品评论的数据集开始,构建结构化的类:6个“级别1”类,64个“级别2”类和510个“级别3”类。探索用于分层文本分类的各种方法。 train_40k.csv unlabeled_150k.csv val_10k.csv
2023-03-07 22:34:42 37.3MB 数据集
1
基于分词与BP网络的文本分类 首先下载整个文件,BP文本分类-语义特征提取.rar主要存放了相关的数据集 代码主要包括: 1.特征提取 首先对文本信息进行分词处理,采用基于字符串匹配的方法: 依次截取一到多个词,并与字典库进行匹配。如二狗,如果匹配到字典中有这个词,则将其分为一个词;发现字典中没有与之匹配的,则说明这个不是一个词语,进行顺序操作, 2.得到分词后的文本之后,就是转换成数字编码,因此电脑没办法识别汉字。这一部分叫特征表示,即用数字的方式表示中文文本,采用的方法是基于词带模型的特征表示 3.通过2我们将文本表示成了数字,但是这样的表示通常都是稀疏的,为此我们利用降维方法,消除掉这些冗余特征。 4. 文本分类,采用的就是bp网络(1)如pca的降维数,维数过高,包含冗余数据,过低又会删除掉重要信息。(2)bp网络结构的调整,如隐含层节点数,学习率等
2023-03-06 10:05:56 3.48MB BP神经网络 文本分类器 MATLAB
1
问题:windows环境下新建或编辑文本文件,保存时会在头部加上BOM。使用ftp上传到linux下,在执行时第一行即报错。以下方法可以去除BOM头,有需要的朋友可以参考下。 复制代码 代码如下:import codecsdata = open(“Test.txt”).read()if data[:3] == codecs.BOM_UTF8: data = data[3:]print data.decode(“utf-8”) 说明: 文件开始部为 0xEF 0xBB 0xBF 为BOM 您可能感兴趣的文章:python计算文本文件行数的方法Pyt
2023-03-06 01:41:37 33KB bom IN python
1
(基于jQuery制作一个模糊搜索组件,点击搜索框文本下拉框提示效果,带文字检索功能。功能应该算比较完善,提供了目前常用的api。 使用方法 new searchSelect(dom名字,模糊搜索数据的数组,回调函数_选填,传入会在input事件触发时调用))
2023-03-05 15:22:29 36KB jquery 前端 javascript ecmascript
1
NLP图像到文本 从图像中提取文本的代码 pip install -r requirements.txt 如果遇到找不到文件错误,如下所示: FileNotFoundError: [Errno 2] No such file or directory: 'tesseract' 运行以下命令 brew install tesseract 然后如下运行image-to-text.py: python image-to-text.py 我们观察到,对于干净的输入,准确性很高。 参见输入2。嘈杂的输入可能不会产生相同的效果! 一些示例输入和输出: 输入: 输出: DON’T WATCH THE CLOCK; KEEP GOING. SAM LEVENSON / / 7 J .- - flCESSc
2023-03-04 22:03:55 953KB ocr python3 text-recognition tesseract-ocr
1
中文文本分类语料库
2023-03-04 20:51:30 113.53MB 中文文本分类
1
1.分句 - 4 - 2.分词 - 4 - 3.去除停用词和特殊字符 - 5 - 4.去除超高频词与低频词 - 5 - 1.聚类效果 - 11 - 2.兰德指数
2023-03-04 11:14:41 960KB 聚类
1