python3.6实现中文语料文本的BSBI算法(倒排索引)索引程序实现。包括中文文本分词,停用词表。
1
3dmax2020中文版基础入门视频教程-20.倒角剖面命令.mp4
2022-04-17 14:04:16 313.37MB 音视频
离散小波变换和复倒谱的数字音频盲水印算法首先对原始音频数据进行分段处理并对每个音频数据段进行二级离散小波变换,然后对二级小波近似系数做复倒谱变换并修改复倒谱的统计均值以嵌入水印。为了便于观察,水印选用二值可视图像,并利用混沌技术进行了加密处理,加强其安全性。算法提取水印时不需要原始音频信号,实现了水印的盲检测。仿真实验证明了算法的鲁棒性和不可感知性。
1
【特征提取】基于一帧数据倒谱法、LPC内插法、LPC求根法实现语音共振峰提取含Matlab源码
2022-04-12 10:48:16 352KB
1
更多精彩:http://blog.csdn.net/xjm199/article/details/18348671 倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。 有两种不同的反向索引形式: 1、一条记录的水平反向索引(或者反向档案索引)包含每个引用单词的文档的列表。 2、一个单词的水平反向索引(或者完全反向索引)又包含每个单词在一个文档中的位置。
2022-04-10 12:11:50 322KB 倒排索引 文档 方向索引
1
这是一个说话人识别系统,特征是LPC倒谱系数,文件包含11个训练和测试语音素材,采样率为12.5kHz,用11个素材测试识别率可以达到100%,但是通过录音进行测试,有时候会出现错误。
2022-04-08 20:23:14 599KB 说话人识别 LPC倒谱 短时谱
1
今天小编就为大家分享一篇python 实现倒排索引的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
2022-04-07 16:34:33 28KB python 倒排 索引
1
项目1 一个使用倒排索引和向量空间模型的简单信息检索项目。 1)源代码只是一个python文件ir.py。 2)代码是用Python 2.7编写的。 3)代码中的query_file和base_dir变量要分别设置为query文件和blogs目录。 4)查询文件格式为:企鹅851 March每行一个查询,不带引号。 5)每个实现的IR模型都有一个后缀(名称)。 TFIDF:'stem' LogtfIDF:'stem-logtf' TFIDF-Positional:'stem-positional' BM25:'stem-bm25' 语言模型:'stem-lm' 拉普拉斯平滑语言模型:'stem-lmls' 为了对两个模型的两个分数进行线性求和,可以将 main(methods) 中的方法设置为我们打算在最终结果中使用的后缀列表。 例如 main(methods=['stem'
2022-04-07 13:36:29 117KB Python
1
财经新闻搜索引擎 从财经新闻网页数据开始,进行正文提取、中文分词、倒排索引构建、执行搜索和UI。 要求技术:MapReduce或Spark;执行搜索和UI采用Spark或Java 步骤: (1)新闻正文提取,采用正则表达式提取指定网站栏目新闻的标题、正文和发表时间。 评分标准:一个栏目15分(多一个栏目+5分)(25分);使用通用算法提取不固定格式正文(不算很难)40分 (2)中文分词(worldcount),将正文进行中文分词,保存每个新闻的URL、标题、正文等数据 评分标准:分词并将正文存储到文件15分;存储到HBase(本地)+5分 (3)倒排索引构建,将词汇、次数和文章ID构建成倒排索引和对应的TF值 评分标准:计算倒排索引并存储到文本文件15分;存储到HBase(本地)+5分;计算TF值5分 (4)执行搜索,对用户搜索词进行分词,从倒排索引读取对应词汇,读取TF值,读取数据计算IDF值,根据IF×IDF值对词汇对应的文章进行排序,显示排序后的正文摘要 评分标准:25分,有交互式UI(如网页)+10分 (5)优化和执行 评分标准:shuffle优化并做对比测试+10分;第(2)
2022-04-06 02:48:23 6.88MB 搜索引擎 spark 中文分词 大数据