上传者: 38609089
|
上传时间: 2021-05-30 20:24:22
|
文件大小: 136KB
|
文件类型: PDF
1.什么是搜索引擎?
搜索引擎是“对网络信息资源进行搜集整理并提供信息查询服务的系统,包括信息搜集、信息整理和用户查询三部分”。如图1是搜索引擎的一般结构,信息搜集模块从网络采集信息到网络信息库之中(一般使用爬虫);然后信息整理模块对采集的信息进行分词、去停用词、赋权重等操作后建立索引表(一般是倒排索引)构成索引库;最后用户查询模块就可以识别用户的检索需求并提供检索服务啦。
图1 搜索引擎的一般结构
2. 使用python实现一个简单搜索引擎
2.1 问题分析
从图1看,一个完整的搜索引擎架构从互联网搜集信息开始,可以使用python编写一个爬虫,这是python的强项。
接着,信息处理模块