高教类课件:编译原理原理与技术
2022-06-10 21:00:51 3.65MB 高教类课件
01 爬虫实现原理简介 02 爬虫抓取网页的详细流程 03 通用爬虫中网页的分类 04 通用爬虫相关网站文件 05 防爬虫应对策略 06 为什么选择Python做爬虫 网站通过robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。 哪些页面 不能爬取 哪些页面 可以爬取 robots.txt 当一个网络爬虫访问一个站点时,它会先检查该站点根目录下是否存在robots.txt文件。 robots.txt文件使用#号进行注释 # 第一行记录 User-agent: Googlebot Robots协议只是一种建议,它没有实际的约束力,网络爬虫可以选择不遵守这个协议,但可能会存在一定的法律风险。 为了方便网站管理员通知爬虫遍历和更新网站的内容,而无需爬取每个网页,网站提供了Sitemap.xml文件(网站地图)。 尽管Sitemap.xml文件提供了爬取网站的有效方式,但仍需要对其谨慎对待,这是因为该文件经常会出现缺失或过期的问题 01 爬虫实现原理简介 02 爬虫抓取网页的详细流程 03 通用爬虫中网页的分类 04 通用爬虫相关网站文件 05 防爬虫应对策略 06 为什
2022-06-06 19:09:51 3.13MB 爬虫 big data 文档资料
北大数据库原理与技术Part2-1
2022-06-04 16:04:58 1.13MB 数据库 文档资料 database
信息检索原理与技术考试大纲重点整理.docx
2022-06-01 17:00:38 31KB 互联网
信道编码是通过信道编码器和译码器实现的用于提高信道可靠性的理论和方法。本文介绍了几种主要的信道编码技术,分析了他们的原理以及它在各个方面的应用和研究,并对各种编码方法的优缺点进行了总结,对信道编码的未来进行了展望。
2022-05-29 21:35:30 34KB 信道编码 原理 研究
1
一、实验目的 上机实操,学会使用Hive开发。 二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 Jdk1.8 三、实验内容 1:创建内部表 (1):start-all.sh,启动Hadoop所有进程 (2):初始化元数据库生成metastore (3):启动hive (4):把linus上面的rg.txt放到hdfs下 (5):show databases;显示所有数据库 (6):新建数据库test (7):创建数据库表rg (8):给表导入数据 (9):查看数据 (10):查看hdfs下文件的变化 (11):drop table rg;删除表 (12):查看hdfs下文件的变化 2:创建外部表 (1):在hdfs上建rg文件夹,并把数据放文件夹下 (2):创建数据库表 (3):查看hdfs下文件的变化 (4):select * from rg_ext;查找数据 (5):drop table rg_ext;删除表 三、创建分区表 四、创建分桶表 五、java连接数据库窗口版 六、java连接数据库代码版
2022-05-25 14:07:44 9.81MB hadoop hdfs 文档资料 大数据
一、实验目的 上机实操,熟悉指令操作Hbase和java代码操作Hbase 二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 Jdk1.8 三、实验内容 1:指令操作Hbase (1):start-all.sh,启动所有进程 (2):start-hbase.sh,启动hbase (3):hbase shell,进入hbase (4):list,显示所有表 (5):解决显示所有表遇到的错误(由于集群处于安全模式,该模式下只能进行只读操作,要解除安全状态才能运行) (6):create 'tempTable', 'f1', 'f2', 'f3',创建tempTable表,'f1', 'f2', 'f3'是列族 (7):put 'tempTable', 'r1', 'f1:c1', 'hello',插入数据,r1是行名, f1:c1中f1是列族,c1是列,hello是数据 (8):scan 'tempTable',显示tempTable表的数据 (9):get 'tempTable', 'r1', {COLUMN=>'f1:c1'},
2022-05-25 14:07:40 6.86MB hbase hadoop 文档资料 数据库
一、实验目的 熟悉hdfs命令行基本操作 二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 Jdk1.8 三、实验内容 1:hdfs常见命令: (1)查看帮助:hdfs dfs -help (2)查看当前目录信息:hdfs dfs -ls / (3)创建文件夹:hdfs dfs -mkdir /文件夹名 (4)上传文件:hdfs dfs -put /本地路径 /hdfs路径 (5)下载文件到本地:hdfs dfs -get /hdfs路径 /本地路径 (6)移动hdfs文件:hdfs dfs -mv /hdfs路径 /hdfs路径 (7)复制hdfs文件:hdfs dfs -cp /hdfs路径 /hdfs路径 (8)删除hdfs文件:hdfs dfs -rm /文件名 (9)删除hdfs文件夹:hdfs dfs -rm -r /文件夹名
2022-05-25 14:07:37 4.98MB hadoop hdfs 文档资料 大数据
一、实验目的 (1)熟悉Hadoop开发包 (2)编写MepReduce程序 (3)调试和运行MepReduce程序 (4)完成上课老师演示的内容 二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 Jdk1.8 二、实验内容 1.单词计数实验(wordcount) (1)输入start-all.sh启动hadoop相应进程和相关的端口号 (2)打开网站localhost:8088和localhost:50070,查看MapReduce任务启动情况 (3)写wordcount代码并把代码生成jar包 (4)运行命令 (1):把linus下的文件放到hdfs上 (2):运行MapReduce (5):查看运行结果 (6)网页上查看MapReduce任务 2.矩阵相乘实验(matrix) (1)写matrix代码并把代码生成jar包 (2)运行命令 (1):把linus下的文件放到hdfs上 (2):运行MapReduce (3):查看运行结果 3.网页排名实验(pagerank) (1):写pagerank代码并把代码生成jar包
2022-05-25 14:07:37 10.46MB hadoop mapreduce 文档资料 大数据
一、实验目的 (1)通过实验掌握 Spark SQL 的基本编程方法; (2)熟悉 RDD 到 DataFrame 的转化方法; (3)熟悉利用 Spark SQL 管理来自不同数据源的数据。 (4)java程序实现SparkSQL 二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 Jdk1.8 三、实验内容 (一)SparkSQL的基本知识 (1)输入start-all.sh启动hadoop相应进程和相关的端口号 (2)启动Spark分布式集群并查看信息 (3)网页端查看集群信息 (4)启动spark-shell控制台 (5)访问http://localhost:4040可以看到spark web界面 (6)进入/spark/examples/src/main/resources目录,查看该目录下的内容 (7)查看people.json和employees.json的内容 (8)读取people.json、employees.json,创建DataFrame
2022-05-25 12:04:48 10.36MB hadoop 文档资料 大数据 big