1. 英语信源熵实验。搜集10段英文文献,每段1万个字符以上,文献相关性不要太强.
(1)预处理:把大写字母改写为小写(后面统计不分大小写),去掉标点符号、换行、回车等符号(全部用1个空格代替),去掉连续空格;
(2)计算信源熵:统计26个字母和空格符,共27个符号的概率,计算信源熵H1;
(3)H2熵:统计字符出现的一阶条件概率,计算H2熵;并和课本上的做一下对比。
(4)利用信源概率、一阶马尔科夫概率(H2)分别随机生成一段英文序列,对比生成序列的可读性。(参考课本29页)
要求:10段文献分别做,对比(2)(3)(4)步的结果;附上代码,做好注释。
报告中英文文献附一篇即可。
2023-12-22 15:20:05
4.77MB
1