上传者: 42172572
|
上传时间: 2021-10-19 17:46:11
|
文件大小: 715KB
|
文件类型: -
根据VK中的注释对现代俄语进行频率分析
代码
scraping_text.py-数据抓取。
data_cleaning.py-删除逗号,表情符号和重复的注释。
plotting_graph.py-频率分析和绘图图,其中y轴是符号出现的频率,x是字母。
encryption.py-通过频率分析的方法对文本进行加密,并使用频率分析进行解密。
syllables_splitting.py-将单词拆分为音节。 要将单词拆分为音节,我使用rusyllab / rusyllab.py。 来自 。
check_syllable.py-每个不正确的单词(您需要手动选择它)都被分成多个音节,并且我们为每个音节搜索最相似的音节。
结果
图形形式的符号出现频率:
以表格形式出现字符的频率:
音节出现的频率:
文章