根据VK中的注释对现代俄语进行频率分析
代码
scraping_text.py-数据抓取。
data_cleaning.py-删除逗号,表情符号和重复的注释。
plotting_graph.py-频率分析和绘图图,其中y轴是符号出现的频率,x是字母。
encryption.py-通过频率分析的方法对文本进行加密,并使用频率分析进行解密。
syllables_splitting.py-将单词拆分为音节。 要将单词拆分为音节,我使用rusyllab / rusyllab.py。 来自 。
check_syllable.py-每个不正确的单词(您需要手动选择它)都被分成多个音节,并且我们为每个音节搜索最相似的音节。
结果
图形形式的符号出现频率:
以表格形式出现字符的频率:
音节出现的频率:
文章
1