关于此回购
此回购包含按频率顺序列出的10,000个最常见的英语单词的列表,该列表由对确定。
根据说法:
在Google Research,我们一直在将词n-gram模型用于各种研发项目,例如统计机器翻译,语音识别,拼写校正,实体检测,信息提取等。 虽然通常从最多包含数十亿个单词的训练语料库中估算出此类模型,但我们一直在利用Google数据中心和分布式处理基础架构的强大功能来处理越来越大的训练语料库。 我们发现没有像更多数据这样的数据,并且将数据的大小按一个数量级放大,然后按一个数量级放大,然后再扩大一个数量级,从而导致来自公共Web页面的一万亿个单词的训练语料库。
我们相信,整个研究社区都可以从访问如此大量的数据中受益。 它将推动最先进的技术发展,将研究重点放在大规模的,数据驱动的方法的有前途的方向上,并将使所有研究小组,无论其计算资源有多大或少,都可以一起发挥作用。 这就是为什么
2022-03-28 14:35:50
247KB
1