马来语数据集,我们收集了马来西亚语料库! 该存储库用于存储和。 我们将不断更新此存储库。 我们如何收集数据集? 对于新闻,文章和字幕,我们使用搜寻器,您可以从此处获取代码 。 对于Bahasa,大多数情况下我们使用Google Translator,您可以从此处获取代码 。 使用社交媒体,我们使用爬虫从Twitter,Facebook和Instagram捕获大多数实时数据,因此我们仅使用Elasticsearch查询进行搜索。 对于语音,我们使用Macbook Air 2013附带的有线麦克风进行录制,同时阅读了bahasa维基百科的一些随机文本。 我们请一些语言学家来监督。 词汇->从翻译中学习不足->自信学习->来自人类的5次迭代。 执照 根据知识共享署名4.0国际许可,可以下载Malay-Dataset用于研究。 这项工作是根据。 仅使用此标签标记的数据 受此许
2021-12-12 14:25:28 236.96MB text-mining corpus malaysia bahasa
1