马来语数据集,我们收集了马来西亚语料库!
该存储库用于存储和。
我们将不断更新此存储库。
我们如何收集数据集?
对于新闻,文章和字幕,我们使用搜寻器,您可以从此处获取代码 。
对于Bahasa,大多数情况下我们使用Google Translator,您可以从此处获取代码 。
使用社交媒体,我们使用爬虫从Twitter,Facebook和Instagram捕获大多数实时数据,因此我们仅使用Elasticsearch查询进行搜索。
对于语音,我们使用Macbook Air 2013附带的有线麦克风进行录制,同时阅读了bahasa维基百科的一些随机文本。
我们请一些语言学家来监督。
词汇->从翻译中学习不足->自信学习->来自人类的5次迭代。
执照
根据知识共享署名4.0国际许可,可以下载Malay-Dataset用于研究。
这项工作是根据。
仅使用此标签标记的数据 受此许
1