PTT 中文语料
嗨,这里是PTT中文语料集,我透过将每篇文章化简为问答配对,其中问题来自文章的标题,而回覆是该篇文章的推文。可惜的是目前这份资料集的噪声还有点大,若您有更好的方法能提取出文章的问答配对,或发现这份资料集有什么能改进的部份,还请与我联系,也祝各位开发顺利:>
资料说明
资料集一共有两份,您可于或是从本专案的data资料夹里取得。
Gossiping-QA-Dataset.txt
搜集了PTT八卦版于2015年至2017年6月的文章,每一行都是一个问答配对,问与答之间以一个tab ( \t )区隔开,比如说
matlab有什麼炫砲一點的圖? 一樣的圖改一改顏色,有點半透明感覺更唬爛炫
有沒有情人節吃什麼cp值最高的八卦 吃屎啊廢話 免費的一餐
姆咪一個人守得住街亭嗎? 引來一堆肥宅穢土轉生 有機會喔
有沒有被落石砸到該反省的八卦 蔡英文執政就故意誇大報導 東森不意外
情人節
1