具体说一下整理的工作:1.初始整理成行共150多万条记录;2.去除行头序号;3.去除含**敏感词的记录;4.去除10字以下155字以上的记录;5.去除某些不佳句子;6.去除重复的记录,到第6步之后记录集只剩下33万多了。 标题也适当的整理了一下,GROUP BY后有9千多。
2021-08-03 09:35:03 432KB 优美句子 签名句子 好词好句
1