textClusteringDBSCAN:使用基于密度的空间聚类(DBSCAN)使用TF-IDF,FastText,GloVe字向量对文本进行聚类
这是一个库,用于根据数据中的文本字段执行不受监督的语言功能。 API也将发布以进行实时推理。 这只是项目实施的一小部分,项目实施是一个开放源代码语言库,旨在轻松集成到应用程序中。
特征探索和可视化
文字特征可视化
功能工程:
根据基于变压器的模型添加功能。 (超大)
将基于tf-idf的特征添加为软特征,并与基于预训练词向量的特征结合。 (监督下)
比较不同的功能。
用法
基本使用说明。 由于代码正在开发中,因此可能不稳定。 到2020年12月31日将添加更多详细信息,以正确使用该库。
读取数据
from textclustering import utilities as ut
from textclustering impor
1