主动学习(Python)
如今,获取未标记的数据已经非常简单。 但是,获取标记数据确实是非常困难的任务。 主动学习是一个这样的框架,当您的数据有限而又需要更高的模型准确性时,该框架将为您提供帮助。 智能查询以识别信息最多的实例是主动学习的基本原理。 建立任何主动学习模型的关键因素是我们选择的确定性度量和我们应用的查询策略。
查询策略:
1.不确定性抽样
任何活跃的学习者在看到一组未标记的示例后,都会提取出最有用的示例,并提供相同的示例以进行标记。 首先,为每个示例计算衡量预测的有用性,然后根据有用性进行决策。 分类不确定性,分类余量和分类熵是modAL文档中针对基于主动学习池的采样和基于流的采样的三种内置度量,这是可以将实例发送到查询以评估度量有用性的不同方式。
基于池的采样
下面的示例使用基于池的采样展示了Active学习者在fetch_covtype数据集上的应用。 此处,与未标记数
1