毕业设计论文范文源码用于初创投资的机器学习方法
完整数据集可从:
抽象的
在这个项目中,实施和探索了一种将初创公司分为两类(成功和不成功)的机器学习方法。
该项目的数据集是从
Crunchbase
获得的。
它由
11
个不同的表格组成,其中包含有关初创公司、投资者、关系和创始人在生态系统中的背景以及许多其他信息的信息。
四个表被列入候选名单并合并为一个数据集。
然而,在数据转换和预处理之后,由于数据稀疏,不得不丢弃大量数据。
最终数据集由
61,716
个初创公司实例和
36
个特征组成。
还进行了特征缩放,将特征数量减少到七个,同时保持相同的预测能力。
对数据使用了五种监督机器学习算法,其中包括:决策树、支持向量机、随机森林、朴素贝叶斯和多层感知器。
K-means
Clustering
也被组合应用,用于提升性能。
所有机器学习算法的准确率都达到了
90%
以上。
然而,这可以归因于数据集上存在的类的偏态分布。
召回被认为是一个更重要的绩效指标,因为应该优先考虑最大限度地减少误报(将任何成功的启动错误归类为不成功)的策略(错失机会的成本非常高)。
结果表明,MLP
模型在所有其他
2021-09-28 21:59:39
16.05MB
系统开源
1