现有的机器学习框架/软件包存在几个问题:
无法处理大数据:多数Python,Matlab和R写的训练框架适合处理规模小的样本,没有为大数据优化。
不容易整合到实际生产系统:standalone的程序无法作为library嵌入到大程序中。
模型单一:一个软件包往往只解决一个类型的问题(比如监督式或者非监督式)。
不容易扩展:设计时没有考虑可扩展性,难以添加新的模型和组件。
代码质量不高:代码缺乏规范,难读懂、难维护。
弥勒佛项目的诞生就是为了解决上面的问题,在框架设计上满足了下面几个需求:
处理大数据:可随业务增长scale up,无论你的数据样本是1K还是1B规模,都可使用弥勒佛项目。
为实际生产:模型的训练和使用都可以作为library或者service整合到在生产系统中。
丰富的模型:容易尝试不同的模型,在监督、非监督和在线学习等模型间方便地切换。
高度可扩展:容易添加新模型,方便地对新模型进行实验并迅速整合到生产系统中。
高度可读性:代码规范,注释和文档尽可能详尽,适合初学者进行大数据模型的学习。
2022-05-30 09:09:42
4.57MB