如何搭建金融信贷风控中的机器学习模型 课程大纲: 章节1: 数据分析与建模的基础知识 章节2: 互联网金融和信贷风控的概述 章节3: 评分卡模型(A卡):数据的预处理与特征构建 章节4: 评分卡模型(A卡):数据的预处理与特征构建(续) 章节5: Logistic Regression(LR)在评分卡模型中的应用 章节6: 模型的验证、监控与调优 章节7: 机器学习模型在信贷风控中的应用二:DNN模型 章节8: 机器学习模型在信贷风控中的应用一:XGBoost模型 章节9: 组合模型在评分卡中的应用 章节10: 评分卡模型(B卡)的开发 章节11: 评分卡模型中的前沿问题一:标签缺失的处理 章节12: 评分卡模型中的前沿问题二:非平衡样本的处理
2021-11-28 14:05:08 884B 机器学习 数据分析 Python数据分析
1
DocSum 使用BART或PreSumm机器学习模型自动汇总文档(或纯文本)的工具。 BART ( )是截至02/02/2020的最新文本摘要。 它是“以降噪为预训练目标进行训练的序列到序列模型”()。 PreSumm (文本汇总)通过使用“基于BERT的新颖文档级编码器,能够表达文档的语义并获得其句子的表示形式”,将BERT(来自变形器的双向编码器表示形式)应用于文本汇总。 BERT在撰写本文时表示“预训练语言模型的最新化身,该模型最近已推进了广泛的自然语言处理任务”()。 任务 将PDF转换为XML,然后使用使用每个text元素的font属性解释该XML文件。 使用 python库
2021-11-28 13:41:48 65KB python nlp pdf machine-learning
1
飞机延迟 使用机器学习模型预测航班延误 在这个存储库中,我开发了一个模型,旨在预测起飞时的航班延误。 从技术角度来看,贯穿整个 notebook 的 Python 的主要方面是: visualization: matplolib, seaborn, basemap data manipulation: pandas, numpy modeling: sklearn, scipy class definition: regression, figures 打扫 1.1日期和时间 1.2 填充因子 比较航空公司 2.1 航空公司基本统计说明 2.2 延误分布:建立航空公司排名 延误:起飞或降落 始发机场与延误的关系 4.1 航空公司覆盖的地理区域 4.2 始发机场如何影响延误 4.3通常延误的航班 延误的时间可变性 预测航班延误 6.1 模式一:一航一机场 6.1.1 Pitfalls
1
图像中敏感数据曝光的检测 在当前的智能设备和智能手机时代,使用这些设备拍摄的任何图像都会立即自动上传到云(Google Photos,iCloud等)或互联网(社交媒体网站,如Facebook,Twitter等)。 并且有一个所有内容的存档,这些存档正在上传到Internet。 因此,必须对上传到Internet的内容保持谨慎。 不幸的是,人们有意或无意地上传了包含敏感数据的图像,例如: 用户名和密码 信用卡或支付卡信息(PCI) 个人身份信息(PII) 电子邮件地址 电话号码 社会安全号码 Aadhar数字 受保护的健康信息(PHI) 客户资料 学生资料 所有这些敏感信息可归为三类: 个人和私人信息 机密商业信息 分类信息 丢失,滥用,修改或未经授权访问敏感信息,可能会对个人的隐私或福利,企业的商业秘密乃至国家的安全和国际关系产生不利影响,具体取决于信息的敏感度和性质。 我们
2021-11-23 10:34:21 81.62MB security machine-learning deep-learning tensorflow
1
mmlab自带的resnet50源文件,resnet50_caffe-788b5fa3.pth,resnet50_caffe-788b5fa3.pth
2021-11-22 06:07:36 90.02MB 深度学习 模型文件 pytorch
1
使用pmml跨平台部署机器学习模型Demo——房价预测
2021-11-20 22:07:53 6.67MB pmml 机器学习模型部署 java python
1
摘 要 癌症是当前医学最大的难题之一并且相对于6发达国家的癌症治愈率60%~70% 目前我国的癌症存活率仅仅为20%~40%在医疗水平上我国医疗技术并不与发达国家 有太大差异但是由于发达国家相对于我国有着较高的早期癌症筛查率故癌症发现早 并且大多发现为早期很大程度上为治疗减轻了难度提高了癌症的治愈率与存活时间 在所有癌症中对女性威胁最大的为乳腺癌而早期的乳腺癌治愈率最高能达到95% 癌症通常的检
2021-11-20 21:14:26 4.37MB 文档 互联网 资源
matlab导入excel代码随机森林模型 创建此随机森林机器学习模型是为了预测蔬菜的价格。 #数据收集我们从班达拉维拉经济中心收集了数据集。 #API我们已使用Flask API将模型与前端连接 #问题背景农业是我们国家经济的Struts。 斯里兰卡总人口中有31.8%从事农业相关工作。 这些农民中的大多数将他们的收成出售给附近的蔬菜批发市场。 但是农民总是无法获得合理的收成价格。 发生这种情况的主要原因是,农民对批发市场的即时价格变化没有任何先验知识。 在这个项目中,我们试图为农民引入价格预测系统,以使这些农民对批发市场的即时价格变化有一定的了解。 从这些知识中,农民可以获得可以在每个市场上出售的蔬菜的价格。 有了这些信息,农民就可以将收获的农产品带到他喜欢和适合的任何批发市场,然后农民可以以收获价值的实际价格出售他们的收获。 #语言选择在考虑了多种可用于数据科学组件的编程语言之后,由于以下因素,选择了Python作为该项目实施的主要编程语言:•灵活-这是一种开源语言,因此最适合用于需要预先安排应用程序和站点的开发人员。 •易于学习和理解-Python的直接性和意义使Python成
2021-11-20 12:41:53 8.08MB 系统开源
1
房屋租金预测 机器学习模型,用于确定类似的邮政编码(以租金中位数计)以及近年来美国租金波动较大(正数或负数)的地区。 源数据来自Zillow实测租金指数(ZORI): Zillow数据集的中位数租金价格是按地理区域(按月)排序的,其中包含2014年至2020年的7年数据。 它包括美国前100个都会区,并在其中按邮政编码细分了租金中位数。 数据还针对单位类型和大小等市场偏斜特征进行了因素调整/调整。 市场的住所类型可能完全不同,并且考虑到了不同市场之间的差异。 我在此项目中创建的ML模型将说明特定市场的中位数租金随时间的变化,并且根据当前的趋势,可以预测未来几年哪些市场可能会继续看到中位数租金的增加或减少。
2021-11-20 08:53:22 327KB JupyterNotebook
1
股票评估工具 此回购包含一组工具,投资者可以使用这些工具来更好地了解他/她感兴趣的股票。它不建议买卖股票,而是有助于形成对股票的有根据的猜测。潜在的未来股价走势,并因此对要分析的股票做出买/卖/持有决定。 这里包括的工具不是唯一可以使用的工具。 之所以将它们包括在内,是因为我相信没有任何一种工具或模型可以充分理解导致股价波动的所有因素。 此仓库中包含的工具集可分为: 工具-EMA信号,布林带。 -通过YahoofFinancials和YFinance API使用财务数据。 -ARIMA随机森林。 -随机森林。 模型-LSTM。 模型-蒙特卡洛模拟。 -NLP情感分析。 模型-基于Markowitz的Efficient Frontier和CVaR。 我相信,通过将上述分析工具一起使用,就可以对未来的股价做出正确的预测。 如何使用储存库 没有预定义的方式来使用存储库中包
1