密码资料 包含以下人员使用的密码数据的CSV文件: 教程: : 谈话: : 来自原始数据。 5亿个人密码 :face_screaming_in_fear: 以下是有关如何获取这种格式数据的详细信息。 真的很无聊。 该更加有趣。 如果您好奇,请继续阅读。 原始数据可从Troy Hunt通过torrent或文件下载获得,: : 。 获取流行程度排序的第2版文件,然后将其下载到您的计算机中,并使用您喜欢的程序将其解压缩。 您应该最终得到一个大约29G的.txt文件。 由于我们下载了按流行度排序的数据集,因此最受欢迎的密码将位于文件顶部。 让我们修剪数据集,以便我们可以节省本地计算机的内存并更快地获得一些见解。 我们将使用head bash命令获取前1亿行数据。 head -n 100000000 pwned-passwords-2.0.txt > pwned-passwords.txt 删除原始文件或将其移
2023-05-08 22:06:12 20.96MB
1
Spark Atlas连接器 用于跟踪Spark SQL / DataFrame转换并将元数据更改推送到Apache Atlas的连接器。 此连接器支持跟踪: SQL DDL,例如“创建/删除/更改数据库”,“创建/删除/更改表”。 SQL DML,例如“ CREATE TABLE tbl AS SELECT”,“ INSERT INTO ...”,“ LOAD DATA [LOCAL] INPATH”,“ INSERT OVERWRITE [LOCAL] DIRECTORY”等。 具有输入和输出的DataFrame转换 机器学习管道。 该连接器将与Hive,HDFS等其他系统关联,以跟踪Atlas中数据的生命周期。 如何建造 要使用此连接器,您将需要最新版本的Spark(Spark 2.3+),因为大多数功能仅在Spark 2.3.0+中存在。 要构建此项目,请执行: mv
2023-02-17 16:41:24 318KB apache-spark apache-atlas Scala
1
使用BigDL在Apache Spark上进行深度学习的教程 使用在Apache Spark上的分步深度学习教程。 这些教程的灵感来自, 和。 主题 环境 的Python 3.5 / 3.6 JDK 8 Apache Spark> = 2.2.1 Jupyter笔记本电脑4.1 大DL 0.7.0 / 启动Jupyter服务器 运行pip install BigDL==0.7.0 运行jupyter notebook --notebook-dir=./ --ip=0.0.0.0 --no-browser 启动Toree Kernel以运行Scala笔记本 运行pip install BigDL==0.7.0 运行pip install https://dist.apache.org/repos/dist/release/incubator/toree/0.2.0-incuba
2023-01-19 12:15:12 11.35MB JupyterNotebook
1
BigDL:基于Apache Spark的分布式深度学习 什么是BigDL? 是Apache Spark的分布式深度学习库; 借助BigDL,用户可以将其深度学习应用程序编写为标准Spark程序,这些程序可以直接在现有Spark或Hadoop集群之上运行。 为了轻松构建Spark和BigDL应用程序,提供了一个高级 ,用于端到端分析+ AI管道。 丰富的深度学习支持。 以为模型,BigDL为深度学习提供了全面的支持,包括数值计算(通过 )和高级; 此外,用户可以使用BigDL将预先训练的或模型加载到Spark程序中。 极高的性能。 为了实现高性能,BigDL在每个Spark任务中使用 /
2023-01-19 12:14:04 11.13MB python scala big-data ai
1
如今,大量不同格式的异构数据可用于各种应用程序。 其中一个领域是犯罪调查。 在法医调查中,通常需要识别潜在指纹。 这种调查需要有效的计算方法。 随着现有存储技术的技术进步和局限性,需要有效的工具和技术来对庞大的数据集执行大数据分析和计算。 尽管大数据对法医专家来说是一个挑战,但它可以帮助他们检测犯罪模式,这是解决问题和了解现有情况的重要线索。 在本文中,我们使用 Apache Spark 分析了数据集中存在的潜在指纹图像。 这些实验有助于了解如何使用 SparkML 管道读取、处理和分析巨大的图像数据集。 此外,建议在现有框架上使用 Spark 中的深度学习改进识别和特征提取架构,以解决这一重要的研究问题。
2022-10-26 19:21:18 471KB 论文研究
1
Apache Spark 命令注入(CVE-2022-33891)格式化文档 Apache Spark 命令注入(CVE-2022-33891)漏洞复现 CVE-2022-33891POC Apache Spark 命令注入(CVE-2022-33891)POC CVE-2022-33891 影响版本 Apache spark version<3.0.3 3.1.1= 3.3.0 修复方案 1.建议升级到安全版本,参考官网链接: https://spark.apache.org/downloads.html 2.安全设备路径添加黑名单或者增加WAF规则(临时方案)。
2022-08-10 22:00:10 2.46MB 漏洞复现 ApacheSpark命令注 CVE-2022-33891
1
CVE-2022-33891POC Apache Spark 命令注入(CVE-2022-33891)POC CVE-2022-33891 影响版本 Apache spark version<3.0.3 3.1.1= 3.3.0 修复方案 1.建议升级到安全版本,参考官网链接: https://spark.apache.org/downloads.html 2.安全设备路径添加黑名单或者增加WAF规则(临时方案)。
1
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
2022-07-08 14:09:14 23.88MB spark apache spark
1
Apache Spark中的决策树
2022-06-19 14:01:02 26KB apache
ScANNS是Apache Spark的最近邻搜索库,最初由LinkedIn 机器学习算法团队的Namit Katariya开发。它可以在cosine、 jaccard和euclidean 距离空间内的批量离线上下文中进行最近邻搜索
2022-06-05 19:06:21 529KB scala apache spark 源码软件