针对数据库用户行为异常导致数据库泄露问题,提出了一种基于K-means和naive Bayes算法的数据库用户异常检测方法。首先,利用数据库历史审计日志中用户的查询语句与查询结果,采用K-means聚类方法得到用户的分组;然后,使用naive Bayes分类算法构造用户异常检测模型。与单独使用naive Bayes分类法构造的模型相比,在数据预处理时其精简了用户行为轮廓的表示方法,降低了计算冗余,减少了81%的训练时间;利用K-means聚类方法得到用户组别,使检测的精确率提高了7.06%,F1值提高了3.33%。实验证明,所提方法大幅降低了训练时间,取得了良好的检测效果。
2021-10-15 15:32:32 1.03MB 数据库 用户行为 异常检测
1
最大似然估计、最大后验概率估计、贝叶斯估计、朴素贝叶斯方法的区别
2021-09-23 15:18:50 391KB MLE MAP 贝叶斯
1
推文情感分析 更新(2018年9月21日):我没有积极维护该存储库。 这项工作是针对课程项目完成的,由于我不拥有版权,因此无法发布数据集。 但是,可以轻松修改此存储库中的所有内容以与其他数据集一起使用。 我建议阅读该的,该可在docs/找到。 数据集信息 我们使用和比较各种不同的方法来对推文(二进制分类问题)进行情感分析。 训练数据集应该是tweet_id,sentiment,tweet类型的csv文件tweet_id,sentiment,tweet其中tweet_id是标识该tweet的唯一整数, sentiment是1 (正)或0 (负), tweet是括在""的tweet 。 类似地,测试数据集是tweet_id,tweet类型的csv文件。 请注意,不需要csv标头,应将其从训练和测试数据集中删除。 要求 该项目有一些一般的图书馆要求,而某些则是针对个别方法的。 一般要求如下。 numpy scikit-learn scipy nltk 某些方法特有的库要求是: 带TensorFlow后端的keras ,用于Logistic回归,MLP,RNN(LSTM)和CNN
2021-09-17 16:51:24 869KB python machine-learning sentiment-analysis keras
1
贝叶斯分类是统计学方法。他们可以预测类成员关系的可能性,如给定样本属于一个特定类的概率。贝叶斯分类主要是基于贝叶斯定理,通过计算给定样本属于一个特定类的概率来对给定样本进行分类。
2021-08-07 12:06:11 871KB 机器学习 朴素贝叶斯
这是我用python写的朴素贝页斯分类器(Naive Bayes classifier)
2021-04-25 08:53:47 20KB python 朴素贝页斯
1
python实现knn、naive bayes、vsm、tf-idf模型。并包含数据集
2021-04-19 22:12:54 40.90MB python knn naive bayes
1
Coursera NLP课程第二周Assignment
2021-04-17 17:04:37 10KB NLP python Coursera
1
垃圾邮件分类 K最近邻居分类器: Accuracy: 93.x% 决策树分类器: Accuracy: 93-94% 朴素贝叶斯分类器: Accuracy: 96.x% Ada-Boost分类器: Accuracy: 96.x% 支持向量机: Accuracy: 97.x% 随机森林分类器: Accuracy: 97-98.x% 调整参数可能会导致结果变化
1
Decision trees are particularly promising in symbolic representation and reasoning due to their comprehensible nature, which resembles the hierarchical process of human decision making. However, their drawbacks, caused by the single-tree structure, cannot be ignored. A rigid decision path may cause the majority class to overwhelm other class when dealing with imbalanced data sets, and pruning removes not only superfluous nodes, but also subtrees. The proposed learning algorithm, flexible hybrid decision forest (FHDF), mines information implicated in each instance to form logical rules on the basis of a chain rule of local mutual information, then forms different decision tree structures and decision forests later. The most credible decision path from the decision forest can be selected to make a prediction. Furthermore, functional dependencies (FDs), which are extracted from the whole data set based on association rule analysis, perform embeddedattribute selection to remove nodes rather than subtrees, thus helping to achieve different levels of knowledge representation and improve model comprehension in the framework of semi-supervised learning. Naive Bayes replaces the leaf nodes at the bottom of the tree hierarchy, where the conditional independence assumption may hold. This techniquereduces the potential for overfitting and overtraining and improves the prediction quality and generalization. Experimental results on UCI data sets demonstrate the efficacy of the proposed approach.
2021-03-28 17:07:16 269KB decision forest; naive Bayes;
1
Matlab高斯朴素贝叶斯算法和KNN分类算法的实现。 培训和测试数据取自UCI机器学习数据存储库的“玻璃识别数据集”。数据集在Data文件夹下 注意:为了进行KNN的准确性计算,使用了留一法交叉验证。
2021-02-07 15:08:00 13KB Matlab 贝叶斯 KNN