短信预约提醒成功
关键词:垃圾邮件、随机森林、合成少数类过采样技术
引言
电子邮件是使用率最高的网络应用之一,是人们通过网络交流沟通的重要工具。但是,垃圾邮件作为正常邮件的附属产物,已经严重影响到国家、企业和以及个人之间的网络通讯与安全,甚至造成严重的经济损失。现在,越来越多的学者将分类预测技术应用于垃圾邮件识别,如陈龙等提出了一种基于支持向量机的自适应性分类器,并应用于用于检测垃圾邮件[1]。刘洁等提出基于改进互信息的加权朴素贝叶斯算法以提高垃圾邮件识别的精确度和召回率[2]。本文提出了一种结合SMOTE和随机森林的算法,并应用于垃圾邮件检测,以提高垃圾邮件的识别率。
基于SMOTE和随机森林的垃圾邮件识别算法
垃圾邮件检测数据往往是不平衡数据,即数据集中的正常邮件和垃圾邮件的数量是不均衡的。针对此问题,本文提出了基于合成少数类过采样技术(SMOTE)[3]和随机森林集成学习算法[4]的RF-smote算法。算法主要分两步,首先应用SMOTE算法对少数类别的垃圾邮件样本进行分析和新样本合成,将生成的新样本添加到数据集中,消除正常邮件和垃圾邮件样本数量的不平衡。然后,应用随机森林集成学习算法,进行垃圾邮件识别。
SMOTE算法步骤如下:1.针对训练数据,采取最邻近算法,计算出垃圾邮件样本数据的K个近邻;2.针对每个垃圾邮件样本,与它K近邻中随机选择一个的样本,进行随机线性插值;3.重复第2步,直至生成的新样本个数达到合成比率要求。4.将新合成的样本数据与原数据集合成,产生新的训练集。随机森林是一个包含多个决策树的集成分类器。算法步骤如下:1.从SOMTE算法处理后的平衡训练集中,通过有放回的重取样来获得N’个样本作为生成决策树的训练集;2.如果每个样本有M个特征,随机选择m(m
数据集与评价准则
实验选择UCI数据集合Spambase,该数据集包含58个属性和4601个实例,主要用来研究对垃圾邮件的分类检测。该数据集合是一个不平衡数据集合,包含两个类别:垃圾邮件(1813个实例),正常邮件(2788个实例)。实验评估采用准确率(ACC)、检测率(DR)和精确率(PR)三种方法衡量算法的性能。准确率定义如公式(1),表示正确识别正常邮件和垃圾邮件的实例数与全体实例数的比值。公式1-3中,TP表示垃圾邮件的预测实例数,TN表示正常邮件预测实例数,FP表示正常邮件错误的判定为垃圾邮件的实例数,FN表示垃圾邮件判定为正常邮件的实例数。
实验与分析
实验基于WEKA[5]平台进行,RF-smote在检测垃圾邮件前对数据集合Spambase中的垃圾邮件样本进行了SMOTE合成,使用的最近邻设置为5,合成率设置为50%,随机森林算法中决策树数目设置为10。RF-smote算法应用的合成数据中,垃圾邮件实例数为2719,正常邮件数为2788,基本变为平衡数据。实验评估采用十折交叉验证进行,实验数据如表1所示。从表1可以看出,本文提出的算法RF-smote在准确率、检测率和精确率性能指标上,均优于未应用SMOTE时的算法RandomForenst(RF).在准确率指标上,RF-smote优于RF0.8%。在检测率指标上,RF-smote优于RF3.8%。同样,在精确率指标上,RF-smote优于RF2.9%。因此,本文提出的算法RF-smote在垃圾邮件检测方面展示出了良好的性能。5结束语本文应用SMOTE算法和随机森林集成学习算法进行垃圾邮件识别,并在Spambase数据集上进行实验,结果表明本文提出的算法性能表现良好。
参考文献:
[1]陈龙,梁意文,谭成予.基于自适应性分类器的垃圾邮件检测[J].计算机工程,2018,(5):194-200.
[2]刘洁,王铮,王辉.基于IMI-WNB算法的垃圾邮件过滤技术研究[J].计算机工程,2020,(6):1-7.
[3]NiteshV.SyntheticMinorityOver-samplingTechnique[J].JournalofArtificialInteliigenceResearch,2002,(16):321-357.
[4]袁梅宇.数据挖掘与机器学习-WEKA应用技术与实践[M].北京:清华大学出版社,2014.
考生可点击下方下载查看更多关于高级经济师论文的相关参考文档,小编建议大家可提前填写 免费预约短信提醒服务,届时我们会及时提醒您2020年各地区高级经济师考试合格证书领取时间通知。
以上内容是2020年高级经济师农业经济专业论文:随机森林垃圾邮件检测算法,小编为广大考生上传更多2020年高级经济师职称评审参考文档,可点击“免费下载”按钮后进入下载页面。