垃圾邮件分类算法的研究与分析

时间:2022-11-24 16:33:50 作者:壹号 字数:3437字

垃圾邮件分类算法的研究与分析

西北工业大学计算机学院陕西西安710129

(School of Computer, Northwestern Polytechnic University Xi ' an 710129 China)

摘要:随着互联网的高速发展,电子邮件已经成为人们信息获取和信息交流的一个重要的渠道。与此同时垃圾邮件也成为互联网上的一个日益严重的安全问题,引起了越来越多的社会大众和研究人员的重视和关注。

为了有效的分辨垃圾邮件,本文通过对训练数据进行相应的预处理及特征提取,分别使用朴素贝叶斯、C4.5 决策树、支持向量机三种方法来对垃圾邮件进行分类,通过测试结果,比对各个分类算法的优劣,并进行了详细的分析。

关键词:垃圾邮件朴素贝叶斯 C4.5 决策树支持向量机

Abstract :With the rapid development of the Internet, e-mail plays an important roles in people's information access and information exchange. At the same time, spam has become an increasingly serious security problem on the Internet, causing more and more attention of the community and researchers. In order to effectively distinguish the spam, this paper Pre-processings and extracts feature of the training data, and uses the NaiveBayes, C4.5 Decision Tree and SVM to classify the spam, Through the test results, compare and analysis the advantages and disadvantages of each classification algorithm.

Keywords: spam NaiveBayes C4.5 Decision Tree SVM

…… 此处隐藏0字 ……

1 引言

Internet 的问世带来了电子邮件业务的出现,网络技术的飞速发展促进了邮件服务的广泛普及及繁荣,电子邮件已经成为生活在信息时代的人们日常生活一个重要部分。电子邮件不仅是一个信息交流的重要渠道,而且也是人们信息获取的重要途径之一。随着互联网的普及,不仅人们的日常事务可以通过电子邮件来进行处理,而且越来越多正式和重要的信息也通过电子邮件来进行传达和交流。

随着电子邮件越来越普及和重要性的持续增长,一些商家和不法分子开始利用垃圾邮件这种方式来进行广告信息的传播和用户消费行为信息的获取。根据无线服务机构Wireless Services Corporation 公司提供

的一份最新调查显示,目前美国移动通信市场上所有的电子邮件服务当中,43%的都是垃圾信息,而年前

垃圾邮件在电子邮件中的比例为18%。而在国内,据有关部门统计,国内的电子邮件用户,平均每天发送

的短信数量超过了 3 亿条。邮件甚至被称为继报纸、广播、电视、网络之后的第五媒体。不过在数量庞大的电子邮件背后,垃圾邮件的问题也愈加严重。

垃圾邮件可以说是因特网带给人类最具争议性的副产品之一,它的泛滥已经使整个因特网不堪重负,人们不得不花费大量时间来对付邮箱里的垃圾邮件。在这样的情势下,制定切实可行的反垃圾邮件方案无疑是Internet 的一个重要课题,而对于反垃圾邮件技术的研究也称为一个新的热点领域。本文根据现有邮件分类的知识,结合训练数据集的特点,选择合适的分类算法,来实现对垃圾邮件的分类。

2 相关工作本文垃圾邮件的分类工作主要包括以下三个部分:文本数据预处理,数据集特征选择,分类算法的应用及结果分析。