
现在每个邮箱用户里的垃圾邮件是增加了还是减少了?可能大部分的网民都有这样一个感觉:现在垃圾邮件的形式是层出不穷,所以垃圾邮件的数量肯定是增加了。
但是根据
据计世网调查显示,2007年第三季度中国网民平均每周收到的垃圾邮件比例降至55.85%,较最为严重的2004年第三季度的65.72%,下降了近10个百分点。特别是从2006年第一季度开始,垃圾邮件比例基本呈连续下降的态势。同时,安全机构Sophos调查数据显示:2007年第三季度中国垃圾邮件发送量在全球所占的比例为4.9%,较最为严重的2005年第四季度的22.30%,下降了17.40个百分点。
垃圾邮件的大量减少,得益于反垃圾邮件技术的不断更新升级,中国的成就也是全球垃圾邮件泛滥现状得到控制的一个缩影。“得益于过去两年里在商业反垃圾邮件解决方案领域的投资,垃圾邮件问题已得到了有效的控制。”IDC主管协同计算部的副总裁Mark Levitt表示。根据IDC的一份研究显示,2008年全球范围内反垃圾邮件产品的收入将由2003年的3亿美元增长至超过17亿美元。
下面我们来看一下垃圾邮件的定义以及相关的反垃圾邮件技术:
垃圾邮件的定义:
1、带有虚假信头信息的邮件;
2、带有欺诈信息或恶意代码;
3、非法利用他人电脑发送的邮件;
4、带有违反国家法律内容的信件(例如反动,发票,赌博等等);
5、信件格式破损,完全无法阅读;
6、带有恶意干扰过滤行为的邮件;
7、普遍被用户认为是垃圾的邮件。
虽然法律上对垃圾邮件的发送有一定的限制,但是由于利益驱使,垃圾邮件发送的数量还是越来越多。而且,为了躲避过滤,垃圾邮件发送者研究了过往主流的垃圾邮件过滤系统并提出相应的对策,例如控制流量,分散发送和内容干扰等,这些发送和干扰手段的使用,导致过往的垃圾邮件过滤系统对现在的垃圾邮件办法不多,过滤效果下降。
过往的过滤系统为什么容易被绕过?我们做一个简单的分析:
1、以往的行为过滤:
过往的垃圾邮件过滤系统对垃圾邮件分析以下向量:
行为过滤模式为主的系统所分析的向量:
l 来源IP
l 并发数
l 连接频率
l 出错频率
l 流量
由于行为模式所分析的向量太少,所以容易被伪造,容易造成漏判,而且控制粒度太粗。
2、内容过滤:
全文过滤或贝叶斯算法为主的过滤系统分析的向量:
l 正文里的每一个词
l 词频
全文过滤需要管理员不断的更新关键字,而且随着关键字的增加,过滤效率会大为下降;贝叶斯算法通过用好邮件和垃圾邮件样本来训练自动学习垃圾邮件的特征词,但是贝叶斯算法对于非拉丁语系的文本(例如中文)分词困难,分词结果有多种组合方式,造成向量取值太广,消耗资源过大,容易被干扰,对图片垃圾完全无能为力。而且,对于贝叶斯算法需要数量庞大且均衡的样本训练,样本需要持续更新。
- 没有评论
当前位置: 