基于潜语意分析的文本过滤系统_代写论文

基于潜语意分析的文本过滤系统
蔡毅超，陈光，徐蔚然*
作者简介：蔡毅超，（1986-），男，硕士，主要研究方向：信息检索. E-mail: caiyichaobupt@gmail.com
通信联系人：徐蔚然，(1977-)，男，副教授，主要研究方向：文本挖掘。E-mail: xuweiran@bupt.edu.cn
（北京邮电大学模式识别与智能系统实验室，北京 100876）
5 摘要：本文针对邮件和短信过滤提出了一个基于潜语意分析的文本过滤系统。该系统利用潜
藏语意分析技术，解决了传统的文本过滤方法不能加入文本语意特性的问题。该系统采用潜
语意模型对文本进行特征变换和降维分析，用经典的贝叶斯模型进行垃圾文本的过滤。经实
验证明该系统的准确率和召回率达到了较好的水平。
关键词：文本过滤；潜语意分析；狄利克雷分布
10 中图分类号：TP391.4
A Text Filtering System Based on Latent Semantic Analysis
Cai Yichao, Chen Guang, Xu Weiran
(Pattern Recognition and Intelligence System (PRIS) Lab, Beijing University of Posts and
15 Telecommunications, Beijing 100876)
Abstract: In this paper , we propose a text filtering system based on latent semantic analysis to
filter the spam short message and email . Our system uses latent semantic analysis techniques to
solve the problem of lack semantic analysis aspects in traditional text filtering systems . Our
system uses latent semantic model to do feature selecion and dimension detuction , uses classic
20 bayes classifier to do spam text filtering.The experiments show that our system has good precision
and recall effects.
Keywords: text filtering; latent semantic analysis; dirichlet allocation
0 引言
25 随着信息技术的高速发展，产生了数目惊人的文本文件，例如，邮件，短信，博客等等，
如何帮助用户有效的检索、组织和管理这些信息、去除一些垃圾信息已经成为当务之急，文
本过滤作为文本处理的一个重要领域，已经越来越受到人们的重视，文本过滤是信息检索的
一个重要分支，旨在帮助用户高效，快速，准确的去除垃圾文本信息。
根据《2010 第二季度中国反垃圾邮件调查报告》显示，中国电子邮箱用户平均每周收
30 到的垃圾邮件占全部邮件的37.1%，中国手机邮箱用户每周收到的垃圾邮件占全部邮件的
39.6%，这些垃圾信息给国家造成了数十亿元的经济损失，垃圾邮件泛滥已带来十分严重后
果。
常用的文本过滤主要依赖于黑白名单过滤，关键词过滤等等，这类过滤方法依赖于黑白
名单和关键词的配置，可扩展性不强，并且对于未进入配置的名单和关键词根本无法起到过
35 滤的功能，传统的基于词向量空间的分析方法将文本中的每一个词当做独立的特征进行分
析，没有考虑词与词之间的关系，无法解决同义词和一词多义的问题，更无法捕捉文本语意
上的特性。
基于潜语意分析是近年来文本分析方向研究的热点，通过潜语意分析，可以将文本映射
到语意空间，从而很好的解决传统的词空间的不足，并且，由于语意空间的维度往往远远小
40 于词空间的维度，因此在语意空间上进行分析，可以大大降低模型在计算上的复杂度，从而
可以更加高效的解决问题。
本文将重点介绍基于潜语意分析的文本过滤系统，这个方法已经广泛应用在我们的垃圾
短信过滤和垃圾邮件过滤系统中，并且实践表明，基于潜语意分析的方法无论是在时间复杂
度还是准确率上都有较为理想的效果。
45 1 相关工作
文本过滤实际上是一个二分类的文本分类问题，对于文本过滤，类别体系相对固定，只
有两类，垃圾和非垃圾。文本分类是信息检索领域的一个重要分支，信息检索模型是指如何
对查询和文档进行表示，然后对他们进行相似度计算的框架和方法，其本质是相关度的建模。
1.1 向量空间模型基本概念
50 向量空间模型[1]是康奈尔大学Salton 在1970 年代提出并倡导，原型系统SMART，这个
系统将查询和文档都转化成标引项（Term）及权重组成的向量表示，因此所有的文档和查
询都可以看成是空间中的点。
标引项是表示文本的最小的单元，通常一篇文档被表示成多个Term 的集合，通常用词
来表示一个Term，当然，也可以用其他语言单位（词组）来表示一个Term，Term 通常被
55 理解成关键字，标引项的权重通常是用来区分不同的标引项的作用的大小，例如某些能够表
征文档的信息的Term 就应该被分配以较高的权重。
对于向量空间模型，我们还有一个重要的假设，就是Term 的独立性假设，即Term 之
间在文章中的出现是独立的，互不影响的。
1.2 权重计算
60 一种的常见的作为权重计算的方法是用TF（term frequency）即term 在文档中出现的次
数，TF 越高则表示该term 的权重越高。但是，这会引入一个问题，那就是文档的长度会影
响权重的计算，长文档会有很大的优势，因此，为了避免这个缺点，实际中都要对TF 值进
行归一化，使其落在[0,1]之间
常见可以采用以下三种归一化的方法：
1、Maximum Normalization ：
i i
MaxTF
TF65 i （1）
2、Augmented Maximum Normalization ：
i i
i
MaxTF
TF
0.5 + 0.5* （2）
3、Cosine Normalization ：
Σi
i
i
TF
TF
2
（3）
如果单纯的用TF 来表征索引的权重，会有一个很大的问题，那就是如果一个词很常用，
那么，它会在很多文档中都有出现，对于这种词，是不能很好的表征文档的特点的，但是由
70 于其频繁出现，因此这类词的TF 值会很大，这是我们不希望看到的，因此，我们引入了
DF（document frequency）值的概念，所谓DF 就是term 的文档频率，其值越高表示term 越
普遍，因此区分度也就越低，权重也应当越低，通常，为了计算的方便，我们都采用逆文档
频率IDF（inverse DF）：
DF
IDF = N （4）
其中N 是所有文档的数目，向量空间模型中通常采用TF*IDF 的方式计算term 的权重
75 1.3 相似度计算
显然，相似度计算就是计算查询和文档之间的相似程度，通常有以下一些计算方法：
1、Dot： = • = Σ
i
i i Sim(d, q) d q (a *b ) （5）
2、Cosine：
Σ Σ
Σ
=
•
=
i i
i i
i
i i
a b
a b
d q
Si d q d q
2 * 2
( * )
*
m( , ) （6）
3、Dice： Σ Σ
Σ
+
=
+
•
=
i i
i i
i
i i
a b
a b
d q
Si d q d q 2 2 2 2
2 ( * )
m( , ) 2* （7）
4、Jaccard： Σ Σ Σ
Σ
+ −
=
+ − •
•
=
i i i
i i i i
i
i i
a b a b
a b
d q d q
Si d q d q
( * )
( * )
m( , ) 2 2 2 2 80 （8）
1.4 向量空间模型的优缺点
向量空间模型的优点主要有，首先，这个模型简洁直观，可以应用到很多领域，例如文
本分类，生物信息学，等等，其次，这个模型支持部分匹配和近似匹配，结果可以排序，并
且就检索来说，其效果也较为令人满意。
85 但是，这个模型的缺点也是显而易见的，首先，这个模型在理论上不够完善，TF，IDF，
相似度的计算公式很多都是基于直觉的经验性的公式，其次，这个模型的一个很大的假设就
是标引项之间是独立的，但是这个假设与实际情况是不相符合的，因为term 的出现之间是
有联系的，不是完全独立的。例如“王励勤”“乒乓球”的出现不是独立的。
2 潜语意模型
90 为了克服传统信息检索系统基于字、词匹配带来的局限性，1988 年S. T. Dumais 等人提
出了一种新的信息检索模型：隐含语义索引（latent semantic indexing) [2] [3]，或者隐含语义分
析（latent semantic analysis)，经过近20 年的发展，潜在语意模型得到了极大的发展，其发
展历程基本经列了以下几个阶段：LSA（latent semantic indexing）
原创学术论文网Tag：计算机论文代写代发论文代写毕业设计计算机发表代写理工论文

搜索

热门标签:

基于潜语意分析的文本过滤系统