代写论文_只做精品原创论文! 好评100%、通过率100%_代写代发论文信誉最好的网站!

原创学术论文

代写论文操作流程 代发论文 代写代发合作期刊 文献翻译 代写论文信誉保证 代写论文专家阵容 代写论文合作加盟
当前位置: 主页 > 工科论文 >

多标记学习:问题、算法与数据(2)


的效果。Brinker 等人[34,35]在所有可能的概念标记基础上引入一个“虚拟标记(virtual label)”,
该虚拟标记用于分划样本的相关与无关标记。基于此,他们对基于“配对比较(pairwise
comparison)”的类别排序算法进行扩展以处理多标记学习问题。Barutcuoglu 等人[36]利用基
145 因功能分类系统提供的结构信息,使用Bayes 学习框架进行基因功能预测。
除了文本分类和生物信息学领域,多标记学习技术还被应用于场景分类问题。Boutell
等人[6]将多标记场景分类学习问题转化为多个独立的二类学习问题,并给出了多种预测准则
用于从各个二类分类器的输出确定测试样本的标记集。此外,多标记学习还在计算机视觉
[5,37]、关联规则挖掘(association rule mining)[38,39]等领域中得到了成功应用。此外,Jin 和
150 Ghahramani[40]还给出了另外一种多标记学习框架的定义,其中每个样本所对应的一组概念标
记中仅有一个标记是该样本的真实标记。
 2.2 基准测试集
在多标记学习领域,研究者们相继给出了多个基准测试集用于评价多标记学习系统的性
能。本节将对几个常用的多标记数据集进行简要介绍:
 基因功能分析1:酿酒酵母菌(yeast Saccharomyces 155 cerevisiae)是迄今为止研究得最为透彻
的一种有机体。具体来说,yeast 数据集中每个基因的描述综合了“微阵列表达数据
(microarray expression data)”以及“系统发生图谱(phylogenetic profile)”两方面的信息。
与此同时,每个yeast 基因对应于一个最大值可达190 的概念标记集合。现有的研究结
果表明,yeast 的基因功能对应于一个四层的类别层次结构2。Elisseeff 与Weston[4]仅考
160 虑四层类别层次结构的最高层,对yeast 数据集进行了简化处理。处理后的yeast 数据
集共含有2417 个基因,每个基因由103 维的属性向量表示。此外,该数据集共含有14
种可能的概念类,每个基因平均对应于4.24±1.57 个概念标记。有关该数据集更详细的
信息可参见文献[4,19,26]。
 自然场景分类3:该数据集包含2000 幅自然场景图像,所有可能的概念类为desert,
165 mountains, sea, sunset 以及tress,每幅图像被人工标注了一组概念标记集合。在该数据
集中,具有两个或两个以上概念标记(例如“sea+sunset”)的图像约占数据集的22 ,而其
中某些类型的概念标记集合(例如“mountains+sunset+trees”)出现频率极低。每幅图像平
均对应于1.24±0.44 个概念标记,并采用文献[6]中的方法表示为相应的属性向量。首先,
图像被转化到图像数值差异与人的视觉感知差异较一致的CIE Luv 颜色空间。然后,使
170 用大小为7×7 的栅格将图像划分为49 个图像块,对于每一个图像块计算各彩色波段的
均值(相当于低分辨率的图像)与方差(相当于低计算开销的纹理特征)。最后,每幅图像
被表示为一个49×3×2=294 维的属性向量。有关该数据集更详细的信息可参见文献[26]。
 Reuters 数据集4:该数据集是目前应用最为广泛的文档分类基准测试集,现已存在其多
种版本[1]。在多标记学习领域,Reuters-21578 Distribution 1.0 版本被广泛用于学习算法
175 的性能评价[2,14,19]。该数据集包含21578 个路透社(Reuters)在1987 年报道的新闻专线
(newswire)文档,其中仅有一半不到的文档具有人工赋予的概念标记。在将所有人工标
记缺失或者正文内容为空的文档去除后,剩余的每个文档可能对应于135 个概念类中的
若干类。所有可能的概念类对应于一个层次结构,目前大部分多标记学习算法的评价均
基于其最高层所含的9 个概念类。文献[2,14,19]采用相同的数据集生成方式,从
180 Reuters-21578 数据集中选取前k 个(k=3,…,9)包含最多文档的类别,所得数据集分别命
名为first3, first4,…, first9。基于此,使用特定的降维方法(如information gain 等)对向
量空间进行维度约简,然后使用 “Bag-of-Words”的方法[11]将每篇文档表示为一个属性向
量(如tf-idf 表示法)。有关该数据集更详细的信息可参见文献[2,19]。
1 http://mlkd.csd.auth.gr/multilabel.html#Datasets
2 http://mips.gsf.de/proj/yeast/catalogues/funcat/
3 http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/annex/ miml-image-data.htm
4 http://www.daviddlewis.com/resources/testcollections/reuters21578/
  自动网页分类5:该数据集包含来自门户网站“Yahoo.com ”的网页,该网站的最高层
共对应14 个分支(例如“Arts & Humanities”,“185 Bussiness & Economy”等)。最高
层的每一个分支均被进一步细分为一组第二层的 “子类(subcategories)”。基于第二
层子类的类别标记,最高层的每一个分支即可看作一个独立的多标记文档分类问题。研
究者们[10]共考察了上述14 个独立文档分类问题中的11 个。对于每一个文档分类问题,
训练集中含有2000 个训练文档而测试集中含有3000 个测试文档。其中,大部分文档
190 (20 ~45 )对应于两个或两个以上的类别标记。有关该数据集更详细的信息可参见文献
[10,19,25]。
3 进一步的工作
本文从问题定义,性能评价指标,学习算法以及基准数据集四个方面对标记学习的研究
现状作了简要综述。虽然目前多标记学习领域已经取得了大量的研究成果,但仍然存在一些
195 问题值得进一步深入研究:

原创学术论文网Tag:代写论文 职称论文发表 代发论文 论文发表 计算机论文
本站郑重声明:
  1、我们与数十所知名高校博士强强联手,保持常年稳定合作关系,论文质量更有保证;;
  2、写作领域涉及所有专业,实力操作,出稿更快,质量更高,通过率100%;
  3、所有代写文章,全部原创,包检测,保证质量,后续免费修改,保证通过;
  4、信誉实力服务,专业代写毕业论文,职称论文,硕博士论文,留学生论文,成熟操作;
  5、业务QQ:296931979 & 1536560517
------分隔线----------------------------
栏目列表
联系我们
业务QQ1:296931979
业务QQ2:1536560517
业务邮箱:xueshupaper@qq.com
工作时间:每周七天,9AM---9PM
服务承诺
正刊保证:合作所有刊物,全部正刊,新闻出版总署可查,假一罚十。

版权保证:写作老师全部安排对口专业硕博士,经验丰富,保证文章原创,保证文章质量,版权归您所有。

出刊保证:所有合作刊物,保证正刊,保证出刊,否则全额退款。

品质服务:全程跟踪服务,编辑部直接给您发通知,直接打电话编辑部核实录用情况,品质服务,全程无忧。

退款机制:诚信服务,成熟操作,只做有把握的单子;万一出现意外情况,您可以要求全额退款。

信誉保证:十年实力操作,十成功运作经验;诚信为本,实力做基础,信誉做保障;客户遍及海内外,实力信誉有口皆碑;选择我们,您就是选择放心。
推荐内容