BabelNet

多語語義網絡和百科詞典

BabelNet是一个多语词汇语义网络本体,由罗马萨皮恩扎大学(罗马大学)计算机科学系的计算语言学实验室所创建。[1][2] BabelNet是自动构建的,其将最大的多语Web百科全书维基百科链接到最常用的英语计算词典WordNet。这种链接整合,以自动映射的方式完成;对于资源匮乏的语言所存在的词汇空缺,借助于统计机器翻译来补充。其结果是一个“百科词典”,提供了多种语言的概念命名实体,并包含了它们之间的丰富的语义关系。通过与免费授权使用的OmegaWiki英语OmegaWiki、英语维基词典维基数据FrameNet英语FrameNetVerbNet英语VerbNet等语义资源建立链接,BabelNet还补充了其它一些词汇和定义。和WordNet类似,BabelNet将不同语言中的词语以同义词集的形式进行组织,称之为Babel synset。对于每一个Babel synset英语Synonym_ring,BabelNet提供简短的定义(称为注释),这些定义具有多种语言版本,主要来自于WordNet和维基百科。

BabelNet
操作系统
类型
许可协议Attribution-NonCommercial-ShareAlike 3.0 Unported
网站babelnet.org

BabelNet的数据统计

截至2016年8月,BabelNet(v3.7)已覆盖了271种语言,包栝全部的欧洲语言、大多数亚洲语言及拉丁语。BabelNet 3.7包含了大约1400万个同义词集和7.46亿个词义(不论其语言)。在每种语言中,每个Babel synset(词义)平均包含2个同义词。BabelNet的语义网络包含了丰富的词汇语义关系。这些语义关系有两个来源:一是,来自于WordNet的语义关系,如上下位关系、部分整体关系、反义同义关系等,总共大约36.4万条关系;二是,来自于维基百科的非特定的相关关系,总共大约3.8亿条关系。[1] BabelNet 3.7将大约1100万张图片与Babel synset建立了关联,并为这些资源提供了Lemon RDF编码[3],可通过SPARQL endpoint获取。BabelNet 3.7为267万个同义词集指定了领域标签。

应用

BabelNet可广泛应用在多语自然语言处理中。BabelNet中的词汇化知识可在以下任务中取得最佳效果:

Babelnet是一个多语语义网络,由WordNet和维基百科整合而成。

奖励荣誉

BabelNet是一个多语词汇语义网络和本体,因其在克服语言障碍和利用异构数据源方面做了巨大的开创性工作,BabelNet于2015年被授予META页面存档备份,存于互联网档案馆)奖。

BabelNet是最新的词汇知识资源库,具有巨大创新性,《时代周刊》曾专题报道BabelNet的研究工作[9],认为BabelNet将在21世纪发挥引领作用。

参照

参考文献

外部链接