DBペディア

ウィキペディアからの構造化コンテントの抽出を目的とするプロジェクト
DBpediaから転送)

DBペディア: DBpedia)は、ウィキペディアからの構造化コンテントの抽出を目的とするプロジェクトである。抽出された構造化情報は、World Wide Web上で利用可能となる[2]。DBペディアを利用すると、ウィキペディアのリソースおよび外部の関連するデータセットへのリンクから、関係やプロパティを問い合わせることができる[3]ティム・バーナーズ=リーは、DBペディアはリンクト・データ・プロジェクトの中で有名なものの1つだ、と述べている[4]
ウィキペディア日本語版の記事を利用したDBpedia Japaneseは、国立情報学研究所によって2012年5月9日に公開された[5]

DBペディア
DBpediaのロゴ
開発元ライプツィヒ大学ベルリン自由大学, オープンリンク・ソフトウェア
初版2007年1月23日
最新版
DBpedia 3.8 / 2012年8月6日[1]
リポジトリ ウィキデータを編集
プログラミング
言語
ScalaJava、VSP
対応OSヴィルトゥオーソ・ユニバーサル・サーバ
種別セマンティック・ウェブリンクト・データ
ライセンスGPL
公式サイトdbpedia.org
テンプレートを表示

背景

このプロジェクトはオープン・リンク・ソフトウェアとの協力の下、ベルリン自由大学ライプツィヒ大学のメンバーによって開始され[6]、2007年に最初の公開用データセットが公開された。データセットはフリー・ライセンスで提供され、再利用することができる。

ウィキペディアの記事は概ねフリー・テキストから構成されているが、「インフォボックス」(infobox) テーブル、カテゴリ情報、画像、地理座標、外部ウェブページへのリンク、といった構造化情報も記事に組み込まれている。これらの構造化情報が抽出され、問い合わせ可能な統一データセットの中に保存される。

データセット

2011年9月 (2011-09)現在、DBペディアのデータセットは364万件以上の事物を扱い、うち183万件が一貫したオントロジーに分類されている。そこには人物416,000件、地理526,000件、音楽アルバム106,000件、映画60,000件、ビデオ・ゲーム17,500件, 組織・団体169,000件、生物種183,000件、そして病気.5,400件が含まれている。DBペディア・データセットは、これら364万件の事物の名前と概要を最大97言語で提供するほか、2,724,000件の画像へのリンクと6,300,000件の外部ウェブ・ページへのリンク、6,200,000件の別のRDFデータセットへの外部リンク、740,000件のウィキペディアのカテゴリ、そして2,900,000件のYAGO2のカテゴリも提供する。このデータセットから、複数ページに分散する情報を抽出することができる。例えば、ある著作者の作品に関するページやその著作者自身に関するページをまとめ上げることができる。

DBペディア・プロジェクトは、RDF (Resource Description Framework) を使用して情報を抽出する。2011年9月 (2011-09)現在、DBペディア・データセットは10億件以上の情報(RDFトリプル)から構成され、うち3億8500万件は英語版ウィキペディアから、6億6500万件は他の言語版からそれぞれ抽出されたものである[7]

ウィキペディアから情報抽出する際の問題の1つは、例えば「出身地」と「出生地」のように、同一概念が複数のテンプレートで異なるプロパティとして表現され得る、ということである。このため、ある人が生誕した場所を問い合わせる場合、より完全な結果を得るためには、それら両方のプロパティを検索する必要がある。このため、これらのプロパティとオントロジーとのマッピングを行い同義語の数を減らすために、DBペディア・マッピング言語 (DBpedia Mapping Language) が開発された。ウィキペディアで使用されているインフォボックスやプロパティは非常に多様であるため、誰でも参加できるように開発とマッピング改善のプロセスは公開されている[8]

DBペディアはウィキペディアのページから情報を抽出する。利用者は、多数のウィキペディアの記事に分散している情報に対して問い合わせを行うことができる。データへのアクセスは、SPARQLというRDF用のSQLライクな問い合わせ言語で行う。例えば、日本の少女漫画シリーズの東京ミュウミュウに興味があり、そのイラストレーターによる他の作品を見つけたい場合、DBペディアはウィキペディアの東京ミュウミュウ、征海未亜、そしてスーパードール★リカちゃん恋きゅー♥といった作品に関する項目から情報を抽出し、1つにまとめる。DBペディアは情報を単一データベースに正規化するため、どの項目がどの情報を持っているか正確に知らなくても、以下のクエリーで問い合わせし、関連情報の一覧を得ることができる。

 PREFIX dbprop: <http://dbpedia.org/property/> PREFIX db: <http://dbpedia.org/resource/> SELECT ?who ?work ?genre WHERE {   db:Tokyo_Mew_Mew dbprop:illustrator ?who .  ?work  dbprop:author ?who .  OPTIONAL { ?work dbprop:genre ?genre } . }

用途

DBペディアは人類の知識の広範な領域をカバーするため、そのコンセプトにリンク可能な外部データセットを結び付けるハブとなる[9]。DBペディア・データセットは、ウェブに存在する他の様々なオープン・データ・データセットと、RDFレベルでインターリンクされている。2011年1月 (2011-01)現在、DBペディアと次のような外部データセットとの間に650万件以上のインターリンクが存在している:FreebaseOpenCyc、UMBEL、GeoNames、Musicbrainz、CIAワールド・ファクト・ブックDBLPプロジェクト・グーテンベルク、DBtune Jamendo、ユーロスタット、Uniprot、Bio2RDF、アメリカ合衆国国勢調査(US Census)のデータ[10][11]トムソン・ロイター・イニシアティブ・オープン・クラリス、ニューヨーク・タイムズのリンクド・オープン・データ・プロジェクト、Zemanta API、そしてDBペディア・スポットライトもまた、DBペディアへのリンクを持っている[12][13][14]BBCは、DBペディアで自社コンテンツの体系化を行っている[15][16]。Favikiは、DBペディアをセマンティック・タギングのために使用している[17]

Amazonは、Amazon Web Servicesアプリケーションとの統合が可能な「パブリック・データ・セット」をDBペディアに提供している[18]

脚注

関連項目

外部リンク