DODDLE-OWL Documentation

Warning

Underconstruction

What is DODDLE-OWL?

DODDLE-OWL (a Domain Ontology rapiD DeveLopment Environment – OWL extension) is a domain ontology development tool for the Semantic Web. DODDLE-OWL makes reuse of existing ontologies and supports the semi-automatic construction of taxonomic and other relationships in domain ontologies from documents.

Introduction

Ever since the necessity of ontologies has been acknowledged to share common understandings between people and software agents, ontologies have become very popular and significant in many application areas. As the Semantic Web is the most attractive application filed of ontologies, many ontologies has been represented by the ontology description language, OWL (Web Ontology Language). However, as well as other application areas, it still takes many costs for users to develop and maintain domain ontologies.

Regarding domain ontology development support, many tools have been done with knowledge engineering, natural language processing and data mining techniques to make possible automatic domain ontology construction from existing information resources, such as texts and general ontologies. However, as the techniques are not yet mature to achieve the task and domain ontology structure depends on the aspects from human experts (users), full automatic process does not go well with the task. Instead of developing full automatic environment, it is more important to provide refined semi-automatic environment with integrated facilities to construct practical domain ontologies. Furthermore, as open software is easy to evolve developed software, it is significant to build up interactive domain ontology development environment with open software.

From the above consideration, we propose an interactive domain ontology development environment called DODDLE-OWL (a Domain Ontology rapiD DeveLopment Environment – OWL extension). DODDLE-OWL is written in Java language. DODDLE-OWL has the following six modules: Ontology Selection Module, Input Module, Construction Module, Refinement Module, Visualization Module, and Translation Module. DODDLE-OWL makes reuse of existing ontologies such as WordNet and EDR as general ontologies to construct taxonomic relationships (defined as classes) and other relationships (defined as properties and their domains and ranges) for concepts. Especially, to realize the user-centered environment, DODDLE-OWL is mounted with user interactive functions in each module.

Installation

Requirements

The following are software and hardware requirements for DODDLE-OWL.

  • JRE (Java Runtime Environment) 8 or later
  • OS: Operating System running Java
  • CPU: Pentium4 2GHz or higher
  • Memory: 1GB or higher
  • HDD: 1GB or higher
  • Display Resolution: XGA(1024×768)

We have tested the following environment.

  • JDK 8
  • OS: macOS Sierra
  • CPU: Intel Core i7 4GHz
  • Memory: 32GB
  • Display Resolution: WUXGA (1920x1200)

Acknowledgements

DODDLE-OWL uses the following libraries. Since these libraries are included in DODDLE-OWL, users don’t have to get the libraries.

Optional Software

DODDLE-OWL uses the following software optionally.

Warning

  • Beta6からは,ChaSen, MeCab, CaboChaは,UTF-8のみに対応しています.
    • ChaSenでUTF-8を利用する方法は,ChaSen’s Wiki FAQを参照してください.
    • MeCabおよびCaboChaは,2008年11月現在の最新版は,UTF-8に対応しています.(Windows版ではインストール時に辞書の文字コードとして「UTF-8」を選択します.Unix,Macでは,configureのオプションとして「–with-charset=utf8」を指定します.)
  • In order to extract Japanese compound words, Perl, Chasen (or MeCab), and CaboCha are required.
  • In order to extract English compound words, Perl is required.
  • In order to use EDR dictionary (EDR general vocaburary dictionary or EDR technical terminology dictionary) as general ontologies, EDR are required. You need to change EDR into a format for DODDLE using EDR2DODDLE_DIC_Converter. EDR電子化辞書から領域オントロジーを構築したい場合には,EDR電子化辞書の概念体系辞書(必須),日本語単語辞書(必須),英語単語辞書(オプション),概念記述辞書(オプション)が必要です.

How to install

Windows

Download DODDLE-OWL_1.0RC2_win.zip from the download page and extract the file to any directory.

macOS

Download DODDLE-OWL_1.0RC2_mac.zip from the download page and extract the file to any directory.

How to uninstall

Remove the extracted folder.

How to execute

Execute DODDLE-OWL.exe or DODDLE-OWL.app file.

Configurations

Configurations can be set in the Option Dialog in DODDLE-OWL.

Option Dialog: Basic Tab

  • Language
    • enまたはjaを指定することで,英語または日本語メニューを表示することができます.
  • Base prefix
    • ユーザが定義した概念の接頭辞を設定します.
  • Base URI
    • オントロジー保存時のベースURIを設定します.

Option Dialog: Folder Tab

  • Project folder
    • Default path: C:/DODDLE-OWL/DODDLEProject
    • プロジェクトファイルを保存するフォルダを設定します.プロジェクトを保存・復元する際に このフォルダが基点となります.
  • Stop word list
    • Default path: C:/DODDLE-OWL/stop_word_list.txt
    • 用語抽出時に無視する単語リストが保存されたファイルを設定します.
  • EDR dic folder
    • Default path: C:/DODDLE-OWL/EDR_DIC
    • EDR一般辞書のテキストデータをDODDLE用に変換したファイルを置いたフォルダを設定します.
  • EDRT dic folder
    • Default path: C:/DODDLE-OWL/EDRT_DIC
    • EDR専門辞書のテキストデータをDODDLE用に変換したファイルを置いたフォルダを設定します.
  • 日本語形態素解析器
    • Default path: C:/Program Files/ChaSen/chasen.exe
    • 複合語抽出モジュール言選を利用する場合に必要です.(chasen21は不可)
  • 日本語係り受け解析器
    • Default path: C:/Program Files/CaboCha/bin/cabocha.exe
    • 複合語抽出する場合に必要です.
  • perl.exe
    • Default path: C:/Perl/bin/perl.exe
    • 言選(TermExtract)を利用する場合に必要です.
  • Upper concept list
    • Default path: C:/DODDLE-OWL/upperConceptList.txt
    • 上位概念のリストを設定します.ある単語がEDR上の指定した概念の下位にあるかどうかを提示するために利用します.

How to use EDR dictionary as general ontologies

DODDLE-OWLでEDR電子化辞書を汎用オントロジーとして参照するためには,EDR電子化辞書のテキストデータをDODDLE-OWLで参照する形式に変換する必要があります. 以下では,その変換手順について説明します.

CPU: Intel Core i7 4GHz,メモリ: 32GBのiMacを用いてEDR一般辞書とEDR専門辞書をDODDLE-OWLで参照する形式に変換するためにかかる時間は以下の通りです.

  • EDR general vocaburary dictionary: about 3 minutes
  • EDR technical terminology dictionary: about 40 seconds

Requirements

  • More than 1GB of RAM (Recommendation 2GB)
  • EDR general vocaburary dictionary or EDR technical terminology dictionary

EDR general vocaburary dictionary

  1. Copy CPC.DIC, CPH.DIC, CPT.DIC, EWD.DIC, and JWD.DIC to any directory (e.g. C:/EDR_Text/).
  2. Select “DODDLE Dic Converter” sub menu in Tool menu. Then, a dialog is shown. (Fig. 1)
  3. Select “EDR” as Dictionary Type. Check “Text” as Conversion Type.
  4. Set path for Input Dictionary Path and Output Dictionary Path (EDR Dic Folder).
  5. Click Convert Button. Then, concept.data, relation.data, tree.data, word.data, concept.index, relation.index, tree.index, and word.index are generated in EDR Dic Folder.
  6. Set path for EDR Dic Folder in the Option Dialog.

EDR technical terminology dictionary

  1. Copy TCPC.DIC, TCPH.DIC, TEWD.DIC, and TJWD.DIC to any directory (e.g. C:/EDRT_Text/).
  2. Select “DODDLE Dic Converter” sub menu in Tool menu. Then, a dialog is shown. (Fig. 1)
  3. Select “EDRT” as Dictionary Type. Check “Text” as Conversion Type.
  4. Set path for Input Dictionary Path and Output Dictionary Path (EDRT Dic Folder).
  5. Click Convert Button. Then, concept.data, tree.data, word.data, concept.index, tree.index, and word.index are generated in EDRT Dic Folder.
  6. Set path for EDRT Dic Folder using Option Dialog.
DODDLE_Dic_Converter

DODDLE_Dic_Converter

Module list

System Overview

Fig. 2 shows the system overview of DODDLE-OWL. DODDLE-OWL has the following six main modules: Ontology Selection Module, Input Module, Construction Module, Refinement Module, Visualization Module, and Translation Module.

Hierarchy Construction Module and Hierarchy Refinement Module were included in DODDLE-I [Yamaguchi99] to support the user construct taxonomic relationships. Relationship Construction Module and Relationship Refinement Module, both added on to DODDLE-II [Kurematsu04] , support the construction of taxonomic and other rela- tionships. Ontology Selection Module, Input Module, Visualization Module, and Translation Module were additionally integrated in DODDLE-OWL to make possible an interactive domain ontology development environment.

Here, we assume that there are one or more domain specific documents, and we also assume that the users can select important terms that are needed to construct a domain ontology.

First, as input of DODDLE-OWL, the users select several concepts in Input Module. In Construction Module, DODDLE-OWL generates the basis of an ontology, an initial concept hierarchy and set of concept pairs, by referring to reference ontologies and documents. In Refinement Module, the initial ontology generated by Construction Module is refined by the users through interactive support by DODDLE-OWL. The ontology constructed by DODDLE-OWL can be exported with the representation of OWL. Finally, Visualization Module (MR3 [Morita06] ) is connected with DODDLE-OWL and works with an graphical editor.

System overview of DODDLE-OWL

System overview of DODDLE-OWL

Ontology Selection Module

In the Ontology Selection Module, you select reference ontologies. The reference ontologies are used in the other modules in DODDLE-OWL. WordNet [Miller95], Japanese WordNet [Isahara08] ,EDR [Yokoi95] ,and Japanese Wikipedia Ontology (JWO) [Tamagawa10], which are general ontologies in English and Japanese, can be used as reference ontologies in DODDLE-OWL. Furthermore, DODDLE-OWL can use existing ontologies, which are described in OWL, as reference ontologies.

WordNet やEDR などの汎用オントロジーは,一般的かつ網羅的に定義がなされているため,領域オントロジー構築に利用する際には,領域に特化した構造へ,階層関係の修正や不要概念の除去などの洗練を行う必要がある.このことはユーザの負担となる.

It is considered that if the ontologies for a target domain exist on the web and can be reused, the cost of refining semi-automatically generated ontologies will be reduced. The ontologies constructed by DODDLE-OWL are described in OWL. Therefore, these ontologies can be reused as reference ontologies in DODDLE-OWL.

よって,DODDLE-OWLでは,既存領域オントロジーが存在しない,または,既存領域オントロジーが,ユーザが構築対象とする領域オントロジーを網羅できていない場合には,汎用オントロジーを利用することができ,既存領域オントロジーが存在する場合には,より容易に対象とする領域オントロジーの構築支援を行うことができる.

Web 上に存在する既存オントロジーを参照オントロジーとして再利用するために,オントロジー選択モジュールには,オントロジー検索エンジンを用いた既存領域オントロジーの獲得機能がある.以下では,はじめに汎用オントロジーについて簡単に説明した後,オントロジー検索エンジンを用いた既存領域オントロジー獲得方法について述べる.

General Ontologies

DODDLE-OWLでは,汎用オントロジーとしてWordNet, 日本語WordNet,EDR電子化辞書(一般辞書および専門辞書),日本語Wikipediaオントロジーを利用可能である.以下では簡単にそれぞれの汎用オントロジーについて説明する.

WordNet

WordNet [Miller95] は, プリンストン大学で開発されている英語シソーラス(汎用オントロジー)である.名詞句辞書,動詞句辞書,形容詞句辞書,副詞句辞書,および見出し句辞書か ら構成されており,総計約10万の語彙を保持している.見出し句辞書は,見出し句,意味情報としての概念ID,辞書編集情報,品詞情報などから構成されて いるが,概念IDが,見出し句辞書と各辞書の間のリンクとして機能している.名詞句辞書と動詞句辞書は,概念ID,辞書編集情報,対応する見出し句リスト から構成されているが,概念群は階層構造を有している.また,一部の概念IDには,反対概念の概念ID,part ofやmember ofやsubstance ofの概念IDなども与えられている.形容詞句辞書と副詞句辞書も,概念ID,辞書編集情報,対応する見出し句リストから構成されているが,階層構造は持たない.

Japanese WordNet

日本語WordNet [Isahara08] は,WordNetの日本語版である.

EDR Electric Dictionary

EDR電子化辞書 [Yokoi95] は, 独立行政法人 情報通信研究機構が提供している汎用オントロジーである.EDR電子化辞書は,日本語単語辞書,英語単語辞書,概念辞書,日英対訳辞書,英日対訳辞書,日 本語共起辞書,英語共起辞書,日本語コーパス,英語コーパス,専門用語辞書(情報処理)から構成される.DODDLE-OWLでは,これらの辞書の中から,日本語単語辞書,英語単語辞書,概念辞書,専門用語辞書(情報処理)を利用している.

Japanese Wikipedia Ontology

日本語Wikipediaオントロジー [Tamagawa10] は,日本語Wikipedia における様々なリソース(カテゴリツリー,一覧記事,リダイレクトリンク,Infobox, Infoboxテンプレート)から構築した大規模な日本語汎用オントロジーである.

Aquiring existing domain ontologies using an ontology search engine

In order to reuse existing domain ontologies, the user needs to find domain ontologies for the target domain on the web. OntoSelect [Buitelaar04] supports the search, selection, and browsing of ontologies on the web. Our proposed method for ranking existing ontologies is similar to the method for selecting appropriate ontology in [Buitelaar04] .

Swoogle [Ding05] is an ontology search engine which indexes over 10,000 ontologies as of 2007. Swoogle can find classes and properties in ontologies, and also find implicit links and relations which are not defined in the ontologies. Swoogle also provides REST(Representational State Transfer) web-service interface for machine agents to avoid html-scraping. Swoogle uses OntoRank to rank ontologies and TermRank to rank classes and properties by their popularity as in the PageRank algorithm. From the viewpoint of domain ontology construction, not all popular ontologies are reusable. In order to find reusable ontologies appropriately, the mechanism to find existing ontologies for the target domain is necessary. In addition, since it is difficult to reuse the existing ontologies without modifying, it seems preferable to be able to collaborate with the domain ontology development environment and the ontology search engine.

Swoogle provides 19 types of REST web-service interfaces (Swoogle Web Services). DODDLE-OWL acquires and ranks existing ontologies for a target domain using Swoogle by the following procedures depicted in Fig. 3.

  1. Acquiring the classes and properties which have the input terms (important terms for a domain from domain specific texts) as their URI’s local name or as the value of rdfs:label property. These classes and properties are named input concepts.
  2. Acquiring the properties which have the classes acquired from step 1 as their value of rdfs:domain or rdfs:range property.
  3. Acquiring the value of rdfs:domain and rdfs:range of the properties which are acquired from step 1 and 2.
  4. Acquiring the ontologies which define the classes and properties acquired from step 1 through 3.
  5. Referringtheontologiesacquiredfromstep4,removingthepropertieswhichare acquired from step 1 and 2, where the value of rdfs:domain or rdfs:range is neither the input concept nor the upper concept of the input concept.
  6. Gathering ontological elements from the acquired ontologies using templates described in SPARQL.
  7. Ranking the acquired ontologies mainly using the ratio of input concept in the ontology.

The detail of step 5 is described in Extracting ontological elements from existing ontologies and the details of step 7 is described in ranking-existing-ontologies.

The procedure flow for acquiring and ranking existing ontologies for a target domain using Swoogle

The procedure flow for acquiring and ranking existing ontologies for a target domain using Swoogle

Extracting ontological elements from existing ontologies

In order to reuse existing ontologies for domain ontology construction, it is necessary to extract reusable elements from existing ontologies. DODDLE-OWL supports the construction of taxonomic and other relationships in the domain ontology. The elements constructing taxonomic and other relationships are concepts (classes and properties), labels of concepts, descriptions of concepts, super-subrelations, and other relations. Concept is absolutely essential for the domain ontology construction. Labels of concepts are necessary to find concepts related to input terms. Descriptions of concepts are necessary for word sense disambiguation. Super-subrelations are necessary to construct taxonomic relationships. Other relations include the definitions of the properties and their rdfs:domain and rdfs:range. Other relations are necessary to construct other relationships. Ontology languages (e.g. RDFS, DAML, and OWL) provide the vocabularies to define the above elements of ontology.

In Swoogle, the user can search ontologies based on the vocabularies provided by RDFS, DAML, and OWL.

例えば,Swoogle ではクラスを,次の(X, Y, Z) というステートメントを満たすXと定義している.

  • X は匿名リソース(空白ノード)ではない
  • Y はrdf:type プロパティである
  • Zは以下のいずれかのクラスである- rdfs:Class, owl:Class, owl:Restriction, owl:DataRange, daml:Class, daml:Datatype, daml:Restriction

Most of the existing ontologies are described in basic vocabularies of RDFS, DAML, and OWL. However, some general ontologies and thesauruses are described based on other schemes. WordNet RDF/OWL provides a standard conversion of WordNet for direct use by Semantic Web application developers. The WordNet RDF/OWL schema is different from the OWL basic vocabularies. SKOS (Simple Knowledge Organisation System) [Miles05] provides a model for expressing the basic structure and the content of concept schemes. Some thesauruses are converted to SKOS. SKOS is also different from the OWL basic vocabularies.

Fig. 4 shows the difference of the labels of concepts among OWL basic vocabulary, SKOS, and the WordNet RDF/OWL scheme. In Fig. 4, we regard a synset in WordNet as a concept.

表1 にOWL基本語彙,SKOS, WordNet RDF/OWLにおけるオントロジーの要素を特定するクラスおよびプロパティ一覧を示す.

From the viewpoint of domain ontology construction reusing existing ontologies in various schemes, including thesauruses, we use five types of templates for extracting the elements of ontology described in SPARQL query language for RDF [hommeaux08] . The five types of templates each extract one of the following elements: Classes, properties, labels and descriptions, super-subrelations, and other relations.

Difference of the labels of concepts among OWL Basic Vocabulary, SKOS, and the WordNet RDF/OWL scheme

Difference of the labels of concepts among OWL Basic Vocabulary, SKOS, and the WordNet RDF/OWL scheme

OWL 基本語彙,SKOS, WordNet RDF/OWL におけるオントロジーの要素を特定するクラスおよびプロパティ一覧

Ontological Elements オントロジーの要素を特定するクラスおよびプロパティ一覧
概念
rdfs:Class, owl:Class, rdf:Property, owl:ObjectProperty, etc
skos:Concept
wn20schema:WordSense, wn20schema:NounWordSense, etc
概念の見出し
rdfs:label
skos:prefLabel, skos:altLabel, skos:hiddenLabel
wn20schema:lexicalForm
概念の説明
rdfs:comment
skos:definition
wn20schema:gloss
階層関係
rdfs:subClassOf, rdfs:subPropertyOf
skos:broader, skos:narrower
wn20schema:hypernymOf, wn20schema:hyponymOf
その他の関係
rdfs:domain, rdfs:range
skos:related
wn20schema:antonymOf, wn20schema:partMeronymOf, etc

Ranking existing ontologies

DODDLE-OWL uses OntoRank, TermRank, and the ratio of input concept in the ontology as the ranking measures for the extracted ontologies. OntoRank is the ranking measure for ontologies proposed in [Ding05], and TermRank is the ranking measure for classes and properties also proposed in [Ding05]. We assume that the more the ontology includes input concepts, the more it relates to the target domain. If two ontologies include the same number of input concepts, the user can select the more popular ontology according to their OntoRank. When there are multiple candidates for the input concept due to the ambiguity of the input term, the user can select the more popular concept according to their TermRank.

Issues for reusing ontologies

DODDLE-OWLでは,階層関係構築支援を行うために,参照オントロジーから入力概念に関連するパスを抽出し,合成および不要概念の剪定を行う.Web 上に散在する異種のオントロジーのパスを合成する際には,上位概念階層の構造の違いにより単純に合成することは困難である.そのため,オントロジーアライメントによる類似概念の同定が必要となる.現状では,オントロジーアライメントを用いた階層関係構築支援は実現できていない.オントロジーアライメントについては,オントロジーアライメントのコンテスト が活発に行われており,ツールも多数公開されている.オントロジーアライメントツールとDODDLE-OWLの連携については,今後の課題である.

Input Modules

In the Input Module, the users select input concepts which are significant concepts in a domain. Input Module consists of the following three sub-modules: Input Document Selection Module, Input Term Selection Module, and Input Concept Selection Module. Fig. 5 shows the flow of the Input Module. The detail of each sub module is described below.

System flow of Input Module

System flow of Input Module

Input Document Selection Module

First, in the Input Document Selection Module, the users select domain specific documents described in English or Japanese. At this step, the users can select part of speech (POS) for extraction of words from the documents. The Input Document Selection Module automatically distinguishes one sentence from another referring to the period punctuation. However, when the input document consists of sentences with no period punctuation marks, the Input Document Selection Module cannot distinguish where to punctuate the sentence. These input documents cause the decrease in the accuracy of other relationships constructed by using association rule learner in the Relationship Construction Module. Considering such a case, the users can edit manually the punctuation of one sentence in the documents using the Input Document Selection Module.

Input Term Selection Module

Second, the Input Term Selection Module shows a list of extracted terms including compound words, POS, Term Frequency (TF), Inverse Document Frequency (IDF), TF-IDF, and upper concepts of the terms in the documents. Here, the uppser concepts are in the reference ontologies and the users can set them in an upper concept list file. For example, if EDR is set as a reference ontology and the users set the “concrete object” concept as one of the upper concepts, input terms which match labels of sub concepts of the “concrete object” concept are shown with the concept.

Domain specific documents contain many significant compound words. Therefore, accurate extraction of compound words is necessary to construct domain ontologies. At this step, while considering POS, TF, and so on, the user selects input terms which are significant terms for the domain. For certain domains, important terms do not occur in the documents. In such a case, Input Term Selection Module has a function allowing the manual addition of important terms as input terms by the user. In order to prevent the leakage of the selection of input terms from the documents, Input Term Selection Module maintains the relationships between the extracted terms and the place where the terms appear in the documents.

Input Concept Selection Module

Finally, in the Input Concept Selection Module, the user identifies the word sense of input terms to map those terms to the concepts in the reference ontologies selected with the Ontology Selection Module. A particular single term may have many word senses. Therefore, there may be many concepts that correspond to the word. Input Concept Selection Module shows the input terms and the concepts that correspond to the input terms. While considering the domain, the users select the most appropriate concept for the term from the list of concepts. In order to decrease the cost for input concepts selection, the Input Concept Selection Module has a function enabling automatic word disambiguation (input concept selection). This function shows the list of concepts, which is ordered by some criteria, corresponding to the selected input term.

Input Concept Selection Module uses perfectly matching and partially matching to disambiguate input terms. Though, labels of most concepts do not contain compound words. Therefore, it is difficult to select the appropriate concept for compound words. To deal with this, partially matching is used to disambiguate most of the compound words of the input terms. Perfectly matching and partially matching mean an input term perfectly or partially corresponds to labels of a concept. The priority of perfectly matching is higher than that of partially matching. If an input term does not correspond perfectly to any labels of concepts in the reference ontologies, the Input Concept Selection Module analyzes the morphemes of the input term. The input term can be considered to be a list of the morphemes. Input Concept Selection Module tries to correspond the sub lists (example shown below) to the concepts of the reference ontologies. Of the matched concepts corresponding to the sub lists, the longest concept is selected as the concept of the input term, and the input term becomes the sub concept of the concept.

For example, the input term rocket delivery system does not perfectly correspond to the labels of concepts in the reference ontologies. The Input Concept Selection Module analyzes morphemes of rocket delivery system. Rocket delivery system is resolved to rocket, delivery, and system. The sub lists for this input term becomes delivery system and system. First, Input Concept Selection Module disambiguates delivery system. Then, the Input Concept Selection Module disambiguates system. In this example, delivery system does not correspond to the labels of concepts in the reference ontologies. On the other hand, system corresponds to the labels of concepts in the reference ontologies. Consequently, in order to disambiguate rocket delivery system, Input Concept Selection Module shows the concepts which have system as their label.

Input terms which do not correspond to the labels of concepts in the reference ontologies are undefined terms. The input terms are also undefined terms if the concept exists but there are no appropriate concepts in the reference ontologies. The user defines the undefined terms manually in the Refinement Module.

Semi-automation of input concept selection

入力語数が多い場合や入力語が多くの意味を持つ場合,入力概念選択はユーザの負担となる.入力概念選択モジュールでは,主に2 種類の自動概念選択方法を用いて入力概念選択の支援を行う.両手法共に入力語に対応する概念候補の評価値を求めてランキングを行い,評価値の高い概念から順番にユーザに提示することにより,ユーザが入力概念選択を行うことを支援する.

一つ目の評価値の計算方法は以下のとおりである.

対象とする概念からそのルート概念までの各パスに出現する概念のうち,入力語集合(入力語彙)を見出しとして持つ概念の総数の最大値 対象とする概念の全ての下位概念のうち,入力語彙を見出しとして持つ概念の総数 対象とする概念の兄弟概念のうち,入力語彙を見出しとして持つ概念の総数 以上,三つの中からユーザは一つ以上の指標を選択し,選択した指標により得られた評価値の総和を用いて,入力語に対応する概念候補をランキングする. 二つ目の方法における評価値の計算方法は以下のとおりである.

入力語に対応する概念候補となる概念集合を得る 概念集合から二つの組み合わせを求め,それぞれの概念間距離を求める ある概念と組み合わせ関係にある概念集合との概念間距離の逆数の総和をその概念の評価値とする 多重継承している場合には,概念間距離の計算方法が複数考えられる.その場合には,最短,最長,平均のどれかをユーザは選択することができる. 部分照合する用語の入力概念選択を簡略化するために,ある部分照合した用語の入力概念選択結果を,同様に部分照合するすべての用語の入力概念選択結果に反映させることが,入力概念選択モジュールでは可能である.例えば,「バッテリ充電装置」,「ノイズ測定装置」,「バルブ作動点検装置」がそれぞれ,「装置」で部分照合していた場合,装置の入力概念選択結果を,上記三つの入力語の入力概念選択結果とすることができる.

Ontology Construction Modules

The Construction Module automatically generates the basis of an ontology, an initial concept hierarchy and set of concept pairs, by referring to reference ontologies and documents. An initial concept hierarchy is constructed as taxonomic relationships. Set of concept pairs are extracted by using co-occurrency based statistic methods. These pairs are considered to be closely related and that they will be used as candidates to refine and add other relations. The users identify some relationships between concepts in the pairs.

The Construction Module consists of the Hierarchy Construction and the Relationship Construction Module. The detail of each module is described below.

Hierarchy Construction Module

階層構築モジュールでは,参照オントロジーの概念階層を参照し,領域オントロジーの基礎となる概念階層初期モデルを構築する.入力モジュールにおいて,入力語と完全照合した入力概念(完全照合概念)と部分照合した入力概念(部分照合概念)により,階層構築方法が異なる.以下では,完全照合概念と部分照合概念のそれぞれについて,階層構築方法を説明する.

完全照合概念の階層構築
完全照合概念の階層構築工程

完全照合概念の階層構築工程

Fig. 6 に完全照合概念の階層構築工程を示す.はじめに,参照オントロジーから,入力モジュールにより獲得した完全照合概念を末端ノードとするルート概念までのパスを抽出し,合成する.これをベストマッチモデルと呼ぶ.

Fig. 6 のベストマッチモデルは,1 重線で囲まれたノードである入力概念ノード,2 重線で囲まれたノードであるSIN (a Salient Internal Nodes),点線で囲まれたノードである不要中間ノードの3 種類のノードから構成される.入力概念ノードは,ユーザが選択した入力語に対応する参照オントロジー中の概念であり,領域にとって必須である.参照オントロジーから抽出したノードのうち,入力概念ノード以外のノードはSIN または不要中間ノードとなる.SIN は,入力概念ノードを一つ以上子ノードとして持つノードである.SIN は,各入力概念間の位相関係(祖先・親子・兄弟関係)を保持することに貢献する.一方,不要中間ノードは,入力概念ノードを子ノードとして持たないノードである.不要中間ノードはSIN とは異なり,各入力概念間の位相関係を保持することに貢献しないため,階層構築モジュールは階層構築において不要な概念であると見なし,ベストマッチモデルから削除する.不要中間ノードを削除する工程を剪定と呼ぶ.剪定によって得られた入力概念ノードとSIN のみから構成される概念階層を概念階層初期モデルと呼ぶ.概念階層初期モデルは, 概念階層洗練手法 を用いて,ユーザとのインタラクションにより洗練され,最終的な領域オントロジーにおける概念階層となる.

部分照合概念の階層構築
部分照合概念の階層構築工程

部分照合概念の階層構築工程

階層構築モジュールでは,部分照合概念について語尾および語頭による階層化を行う.図2 に部分照合概念の階層構築例を示す.ここで,部分照合概念とは,参照オントロジー中の概念の見出しと部分的に照合する入力語を概念化したものである.入力概念選択モジュールで説明したように,入力語が完全照合しなかった場合,入力語を形態素解析し,語尾を含むように部分照合を行っている.ここで,部分照合概念の見出しについて,語尾を含むように照合された部分を語尾部分,それ以前の部分を語頭部分と呼ぶことにする.例えば,「ゲージ情報」という入力語が参照オントロジー中の「情報」概念と部分照合した場合,「ゲージ」を語頭部分,「情報」を語尾部分と呼ぶ.また,入力概念選択モジュールにおいて,ユーザは部分照合した入力語を照合した概念の別見出しとするか,下位概念とするかを選択する.ここでは,下位概念とするほうをユーザが選択したものとして説明する.

Fig. 7 では,はじめに,ユーザは,入力語として「ゲージ」,「レーダー」,「ゲージ情報」,「レーダー情報」,「モデル情報」を選択した.「ゲージ」および「レーダー」は,参照オントロジー中にそれらを見出しとする概念が存在するため,図1に示した完全照合概念の階層構築工程に従って階層構築される.「ゲージ情報」,「レーダー情報」,「モデル情報」は,参照オントロジー中の「情報」概念と部分照合した.語尾による階層化により,はじめに,「情報」概念が完全照合概念の階層構築工程に従って階層構築され,次に,「ゲージ情報」,「レーダー情報」,「モデル情報」が概念化され,「情報」概念の下位概念として定義される.さらに,語頭による階層化では,部分照合概念の語頭部分に着目し,語頭部分を見出しとして持つ概念が構築中の概念階層内に存在する場合,その概念の上位概念と部分照合概念の語尾部分と照合した概念の見出しを組み合わせた見出しを持つ概念を新たに作成する.語頭部分が照合した部分照合概念は,新たに作成された概念の下位概念として階層関係が再定義される.部分照合概念の語頭部分は,部分照合概念を修飾していることが多い.そのため,語頭による階層化により,語尾による階層化のみに比べて,より詳細な階層構築を行うことができると考えられる.

Fig. 7 の語尾による階層化により構築された概念階層では,部分照合概念である「ゲージ情報」概念および「レーダー情報」概念の語頭部分にあたる「ゲージ」および「レーダー」を見出しとして持つ,「ゲージ」概念および「レーダー」概念が「計器」概念の下位概念として定義されている.ここで,語頭による階層化により,「計器」概念と「情報」概念を組み合わせた「計器情報」概念が新規に作成され,「ゲージ情報」概念および「レーダー情報」概念の上位概念として,階層化が行われる.「計器情報」概念を定義することにより,「モデル情報」概念と「ゲージ情報」概念および「レーダー情報」概念という計器に関する情報を分類することができる.

Relationship Construction Module

その他の関係の定義を支援するために,関係構築モジュールでは,WordSpace と相関ルールの二つの共起性に基づく手法を用いて,入力文書および入力語彙からその他の関係の候補となる概念対を獲得する.

WordSpace による概念対の抽出

共起統計の計算手法としてWordSpace [Hearst96] を利用する.WordSpace とは,語彙の共起統計から大規模な単語群の意味表現を誘導するコーパスに基づく方法である.WordSpaceによって,出現語句を共起情報を含むベクトルとして表現できる.この単語ベクトルの集合である多次元ベクトル空間がWordSpace であり,2 ベクトル間の内積は出現語句の文脈類似度の指標となる.WordSpace から得られる共起情報を基に,文脈類似概念対を入力文書から獲得し,その他の関係定義に関わる可能性のある概念対として利用する.“文脈の類似は,その語句間の何らかの概念関係の存在を示唆している” と仮定する.

以下では,WordSpace に基づく文脈類似概念対の獲得手順( Fig. 8 )について説明する.

文脈類似概念対の獲得手順

文脈類似概念対の獲得手順

1. 高頻度単語N-gram の抽出

専門文書中からN 個の単語から構成される句(単語N-gram)を抽出し,共起の最小単位として用いる.文字単位のN-gram 統計を取るのに比べ意味の無い文字列の共起情報を除外でき,より専門文書の文脈表現に役立つ情報が抽出できる.この際抽出される句は,標準形に変換し,同形のものをまとめることで重複を排除している.ここで抽出された単語N-gram 集合の中から,専門文書における出現頻度の高い単語N-gram(高頻度単語N-gram)をWordSpace の構築に用いる.これにより入力文書は高頻度単語N-gram の配列とみなせる.関係構築モジュールでは,高頻度単語N-gram を抽出する際に,単語N-gram の単語数N および出現数をユーザは設定することができる.

Note

[Hearst96] においては文字単位の共起を用いてWordSpace の構築を行っているが,関係構築モジュールでは単語単位N-gram の共起を最小単位として扱う.従って,通常のWordSpace 構築時に文字単位共起をある程度まとまった形で表現するために行う4-gram ベクトル構築工程は行わない.

2. 文脈ベクトルの構築

次に,ある二つの入力語の文脈を比較するために,文脈ベクトル(context vector)を構築する.文脈ベクトルとは,ある入力語周辺の高頻度単語N-gram の出現回数をベクトルで表現したものである.文脈ベクトル \(\overrightarrow{w_i}\) の要素 \(a_{i,j}\) は,入力語 \(w_i\) の出現場所周辺( 文脈スコープ )の高頻度単語N-gram \(g_j\) の出現回数である.関係構築モジュールでは,文脈スコープとして,入力語 \(w_i\) の前後何語以内に含まれる高頻度単語N-gram を文脈ベクトルの構築に用いるかをユーザは設定することができる.

3. 入力語ベクトルの構築

次に,文脈ベクトルから入力語のベクトル表現である 入力語ベクトル(input term vector) を導く.入力語ベクトル \(\overrightarrow{W_i}\) は,専門文書において,入力語 \(w_i\) の全出現場所についての文脈ベクトル \(\overrightarrow{w_i}\) の和によって表される.

4. 概念ベクトルの構築

次に,入力語ベクトルから入力概念のベクトル表現である 概念ベクトル(concept vector) を導く.入力概念選択モジュールによって,入力語に対応する参照オントロジー中の概念(入力概念)は特定されている.入力概念の見出し(入力語)における入力語ベクトルの和が概念ベクトルとなる.概念ベクトル \(\overrightarrow{C}\) は, (1) で表される. \(\mathcal{A}(w)\) は,入力語 \(w\) の専門文書における全出現場所を表す.\(\overrightarrow{w}(i)\) は,入力語 \(w\) の専門文書中の位置 \(i\) における文脈ベクトルを表す.\(synset(C)\) は,概念 における見出し集合を表す.

()\[\overrightarrow{C} = \sum_{w \in {synset(C)}} (\sum_{i \in \mathcal{A}(w)}\overrightarrow{w}(i))\]
5. 文脈類似概念対の獲得

以上の処理より,全入力概念について概念ベクトルを得ることができる.概念ベクトル間の内積は,概念間の文脈類似度となる.関係構築モジュールでは,文脈類似度に対してある一定の閾値をユーザは設定することができる.ユーザが指定した閾値を越える値を持つ概念対を文脈類似概念対として獲得する. 概念ベクトル \(\overrightarrow{C_1}\)\(\overrightarrow{C_2}\) ,間の文脈類似度 \(sim(\overrightarrow{C_1}, \overrightarrow{C_2})\) は, (2) を用いて計算する.

()\[sim(\overrightarrow{C_1}, \overrightarrow{C_2}) = \frac{\sum_i c_{1,i}c_{2,i}}{\sqrt{\sum_i {c_{1,i}}^2 \sum_i {c_{2,i}}^2}}\]

概念間の関係を明示する概念関係子は推定されていないため,推定前の初期値として概念関係子 non-TAXONOMY を割当てる.獲得された文脈類似概念対の中には,階層関係が含まれる可能性がある.そのため,概念階層において既に定義されている階層関係については,文脈類似概念対集合の中から除外する.

相関ルールによる概念対の抽出

専門文書からその他の関係定義の候補となる概念対を獲得するもう一つの方法として,相関ルールを利用する.相関とは,ある事象が発生すると別の事象が発生しやすいという共起性を意味する.また, \(A \Rightarrow B\) という相関ルールは, \(A\) という事象が起こると \(B\) という事象も起こりやすいことを意味する.相関ルールの抽出は代表的なデータマイニング技術の一つであり,その他の関係定義にも利用されている [Agrawal94] .ここでは,入力文書内の1 文中に同時に出現する入力語の組み合わせを相関ルールとして抽出し,その他の関係定義の候補となる概念対として利用する.抽出された相関ルールに含まれる概念間に,何らかの概念関係が存在すると仮定する.

以下では,相関ルールの定義および相関ルール抽出アルゴリズムApriori について述べる.相関ルールおよびApriori アルゴリズムの説明は,データマイニングの基礎 [Motoda06] 2.5節を参考にした.

相関ルールの定義

相関ルールは, (3) に示す トランザクション集合(transaction set) \(T\) から抽出される. トランザクション(transaction) \(t_i\) は,データベース内でのデータのまとまりの単位を表す.ここでは,入力文書内の1 文をデータのまとまりの単位としているため,トランザクション集合の要素数 \(n\) は,入力文書に含まれる文の数を表す.

()\[T := \{t_i \mid i=1 \ldots n\}\]

\(T\) の要素 \(t_i\) は,アイテム集合(item set) である.ここでは,アイテムは入力語とする.つまり, \(t_i\) は,入力文書の \(i\) 番目の文に含まれる入力語の集合として表される. \(t_i\) は, (4) で表される. (4)\(C\) は,入力文書に含まれる全入力語の集合を表す.

()\[t_i=\{a_{i,j} \mid j = 1 \ldots m, a_{i,j} \in C\}\]

\(k\) 個のアイテムを含むアイテム集合 \(X_k\)\(Y_k\) について,相関ルールは,\(X_k \Rightarrow Y_k (X_k,Y_k \subset C, X_k \cap Y_k = \emptyset)\) で表される.ここで,\(X_k\) を条件部, \(Y_k\) を結論部と呼ぶ.条件部,結論部共に複数アイテムを含んでいてもよい.

相関ルールの重要性を測る指標として, 支持度 (support) と 確信度 (confidence) がある.支持度とは,相関ルールが全トランザクションでどの程度出現するかを表す割合である.\(X_k \Rightarrow Y_k\) の支持度 \(support(X_k \Rightarrow Y_k)\) は,の中でとを共に含むトランザクションの割合により定義される (5)

()\[support(X_k \Rightarrow Y_k) = \frac{\mid \{t_i \mid X_k \cup Y_k \subseteq t_i \} \mid}{n}\]

確信度とは,条件部が起こったときに結論部が起こる割合である. \(X_k \Rightarrow Y_k\) の確信度 \(confidence(X_k \Rightarrow Y_k)\) は, \(T\) において \(X_k\) を含むトランザクションの中で, \(Y_k\) が出現する割合により定義される (6)

()\[confidence(X_k \Rightarrow Y_k) = \frac{\mid \{t_i \mid X_k \cup Y_k \subseteq t_i \} \mid}{\mid \{t_i \mid X_k \subseteq t_i\} \mid}\]

相関ルールの抽出では,支持度と確信度にある一定の閾値を設けないと,組み合わせ爆発を起こし,多数の無意味なルールが生成されてしまう.そのため,相関ルールの抽出では,支持度と確信度に閾値を設け,その値以上の支持度と確信度を有する相関ルールのみを抽出する.ここで,それぞれの閾値を 最小支持度 (minimum support), 最小確信度 (minimum confidence) と呼ぶ.また,ユーザから与えられた最小支持度以上の支持度を有するアイテム集合を 多頻度アイテム集合 (frequent item set) と呼ぶ.

通常,相関ルールの条件部には複数のアイテムを許すが,ここでは概念対を抽出したいため,条件部と結論部共に一つずつのアイテム,つまり入力語の対を獲得する.WordSpaceを用いた概念対の抽出と同様に,概念間の関係を明示する概念関係子は推定されていないため,初期値として概念関係子 non-TAXONOMY を割当てる.

相関ルール抽出アルゴリズム Apriori

相関ルールは,次の二つのステップにより抽出される.

ステップ1: 多頻度アイテム集合を獲得する. ステップ2: から最小確信度以上の確信度を有する相関ルールを導出する.

ステップ2 は,ステップ1 により求めた \(F\) からルールを導出する処理であり,その負荷は比較的小さい.一方,ステップ1 は, \(T\) を繰り返し検索し,数多くのアイテム集合の支持度を調べるため,その負荷は大きい.そのため,ステップ1 の効率の良いアルゴリズムを開発することが,実用的な相関ルール抽出アルゴリズムにつながると考えられてきた.この課題をはじめて解決した方法が,IBM アルマデン研究所のRakesh Agrawal らによって提案されたApriori アルゴリズム [Agrawal94] である.Apriori アルゴリズムは,現在最も広く利用されている相関ルール抽出アルゴリズムであり,本研究でも関係構築モジュールの実装に用いている.

以下では,Apriori アルゴリズムについて説明する.

Apriori アルゴリズムでは,「 \(A\) が多頻度アイテム集合であれば,その部分集合は多頻度アイテム集合である」および,その対偶をとって「 \(B\) が多頻度アイテム集合でなければ, \(B\) を含むような集合 \(A\) も多頻度アイテム集合でない」というアイテム集合の支持度の逆単調性を利用している.これらの性質を利用することにより,効率よく枝刈りを実行して,多頻度アイテム集合を求めることができる.例えば,{1,2}が多頻度アイテム集合でなければ,{1,2}を含むいかなるアイテム集合({1,2,3}など)も多頻度アイテム集合ではないため,その支持度を調べる必要はない.

Apriori アルゴリズムでは,要素数の少ないアイテム集合から支持度を計算し,あるアイテム集合の支持度が最小支持度より小さくなったとき,この逆単調性を利用して,そのアイテム集合を含むようなアイテム集合は,多頻度アイテム集合の候補とはせずに枝狩りする.

要素数 \(k\) の多頻度アイテム集合を \(F_k\) ,多頻度アイテム集合の候補集合を \(C_k\) とする時,Apriori アルゴリズムの処理手順は以下のようになる.

  1. \(F_k\) から \(C_{k+1}\) を作成する.この際に,\(C_{k+1}\) の各要素について,要素数 \(k\) のアイテム集合からなる各部分集合がすべて \(F_k\) に含まれるかどうかを点検し,そうでなければその要素を \(C_{k+1}\) から削除する.
  2. \(T\) を検索し, \(C_{k+1}\) における各要素の支持度を求める.
  3. \(C_{k+1}\) から \(F_{k+1}\) を抽出する.
  4. 新たな多頻度アイテム集合が空となるまで,(1) から(3) の処理を繰り返す.

Fig. 9 に,最小支持度0.50 (2/4 = 0.50) における,Apriori アルゴリズムによる多頻度アイテム集合抽出の例を示す. Fig. 9 では, \(T\) には四つのトランザクションが含まれているため, \(T\) の中で2 回以上出現するアイテム集合が,多頻度アイテム集合となる.はじめに \(T\) ,から要素数1 のアイテム集合がトランザクションに含まれる回数を数え上げ, \(C_1\) を作成する.\(C_1\) の中から最小支持度以上の支持度を有するアイテム集合を抽出し, \(F_1\) を求める.次に, \(F_1\) から \(C_2\) を作成する.ここでは, \(C_2\) の各要素について,要素数1 のアイテム集合からなる各部分集合は,すべて多頻度アイテム集合となるため,要素の削除は行われない. \(T\) を検索し, \(C_2\) から \(F_2\) を求める.次に, \(F_2\) から \(C_3\) を作成する.ここで, \(F_2\) からは,{1,2,3}および{1,3,5}といったアイテム集合も \(C_3\) の候補として抽出される.しかし,これらの部分集合である{1,2}および{1,5}は,それぞれ多頻度アイテム集合ではないため,{1,2,3}および{1,3,5}も多頻度アイテム集合ではないことがわかり, \(C_3\) から削除される.よって, \(C_3\) は{2,3,5}のみとなる. \(T\) を検索すると,{2,3,5}の出現数が2であり,支持度は0.50 以上となる.よって, \(F_3\) は{2,3,5}となる.{2,3,5}からは, \(C_4\) を作成することができないため,ここで停止することとなる.

Apriori アルゴリズムによる多頻度アイテム集合抽出の例

Apriori アルゴリズムによる多頻度アイテム集合抽出の例

EDR概念記述辞書を用いたプロパティ階層の構築およびその他の関係定義

オントロジー構築モジュールは,EDR 概念記述辞書を用いてプロパティ階層の構築およびその他の関係定義を行うことができる.EDR 概念記述辞書には動詞的概念が名詞的概念を支配する場合の格関係を中心に,agent,object, goal, implement,a-object,place, scene, cause の8 種類の概念関係が定義されている.オントロジー構築モジュールはEDR 概念記述辞書に定義されている動詞的概念およびその下位概念をOWLにおけるオブジェクトプロパティとみなし,階層構築時に名詞的概念階層(クラス階層)とは分離してプロパティ階層構築を行う.

また,オントロジー構築モジュールは,8 種類の概念関係のうちagent 関係がある名詞的概念をプロパティの定義域,object 関係がある名詞的概念をプロパティの値域として定義する.

プロパティ階層構築にも,クラス階層構築における完全および部分照合概念階層化と同様のアルゴリズムが適用可能である.完全照合概念を階層化する際には,不要概念の剪定が行われる.そのため,以下の場合にその他の関係定義の整合性が保持できなかったり,その他の関係定義が欠落してしまう問題が発生する.

  1. クラス階層中の剪定された概念がagent またはobject の値として定義されている場合
  2. プロパティ階層中の剪定された概念にagent またはobject 関係が定義されている場合

オントロジー構築モジュールでは,1. については,agent またはobject の値を,剪定された概念の下位概念に置換することで整合性を保持している.2. については,剪定されたプロパティの下位概念に定義域および値域を継承させることによりその他の関係定義が欠落しないようにしている.

Ontology Refinement Module

オントロジー洗練モジュールは,階層洗練モジュールおよび関係洗練モジュールから構成される.オントロジー洗練モジュールでは,オントロジー構築モジュールで構築した 概念階層初期モデル と,その他の関係定義のための 概念対集合 を基に,ユーザとのインタラクションを通してオントロジーの洗練を行う.

以下では,階層洗練モジュールおよび関係洗練モジュールについて説明する.

Hierarchy Refinement Module

参照オントロジー(特に汎用オントロジー)から半自動構築された初期概念階層は一般的な階層関係が定義されているため,ユーザは概念変動(対象領域の変化による概念の意味変化)と呼ばれる問題を考慮しながら,初期概念階層を特定の領域に調整する必要がある.概念変動管理のために,階層洗練モジュールは戦略1:照合結果分析,戦略2:剪定結果分析,戦略3:多重継承の除去の三つの戦略を適用する.Fig. 10 に概念階層洗練工程を示す.戦略1 は入力概念集合と汎用オントロジーとの照合結果の観点から, 戦略2 は剪定結果の観点から,戦略3 は多重継承から概念変動を同定する戦略である.以下では,それぞれの戦略の詳細を説明する.

概念階層洗練工程

概念階層洗練工程

Strategy1: Matched result analysis

戦略1 では,概念階層初期モデルにおいて,入力概念の位置関係から再利用可能な領域と不可能な(概念変動が発生していると推定される)領域に分割し,再利用不可能な領域を移動することによって概念変動を解消する.ここで,移動するとは,再利用不可能な領域に含まれる概念を,他の適切な概念の下位概念として再定義することを意味する.

入力概念(ベストマッチノード)は,問題領域から考えてほぼ妥当と考えられた概念のため,それらが連続するパスは,妥当な概念が集中していると考え,再利用可能なパスとみなせる.このパスを PAB (PAths including only Bestmatches) と呼ぶ.一方,SINが含まれる領域は,概念構造の差異(概念変動)が生じている可能性があるため,移動すべき領域とみなせる.この領域を STM (SubTrees manually Moved) と呼ぶ.PABとSTM の定義を以下に示す.

PABの定義
ルート概念から入力概念(ベストマッチノード)が複数個連続しているパス.
STMの定義
SIN をサブルートとし,その下位ノードがすべてベストマッチノードで構成される部分木.

Fig. 11 にPAB とSTM の例を示す.実線で囲まれた部分木がPAB,破線で囲まれた部分木がSTMである.ユーザーはSTMを移動することで概念階層初期モデルを洗練し,領域概念階層を構築する.STM の移動先についてはユーザが決定し,移動する必要がないと判断した場合は移動しない.移動時にユーザーが不必要と判断したSTM のルートノードは削除してもよい.戦略1 は,照合結果を分析することによって得られた戦略のため,照合結果分析(Matched Result Analysis: MRA) と呼ぶ.

Strategy1: Matched result analysis

Strategy1: Matched result analysis

Strategy2: Trimmed result analysis

戦略2 では,概念階層初期モデルにおいて,同じ親ノード(上位概念)を持つ兄弟ノード間で,剪定において取り除かれた中間概念数の差が大きい場合,その階層関係を再構成するよう示唆する.

剪定工程で,削除された中間概念とそれにつながるベストマッチノード以外の概念を含む領域が全て削除されることは,参照オントロジーによる概念の分化の方法が問題領域の概念の分化の方法と異なっていることを示しているといえる.そのような部分木に対して分化の再構成をユーザに促す.剪定の際の削除数の差が概念階層初期モデルのルート概念から末端概念までの距離の1/3 以上であった親子ノードに対し,再構成をユーザに示唆する.ルート概念から末端概念までの剪定の際の削除数は,ユーザによって任意に設定することもできる.戦略2 は関連情報の剪定結果の分析によって行なわれる戦略のため, 剪定結果分析(Trimmed Result Analysis: TRA) と呼ぶ.

剪定結果分析の適用例を:numref:trimmed-result-analysis に示す.Fig. 12 のベストマッチモデルを剪定した結果,概念Aと概念D間の領域が全て削除された.このような変化は概念Aの分類属性が,対象となる問題領域では異なった形で分化に利用されている可能性があることを意味し,ここに概念変動が発生していることが考えられる.この例では,対象となる問題領域では,概念Dは概念A の下位概念ではなく,概念C の下位概念として概念階層を再構成している.

Strategy2: Trimmed result analysis

Strategy2: Trimmed result analysis

Strategy3: Removing multiple inheritance

WordNet やEDR 電子化辞書などの汎用オントロジーは,網羅的に階層関係を定義するために,多重継承を多用している.汎用オントロジーにおける多重継承関係は,様々なコンテキストを考慮して定義されている.そのため,大部分の継承関係は特定の領域においては不要な継承関係となる.階層洗練モジュールでは,多重継承している概念の一覧を提示し,どの概念を上位概念として持つかをユーザに提示することにより,多重継承の除去を容易に行うことができる.

Fig. 13 に多重継承の除去の例を示す. Fig. 13 では,汎用オントロジー中で概念Dは概念A,概念B,概念C の3 つの概念を上位概念として多重継承している.ここでは,概念A と概念C は上位概念として不要であるとみなし,ユーザが継承関係を除去している.

Strategy3: Removing multiple inheritance

Strategy3: Removing multiple inheritance

Relationship Refinement Module

関係洗練モジュールでは,関係構築モジュールでWordSpace および相関ルールにより獲得した概念対集合から,ユーザが概念間関係を定義するのを支援する.関係洗練モジュールでは,WordSpace と相関ルールにおけるパラメータの調節や,結果の合成,正解または不要概念対の選択,概念対間の関係の定義を行うことができる.

Visualization Module

In order to visually support the refinement of the semi-automatically constructed domain ontology, DODDLE-OWL is integrated with the Visualization Module. DODDLE-OWL uses MR3 : Meta-Model Management based on RDFs Revision Reflection [Morita06] as the Visualization Module. MR3 is a graphical RDF and RDFS editor for managing relationships between RDF and RDFS descriptions. DODDLE-OWL can interchange an OWL ontology with ¥mrcube using a plug-in function of MR3 .

Visualization Module has two main roles for supporting domain ontology construction. One is the visualization function for concept drift management in the Refinement Module. Visualization Module displays the initial concept hierarchy generated in the Construction Module. Then, the user can visually refine candidates of concept drifts which are suggested by the Refinement Module. The other role is the externalization of the domain ontology. The externalization of the domain ontology means visualizing the whole taxonomic relationships and other relationships in the domain ontology. Taxonomic relationships and other relationships are constructed separately in the Hierarchy Construction Module and the Relationship Construction Module. By the externalization of the domain ontology, the user can refine the domain ontology while regarding the balance of the taxonomic relationships and other relationships.

Translation Module

Translation Module exports the taxonomic relationships and other relationships described in OWL. Taxonomic relationships are defined using owl:Class class rdfs:subClassOf property. Other relationships are defined using owl:ObjectProperty class, rdfs:domain property, and rdfs:range property.

Fig. 14 shows an example of exporting taxonomic relationships and other relationships in OWL. The upper part of Fig. 14 shows that goods class is a subclass of artifact class. The lower part of Fig. 14 shows that attribute relationships is defined between an individual of goods class and an individual of quality class.

Note

owl is a prefix of http://www.w3.org/2002/07/owl#. rdfs is a prefix of http://www.w3.org/2000/01/rdf-schema#.

クラスのhas-a階層は,owl:Classクラスおよびdoddle:partOfプロパティにより定義する.プロパティのis-a 階層は,owl:ObjectProperty クラスおよびrdfs:subPropertyOfプロパティにより定義する.プロパティのhas-a階層は,owl:ObjectPropertyクラスおよびdoddle:partOf プロパティにより定義する.

Fig. 14 の上部は,概念関係の定義の例として,「act」クラスの下位クラスとして「aim」と「behavior」クラスが定義された状態を,OWL形式に変換する方法を示している.Fig. 14 の下部は,その他の関係の定義の例として,「time」と「offer」クラスの間に「attribute」プロパティという関係がある状態を,OWL形式に変換する方法を示している.

また,DODDLE-OWL では概念の見出しをrdfs:label プロパティ,概念の説明をrdfs:comment プロパティ,概念の表示見出しをskos:prefLabel プロパティを用いて定義している.概念の表示見出しは,概念に複数の見出しが定義されている場合に,概念階層を表示する際に優先的に表示する見出しのことである.

An example of exporting taxonomic relationships and other relationships in OWL

An example of exporting taxonomic relationships and other relationships in OWL

User manual

Implementation Architecture

Fig. 15 shows the implementation architecture of DODDLE-OWL. DODDLE-OWL is implemented by Java language and used Java Swing as GUI components. DODDLE-OWL has the following six main modules: Ontology Selection Module, Input Module, Construction Module, Refinement Module, Visualization Module, and Translation Module. On implementation, Construction Module and Refinement Module are implemented in the same panel.

In order to get existing ontologies on the web, we use Swoogle Web services in the Ontology Selection Module. In the Input Module, Construction Module, and Refinement Module, we use extJWNL(Extended Java WordNet Library) to refer WordNet. In the Input Module, we use Japanese morphological analyzer lucene-gosen to analyze Japanese morphmes and identify part-of-speech in the documents. In order to identify English part-of-speech, we use The Stanford Parser . In order to extract English and Japanese compound words, we use Automatic Domain Terminology Extraction System [Nakagawa03] . We also use Yet Another Japanese Dependency Structure Analyzer CaboCha to extract Japanese compound words. In order to extract texts from various format documents such as PDF, Microsoft Word, Excel, and PowerPoint, we use Apache POI and Apache PDFBox . We use MR3 <http://mrcube.org> as the Visualization Module. In the Translation Module, we use Apache Jena to import and export ontologies in OWL format.

Implementation Architecture of DODDLE-OWL

Implementation Architecture of DODDLE-OWL

Ontology Selection Panel

Aquiring existing ontologies using Swoogle

Swoogle provides 19 types of REST web-service interfaces (Swoogle Web Services). When a query URL made by the user is inputted to Swoogle, the user can get the query results in RDF/XML. Swoogle Web Services mainly have queryType and searchString as their parameters. The queryType parameter specifies the type of the web service to call. The searchString parameter is given the input search string of the web service. Table 1 shows the Swoogle Web Services available for domain ontology construction, and their input and output. SWD (Semantic Web Document) in Table 1 is an RDF document described in RDF/XML, N-Triple, or Notation 3. SWT (Semantic Web Term) in Table 1 is an RDF resource with URI being defined, referenced, and populated as classes or properties in SWD. SWO (Semantic Web Ontology) is a special type of SWD which defines many classes and properties.

The Swoogle Web Services, which can be used for domain ontology construction, and their inputs and outputs
Type Swoogle Web Services Input Output
1 Search ontology search keyword List of SWO which relates to the input search keyword
3 Search terms search keyword List of SWT which relates to the input search keyword
4 Digest semantic web document SWD Swoogle Metadata for the input SWD
13 List documents using term SWT List of SWD defining/referencing/ populating the input SWT
16 List domain classes of a property property List of classes which are used as the rdfs:domain of the input property
17 List properties of a domain class class List of properties which use the input class as their rdfs:domain
18 List range classes of a property property List of classes which are used as the rdfs:range of the input property
19 List properties of a range class class List of properties which use the input class as their rdfs:range

Table 2 shows the types of Swoogle web services to use and the limiting conditions for each step in acquiring existing ontologies. The Step column in Table 2 corresponds to the steps described in Fig. 3 . The Types of Swoogle Web Services to Use column in Table 2 corresponds to the types in Table 1. In order to reduce the cost of computation time, DODDLE-OWL has limiting conditions for each steps.

Types of Swoogle web services to use and limiting conditions for each step in acquiring existing ontologies
Step Types of Swoogle Web Services to Use Limiting Conditions
1 3 The number of classes and properties for each input term is limited to the top 5 sorted by TermRank.
2 17, 19 The number of properties which have the classes as their value of rdfs:domain or rdfs:range property is limited to the top 100.
3 16, 18 The number of values for rdfs:domain and rdfs:range of each property is limited to the top 100.
4 1, 4, 13 The number of ontologies for each input term is limited to the top 10 sorted by OntoRank.

Extracting ontological elements using SPARQL templates

Listing 1 to Listing 5 show templates described in SPARQL to extract ontological elements described in RDFS, DAML, and OWL.

If DODDLE-OWL executes the extracting labels and descriptions template in Listing 3 directly as a SPARQL query, DODDLE-OWL acquires all values of rdfs:label, rdfs:comment, and etc properties as the SPARQL query result. In order to acquire only the labels and descriptions of an input concept, DODDLE-OWL replaces the ?concept variable in Listing 3 with the URI of the input concept. In a similar way, DODDLE-OWL replaces the variables in other templates with the appropriate URIs, and executes the replaced templates as the SPARQL query. By building the five types of templates using ?concept, ?subConcept, ?class, ?property, ?label, ?description, ?domain, and ?range variables and setting the templates in DODDLE-OWL, extraction of the ontologies’ elements described in various scheme is possible with DODDLE-OWL.

Extracting class template for RDFS,DAML,and OWL basic vocaburalies
  PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
  PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
  PREFIX owl: <http://www.w3.org/2002/07/owl#>
  PREFIX daml03: <http://www.daml.org/2001/03/daml+oil#>
  PREFIX daml10: <http://www.w3.org/2001/10/daml+oil#>

  SELECT ?class WHERE {
       {?class rdf:type rdfs:Class} UNION {?class rdf:type owl:Class} UNION
       {?class rdf:type owl:Restriction} UNION {?class rdf:type owl:DataRange} UNION
       {?class rdf:type daml03:Class} UNION {?class rdf:type daml03:Datatype} UNION
       {?class rdf:type daml03:Restriction} UNION  {?class rdf:type daml10:Class} UNION
       {?class rdf:type daml10:Datatype} UNION {?class rdf:type daml10:Restriction}
  }
Extracting property template for RDFS,DAML,and OWL basic vocaburalies
  PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
  PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
  PREFIX owl:  <http://www.w3.org/2002/07/owl#>
  PREFIX daml03: <http://www.daml.org/2001/03/daml+oil#>
  PREFIX daml10: <http://www.w3.org/2001/10/daml+oil#>

  SELECT ?property WHERE {
      {?property rdf:type rdf:Property} UNION {?property rdf:type owl:ObjectProperty} UNION
      {?property rdf:type owl:DatatypeProperty} UNION {?property rdf:type owl:AnnotationProperty} UNION
      {?property rdf:type owl:FunctionalProperty} UNION {?property rdf:type owl:InverseFunctionalProperty} UNION
      {?property rdf:type owl:SymmetricProperty} UNION {?property rdf:type owl:OntologyProperty} UNION
      {?property rdf:type owl:TransitiveProperty} UNION {?property rdf:type daml03:Property} UNION
      {?property rdf:type daml03:ObjectProperty} UNION {?property rdf:type daml03:DatatypeProperty} UNION
      {?property rdf:type daml03:TransitiveProperty} UNION {?property rdf:type daml03:DatatypeProperty} UNION
      {?property rdf:type daml03:UniqueProperty}  UNION {?property rdf:type daml10:Property} UNION
      {?property rdf:type daml10:ObjectProperty} UNION {?property rdf:type daml10:DatatypeProperty} UNION
      {?property rdf:type daml10:TransitiveProperty} UNION {?property rdf:type daml10:DatatypeProperty} UNION
      {?property rdf:type daml10:UniqueProperty}
  }
Extracting labels and descriptions template for RDFS,DAML,and OWL basic vocaburalies
  PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
  PREFIX daml03: <http://www.daml.org/2001/03/daml+oil#>
  PREFIX daml10: <http://www.w3.org/2001/10/daml+oil#>

  SELECT ?label ?description WHERE {
       {?concept rdfs:label ?label} UNION {?concept rdfs:comment ?description} UNION
       {?concept daml03:label ?label} UNION {?concept daml03:comment ?description} UNION
       {?concept daml10:label ?label} UNION  {?concept daml10:comment ?description}
  }
Extracting class hierarchy template for RDFS,DAML,and OWL basic vocaburalies
  PREFIX  rdfs: <http://www.w3.org/2000/01/rdf-schema#>
  PREFIX daml03: <http://www.daml.org/2001/03/daml+oil#>
  PREFIX daml10: <http://www.w3.org/2001/10/daml+oil#>

  SELECT ?subConcept WHERE {
      {?subConcept rdfs:subClassOf ?concept} UNION {?subConcept rdfs:subPropertyOf ?concept} UNION
      {?subConcept daml03:subClassOf ?concept} UNION {?subConcept daml03:subPropertyOf ?concept} UNION
      {?subConcept daml10:subClassOf ?concept} UNION {?subConcept daml10:subPropertyOf ?concept}
  }
Extracting other relationships template for RDFS,DAML,and OWL basic vocaburalies
  PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
  PREFIX daml03: <http://www.daml.org/2001/03/daml+oil#>
  PREFIX daml10: <http://www.w3.org/2001/10/daml+oil#>

  SELECT ?property ?domain ?range WHERE {
      {?property rdfs:domain ?domain} UNION  {?property rdfs:range ?range} UNION
      {?property daml03:domain ?domain} UNION {?property daml03:range ?range} UNION
      {?property daml10:domain ?domain} UNION {?property daml10:range ?range}
  }

General Ontology Selection Panel

Fig. 16 shows a screenshot of the General Ontology Selection Panel. In the Ontology Selection Module, the users can select reference ontologies. The reference ontologies are used in the other modules in DODDLE-OWL. 5 types of general ontologies as shown in Fig. 16 -1 (WordNet, Japanese, WordNet, Japanese Wikipedia Ontology, EDR general electronic dictionary, and EDR special electronic dictionary) can be used as reference ontologies in DODDLE-OWL. For WordNet, the users can choose either ver.3.0 or ver.3.1. Using general ontologies with checkboxes checked, then build a concept hierarchy in a domain ontology. Depending on the domain, it may not be possible to cover the vocabulary with only one general ontology, so it is possible to combine multiple general ontologies to build domain ontologies.

The namespace table as shown in Fig. 16 -2 manages the correspondence between the namespace URI and its namespace prefix. The users can input a prefix and a namespace in the Fig. 16 -3 and add them by the add button in the right side of Fig. 16 -3.

A screenshot of the General Ontology Selection Panel

A screenshot of the General Ontology Selection Panel

OWL Ontology Selection Panel

Fig. 17 shows a screenshot of the OWL Ontology Selection Panel. The users can select existing OWL ontologies as reference ontologies by the Add (File) or Add (URI) buttons in the Fig. 17 -1.

It is considered that if the ontologies for a target domain exist on the web and can be reused, the cost of refining semi-automatically generated ontologies will be reduced. The ontologies constructed by DODDLE-OWL are described in OWL. Therefore, these ontologies can be reused as reference ontologies in DODDLE-OWL.

OWL meta data of the selected ontology from the ontology list (Fig. 17 -1 ) is shown in the Fig. 17 -3. The users can select SPARQL templates to extract ontological elements in OWL ontologies in the Fig. 17 -2 . The users can use 5 types of SPARQL templates as shown in Extracting ontological elements using SPARQL templates.

A screenshot of the OWL Ontology Selection Panel

A screenshot of the OWL Ontology Selection Panel

Input Document Selection Panel

Fig. 18 shows a screenshot of the Input Document Selection Panel. In the Input Document Selection Panel, the users can select domain specific documents described in English or Japanese. Text data can be extracted from files of various formats (Word, Excel, PowerPoint, and PDF) using Apache POI and Apache PDFBox. At this step, the users can select part of speech (POS) (Noun, Verb, Others, and Compound Word) for extraction of words from the documents.

We describe the details of each part in Fig. 18 below.

A screenshot of the Input Document Selection Panel

A screenshot of the Input Document Selection Panel

  1. Display a list of input documents.
  2. Selects the description language (Japanese or English) of the input document and adds and deletes the input document.
  3. Sets the delimiter of one sentence.
  4. The content of the document selected from the input document list of 1 is displayed.
  5. Whether part-of-speech of words to be extracted, compound words are extracted or not, and whether to extract one word of words are selected.
  6. From the documents selected in the input document list of 1, words of the conditions specified by 5 are extracted.

Input Term Selection Panel

The Input Term Selection Panel is composed of the Input Document Viewer, the Input Term Table, and the Removed Term Table. Each component will be described below.

Input Document Viewer

In the Input Document Viewer, the user can select input terms while viewing the contents of the input document. Fig. 19 shows a screenshot of the Input Document Viewer. The details of each part are described below.

A screenshot of the Input Document Viewer

A screenshot of the Input Document Viewer

  1. Display the input document list.
  2. When displaying the content of the input document selected in 1 to 3, select the line range in the document.
  3. Display the contents of the input document selected in 1. The displayed row range is selected by 2. By clicking on the term to which the hyperlink is placed in the input document, it is possible to select either an input term or an unnecessary term. The blue link represents an input term, and the gray link represents an unnecessary term.
  4. When matching the mouse cursor to the hyperlink of 3, the term name, part of speech, TF, IDF, TF-IDF, and upper concept of the term are displayed.
  5. Sets the number of divided lines for dividing the content of the input document.
  6. The users can manually add terms that could not be extracted. By selecting the range in 3 and right clicking on the mouse, the users can add terms manually as well. For added terms, a blue hyperlink is established in 3.
  7. Select a type (compound words, nouns, verbs, other parts of speech) of the term that makes a hyperlink to the content of the input document displayed in 3.

Input Term Table

In the Input Term Table, it is possible to select input terms from terms automatically extracted from the input documents. Fig. 20 shows a screenshot of the Input Term Table. The details of eatch part of the Input Term Table are shown below.

A screenshot of the Input Term Table

A screenshot of the Input Term Table

  1. Narrows down the term list displayed in 3 by the term entered by the user.
  2. Narrows down the term list displayed in 3 by the part of speech entered by the user.
  3. Display terms automatically extracted from input documents. The term information includes a term name, part of speech, TF, IDF, TF-IDF, and an upper concept of the term, and it is possible to sort the list from each viewpoint. 抽出された語が,あらかじめユーザが用意した参照オントロジー中の概念の下位概念の見出しに含まれる場合,その概念の見出しを上位概念に表示する.概念階層中の上位概念を設定しておくことで,抽出された語を「もの」「場所」「時間」などに分類して表示することができ,入力語選択を支援することができる.
  4. Display the occurrence of the term selected in 3 in the input documents.
  5. A list of input terms finally decided by the users. Since it is a text area, the users can add input terms that did not appear in the input documents.
  6. When “Add to input term list” button is pushed, the term of the line selected in 3 is added to the input term list of 5. When the “remove” button is pushed, the term selected in 3 is transferred to the “removed term table”.
  7. 5に入力された入力語を設定し,入力概念選択パネルに移る.「入力語彙をセット」ボタンを押した場合は,新規に入力語リストを入力概念選択パネルに設定する.「入力語彙を追加」ボタンを押した場合は,設定済みの入力語リストに新たに入力語を追加する.

Removed Term Table

In the Removed Term Table, a list of the term from the Input Term Table is displayed.Fig. 21 shows a screenshot of the Removed Term Table. 削除語情報テーブルの各部分は,入力語情報テーブルと同様である.異なる点は,「戻す」ボタンと「完全削除」ボタンである.「戻す」ボタンにより,誤って削除語情報テーブルに移動させてしまった用語情報を入力語情報テーブルに戻すことができる.「完全削除」ボタンにより,用語情報をリストから完全に削除することができる.

A screenshot of the Removed Term Table

A screenshot of the Removed Term Table

Input Concept Selection Panel

Fig. 22 に入力概念選択パネルを示す.入力概念選択パネルでは,入力語と参照オントロジー中の概念との対応付けを行う.語には多義性があり,ある入力語を見出しとして持つ概念が複数存在する可能性がある.入力概念選択パネルでは,対象領域にとって最も適切な入力語に対応する概念を選択する際の支援を行う.以下に入力概念選択パネルの構成要素の説明を示す.

Input Concept Selection Panel

Input Concept Selection Panel

  1. 用語リスト: 入力語彙の中で参照オントロジー中の概念見出しと完全照合または部分照合した用語のリストを表示する.
  2. 概念リスト: 1で選択された語を見出しとしてもつ参照オントロジー中の概念のリストを表示する.
  3. 概念情報: 2で選択された概念の見出しおよび説明を言語ごとに分類して表示する.
  4. 未定義語リスト: 参照オントロジー中の概念の見出しと照合しなかった入力語(未定義語)を表示する.
  5. 概念階層: 2で選択された概念の参照オントロジー中の概念階層を表示する.
  6. 入力文書: 1で選択された語の入力文書中の出現箇所を表示する.
  7. 階層構築オプション: 階層構築における条件を設定する.

Term List

Fig. 23Fig. 22 -1 用語リストを拡大した図である.以下では,入力概念選択パネルの用語リストの各部分について説明する.

Input Concept Selection Panel: Term List

Input Concept Selection Panel: Term List

  1. テキストフィールドに検索キーワードを入力し,検索ボタンを押すと2および3の完全照合語リストおよび部分照合語リストに検索キーワードを含む入力語のみが表示される.

  2. 完全照合語リストを表示する.1番目の括弧内には,入力語を見出しとする参照オントロジー中の概念の数が表示される.システムが自動的に追加した入力語は,2番目の括弧内に「自動追加」と表示される.

  3. 部分照合語リストを表示する.1 番目の括弧内には,部分照合語を形態素解析し,各形態素を「+」記号で結合した結果が表示される.2 番目の括弧内には,参照オントロジー中の概念の見出しと照合した部分照合語内の語が表示される.3 番目の括弧内には,2 番目の括弧内に表示された語を見出しとする参照オントロジー中の概念の数が表示される.

  4. 完全照合語リストに関する設定を行うことができる.

    1. 「意味数」チェックボックスは,完全照合語リスト中の各語を見出しとする参照オントロジー中の概念の数を表示するかどうかを設定するオプションである.
    2. 「システムが追加した入力語」チェックボックスは,システムが自動的に追加した語かどうかを完全照合語リスト中の語に提示するかどうかを設定するオプションである.部分照合語の中で参照オントロジー中の概念と照合した語を,ユーザが入力語として追加していなかった場合に,システムはその語を自動的に完全照合語として完全照合語リストに追加する.例えば,「資格取得日」をユーザが入力語として選択した場合,「資格取得日」自体は参照オントロジー中の概念の見出しに存在しないため,部分照合語となる.「資格取得日」の「日」に対して部分照合したとする.ここで,ユーザが「日」を入力語として選択している場合には問題ない.しかし,「日」をユーザが入力語として選択していなかった場合には,「日」が自動的に完全照合語リストに追加される.システムが自動的に追加した語には,「(自動追加)」と表示される.
    3. 「入力概念選択結果を対応する部分照合語リストに適用」チェックボックスは,完全照合語の入力概念選択結果を,その完全照合語に照合した部分照合語リストの入力概念選択に反映させるかどうかを設定するためのオプションである.例えば,完全照合語「日」に対して入力概念選択を行った結果を,部分照合語リスト中の「資格取得日」や「研究日」などにも反映させるかどうかを設定することができる.
  5. 部分照合語リストに関する設定を行うことができる.

    1. 「意味数」チェックボックスは4の完全照合語リストのオプションにおける「意味数」と同様である.
    2. 「形態素リスト」チェックボックスは,部分照合語を形態素解析器で形態素に分割したときの分割のされ方を表示するか否かを設定するためのオプションである.このオプションを有効にした場合,例えば,「資格取得日」に対して,「(資格+取得+日)」が表示される.「+」記号は形態素の区切りをあらわす.
    3. 「照合結果」チェックボックスは,部分照合語の形態素リストの中で,参照オントロジー中の概念と照合した形態素リストを表示するか否かを設定するオプションである.このオプションを有効にした場合,例えば,「資格取得日」は,「日」で照合しているため,「(日)」と表示される.
    4. 「選択中の完全照合語に対応する複合語のみ表示」チェックボックスは,完全照合語リストで選択した語を照合語とする部分照合語のみを表示するか否かを設定するためのオプションである.このオプションを有効にした場合,例えば,完全照合語リスト中の「日」を選択した場合,「資格取得日」や「研究日」など「日」と照合した部分照合語のみが部分照合語リストに表示される.
  6. 入力語の追加および削除を行うことができる.

Concept List

Fig. 24Fig. 22 -2「概念リスト」を拡大した図である.

Input Concept Selection Panel: Concept List

Input Concept Selection Panel: Concept List

概念リストは,Fig. 23 -2 または-3で選択した完全照合語または部分照合語を見出しとして持つ参照オントロジー中の概念のリストを表示する.Fig. 24 は,「エネルギー」を見出しとして持つ参照オントロジー(この例では日本語WordNetを参照オントロジーとしている)中の概念リストを示している.リストの項目は,三つの部分から構成されている.左側は,入力モジュールの設計で述べた,自動概念選択方法により求めた,入力語に対応する概念候補の評価値を示す.入力語に対応する概念候補は,評価値の降順に並び替えて表示される.評価値が高い概念ほど,より入力概念となる可能性が高い概念となる.中央は概念のID をあらわす.概念のID はURIで表され,画面上には修飾名が表示される.jwn は日本語WordNet の名前空間接頭辞を示しており,ここで表示される接頭辞は,汎用オントロジー選択パネル ( Fig. 16 -2) で示した名前空間テーブルで設定した名前空間接頭辞となる.右側には,概念の見出しが複数ある場合,そのうちのいずれか一つが表示される.

Concept Information

Fig. 25Fig. 22 -3「概念情報」を拡大した図である.

Input Concept Selection Panel: Concept Information

Input Concept Selection Panel: Concept Information

「概念情報」には,Fig. 24 の「概念リスト」で選択された概念の見出しと説明が表示される.「言語」リストで選択した言語の見出しおよび説明が「見出し」リストおよび「説明」リストに表示される.Fig. 25 下部の「構築オプション」では,概念階層の構築方法を設定することができる.「構築オプション」には,Fig. 23 「用語リスト」で選択する用語の種類に応じて3 種類の表示方法がある.Fig. 23 -2で完全照合語を選択した場合,Fig. 25 左側のように「構築オプション」には何も表示されない.Fig. 23 -2でシステムが自動的に追加した完全照合語(「自動追加」が表示される完全照合語)を選択した場合には,Fig. 25 中央のように「構築オプション」には「下位概念に置換」するかどうかを選択するチェックボックスが表示される.Fig. 23 -3で部分照合語を選択した場合には Fig. 25 右側のように「構築オプション」には,「同一概念」か「下位概念」かの選択をするためのラジオボタンが表示される.

Note

部分照合語の照合部分の語をユーザが入力語としていない場合には,システムは自動的にその語を入力語として追加する.これを完全照合語(自動追加)と呼ぶ.

Fig. 25 中央の「構築オプション」の例として,「火力発電」のみを入力語とした場合を考える.この場合,「火力発電」は部分照合語となり,「発電」と照合するため,「発電」はシステムにより自動的に完全照合語リストに追加される.「発電」の入力概念選択を行う際に,Fig. 25 中央の「構築オプション」として「下位概念に置換」というチェックボックスが表示される.ここでは,「発電」はシステムが自動的に追加した語であるため,ユーザがあえて「発電」を入力語としなかったのか,入力語にし忘れたかの確認をしている.ユーザがあえて「発電」を入力語にしなかった場合,概念階層中に「発電」は含まれるべきではない.「構築オプション」の「下位概念に置換」をチェックすることにより,「火力発電」は「発電」の下位概念とはならず,概念階層中に表示されない.ユーザが「発電」を入力語に追加し忘れた場合には,「構築オプション」の「下位概念に置換」にチェックをいれなければ,「火力発電」は「発電」の下位概念として概念階層が構築される.

Fig. 25 右側の「構築オプション」の例として,「発電」と「火力発電」を入力語とした場合を考える.上記と同様に「火力発電」は「発電」で照合する部分照合語である.「火力発電」の入力概念選択を行う際に,Fig. 25 右側の「構築オプション」が表示される.「同一概念」のほうを選択した場合は,概念階層構築時に「火力発電」は「発電」と同一概念として扱われる.つまり,「火力発電」は「発電」概念に対応する参照オントロジー中の概念の別見出しとして概念階層が構築される.一方,「下位概念」のほうを選択した場合は,「火力発電」は「発電」とは異なる概念,ここでは,「発電」の下位概念として概念階層が構築される.初期状態において,部分照合語を「同一概念」とみなすか,「下位概念」とみなすかは,オプションダイアログにより設定することができる.

Construct Concept Tree Option

Fig. 26Fig. 22 -7「階層構築オプション」を拡大した図である.

Input Concept Selection Panel: Construct Concept Tree Option

Input Concept Selection Panel: Construct Concept Tree Option

「階層構築オプション」では,クラスおよびプロパティ階層構築モジュールにおいて,クラスおよびプロパティ階層を構築する際のパラメータの設定を行う.「階層構築オプション」は,「完全照合オプション」および「部分照合オプション」から構成される.

Fig. 26 の「完全照合オプション」では,完全照合語リストから概念階層を構築する際の設定を行う.「構築」チェックボックスでは,完全照合語リストから概念階層を構築するかどうかを選択する.「剪定」チェックボックスでは,概念階層構築時に剪定を行うかどうかを選択する.「参照オントロジーの概念見出しを追加」チェックボックスでは,概念階層構築時に,各概念の見出しとして,入力語として与えた語のみを概念の見出しとするか,対応する参照オントロジー中の概念の見出しをすべて利用するかどうかを選択する.

Fig. 26 の「部分照合オプション」では,部分照合語リストから概念階層を構築する際の設定を行う.「構築」チェックボックスでは,部分照合語リストから概念階層を構築するかどうかを選択する.「剪定」チェックボックスでは,概念階層構築時に剪定を行うかどうかを選択する.「抽象概念を追加」チェックボックスでは,部分照合語リストから概念階層を構築する際に,語頭による階層化を行うかどうかを選択する.このチェックボックス右側のテキストフィールドには,いくつ以上グループ化できる場合に共通の上位概念を挿入するかを設定する.

Fig. 26 右端にある「クラス階層構築」ボタンを押すと,上記の階層構築オプションに基づいて,クラス階層構築パネルにクラス階層のみが構築される.「クラスおよびプロパティ階層構築」ボタンを押すと,上記の階層構築オプションに基づいて,クラス階層構築パネルおよびプロパティ階層構築パネルに,クラス階層およびプロパティ階層が構築される.クラス階層とプロパティ階層の両方を構築するためには,参照オントロジーとしてEDR一般辞書またはプロパティ階層を含むOWLオントロジーを設定しなければならない.

Construct Class Tree Panel

Fig. 27 にクラス階層構築パネルを示す.

Construct Class Tree Panel

Construct Class Tree Panel

以下に各部分の説明を示す.

  1. 未定義語リスト: 参照オントロジー中の概念に照合しなかった入力語リスト.リストから語を選択し,「Is-a 階層パネル」にドラッグ&ドロップすると,未定義語を概念としてIs-a 階層に追加できる.
  2. 概念情報パネル: 概念階層中の選択された概念のURI,優先見出し(階層中に表示する見出し),見出し,説明,概念変動管理情報を表示する.見出しと説明については,言語属性の付与と追加,編集,削除ができる.
  3. 概念階層パネル: Is-a 階層とHas-a 階層.概念の検索,追加,削除などを行うことができる.
  4. 概念変動管理パネル: 照合結果分析結果,剪定結果分析結果,多重継承している概念をリストで表示し,各項目を選択するとIs-a 階層中の修正候補箇所が選択される.

以下では, Fig. 27 2から4の詳細を説明する.

Concept Information Panel

Fig. 28Fig. 27 -2. 概念情報パネルを拡大した図である.

Construct Class Tree Panel: Concept Information Panel

Construct Class Tree Panel: Concept Information Panel

以下では,概念情報パネルの各部分について説明する.

  1. 名前空間接頭辞をコンボボックスから選択し,ローカル名をテキストフィールドに入力し,「URI の設定」ボタンを押すことで,選択した概念のURI を変更することができる.汎用オントロジー選択パネル ( Fig. 16 -2) で示した名前空間テーブルに定義された名前空間接頭辞が選択可能である.
  2. 概念の見出しを編集するための領域である.「言語」リストの項目を選択することで,選択した言語の見出しが「見出し」リストに表示される.Fig. 28 -2 では,日本語見出しとして「発電」が表示されている.Fig. 28 -2 下部の「言語」と「テキスト」テキストフィールドに追加したい見出しの言語とテキストを入力し,「追加」ボタンを押すことで概念の見出しを追加することができる.また,選択した見出しを編集したい場合には「編集」ボタンを,削除したい場合には「削除」ボタンを押すことにより,見出しの編集および削除を行うことができる.また,「優先見出しの設定」ボタンを押すことで,選択された見出しがIs-a 階層およびHas-a 階層パネルの概念の表示用の見出しとなる.
  3. 概念の説明を編集するための領域である.見出しと同様に「言語」リストの項目を選択することで,選択した言語の説明が「説明」リストに表示される.
  4. 概念変動管理情報を表示・編集するための領域である.「ノードのタイプ」は,編集対象のノードがSIN(参照オントロジーから抽出した概念)かベストマッチノード(入力概念)かを表示する.SIN の中でベストマッチノードとしたいノードについては,ここでノードのタイプをSIN からベストマッチに変更することができる.「剪定概念数」は,階層構築時の剪定により,選択された概念とその上位概念の間の概念がいくつ削除されたかを表示している.「多重継承」は,編集対象のノードが多重継承をしているかしていないかを表している.多重継承をしている場合は「true」,していない場合は「false」と表示される.
  5. 3 の「追加」または「編集」ボタンを押すと表示される.「言語」と「説明」を入力し,「OK」ボタンを押すと,概念の説明の追加や編集を行うことができる.また,「削除」ボタンにより選択された概念の説明を削除することができる.

Is-a and Has-a Hierarchy Panel

Fig. 29Fig. 27 -3を拡大した図である.Fig. 29 の左側がIs-a 階層パネルを右側がHas-a階層パネルを示している.

Construct Class Tree Panel: Is-a and Has-a Hierarchy Panel

Construct Class Tree Panel: Is-a and Has-a Hierarchy Panel

  1. 概念階層中の概念を検索するための領域である.テキストフィールドに検索キーワードを入力し,「検索」ボタンを押すと検索オプションを満たす概念が選択される.候補が複数ある場合には,「次」ボタンまたは「前」ボタンで別の概念候補に移動できる.検索オプションとしては,言語,概念の見出し,概念の説明が選択できる.また,「完全一致検索」チェックボックスにチェックをいれると,入力した検索キーワードと完全に一致する見出しや説明を含む概念のみが検索される.「完全一致検索」チェックボックスにチェックが入っていない場合は部分一致検索となり,検索キーワードを見出しまたは説明の一部に含む概念が検索される.「URI 検索」チェックボックスにチェックをいれると,概念のURI も検索対象となる.「大文字と小文字の区別」チェックボックスにチェックをいれると,英語見出しまたは説明を検索する際に,大文字と小文字を区別して検索する.
  2. Is-a 階層およびHas-a 階層の編集に利用可能なツールバー.ツールバーは,階層中の概念をマウスで右クリックした際に表示される, Fig. 30 のポップアップメニューと同様の機能を持つ.
  3. Is-a 階層とHas-a 階層を表示・編集するためのパネル.2のツールバーまたは概念を選択して,マウスを右クリックすることで表示されるポップアップメニューから,概念の追加,削除などを行うことができる.
Construct Class Tree Panel: Popup menu

Construct Class Tree Panel: Popup menu

Fig. 30 はIs-a 階層パネルのポップアップメニューを示している.Is-a 階層パネルとHas-a階層パネルの主な違いとして,Has-a 階層パネルではIs-a 階層パネルで定義された概念を用いてHas-a 関係を定義する点が異なる.また,Has-a 階層では,以下で説明する「概念の削除」を行うことはできない.

DODDLE-OWLにおける概念の削除は3 種類ある.「概念の削除」は削除対象のノードと同一URI を持つノードおよびその下位ノードをすべて削除する.「上位概念へのリンクを削除」は,多重継承している場合に削除対象のノードとその上位ノードの間の関係を削除する.「中間概念の削除」は,削除対象のノードを削除し,その下位ノードを削除対象のノードの上位ノードの下位ノードとして定義する.

Construct Class Tree Panel: Node icon

Construct Class Tree Panel: Node icon

クラス階層構築パネルにおけるIs-a 階層パネルとHas-a 階層パネルのクラスには, Fig. 31 に示す4 種類がある.

Concept Drift Management Panel

Fig. 32Fig. 27 -4 概念変動管理パネルの各タブを展開し,拡大した図である.

Construct Class Tree Panel: Concept Drift Management Panel

Construct Class Tree Panel: Concept Drift Management Panel

以下では,概念変動管理パネルの各部分について説明する.

  1. 照合結果分析の結果をリストで表示する.リストの項目はSIN ノードであり,項目を選択するとIs-a 階層中の該当する部分木が選択される.また,照合結果分析結果を確認し修正する必要がない場合,もしくは,修正後に「照合結果分析結果の確認」ボタンを押すことで,選択した項目をリストから削除することができる.
  2. 剪定結果分析の結果をリストで表示する.2下部の「剪定概念リスト」は,概念階層構築時に剪定された,選択した概念とその上位概念の間の概念が提示されている.「剪定結果分析」ボタンを押すと,ボタン左側のテキストフィールドに指定した数よりも多くの中間概念が削除された概念をリストに表示する.また,剪定結果分析結果を確認し,修正する必要がない場合,もしくは,修正後に「剪定結果分析結果の確認」ボタンを押すことで,選択した項目をリストから削除することができる.(当該概念の剪定概念数がゼロとなる)
  3. 多重継承している概念のリストを表示する.リストの項目を選択すると,3下部に多重継承しているノードのリストが表示される.このノードを選択すると,Is-a 階層パネル中の概念に移動し,ノードを選択する.「上位概念へのリンクを削除」ボタンを押すと,選択した概念と上位概念の間の関係が削除される.

Construct Property Tree Panel

Fig. 33 にプロパティ階層構築パネルを示す.

Construct Property Tree Panel

Construct Property Tree Panel

プロパティ階層構築パネルの構成要素の大部分は,クラス階層構築パネルと同様である.異なる点は, Fig. 33 -1の概念定義パネルがある点である.概念定義パネルは,汎用オントロジーとしてEDR 一般辞書を指定し,プロパティ階層を構築した場合,EDR 概念記述辞書における,agent およびobject の関係にある概念を定義域および値域として自動的に定義している.また,クラス階層を参照し,定義域および値域の追加を行うことも可能である.

Construct Property Tree Panel: Node icon

Construct Property Tree Panel: Node icon

プロパティ階層構築パネルにおけるIs-a 階層パネルとHas-a 階層パネルのプロパティには, Fig. 34 に示す4 種類がある.

Construct Relationship Panel

Fig. 35 に,関係構築パネルのスクリーンショットを示す.

Construct Relationship Panel

Construct Relationship Panel

以下では,関係構築パネルの各部分について説明する.

  1. WordSpace パラメータの設定を行う.WordSpace のパラメータとしては,N-gram,N-gram 出現頻度,文脈スコープ(前,後N 語),文脈類似度の閾値を設定できる.「WordSpace の実行」ボタンを押すと結果が5に表示される.
  2. Apriori パラメータの設定を行う.Apriori のパラメータとしては,最小支持度および最小確信度を設定できる.「Apriori」の実行ボタンを押すと結果が5に表示される.
  3. 入力語選択パネルで選択した入力語が表示される.
  4. 入力文書選択パネルで選択した入力文書が表示される.
  5. 3で選択した入力語と関連のある入力語を関係値と共に表示する.関係値の高い順に表示される.WordSpace,Apriori,WordSpace およびApriori のアルゴリズムの関係値をタブで切り替えて表示することができる.
  6. 3で選択した入力語と関連のある5で選択された語を表示し,正解概念対または不正解概念対として7または8に追加する.矢印の向きによって,定義域と値域が変化する.
  7. 定義域,プロパティ,値域が表示される.プロパティは,プロパティ階層構築パネルから選択することができる.
  8. 不要な概念対が表示される.不要な概念対は,概念定義の候補となる概念対集合から削除されるため,残りの概念定義を行いやすくなっている.

Option Dialog

「ツール」→「オプションダイアログを表示」メニューを選択するとオプションダイアログが表示される.オプションダイアログでは,DODDLE- OWLにおける様々な設定を行うことができる.オプションダイアログは,「基本」,「フォルダ」,「入力概念選択」,「複合語」,「表示」の各タブから構成 されている. オプションダイアログの下部にある4つのボタンは,それぞれ,設定の保存,設定の適用,設定の削除,オプションダイアログを閉じるために用意されている.「保存」ボタンは,オプションダイアログで設定した内容をWindowsのレジストリに保存することができる(Unixの場合はXML形式 等でユーザごとのフォルダに保存される).ここで保存した内容は,DODDLE-OWLを再起動後も有効となる.「削除」ボタンによりレジストリに保存された設定を削除できる.以下では,それぞれのタブについて説明する.

Basic Tab

Fig. 36 にオプションダイアログの基本タブを示す.基本タブでは,「言語」,「基本接頭辞」,「基本URI」の設定を行うことができる.「言語」では DODDLE-OWLユーザインタフェースのメニュー等の表示言語や概念の見出しが複数言語用意されていた場合のデフォルト言語を設定するために用いる. 「基本接頭辞」では,OWL形式で領域オントロジーを保存する際の基本URIの接頭辞を設定する.「基本URI」では,OWL形式で領域オントロジーを保 存する際の基本URIを設定する.

Option Dialog: Basic Tab

Option Dialog: Basic Tab

Folder Tab

Fig. 37 にオプションダイアログのフォルダタブを示す.フォルダタブでは,DODDLE-OWLが参照する外部プログラムや辞書データなどのパスを設定する.以下にフォルダタブで設定する項目を示す.

プロジェクトフォルダ
DODDLE-OWLのプロジェクトファイルを保存する際に最初に開かれるフォルダのパスを設定.
ストップワードリスト
ストップワードリストを保存したファイルのパスを設定.ストップワードリストは,入力文書から単語を抽出する際に抽出を行うべきではない単語集合を保存するファイル.
EDR辞書フォルダ
EDR概念体系辞書とEDR概念記述辞書をDODDLE-OWLが参照する形式に変換したファイルを置いたフォルダを設定.
EDRT辞書フォルダ
EDR専門辞書をDODDLE-OWLが参照する形式に変換したファイルを置いたフォルダを設定.
日本語形態素解析器
ChasenまたはMecabの実行ファイルのパスを設定.
日本語係り受け解析器
Cabochaの実行ファイルのパスを設定.
perl.exe
perlの実行ファイルのパスを設定.
上位概念リスト
上位概念リストを保存したファイルのパスを設定.上位概念リストは入力単語を選択する際に参照される.ある入力単語が設定した上位概念の下位概念の見出しとして存在する場合に入力単語テーブルに表示される.
Option Dialog: Folder Tab

Option Dialog: Folder Tab

Input Concept Selection Tab

Fig. 38 にオプションダイアログの多義性解消タブを示す.入力概念選択タブでは,半自動的に入力概念選択を行う際のオプションを設定する.詳細は,入力概念選択の半自動化を参照.

Option Dialog: Input Concept Selection Tab

Option Dialog: Input Concept Selection Tab

Comound Word Tab

Fig. 39 にオプションダイアログの複合語タブを示す.複合語タブでは,多義性解消パネルにおける部分照合単語のオプションを設定する.ユーザがこのオ プションを選択しない場合に,デフォルト状態として,部分照合単語を階層構築時に照合した概念の「下位概念」とするか「同一概念」とするかをラジオボタン で設定できる.

Option Dialog: Compound Word Tab

Option Dialog: Compound Word Tab

Display Tab

Fig. 40 にオプションダイアログの表示タブを示す.表示タブでは,クラス階層構築パネル及びプロパティ階層構築パネルにおいて,クラスまたはプロパ ティのノードを表示する際に,接頭辞を表示するかどうかを選択することができる.「修飾名を表示」にチェックをいれた場合,クラスまたはプロパティの名前 空間接頭辞がそれぞれのパネルに表示される.

Option Dialog: Display Tab

Option Dialog: Display Tab

Toolbar

Icons and functions in the toolbar in DODDLE-OWL
Icon Function
_images/page_white.png
New Project
_images/folder_page_white.png
Open Project
_images/disk.png
Save Project
_images/page_save.png
Save Project Asプロジェクトを名前を付けて保存
_images/plugin.png
DODDLE Dic Converter
_images/cog.png
Show Option Dialog
_images/help.png
Show Version Dialog

Shortcut keys

  • Ctrl-N
    • New Project
  • Ctrl-O
    • Open Project
  • Ctrl-S
    • Save Project
  • Ctrl-Shift-S
    • Save Project As
  • Ctrl-Q
    • Quit
  • F1
    • Show Version Dialog

References

[Agrawal94]
  1. Agrawal, and R. Srikant, “Fast Algorithms for Mining Association Rules in Large Databases,” Processing of the 20th International Conference Very Large Data Bases, VLDB, pp.487.499, Morgan Kaufmann, 1994.
[Buitelaar04]
  1. Buitelaar, “OntoSelect: Towards the Integration of an Ontology Library, Ontology Selection and Knowledge Markup,” Proceedings of the Workshop on Knowledge Markup and Semantic Annotation (Semannot2004), 2004,http://olp.dfki.de/ontoselect.
[Ding05]
  1. Ding, R. Pan, T. Finin, A. Joshi, Y. Peng, and P. Kolari, “Finding and Ranking Knowledge on the Semantic Web,” Proceedings of the 4th International Semantic Web Conference, LNCS 3729, pp.156?170, 2005, http://swoogle.umbc.edu/.
[Hearst96]M.A. Hearst, and H. Sch¨utze, “Customizing a Lexicon to Better Suit a Computational Task,” Corpus Processing for Lexical Acquisition, pp.77–96, MIT Press, 1996.
[hommeaux08]
  1. Prud’hommeaux, and A. Seaborne, “SPARQL Query Language for RDF,” W3C Recommendation, 2008, http://www.w3.org/TR/rdf-sparql-query/.
[Isahara08]Hitoshi Isahara, Francis Bond, Kiyotaka Uchimoto, Masao Utiyama and Kyoko Kanzaki, Development of Japanese WordNet. In LREC-2008, Marrakech.
[Koide06]小出誠二,森田武史,山口高平,ムリアディヘンドリー,武田英明,“WordNet とEDR のOWL 表現,” 人工知能学会セマンティックWeb とオントロジー研究会SIGSWO-A601-03,2006.
[Kurematsu04]
  1. Kurematsu, T. Iwade, N. Nakaya, and T. Yamaguchi, “DODDLE II : A Domain Ontology Development Environment Using a MRD and Text Corpus,” IEICE transactions on information and systems, vol.87, no.4, pp.908-916, 2004.
[Miles05]
  1. Miles, and D. Brickley, “SKOS Core Guide,” , 2005, http://www.w3.org/TR/swbp-skos-core-guide/.
[Miller95]G.A.Miller, “WordNet: A Lexical Database for English,” Commun. ACM, vol.38, no.11, pp.39?41, 1995.
[Motoda06]元田浩,津本周作,山口高平,沼尾政行,データマイニングの基礎,オーム社,2006.
[Morita06]Takeshi Morita, Noriaki Izumi, Naoki Fukuta, Takahira Yamaguchi, “A Graphical RDF-based Meta-Model Management Tool”, IEICE Transactions on Information and Systems, Special Issue on Knowledge-Based Software Engineering Vol.E89-D No.4 pp.1368-1377, (2006), DOI: 10.1093/ietisy/e89-d.4.1368
[Nakagawa03]中川裕志,森辰則,湯本紘彰,“出現頻度と連接頻度に基づく専門用語抽出,” 自然言語処理,vol.10,no.1,pp.29–35,2003,http://gensen.dl.itc.u-tokyo.ac.jp/.
[Nakayama06]中山浩太郎,原隆浩,西尾章治郎,“Wikipedia マイニングによるシソーラス辞書構築手法,” 情報処理学会論文誌,vol.47,no.10,pp.2917?2928,2006,http://wikipedialab.org/.
[Page98]
  1. Page, S. Brin, R. Motwani, and T. Winograd, “The PageRank Citation Ranking: Bringing Order to the Web,” Technical report, Stanford Digital Library Technologies Project, 1998, http://citeseer.ist.psu.edu/page98pagerank.html.
[Yamaguchi99]山口高平,槫松理樹,青木千鶴,関内律恵子,加賀山茂,吉野一,“計算機可読型辞書を利用した領域オントロジー構築支援環境,” 人工知能学会誌,vol.14,no.6,pp.1080–1087,1999.
[Tamagawa10]玉川 奨,桜井 慎弥,手島 拓也,森田 武史,和泉 憲明,山口 高平,”日本語Wikipediaからの大規模オントロジー学習”,人工知能学会論文誌 Vol. 25 No.5 pp.623-636 (2010) DOI: 10.1527/tjsai.25.623.
[Yokoi95]
  1. Yokoi, “The EDR Electronic Dictionary,” Commun. ACM, vol.38, no.11, pp.42-44, 1995, http://www2.nict.go.jp/r/r312/EDR/.

Index