1. 概要

地球環境データを相互に共有し検索することを可能にするためには、すべてのデータを共通の形式で記述するか、複数の形式の間で相互に変換するための規則を定めておく必要がある。そのような標準的な構文形式としてXMLを用いるための研究を進める。

2. 地球環境データの定義・操作のためのマークアップ言語

以下の文章は、「ネットワークに基づく分散型地球環境データベースの構築に関する研究開発最終成果報告書」の記述を抜粋し、その後の変化を反映するように随時アップデートしているものである。

小野欽司, 北本朝展, 計宇生, フレデリックアンドレス, "ネットワークに基づく分散型地球環境データベースの構築最終成果報告書", 平成13年度創造的情報通信技術研究開発推進制度最終成果報告書 (III), 通信・放送機構, pp. 1327-1450, 2002年11月 [ 概要 ]

はじめに

地球環境データを相互に共有し検索することを可能にするためには、すべてのデータを共通の形式で記述するか、複数の形式の間で相互に変換するための規則を定めておく必要がある。このような形式の必要性はかなり以前から繰り返し議論されてはきたが、地球環境データには複数の地球観測衛星、それも異なる機関から打ち上げられた地球観測衛星が含まれることから、実際のところ地球観測衛星のデータフォーマットを統一することさえ部分的にしか実現できていない。また、地球環境データの利用者は、少数の地球環境データを対象として、自分の興味に沿った独自の処理をおこなうことが多いため、他の利用者の利便性までを考慮した統一的な形式定義に対する関心が、あまり高くなかったという事情も否定できない。

しかし、地球環境データを用いた研究が広がりや深みを見せるにつれて、利用者が多くの種類の地球環境データにアクセスする必要性が増しており、複数の地球環境データを検索し、組み合わせ、加工するという作業を支援する統一的なフォーマットに関するニーズも高まりつつある。ゆえに、(1) データに関する記述（メタデータ）を統一すること、(2) 複数の地球環境データを効率的に検索すること、という、二つの作業を支援するための、フォーマットおよびプロトコルの研究が重要な課題となってきた。

このような長年の課題に対して、近年の大きな変化が影響を与えつつある。まず第一の潮流として、XML (Extensible Markup Language) がデータの記述フォーマットとしての存在感を増してきた。XML の利点は、自己記述的(self-describing)なデータを比較的容易に生成処理できることにある。そして少なくとも構文(syntax)のレベルでは、多様なデータを、統一的な形式で記述することができる。さらに、XML文書のためのパーサやコンバータなど、膨大なソフトウェア資産を流用でき、多様なコンピュータ環境における互換性にも優れている。

第二の潮流は、デジタルアース計画や電子政府計画などに端を発する、大規模地理情報空間の構築へと向かう世の中の動きである。すべての地理的情報を統一的な座標系のもとで記述するという大規模なプロジェクトなどの影響により、少なくとも地理的情報の記述に関しては統一的なフォーマットが実現しつつある。これらを背景として、本研究では地球環境データを定義するための言語および操作するための言語を定めることとした。

ここでデータ定義言語は、地球観測データの記述だけではなく、これらを処理して得られる２次データや３次データの記述にも用いる。また処理手順とデータとを関連させて記述することにより、自己記述的な地球環境データを生成できる。また地球環境データから抽出した画像特徴などに関してもデータ定義言語を用いて記述することにより、このメタデータを対象にした地球環境データの検索を統合的におこなうことも可能となる。

一方、データを操作するための言語を設計するには、データを定義するための言語とは異なる設計が必要である。データの操作方法はほとんど無限に存在し、これらをすべて言語仕様に取り込むことは不可能であるから、データ操作方法の形式化から基本的な操作を抽出し、その他の多くの操作を基本操作の組み合わせとして実現する、ということに関する考察が必須である。そこで地球観測衛星データを中心とする地球環境データの検索操作に着目し、このような検索操作に適したデータ操作言語の設計を研究の目的とする。また、そのような検索操作をネットワーク経由で可能とするようなプロトコルについても考察する。

データ定義言語

データ定義言語(data definition language)は情報を記述する言語であり、情報の利用の仕方とは独立に、情報を宣言的なデータとして表現するための言語である。一般的にデータ定義言語では、情報内容の記述に加え、情報内容の無矛盾性を保証するための一貫性制約も記述できることが求められる。そして、情報内容を系統的に記述できるような見通しのよい言語を得るためには、対象とする問題領域に関する深く体系的な知識が必要となる。このような知識体系を一般的に構築するのは困難であるため、問題領域ごとの知識体系を反映したデータ定義言語を定め、情報の相互運用性を高めることを目的とするプロジェクトが、近年は活発化してきている。

その背景には、インターネットの普及に伴うデータ交換の活発化と、それを支える技術としてのXMLの登場がある。これまでバラバラなフォーマットで記述されていたデータ定義言語に対して、XMLはその標準的な構文規則を提供する。そのためXMLは、さまざまな分野において独自のマークアップ言語を作り出す動きを加速し、XML構文を用いたマークアップ言語が各分野で一気に花開くこととなった。また、複数のマークアップ言語をXML名前空間を用いて共存させるメカニズムは、既存のマークアップ言語の拡張や相互運用性に優れた新たなマークアップ言語の定義にも有用な仕組みとして活用されている。

ただし当然のことながら、XMLはデータ定義言語の構文を定めるものに過ぎず、これさえ使えばすべての問題が解決する、という万能薬のたぐいではない。したがって、同じ情報内容を同じ要素を用いて（同じ順序で）記述するという約束事を守らなければ、意味を正しく伝達することはできない。実際のところ、以下のような意味に関する本質的な問題は、XMLの枠内では解決することができないのである。

まず、問題領域において記述すべき情報内容、および情報内容を表す語彙を決定する方法については、XMLの範囲外である。要素間の意味的な関連なども、XMLの枠内では記述することができない。
非常に類似した情報内容に対して複数の要素が定義されても、それらの意味的な違いを明確に表現することはできない。一方で、自分が表現したい情報内容に最適な要素が、既存のデータ定義言語にない場合には、データ定義言語を自ら拡張しなければならない。

このように、情報内容の選定および語彙の選択に系統的な方法を導入することが困難であるため、データ定義言語は専門家の意見や観点、知識体系の相違を反映し、複数のデータ定義言語が同一あるいは隣接した分野に並立することにもなりやすい。以上の点を考えると、XML自身は意味を扱うわけではなく、むしろ「意味に関する情報を伝達することができる」存在であるとみなすべきであろう。

では、XMLの上で本当に意味を扱うためにはどうすればよいのだろうか。まずは、XML 要素の意味および使い方を厳密に定義すれば、意味を共有できるのではないかとまず最初に考えるだろう。このような試みの代表的なものの一つに、Dublin Core Metadata Initiativeがある。

これは、文書の基本的な要素（Dublin Core Ver 1.1 では15要素）の意味を定義するためのメタデータ記述規則を定めるものであり、図書館における標準化された目録カードの発想に近いものと言える。ただしこの試みは意味定義に特化するものであって、構文定義については対象外としているため、これを記述するための具体的な構文定義として、XML構文によってメタデータを記述するための枠組みであるRDF (Resource Description Framework) が使われることが多くなってきた。

しかし、個々の要素の定義を厳密に定めたとしても、異なる体系の間で意味を共有することはできないし、また要素間の推論規則を定めることもできない。ならば、XMLという構文規則の上に、より深い意味を扱うための推論規則を次々に重ねていき、階層的な構造を用いて意味を扱えばよいのではないか。そんな考えに基づくものがSemantic Webである。Semantic Webに関する活動は多岐にわたるが、その中でも先述のRDFやWebサービス、そして異なる意味体系の間で知識を共有するための仕組みであるオントロジー(ontology)などに関する研究が進みつつある。

データ操作言語

データ操作言語(data manipulation language)とは、データの検索や登録など、様々なデータベース操作をサポートするための言語である。データ操作言語は概念スキーマを用いて記述され、データを定義するための言語とは異なるスキーマをもつ。データ操作言語で用意すべき命令とは、情報構造の利用方法やデータベースの成長に伴って変化するため、原理的には無数の命令が必要となり、あらかじめすべての処理命令を特定しておくことはできない。

この種の言語で最大の成功を収めているのはSQL(Structured Query Language)である。これは関係代数という数学的理論を背景とすることが大きな特徴である。また、選択(selection)、射影(projection)、結合(join)などごく少数の演算子の組み合わせで複雑な操作を記述できることも魅力的であり、実際にこの言語は関係データベースの検索には非常に強力である。しかし関係代数の範疇に入らない情報構造に関する検索操作は難しく、特にデータマイニングのように多様な操作の組み合わせからデータを特徴付けるための機能に対しては、関係代数の枠組みが適しているとは必ずしもいえない。

このような問題があることは広く認識されており、それらの問題点に対する関係代数の拡張、新しい数学的構造、あるいはデータ操作に関する新しいスキーマの提案などを目的とする研究は、実際のところレビューするのが難しいくらいに多数存在する。例えばSQL自身にも、SQL/MM(MultiMedia)とよばれる拡張が存在する。また最近では、XML文書への問合せに特化した言語として、XML Queryなどの言語も提案されている。しかしこれらの既存の言語は、我々が地球環境データベースにおいて実現したい機能という観点から分析すれば、必ずしも使いやすいデザインとはなっていない。

参考にした文献

三浦孝夫, "データモデルとデータベース", 第１巻・第２巻, サイエンス社, 1997
北川博之, "データベースシステム", 昭晃堂, 1996
西尾章次郎(監修), "実践SQL教科書", アスキー出版局, 1996
その他のウェブサイトについては、本文中にリンク。

4. 参考文献（全リスト）

小野欽司, 北本朝展, 計宇生, フレデリックアンドレス, "ネットワークに基づく分散型地球環境データベースの構築最終成果報告書", 平成13年度創造的情報通信技術研究開発推進制度最終成果報告書 (III), 通信・放送機構, pp. 1327-1450, 2002年11月 [ 概要 ]
Asanobu KITAMOTO, "IMET: Image Mining Environment for Typhoon Analysis and Prediction", Multimedia Mining, Djeraba, C. (編), pp. 7-24, Kluwer Academic Publishers, ISBN 1-4020-7247-3, doi:10.1007/978-1-4615-1141-0_2, 2002年11月 (in English) [ 概要 ]
Asanobu KITAMOTO, "Analysis and Prediction of the Typhoon from an Informatics Perspective", Proceedings of the 8th International Workshop on Academic Information Networks and Systems (WAINS), pp. 43-52, 2001年10月 (in English) [ 概要 ] [ Paper ]

データ表現と問い合わせのためのXML

1. 概要

2. 地球環境データの定義・操作のためのマークアップ言語

はじめに

データ定義言語

データ操作言語

関連規格

データ定義言語

データ操作言語

プロトコル

参考にした文献

4. 参考文献（全リスト）