GeoNLPの用語

ここではGeoNLP内で共通に利用する用語を定義します。

地名語

GeoNLPでは、地名にID、経緯度、クラスなどの属性を付与し、コレクションとしてまとめた上で、データベース上で管理します。また、固有名詞の一種としての「地名」と区別するため、GeoNLPではデータベース中の地名エントリを「地名語」と呼びます。つまり「地名」がデータベースに登録されれば「地名語」になります。

[地名語の例]

  • ロンドン, 奥羽地方, 北アフリカ大陸, 富士山, 西表島, 利根川, サロマ湖, 日本海, ベンガル湾, ハチ公口, ホワイトハウス, 東京ドーム, 新宿駅西口交番, 東京国立博物館, 東京駅, 東海道本線, スエズ運河, 清水トンネル, 瀬戸大橋

GeoNLPは文章を場所に関連づけることを目的としているので、位置と名称を持っていれば何でも地名語として登録することができます。「東京国立博物館」のような組織名や「瀬戸大橋」といった施設名も、その語が文章から抽出できてその位置にマッピングされれば便利である限り、登録して構いません。

個人宅や非合法施設など、一般公開に適さないと判断した情報は登録をお断りする場合があります

ただし、すべて地名語というだけでは、たとえば「安家森」が山の名前であることは知らなければ分かりません。そこで地名語に分類情報として「固有名クラス」を付与しています。詳しくは 固有名クラスとは を参照してください。

地名解析辞書

GeoNLPのユーザが何らかのポリシーによって収集した、GeoNLP用の地名語のコレクションを「地名解析辞書」と呼びます。GeoNLPの地名語には自然言語解析のための情報が含まれているので、一般的な「地名辞書」(Gazetteer)と区別するためにこの名称を利用しています。GeoNLPの関連文書では、特に混乱を招く恐れがない限り、地名解析辞書を単に「辞書」と表記することがあります。

[辞書の例]

  • 日本の自治体
  • 世界の大都市
  • 標高500m以上の山
  • 東海道線の駅
  • 関東地方のガソリンスタンド

すべての地名語は必ず一つの辞書に登録されます。表記と座標が完全に一致する地名語であっても、複数の辞書に登録されている場合には異なる地名語として扱われます。たとえば「避難所」辞書に含まれる「九段生涯学習館」と、「公共施設」辞書に含まれる「九段生涯学習館」は別の地名語となり、異なるIDを持ちます。

住所

GeoNLPでは、自然言語文章中で場所を特定するために利用される郵便住所(postal address)、あるいは行政管理のために利用される行政住所(political address)等の表記を「住所」と呼びます。住所には複数の地名語が含まれるため、他の地名語とは区別して処理します。たとえば「千代田区一ツ橋2-1-2」という住所には、「千代田区」「一ツ橋」などの地名語が含まれているので、これらの地名語を含む一つの住所として扱います。

ただし今のところ日本語の住所しか正しく処理できません。

[住所の例]

  • 千代田区一ツ橋2-1-2
  • ロンドン市ベーカー街221B
  • ペンシルベニア通り1600番地

ショートカットリンク

目次

前のトピックへ

ライセンス

次のトピックへ

固有名クラス