GeoNLPプロジェクト

GeoNLP プロジェクトは、自然言語文に含まれる地名や住所といった場所記述を抽出し、その文がどこに関する記述であるかというメタデータを付与するジオタギング(geo-tagging)システムの構築を目指した研究プロジェクトである。

GeoNLP は地理情報科学(Geographic Information Science:GIS)と自然言語処理技術(Natural Language Processing)を組み合わせることにより、次のような処理を可能にする。

  • 文章中の地名に経緯度などの地理関連情報を埋め込む
  • 表記が同じ地名を周辺文脈によって識別する
  • 地名に固有の ID を振り、同じ地名を含む文章を ID で検索可能にする
  • 文に含まれる住所を認識して詳細な位置を特定する

これらの処理により、従来のGISでは扱うことができなかった、ウェブ上のニュースやブログといったテキストを、機械的に地図にすることができる。

GeoNLP を利用するには JSON-RPC による公開 WebAPI サービスにアクセスする。またはオープンソースソフトウェアとして公開されているソースコードをダウンロードして、 Linux サーバ上にシステムを構築することもできる。

さらに、ジオタギングを行うシステムの持続的な成長を支えるエコシステムを確立するため、システムで利用可能な地名解析辞書を参加型で整備する 辞書サービス の開発と運営も行う。

関連文書一覧

地名辞書の作成、共有に関心があるユーザは「 辞書製作者向け資料 」を、 GeoNLP の WebAPI を利用した地名解析アプリケーション開発に関心があるユーザは「 開発者向け資料 」を参照のこと。

これらのリファレンスでは、地名語や辞書の項目についての情報が必要になる場合があるので、必要に応じて「 GeoNLPの用語 」を参照していただきたい。

GeoNLP で利用を推奨する地名のクラスを調べたい場合は 固有名クラス に一覧があるので参照のこと。

ショートカットリンク

目次

次のトピックへ

チュートリアル目次