GeoNLP ソフトウェア

GeoNLP ソフトウェアは、自然言語テキストから地名を抽出するオープンソースの「 ジオパースエンジン 」です。たとえば「国立情報学研究所は千代田区にあります。」といったテキストから、「千代田区」を抽出し、その代表点の経緯度を取得することができます。

GeoNLP 公式ウェブサイト <https://geonlp.ex.nii.ac.jp>_ の WebAPI サービスも、本ソフトウェアを利用して実現しています。

使い方

本ソフトウェアには、コマンドラインで実行可能な コマンドラインプログラム と、ウェブサーバに設置して利用する CGI プログラム が含まれています。

CGI プログラムを利用すると、テキストデータを受け取って経緯度を付与する(その結果を地図にする)機能を含むウェブサービスを構築できます。コマンドラインプログラムを利用すると、地名や住所を含む大量のテキストデータに、一括処理で経緯度を付与することができます。

特徴

本ソフトウェアは、「 地名解析辞書 に掲載されている 地名語 は確実に抽出する」ことを基本方針としています。 地名解析辞書 を利用して形態素解析のレベルから制御し、異体字・新旧字などの表記揺れにも対応することで、抽出精度を向上させています。

GeoNLP Data サイト 上で公開されている任意の 地名解析辞書をダウンロードして利用する ことができますので、従来の形態素解析器よりも多くの地名語や新しい地名語を抽出することができます。

その反面、現状では「地名ではない語が地名として抽出されてしまう(過抽出)」ことがあります。用途に合わせて適切な 地名解析辞書 を選択したり、抽出結果を後処理でフィルタリングするといった方法で、十分実用的な活用が可能です。ソフトウェアの改良により、抽出精度も改善していく予定です。

Ver. 1.0.5 より、 東京大学空間情報科学研究センターから公開されているジオコーダー DAMS とリンクすることで、住所文字列を抽出して経緯度を算出することができるようになりました。

以下、ローカルサーバ上に GeoNLP ソフトウェアをインストールし、利用する手順を説明します。

ショートカットリンク

目次

前のトピックへ

住所のJSON表現

次のトピックへ

ダウンロード