辞書制作の TIPS

prefix, body, suffix の決め方

省略されるパターンから prefix, body, suffix に分ける

地名語は頻繁に省略されます。たとえば「国立情報学研究所」は「大学共同利用機関法人国立情報学研究所」「情報学研究所」「情報学研」「国立情報学研」のように表記されることがあります。

このような省略表記に対応するため、 GeoNLP では一つの地名語の表記を prefix, body, suffix の3つのフィールドの組み合わせで表現します。

prefix body suffix
国立 情報学 研究所
大学共同利用機関法人国立  
(省略)    

どの表記でも必ず含まれる部分を body とします。body より前で変化する部分を prefix、 body より後ろで変化する部分を suffix とします(body は一つしか書けません)。「国立情報学研究所」の場合、上の表のようになります。

prefix のいずれか一つ、 body、 suffix のいずれか一つを組み合わせた文字列が、この地名語の表記とみなされます。この例の場合、「国立情報学研究所」「国立情報学研」「大学共同利用機関法人国立情報学研究所」「大学共同利用機関法人国立情報学研」「情報学研究所」「情報学研」の6通りになります。 prefix には「(省略)」が含まれているので prefix が空のパターンがありますが、 suffix は必ず「研究所」か「研」のどちらかが含まれている点に注意してください。

prefix, body, suffix を地名辞書に書く

この組み合わせを持つ地名語を辞書に登録する場合、次のように書きます。

..., prefix, body, suffix, ...
..., 国立/大学共同利用機関法人国立/, 情報学, 研究所/研, ...

prefix の「(省略)」を表現するため、prefix の最後は ‘/’ で終えます。suffix には「(省略)」がありませんので、最後は ‘研’ になります。

prefix, suffix の中の順番

prefix や suffix が複数存在する場合、最初の一つを組み合わせた表記が、その地名語の「代表的な」表記として、 API の結果などに出力されます。

上記の例では、 prefix の最初の「国立」と suffix の最初の「研究所」を選んだ「国立情報学研究所」が、この地名語の代表表記として利用されます。もし prefix を「/国立/大学共同利用機関法人国立」とすると、prefix を省略した「情報学研究所」が代表表記になります。

2番目以降には特に意味はありませんので、prefix は「国立/大学共同利用機関法人国立/」ではなく「国立//大学共同利用機関法人国立」と書いても同じ意味になります。ただし、prefix_kana、 suffix_kana に読みを登録している場合、prefix、suffixの順番に合わせてください。