| ||||||||
| ||||||||
|
このページでは、2023年度第5回NII市民講座の日本文化をAIとビッグデータで読み解く―過去の日本文化を「見える化」するデジタル技術に関する情報をまとめます。
講義で紹介された「AIくずし字認識アプリ「みを」は、江戸時代以前の古文書でも対応できますか。
木版印刷本と手書きの写本ではくずし字の認識度にどの程度差があるのでしょうか。時代ごとに認識度の差はみられるでしょうか?
最初に、古典籍と古文書の違いについて説明します。古典籍とは印刷された(あるいは書写された)本、古文書とは一点ものの文書を指します。古典籍は不特定多数の読者でも読めるようにきれいに文字が書かれていますが、古文書は字の上手な人も下手な人も書いているため、バリエーションが非常に大きいのが特徴です。
「みを」アプリは江戸時代の古典籍(特に印刷された版本)を中心に学習したため、そうした本には強いのですが、たとえ江戸時代であっても文字の書き方にクセがある古文書になると文字認識の精度は下がります。一方、江戸時代以前であっても、文字がきれいな古典籍であればそれなりに読むことができます。このように、確かに時代の違いによる影響はありますが、それよりも文字の違いの方が影響が大きいと言えます。
また木版印刷本と手書きの写本では、木版印刷本の方が精度は高いです。これは、学習データにより近いこと、そして木版印刷本の方が文字が安定していることが要因です。ただ、手書きの写本の学習データを増やせば、精度も上がっていくと考えています。
くずし字の正答率が95%とのことでしたが、残りの5%は人間が解読して入力されているのでしょうか?
AIくずし字認識の結果に対して人間が修正するかどうかは目的によります。テキストを何かの研究に使う場合は、文字の誤りが限りなくゼロに近いことが望ましいので、人間が残りを修正することが必須となります。一方、OCRをかけて検索に使うなどの目的だと、大量のテキストを人間が修正するのはコストの面でも時間の面でも現実的ではないため、テキストを修正せずにそのまま使います。
そもそも人文情報学とは文系又は理系どちらの学問になるのでしょうか。どちらの知識も必要と思いますが区分けとしては如何でしょうか。
人文情報学の研究分野を文系、理系に分けることはあまり意味がないと思います。どの学問分野を学んできたかという意味では、いわゆる文系の学問を中心に、あるいは理系の学問を中心に学んできた人がいます。ただ個人として見た場合、その両方のセンスを持っている、言い替えれば複数の視点で物事を見ることができる能力が必要で、それがないといい研究ができないという難しさがあります。個人が複数の分野を学び、個人の中に複数の視点が同居しているというのが、人文情報学の分野と言えるのではないでしょうか。
古典籍を機械可読化してLLMのモデルとして取り込むことで、古典AIというものが構築できそうで興味深く拝聴しました。一方、古典は言文不一致なので、古典籍をLLMとして学習しても口語の会話文の対話(chat)にはならないのではないかと思われますが、そのような認識で正しいでしょうか。
LLMの学習においては、様々な種類のテキストを学習しますので、その中には複数の言語の対応を学習する手がかりも含まれています。その結果としてLLMが日本語と英語の翻訳ができるようになるのと同じように、現代日本語と古文の翻訳もある程度はできるようになります。このような場合、LLMの内部で何が起こっているかについては、まだ完全に解明できていません。しかし一般的には、たとえ言文不一致であっても、その意味内容は似たものとしてLLM内に表現されていると考えられています。つまり、意味内容がどちらの文体で表現されていても、LLMにとっては似ているため対応可能となります。
古典籍に対するLLMを含む生成AIの活用については、「つくし」プロジェクトで研究を進めていくなかで、今後も様々な知見が得られると期待しています。
|