生成AIを利用したウェブ検索 (10)
AI-OCR (AIを搭載したOCR:光学的文字認識)
2024 3 7 (art24-0630)
Bard-AIやBing-AIなど、生成AIを利用したウェブ検索は、ウェブ上の記事を検索し、ヒットした記事を生成AIが要約して簡潔な文章で回答してくれますから、知りたい情報を手っ取り早く知るには便利なツールです。しかし、使用にあたり留意すべきことがあります。一つは、知りたい情報の記事がウェブ上に存在しない場合です。「該当する記事がみつからないので、回答できません」云々とでも返してくれればよいのですが、生成AIが質問文中の言葉から、言葉をつないで文章を作成し、それを回答として返してくることがあります。もう一つは、事物AとBの関係性を示唆する記事が無い場合です。AとBがたまたま同じウェブページに記載されていただけで、AとBを関連させて回答することがあります。 こうした回答は、出典・引用元がありませんから、生成AIが勝手に作り上げた嘘の回答と言えます。
では、田山花袋の紀行文「東郷湖の一夜」のあらすじ、の話題に戻ります。Bard-AIもBing-AIも、あらすじを正しく回答できませんでした。これは、ウェブ検索では、「東郷湖の一夜」の本文にアクセスできず、また、あらすじを取り扱った記事がウェブ上に存在しないからと考えられます。
では、本文にアクセスできたとき、生成AIはどのようなあらすじを回答するのでしょうか。
文学作品を無料で読めるサイト、青空文庫があります。青空文庫 [以下ウィキペディアより抜粋]は、日本の電子書籍サービスで、著作権が消滅した作品や著者が許諾した作品を、電子書籍で公開し無料で提供している。ボランティアにより運営されており、広告収入や基金、助成金などで成り立っている。作品はボランティアの手によりJIS X 0208漢字の範囲で青空文庫形式テキストファイルやHTMLとして電子化されている。
田山花袋の作品は153点が公開されていますが、残念ながら、「東郷湖の一夜」が収録されている『花袋紀行集 第3輯』は含まれていません。しかし、国会図書館の蔵書のデジタル版で読むことができます。
残念ながら、そのデジタル版は画像ファイルです。テキストファイルに変換する必要があります。画像中の文字を認識して文字を読み取り、テキストファイルを作ります。これは、OCR (Optical Character Recognition:光学的文字認識)と呼ばれています。最近は、OCRにAI技術を搭載したAI-OCRが使われています。画像の歪みやノイズがあっても、読み取ることができるようになりました。
試しに、紀行文「東郷湖の一夜」の画像ファイルを、従来のOCRの1つ、Nuanace Power PDFで処理してみました。結果は、ほとんどの漢字が間違って変換されました。これは、紀行文がルビ付きの旧字旧仮名の文体で書かれていますから、漢字を認識して読み取る時、ルビを除かなければなりませんが、それができていないからのようです。
次に、GoogleドライブのAI-OCRを使ってみました。一部の手直しが必要でしたが、テキストファイルに変換できました(全文へ)。生成AIがどのようなあらすじを返してくれるのか、次に続く。