貴重な資料を後世に--江戸期以前の“くずし字”を判読するOCR技術が凸版印刷から [インターネットコム]

凸版印刷は、江戸期以前の書物に記された“くずし字”を判別してテキストデータ化するOCR（光学文字認識）技術を開発した。

“くずし字”を自動で判別

近年、災害による資料アーカイブの必要性や専門家の減少、資料の経年劣化などを理由に、歴史的資料のデジタル化・テキストデータ化が求められている。しかし、総数100万点以上ともいわれる江戸期以前のくずし字で記されている古典籍は、専門家による判読が必要とされ、テキストデータ化が遅れていた。

今回発表された技術は、江戸期以前のくずし字を自動で判読し、テキストデータ化することを可能にするもの。同社は2013年より、さまざまな書籍をデータ化する「高精度全文テキスト化サービス」を提供しており、同サービスで確立したシステム基盤に、公立はこだて未来大学の寺沢憲吾准教授が開発した「文書画像検索システム」を組み合わせることで、同技術を実現したそうだ。2014年度に実施した原理検証実験では、くずし字の書物を80％以上の精度でOCR処理することに成功した。

80％以上の精度でOCR処理が可能

凸版印刷は、同技術を使った古典籍のテキストデータ化サービスを、今夏より試験的に開始する予定。