Hitachi India(日立インド)と日立は、インド情報技術大学ハイデラバード校(IIIT-H)と共同で、電子カルテから病態や病気の部位などの指定された情報を高精度で抽出する技術を開発した。この技術を応用することで、医師などが自由形式で記入した文章や既定の書式に記入された検査数値など、さまざまな形式が混在する電子カルテの分析ができる。
 
今回、開発した技術の大きな特徴は、判定規則を自動構築する機械学習技術と文脈考慮による後処理技術。

対象情報の抽出精度を向上させるため、あらかじめ用意した学習データに基づき、電子カルテに記入された情報から、答えを判定する規則を自動構築する機械学習手法を導入した。文中の情報に加え、電子カルテの章や節タイトルなどの文書構造に関するテキスト情報も考慮することで、精度を向上させた。

さらに、機械学習手法で抽出された情報の精度をさらに高めるため、2つの後処理技術を追加した。最初の処理では、抽出された語句の前後の文脈を考慮することで、より正確な情報に変換する。次の処理では、心電図検査所見や放射線検査所見など、電子カルテの種類を判別し、その種類に適した医療用辞書を用いて、曖昧な単語の意味を決定する。これらの後処理の導入により、機械学習手法だけでは60%だった病気部位の抽出精度を、74%まで向上させた。