数式を含む文書(紙、PDF)をWordデータに変換する

InDesign機能

InDesignなどで作成されたDTPデータ、
または紙の文書を専門的なOCRソフトを活用して
Wordデータに変換する方法をご紹介します。

組版データのWord変換

Wordは最大シェアのテキスト作成アプリケーションです。誰でも簡単に扱うことができ、DTPのテキスト原稿はほとんどがWord形式で入稿されます。
一方、できあがったDTPデータをあらためてWordへ変換してほしいという要望が、特に教科書、教材、学術書を制作されているお客様より以前から多く寄せられていました。Wordデータにすることで手元で編集し、二次利用するのがその主な目的です。
これまでDTPデータをWordに変換する一番効率的な方法と考えられていたのは、まずDTPデータからPDFを書き出してそれをWordで開き、Word上で体裁を整えるという工程でした。当社のMCR Vol.45およびVol.70でも詳しく紹介しています。
しかし、この方法では数式などの複雑な文字組みは再現できず、体裁を整えるのに一からWordで組版するのと変わらないほどの手間がかかることがあります。
そのため当社ではよりよい変換方法を探してきましたが、専門的なOCRソフトを活用することにより、今まで以上に効率良く、また数式を含む組版データなども正確に変換できることが分かりました。

InftyReaderの活用

今回紹介します「InftyReader」は、数式を含む文書を処理できるOCRソフトです。
InftyReaderの変換工程は下図のようになっています。変換元の文書はフォーマットを問わず、紙の文書からでも変換が可能です。実際の変換結果はウラ面をご覧ください。
文字スタイル、段落スタイルは移行できませんので、Word上で調整する必要があります。また、表組みや図版が混在していると正しく変換できません。しかし、数式部分は非常に高い精度でWordの数式エディタに変換されます。
シンプルなレイアウトの紙面であれば、InftyReaderでかなり正確な文書変換が行えます。複雑なレイアウト紙面については、例えば元の文書を適宜トリミングし、再整列するなどの事前調整を行うことによって、精度の高い変換結果が得られます。


調整サンプル(見本)

2段組レイアウトのまま文字認識を行うと誤変換や文字飛びが発生した。
そのため右図のように、2段組の誌面を切り分けて
上下に繋げる調整を行ってから変換を行った


下記リンクより調整サンプルの見本PDFをご覧いただけます。
【調整前】
https://www.meisho-do.co.jp/pdf/mcr76-2.pdf

【調整後】
https://www.meisho-do.co.jp/pdf/mcr76-3.pdf

関連記事

記事一覧

Meisho-do LAB

デジタルコンテンツの総合制作会社(株)明昌堂が、書籍制作に携わる多くの方々へ向け発信するウェブメディアです。 DTPやその周辺技術(Officeアプリ、Adobeアプリケーションなど)の研究を行い投稿します。

最近の記事
  1. 数式を含む教材のAI自動校閲を試してみた

  2. 書籍制作におけるCollate Proの活用

  3. ユニバーサル対応コンテンツの制作

ランキング
  1. 1

    InDesignの機能を活用した索引ページの作成について

  2. 2

    数式を含む教材のAI自動校閲を試してみた

  3. 3

    書籍制作におけるCollate Proの活用

TOP
CLOSE