[an error occurred while processing this directive]
Title
電子辞書 - 「岩波書店 広辞苑第4版 EPWING CD-ROM カラー版」をPDIC形式に変換する

広辞苑第五版についてはhooさんのa hermitageをご参照下さい.
私自身も既に第五版に移行していますのでこちらのスクリプトなどのメンテナンスは基本的にありません.
第四版をお使いになる方などのため一応残しておきます.


まず、前準備で用意したもの以外に必要なものがありますので、それを挙げておきましょう。
  1. kojien4.lzh (http://www.ikushimo.com/pc/kojien4.lzh)
  2. 広辞苑 第4版 EPWING版のCD-ROM
これらを用意したら前準備に従ってDDwinで辞書の内容をテキスト形式に出力しておきますが、外字テーブル(henkan.txt)は完全ではありません。
外字テーブルにはFinal β Laboratoryの御協力によりこちらのkoujien.gjtの内容と私が追加した分をhenkan.txtに収録してあります。
それでも完全ではありませんが、まだ完成していない上に大量にあるので、どなたか変換時の詳細を御覧になって作成していただけると助かります。
外字テーブルにまだ変換方法の記述の無い外字は現状では[hA123]のように出力されてしまいます。
一応応急処置として外字の出力された[hA123]などは削除するようにしてあります。
ただ、これでは外字が全く出力されないだけですので、できるだけ外字テーブル作成をお手伝い下さい。
変換時の詳細を読んでいただければお分かりになるでしょうが、そんなに難しい作業ではありませんし、プログラミングに関する知識も不要ですのでぜひお手伝い下さい。
手伝って下さる場合は事前にどの範囲を入力して下さるのか御連絡いただけるとこちらの作業と重なることが防げますので御一報下さい。
出力時の推奨ファイル名は「kojien.txt」です。

次はいよいよ出力テキストのPDIC一行テキスト形式への変換です。
プログラムはPerlで書かれておりますが、私ははっきり言ってPerlを理解しているとは口が裂けても言えないレベルなので.plファイル内のコメントを見て書き直していただき、それを送って下さるとこちらでダウンロード可能にしますのでお願いいたします。
で、実際の変換作業ですが、まずkojien4.lzh内のhenkan.txt以外のファイルと出力ファイル(kojien.txt)を同じディレクトリ(フォルダ)に置き、それら以外のファイルは置かないようにします。(新規にフォルダを作成してそこに置けばいいでしょう。下記の生成ファイルと同じ名前のファイルが無ければ他にファイルがあってもいいかもしれませんし、重なっても上書き確認が出るだけかもしれません。)
そしてkojien.batを実行します。
すると色々ファイルができますが最終的にkjdic.txtというファイルができます。
このうち必要なのはkjdic.txtのみなのでそれ以外は削除して構いません。(他のファイルを削除しないようにしているのは処理内容を見たい方のためです。)
このkjdic.txtは完全に処理が終わっており、この時点でPDIC一行テキストになっています。
これをPDICで適当に変換すれば利用できます。
変換時には詳細設定で「訳/用例を区別して取り込む」以外のチェックは外しておいた方が良いでしょう。
「訳/用例を区別して取り込む」は必ずチェックしておきます。
同一単語の処理は「改行して付け加える」が良いでしょう。
全て別の単語として処理できれば良いのですが。
ちなみにこの変換では「ん‐と‐す」より後の記述、つまり百人一首以降は削除されております。
これらが入ると処理が超超複雑になるためです。
これらを辞書に含ませたい場合はkojien4.lzhに含まれているchusyutu2.plを使ってMS-DOSプロンプトで
jperl chusyutu2.pl <kojien.txt >others.txt
とでもしてできたothers.txtを各自で処理してPDIC形式へ変換して下さい。
っていうか、この部分は辞書ソフトには不適な部分なのでテキストで保存しておいてテキストエディタで御覧になる方が良いかもしれませんね。
最新版では漢字での検索ができるようにし、ひらがなやカタカナで検索した場合は漢字表記があれば「→」に続けて漢字表記を表示するのみに留めました。
これは両方で検索できるようにするとデータが肥大化するためです。(約2倍になります)
漢字で検索したときに「→」に続けてかな表記を表示するようにしたい方はプログラムを適宜変更して下さい。
また、漢字表記が複数ある場合は漢字表記の最後のものを採用し、それ以外の表記ではかなで検索したときと同様に「→」に続けて採用した漢字表記を表示するようにしています。
できれば複数の表記のうちの最初のものを採用したかったのですがPerlや私の脳味噌の制限でできませんでした。
また、漢字での検索が不要な場合はkjkana.batを実行して得られるkjkana.txtをお使いになると良いでしょう。
こちらの方が処理も速く、容量も10MB弱少なく済みます。
この処理で最終的にできるファイルはkjkana.txtというファイル名です。
これをPDICにPDIC一行テキスト形式として読み込ませて下さい。
kjdic.txtはできなくても正常です。

変換後のPDICでの使用画像です。
広辞苑/PDIC

Zaurus上のZPDVIEW(小笠原博之氏作)にて表示させた画面のハードコピー(実際にはMI-C1ではこれほど高コントラストでもありませんし発色もこれほどではありません。)
広辞苑/Zaurus [an error occurred while processing this directive]
sign