[an error occurred while processing this directive]
TopPage 残日録過去ログ PDA研究室 電子辞書 世界Marble教 NaTsuMi 足跡 Links サイト内検索 ヘッドラインセンサ 作者について リンクについて |
電子辞書 - EPWING/電子ブック形式辞書の軽量化(03/14/2003) 任意の副本の削除 必要な物 EPWING/電子ブック形式辞書 EB library (Win32版) 導入については「EB libraryの導入」をご参照下さい。 EPWING/電子ブック形式では一つの書籍データの中に、複数の副本(subbook)を含めることができます。しかし、中には必要のない副本がいくつも含まれている書籍もあります。そこで、任意の副本を削除することで辞書データの軽量化や表示の簡略化を図ることができます。 作業はまず、CD-ROMの「CATALOGS」ファイルのあるフォルダをカレントディレクトリとしたコマンドプロンプト・DOSプロンプト・ターミナルにて、
とします。例えば、岩波書店 生物学辞典第4版の場合、ルートディレクトリに「CATALOGS」があるので(この点は大抵の辞書で同じ)、CD-ROMドライブがQドライブだとすると、
ってな具合です。UNIXのターミナルではCD-ROMを/mnt/cdromにマウントしているとすると、
ですね。すると、辞書の情報が以下の様な感じで出力されます。
この出力から、生物学辞典第4版は「岩波 生物学辞典 第4版」「ウイルス分類表/生物分類表」「付録」という三つの副本(subbook)を持っており、それぞれのデータファイルは「honmon」「classify」「furoku」というディレクトリに納められていることが分かります。というわけで、これらのディレクトリと「CATALOGS」ファイルをHDDの作業ディレクトリへコピーします(これから削除する副本のデータはコピーする必要はありません)。コピー後、ReadOnly属性は外しておきます。その後、作業ディレクトリをカレントとして、
と入力すると、指定した副本以外は削除された「CATALOGS」ファイル、「CATALOGS.new」が生成されます。上記生物学辞典第4版で、解説文本体である「岩波 生物学辞典 第4版」(「honmon」ディレクトリ下)のみを残すなら、作業ディレクトリがC:\tempの場合(DOS/Windows)、
で、作業ディレクトリが~/tempの場合(UNIX)は、
となります。この後、「CATALOGS.new」を「CATALOGS」と置き換え、不要になったデータディレクトリは削除すれば任意の副本が含まれていない辞書データの出来上がりです。ただし、この操作では削除する副本のサイズが大きくないとあまり意味がありません。上記の操作を生物学辞典に行った場合、標準145MBから134MBへ、11MBしか縮小の効果はありません。この操作は、むしろ辞書利用時に表示されると邪魔なだけの副本を表示されなくするという効果の方が大きいかもしれません。 ebrefileでエラーが出てしまう場合 必要な物 EPWING/電子ブック形式辞書 ebutils もしくは epwutil 導入については「ebutils/epwutilの導入」をご参照下さい。 本来はebrefileで十分なはずなのですが、「そんな副本はない」とエラーを吐きやがって残したい副本が残せない場合があります。例えば私の環境では上記の生物学辞典の「ウイルス分類表/生物分類表」(「classify」ディレクトリ下)を残すことができませんでした。しかし、これもebutilsもしくはepwutilのcatdumpコマンドを利用することで解決できます。catdumpコマンドは「CATALOGS」ファイルの内容をテキストファイル化したり、逆にテキストファイルから「CATALOGS」ファイルを生成することができるツールです。これを利用して出力したテキストファイルをエディタで編集し、再度「CATALOGS」ファイルにすればよいのです。「CATALOGS」ファイルをテキストファイルにするには「CATALOGS」ファイルのあるディレクトリにおいて以下のようにします。
「CATALOGS」ファイルのあるディレクトリがC:\tempで出力先ファイル名がdump.txtの場合(DOS/Windows)、
で、「CATALOGS」ファイルのあるディレクトリが~/tempの場合(UNIX)は、
となります。dump.txtは生物学辞典では以下のようになります。
エディタで任意の副本の内容を削除し、[Catalog]のBooksの項の値をそれに合わせて編集します。以下のような感じです。
内容編集後、以下のコマンドで「CATALOGS」ファイルが生成されます(事前に元の「CATALOGS」ファイルは削除しておきます)。
「CATALOGS」ファイルを生成するディレクトリがC:\tempで生成元テキストファイルがdump.txtの場合(DOS/Windows)、
で、「CATALOGS」ファイルを生成するディレクトリが~/tempの場合(UNIX)は、
となります。この後はebrefileの場合と同様に不要になった副本のデータディレクトリを削除すれば作業は終了です。 任意の索引データ、画像・音声データの削除 必要な物 EPWING/電子ブック形式辞書 ebutils もしくは epwutil 導入については「ebutils/epwutilの導入」をご参照下さい。 EPWING/電子ブック形式の書籍では様々な検索方法が利用でき、画像や音声データまで持っている反面、その索引(index)データや画像、音声データによりやや容量の大きくなる傾向があります。ここでは、あまり使わないデータを削除することで辞書データの軽量化を図る方法について述べます。 まず、索引データは書籍ごとではなく副本ごとに持っているため、各副本の本体である「HONMON」ファイルのあるディレクトリをカレントディレクトリとして作業を行います。生物学辞典の解説文本体の場合「「CATALOGS」ファイルのあるディレクトリ\HONMON\DATA」(UNIX風の表記なら/「CATALOGS」ファイルのあるディレクトリ/HONMON/DATA)になります。ここで、ebutilsもしくはepwutilに含まれるbookinfoをまず実行します。
生物学辞典の解説文本体の場合は以下のように表示されます。
ここではカラー図版を削除すると効果が大きいと考えられますので、これを削除してみます。「HONMON」ファイル内の任意のデータ(と言っても項目や画像一つ一つを弄れるわけではない。あくまで上記bookinfoでIDが付いている物を最小単位として削除できるだけです)を削除するには、ebutilsもしくはepwutilに含まれるsqueezeを利用します。
生物学辞典の解説文本体からカラー図版を削除して「HONMON.temp」ファイルに出力するには以下のようにします。
これでカラー図版の削除された「HONMON.temp」ファイルが生成されるので、元の「HONMON」ファイルをこれで置き換えれば終わりです。この操作により生物学辞典解説文本体の「HONMON」ファイルは標準132MBから32.2MBまで小さくなります。 [an error occurred while processing this directive] | ||||||||||||||||||||