2008年03月03日

オフラインでWikiPedia検索

Kimitake's blogさんのところで、WikipediaをオフラインでN810で使うという記事が掲載されていました。

Wikipedia 日本語版 on EBView - Kimitake's OpenBSD
http://kimitakeblog.net/?itemid=577

すごく気になったのでやり方を調べてみると、ガジェット・メモさんのところで、WikipediaをEPWING形式に変換する方法が掲載されていました。

ガジェット・メモ: wikipedia-fpw を使う
http://gadget-memo.cocolog-nifty.com/blog/2008/01/wikipediafpw_fb87.html

というわけで、早速やってみました。
あ、母艦としてLinuxマシンを持っていることを前提に書いています。
(それも当方Gentoo使いなのでGentoo前提です…)
Windowsしかない方でもCygwinを使えばうまく出来るみたいです。詳しい手順は上記のサイトにありますので、そちらを参照してください。

まずはデータベースダウンロードのページから最新版のデータを入手します。必要なのはjawiki-latest-pages-articles.xml.bz2というファイルになります。

ファイルサイズは667MB(3/2現在)ととっても巨大です。サーバも混雑しているのかダウンロードにはかなりの時間がかかります。気長に待ちましょう。あとダウンロードするファイル、変換するための中間ファイル、最後に出来る辞書ファイルで10GB近いディスクを消費します。それなりの空きスペースの確保できる場所で作業をすることをオススメします。(ちなみにここでは/workを使っています)

ダウンロードが終わったら、展開します。
bzip2 -d jawiki-latest-pages-articles.xml.bz2

続いて変換ツールであるwikipedia-fpwのページから必要なツールをダウンロードします。

まずは変換ツール本体。現時点での最新版は、

wikipedia-fpw-20071202-src.tar.gz

でした。これは単純にダウンロード後に展開すればOKです。
tar zxvf wikipedia-fpw-20071202-src.tar.gz

するとツールのディレクトリとしてwikipedia-fpw-20071202が出来上がります。先ほど展開したWikipediaのデータファイルをリネームしつつこのディレクトリに移動します。
mv jawiki-latest-pages-articles.xml wikipedia-fpw-20071202/wikipedia.xml

続いてもう一つのツールであるFreePWINGを導入します。emergeコマンドでも導入可能ですが、wikipedia-fpwのページにあるパッチ適用版を導入しましょう。ダウンロードしたらあとの手順はいつものとおりです。
tar zxvf freepwing-1.4.4+20071226.tar.gz
cd freepwing-1.4.4+20071226
./configure
make
make install

ルートで作業してるのバレバレですね。(汗)

これで準備完了。作業ディレクトリに移動し、以下のコマンドを実行します。
cd /work/wikipedia-fpw-20071202
fpwmake
fpwmake catalogs
fpwmake package

最初のfpwmakeにはPentiumM 1.7Gのノートで4時間半くらいかかりました。慌てず騒がずのんびり待ちましょう。カタログ作成は一瞬、パッケージの作成は最後のZIP圧縮に結構時間がかかります。ただZIP書庫はどうせあとで解凍するので、ZIP書庫作成の段階に入ったらCtrl+cで処理を止めちゃってもOKです。

さて、辞書ファイルが完成したら辞書の圧縮を行います。ZIP書庫が完成してしまった方はあらかじめ解凍しておいてください。

辞書の圧縮にはEB Libraryを使用します。公式ページからソースコードを入手してください。3/2現在の最新版は4.3.2です。インストールはお作法通り。
tar jxvf eb-4.3.2.tar.bz2
cd eb-4.3.2
./configure
make
make install

導入が終わったら圧縮作業に入ります。先ほどの作業ディレクトリの下にWIKIPというディレクトリが出来ていると思いますが、これが辞書ファイルの格納先です。ここに移動して、辞書の圧縮を実施します。
cd /work
mkdir wiki-ebzip
cd wikipedia-fpw-20071202/WIKIP
ebzip --level 5 --output-directory /work/wiki-ebzip

1.7GBほどあった辞書が700MB位まで圧縮されます。圧縮にかかる時間はそれほど長くはなかったと思います。(忘れちゃいました…)

あとは/work/wiki-ebzipの配下をtar等で固めて回収し、N810に移動するだけです。サイズがでかいので、外部SDに格納すると良いでしょう。

最後の仕上げ。N810でEPWING形式の辞書を読むために、kimitakeさんが公開されているEBViewを導入します。

EBView for OS2008 (アルファ版) - Kimitake's OpenBSD
http://kimitakeblog.net/?itemid=567

これでお終い。設定などは適当に…。

Wikipediaが持ち歩けるというのは楽しいを通り越してキケンですね。何だか永遠に読み続けてしまいそう。手持ちのリーダーズ+プラスも圧縮処理後に入れたので電子辞書としてかなりイケてるマシンになりました。こうなると広辞苑とか欲しい…。あとPDIC形式の辞書を読めるソフトがあるとまたかなりパワーアップすると期待しているのですが、それはまた別の機会に。

ちなみにここで作成した辞書はWindows環境でも以下のソフトで使用可能です。

EBPocket, EBWin - EPWING/EB Viewer for PocketPC,WindowsCE,Windows
http://www31.ocn.ne.jp/~h_ishida/EBPocket.html

関係各位皆様、ありがとうございました。
posted by 月水和尚 (とも) at 00:27 | Comment(1) | TrackBack(1) | Nokia/Symbian
この記事へのコメント
鍋田辞書ってソフトならIntel LinuxとWindowsでEPWINGとPDIC両方検索できますよ。
Posted by sakana at 2008年03月22日 19:34
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック

Wikipedia(日本語版)をこの手の中に!
Excerpt: 昨日いつものようにネットをお散歩していたら、とりあたまさんのおぼえがきでWiki...
Weblog: My College Life
Tracked: 2008-03-21 07:16
×

この広告は180日以上新しい記事の投稿がないブログに表示されております。