幾霜::残日録::2008/11/17 (月)

2008/11/17 (月)

◆ [Life] 英語化計画 - 22:10:20

　件の系統解析マニュアルを英語にする計画を近々発動する。と、ここに書くことで取り組まざるを得なくする作戦。しかし少なくとも2本の原稿を抱えているのでなかなか手が付けられないかも。などと逃げ道を用意する腑抜けな自分。まぁ実は3本目も抱えているんですけど、それはたぶんかなり時間がかかるので英語化が先だろう。

◆ [Software] Foxit Readerを久しぶりに入れたら使い物にならなくなっていた - 17:39:51

　何だこの改悪は。ただでさえ不足している縦解像度を無駄に食うタブバー。無効にできないんでしょうか。鬱陶しくて仕方ありません。タブバーなんて要らない。というかタブ切り替え方インターフェイスなんて要らないんだっつーの。ウィンドウ切り替えはOS、というかウィンドウマネージャの仕事だ。アプリはアプリらしく分相応に振舞えこの馬鹿者が。

　物理的な「ページ」という概念に縛られていないHTMLの表示では縦解像度の不足はさほど深刻ではない。スクロールすればいいだけだからだ。しかし、PDFには「ページ」があり、組版をユーザーが変更して表示することは想定されていない(技術的には可能だろうが)。これは、二段組の文書を読む際に左下と右上が1画面内に収まらなければならないということを意味する。見開き表示でもそれを実現するためにこそ24型ワイド液晶を使っている私にとってみれば、縦解像度をムダに浪費するタブバーなど憎悪の対象以外の何物でもない。

　というわけでさようならFoxit Reader。

◆ [Science] コンピューティングパワーの増大と系統推定の並列化 - 02:38:49

　シーケンシングパワーの劇的な向上以前から、ずっと劇的な向上を続けてきたものがある。それがコンピューティングパワーだ。先日、Intelはクアッドコアの新型CPU「Core i7」を発売した。近い将来、ヘキサコア、オクタコアのCPUが登場することは間違い無い。実際そのようなロードマップが公表されている。

　CPUがマルチコア化に走るまでは、ソフトウェアは何もしなくても新しいCPUで高速化することが期待できた。しかし、消費電力量が問題となり単一コア当たりの性能の向上が鈍化したため、性能向上のためにはマルチコア化せざるを得なくなった。マルチコアCPUの性能を引き出すには、ソフトウェアの並列化が必要である。現在の主なスーパーコンピュータは、通常のPCを大量に高速なネットワークで接続しただけの代物であるため、ソフトウェアをうまく並列化すれば、スーパーコンピュータ上での高速な実行も期待できるスケーラビリティを得ることができる。

　しかし、並列化はどこまでもやればいいというものではない。並列性が高ければ高いほど、処理間の通信が多く必要となり、通信がボトルネックとなって性能は頭打ちになる。処理間の通信は処理そのものよりも劇的に遅いからだ。つまり、ソフトウェアのパフォーマンスは、大雑把に言って「処理の並列性／処理間の通信量」となる。如何に通信量を増加させずに処理の並列性を上げるか、がプログラマの腕の見せ所である。

　最尤系統推定において並列化できるポイントは大きく分けて三つある。一つはRatchetなどのショットガン的樹形探索の並列化である。TreefinderとPhylogearsの組み合わせはこれを実装したものである。二つ目はNNIやSPR・TBR時の改変後の樹形の尤度計算の並列化である。三つ目は各座位ごとの尤度計算(注:その樹形のそのデータでの尤度とは、その樹形の各座位での尤度の積である)の並列化である。これらをどこまで並列化するのがどのようなマシンで最適かはまだ十分に理解されていない。と言いたいところだが、RAxMLの開発者なら既に十分理解しているのかもしれない。

◆ [Science] 1個体1日1万円で全ゲノム配列が得られる時代の分子系統学を考える - 01:05:06

　ここ数年、技術革新によりDNAシーケンシングが猛烈な勢いで高速・安価になりつつある。454・Illumina・ABI SOLiD、そしてPacific Bioscienceの次々世代シーケンサなどなど、この世界の競争は激しい。そう遠くない将来、PCR無しにいきなり全ゲノム配列を読むのが普通になるだろう。そうなったとき、その膨大な情報量をどのように料理するのかを少し考えてみた。

　これには三つのアプローチがあり得る。一つは全部使うこと。正確には、アノテーション済みのゲノムデータとのゲノム対ゲノムBLASTで相同性が認められた領域を全て用いて解析を行うということ。しかし、パラロガスな領域を排除することは容易ではない。

　二つ目は遺伝子重複が無い、変異速度が適度である、などの条件を満たす配列に絞って従来通りの系統推定を行うこと。これは条件に合致する領域を探索する方法や条件そのものに改善の余地、というか必要性が大きいだろう。

　三つ目はレトロポゾンを探しまくること。これも探索方法に改善の余地があるだろうが、現状をあまり把握していないので私にはこれ以上の言及は難しい。

　さて、これまでに何人かの方に「遺伝子の配置」を使えないかと問われたことがある。これは、配置が異なる場合に「どれだけ」異なるかを定量化できるのなら可能だ。しかし、この方法には当然だが配置を知らなくてはならないという問題がある。遺伝子の配置を知るには、やはり既知のゲノムデータとの相同性探索が必要になる。また、新規な遺伝子があった場合、その遺伝子をどう取り扱うかという問題もあるだろう。新規な遺伝子が別の遺伝子から派生したものである場合、どうするのかという問題もある。派生したものである、と知るには、遺伝子間の系統推定が必要なのではないか。そうなると、本来の目的の前になすべきことが多すぎるように思う。

　いずれの方法にも、相同な箇所の特定が必須である。しかも、パラロガスではなくオーソローガスである必要がある。また、どのようなモデルを当てはめるのか、「領域」(遺伝子ではなく同じモデルを当てはめ、同じ系統に由来したと考える領域である)をどのように認定するのか、領域間のIncongruenceをどう取り扱うか、ヘテロな個体をどう取り扱うか、難題山積である。「領域」の認定に関してはPhyloBayesとBayesPhylogeniesが、Incongruenceとヘテロの問題に対しては、BESTが一つの解を示してはいるが、モデルの妥当性やMCMCの実装に検証の必要があるだろう。特に、MCMCで事後確率が過大評価になる問題はまだ解決されていない。むしろ、領域ごとに最尤推定した結果を不確実性も考慮してコンパイルする方法が開発されることが望まれるが、この方法では「領域」の推定はできない。

　他のアイデアをお持ちの方がいらっしゃるのならば、ぜひお教え願いたい。論文として公表後でもいいので。

追記 - 2008/12/04 23:32:15
　「領域ごとに最尤推定した結果を不確実性も考慮してコンパイルする方法」を実装したソフトウェアAUGISTがリリースされた。BioinformaticsのApplications Noteに掲載されている。何というタイミング。

Comments&TrackBacks

TrackBack Ping URL : http://www.ikushimo.com/receivetb.cgi/2008-11-17