幾霜::残日録::2008/04/18 (金)

 

移籍先を探しています。系統樹推定法やメタバーコーディング法などに詳しい研究者を探している方がおられましたらご一報下さい。

2008/04/18 (金)

[Tea] KODANAD, BOP - 20:19:52

KODANAD, BOP

 私がニルギリに期待するものとはだいぶ違いますが、コストパフォーマンスは高い。ブロークンなので渋味を出し過ぎないように注意が必要ですが、香りは爽やかで春らしくて良いですね。

[Science] 系統樹間の距離 - 18:55:46

 PAUP*使わなくてもPHYLIPのtreedistがあるやんけ。なーんや、簡単やないか。無償ではあるが自由じゃないのはやっぱり気になるけど。フリーソフトウェア原理主義者やるのも楽やないな。筋金入りでいられるほど不足物を全部自力で実装する力は無いのが難点。その点、RAxMLやMrBayesの開発者は偉いな。PHYMLもGPLな点は高く評価したい。

[Life] 申請書進まねぇー - 18:43:25

 結局昨年の申請書を弄る方向にしたのはいいものの、面倒くさくて進まず、現実逃避で自分の研究と他人の研究への理解は進むという・・・。いかんですな。まぁ何も進まないよりはいいか。

[Science] Testing Congruence in Phylogenomic Analysis - 18:33:48

 せっかく理解できたのでメモを書いておく。

 要するに「multilocus dataではちゃんとcongruence考えようぜ」ネタである。この分野ではこれまで主にILD検定(Farris, 1990?)が用いられてきたが、最終的には最尤法やベイズ法などのモデルベースの(parametricな)方法を使うのに、この段階では最節約法ベースの方法に頼るというのは気持ち悪いというか統計思想的統一感に欠けるという問題があった。もちろん、モデルに基づいていないことによる誤判定の問題もあり得た(といってもこれを問題視するかどうかはやっぱり統計思想の問題だが)。

 これを解決するには、単純にILD検定を最尤法ベースにしてしまう方法もある。しかしILD検定は大量の樹形探索を要するため現実的ではない。そこで彼らは、複数の領域で異なる樹形を当てはめて(樹形は各領域で探索する)求めた尤度の和(これは「共通の樹形に制約しないモデルの尤度」である)と、複数領域に共通の系統樹を当てはめたときの尤度とを尤度比検定で比較する方法を用いている。この方法では、樹形探索回数は領域数+1に抑えられる。最尤系統推定をベイジアン系統推定に、尤度比検定をベイズファクターに置き換えれば、そのままこの方法をベイズ化することもできるだろう。

 彼らはこれに加えて、3つ以上の領域を扱う場合にはPlanet (2006)が用いているsnowballing techniqueと若干異なるが類似したアルゴリズムを用いて徐々に領域をグルーピングしていく方法を実装している。この方法は、Concatapillerというソフトウェアに実装され、配布されている(RAxMLが必要)。中身はPythonで書かれている。ちなみにPlanetの方法はmILD (Planet and Sarkar, 2005)というPerlスクリプトに実装され配布されている(ただしPAUP*が必要)。

 彼らの方法では、対比較してグルーピングを繰り返してグループを大きくしていくが、対比較時に多重比較の問題が発生する。また、グルーピングを繰り返した場合にも同様の問題が発生する。彼らはこの問題に対して有意水準を補正することで対処している。しかし、もっと別の方法があると思う。特に、反復することによる補正項の変化は、同じ検定の結果の変化を招きかねず、好ましくないと思う。

 そもそも、多重検定の問題は、隠れたエラーが蓄積することである。ならば、エラーを包含したp値を計算できれば有意水準側を弄らなくても多重性問題は回避される。対比較時にそのような補正を行う方法は思いつかないが、グルーピングの反復の際には可能だ。例えばここでgene A, B, Cの配列データがあり、第一段階でgene A+Bのcongruneceが棄却されなかったため連結したとしよう。次の段階で、gene A+Bとgene Cに異なる樹形を当てはめた結果とgene A+B+Cに共通の樹形を当てはめた結果を比較することでcongruenceを検討すれば、前回の結果に依存してしまう=エラーが蓄積するので有意水準側の補正が必要となる(彼らはこうしているもよう)。しかし、gene A, B, Cそれぞれに全て異なる樹形を当てはめた結果と、gene A+B+Cに共通の樹形を当てはめた結果を比較すれば、前回の結果への依存が無くなるため有意水準の補正は必要無いはずだ。ILD検定でも同様に対処可能だろう。Planetの方法では対比較でも反復時にも多重性は考慮していない。

 それにしても、これで比較すべき方法が増えてしまった。めんどうくさいなぁ。

追記 - 22:56:41
 論文中では樹形探索と尤度計算にはPHYMLとTREE-PUZZLEを用いており、現在のバージョンではRAxMLを用いている。しかし、どちらも分割モデルには対応していない。それどころか、いずれも比例モデルにすら対応していない。彼らは一体何をやったのかいまいちよく分からん。

 現在のところ、分割モデルで樹形探索可能な最尤系統推定ソフトウェアは存在しない(別々に樹形探索して対数尤度の和を求めるものはある)。比例モデルならTreefinderとPhase、GARLIが対応している。

追記 - 23:22:45
 井上さんの解説によると、RAxMLは分割モデルに対応しているもようです。比例モデルへの対応もしているんでしょうかねぇ・・・。マニュアル読んだのに見逃してました。

追記 - 2008/05/05 20:39:08
 topological congruence testはブートストラップ法を用いています。これは、上記の2仮説間にパラメータ数の差が無い(「樹形」はパラメータではない)ため、尤度比検定はできないからです。尤度比検定が使われているのはbranch length congruence testでした。

追記 - 2008/05/05 22:36:26
 彼らの手法では対比較とグルーピングを繰り返すのではなく、最初は全部バラバラと仮定して全ての組み合わせで尤度比を算出し、最も尤度比の小さいものでのみ検定を行い、有意差が無ければ結合して同じことを繰り返し、有意差があればそこで結合を終了するというもののようです。これだとstep間での多重性は発生しますが、step内では1回しか検定は行っていないので多重性の問題が発生しないということでしょうか。しかし多重検定の補正の節では
Secondly, the probability of type I error decreases with the number of likelihood-ratios compared at a given level of the hierarchy (i.e., the number of phylogenetic markers or sets of combined markers).
の意味が分からん。なんでType I errorが減るんだ? 尤度比による検定の絞り込みも検定と見なすならType I errorは増加するし、見なさないならType I errorは増加も減少もしないはずだ。わけがわからん。

追記 - 2008/05/05 22:52:35
 尤度比の一番小さい組み合わせでだけ検定を行うというのもまずいんじゃないか? 尤度比検定を行うならソレでもいいのかもしれないが、ブートストラップを用いた検定では各領域の形質数が異なったら、尤度比が大きい組み合わせでもより小さなp値を示すことはあり得るだろう。例えばa=b=200bp、c=d=2000bpのとき、c+dの組み合わせで尤度比が最小でブートストラップ検定でのp値が有意水準より小さくても、尤度比が僅差のa+dの組み合わせでブートストラップ検定のp値が非常に大きいということは十分にありそうな気がする。

[Life] 届かない - 16:06:25

 先日、我慢できずに紅茶を通販で注文して、昨日発送連絡が来たのですが、今のところ届いていません。大学に届くので土日は受け取れません(配達が無い)。うーん、月曜かなぁ・・・orz。あー待ち遠しい。まだかまだかまだか・・・。

[Life] 困った - 10:54:32

 Treefinderの仮説検定機能は、与えられた仮説群の中に重複があったときのことを考慮していない。おかげで正しいp値が得られない。困ったねぇ。仮説の重複を検出するのが簡単なら自前で何とかするのですが、それが案外そうでもないから面倒なんですよねぇ。

追記 - 17:33:43
 各系統樹間の距離行列を得られれば簡単なんですけどねぇ。PAUP*を使えば楽ですが配布に問題が出るし。

 とか考えていたら、先日のSystematic Biologyに載っていた尤度比検定ベースの方法(元ネタはHuelsenbeck and Bull, 1996とのこと)を完全に理解し、それを簡単にベイジアン化できることに気付いた。つまり、尤度比検定をベイズファクターに置き換えればいいだけだ。

 それにしても、彼らが用いているRAxMLは分割モデルに対応していないはずなんだが、ちゃんと分割モデルでやっているようなことを書いている。一体どうやっているんだろうか。隠し設定でもあるのか、それとも私が理解してないだけでちゃんと対応しているのか。

[Topics] 聖火リレーでの妨害に対抗して中国人がデモ計画 - 10:48:58

 チベット人のデモは「無許可デモ」として弾圧するのに都合の良いデモは黙認というダブルスタンダード。そもそも欧米でチベット独立運動に対する弾圧に抗議している人はいないんじゃないのか。自由と人権の抑圧に対する弾圧に抗議しているのだが、デモ参加者は「チベット独立」という誰も議論していないことを勝手に議論の対象と思いこんで「反対」するそうだ。キモ過ぎてドン引きされるだけなのだが、それが分からないのが民族主義者クオリティなのだろう。

 今の中国は戦前の日本にソックリだ。気付いていないのは本人達だけだろう。第三次世界大戦の足音が聞こえてきた気がする。

Go to front page
Comments and TrackBacks
Web antenna system: NaTsuMi
Search in this site
Access Count : 1980114