タンパク質構造の予想外な冗長性、生成モデル学習に影響
タンパク質の配列は多様だが、3次元構造はより冗長で、約196万のMGnify断片が約2万5千の構造クラスターに集約されたという。Ligoの研究により、構造学習用データセットの実質的な多様性が従来の評価より大幅に低いことが判明した。
Ligoの研究チームは、自然タンパク質配列データベースにおける3次元構造の冗長性を調査した結果、配列の多様性に比べて構造の多様性がはるかに限定的であることを発見した。グラフ理論的なスペクトル二分法を用いたクラスタリングパイプラインを開発し、約196万のMGnify断片を分析したところ、わずか2万5千の構造グループに集約された。
構造クラスターの偏在
MGnifyの196万1750の多成員断片は2万5302の多成員クラスターに分布するが、上位1000クラスターが多成員クラスター全体の71.5%を占めている。この上位1000クラスターは多成員クラスター全体のわずか約4.0%に過ぎない。一方、AlphaFold Databaseでも同様の傾向が見られ、159万2372の多成員断片のうち64.3%が上位1000クラスターに集中している。
Foldseekが報告したAlphaFold Databaseの非シングルトン構造クラスターは230万に達するが、Ligoの分析では実質的に再利用可能な構造領域の真の数はこれより大幅に少なく、約2万5千に近いと考えられる。
隠れたクラスターの発見
Foldseekのシングルトンとラベル付けされた1000個の断片の抽出により、373個がTMスコア0.8以上で69の連結成分に分類された。最大の隠れクラスターは35個のメンバーを含んでいた。これにより、従来のクラスタリング手法が構造的に類似した配列発散型タンパク質を過度に分割していることが示唆される。
配列同一性と構造の関係
調査では、配列同一性が23.9%、28.3%、28.2%と比較的低いタンパク質であっても、同じ構造クラスターに属する事例が確認された。この発見は、タンパク質の進化過程における共進化の影響を示している。共進化により、関連タンパク質では複数の位置が協調して変化し、構造的制約を保ちながら配列が多様化することが明かされた。
生成モデル訓練への含意
AlphaFold3に代表される深層学習モデルは、AlphaFold Databaseやメタゲノミクス由来のMGnifyなど、実験構造と配列データベースの広範なコレクションで訓練されている。DeepMindはAlphaFold3プロジェクトを社内で一時的に「all-PDB」と呼んでいた。Chai-2、Latent-X2、Nablaといったモデルは、開発可能な抗体または生物学的医薬品の設計を報告している。


筆者の見立て
- 実質的に再利用可能な構造近傍の真の数は、Foldseekの報告する230万より、現在の分析における2万5千のほうが正確であると解釈している
- グラフベースのクラスタリング手法が構造的に非常に類似した配列発散型断片を分割できることを示唆している
- 深層学習を用いた設計抗体が、従来のウェットラボ手法に抵抗してきた受容体を標的とする優れた医薬特性を備える可能性を予想している
- Foldseekのシングルトンを独立した構造モードとして扱うと、構造空間の多様性を過大評価し、サンプラーに対して歪んだ折り畳み空間の像を与えることになるという実践的教訓を示唆している
- MGnifyからのサンプリングが実質的には共通する構造領域への繰り返しアクセスであることを解釈している
この記事は元記事の事実のみに基づいて自動生成されました。
出典
Ligo Research「The Unreasonable Redundancy of Nature's Protein Folds」https://research.ligo.bio/posts/unreasonable-redundancy-of-natural-protein-folds/ (MGnify、Protein Data Bank、AlphaFold Database、OpenFold3、Foldseek、MMseqs2の報道による)