がんの遺伝子解析では、親から受け継がれた細胞に存在する先天的な変異と、紫外線や化学物質、DNA複製の際の偶然のエラーなどによる後天的な変異を正確に見分ける必要があります。Google Reearchが、がんの遺伝子変異を特定するための AIモデル「DeepSomatic」をカリフォルニア大学サンタクルーズ校や、Children’s Mercyなどと共同開発し、高品質な学習用データセット「CASTLE」とともに、ソースコードを管理・共有できる GitHubで公開しました。
- Using AI to identify genetic variants in tumors with DeepSomatic(10/16 Google Research)
- Accurate somatic small variant discovery for multiple sequencing technologies with DeepSomatic(10/16 nature biotechnology)

DeepSomaticは、先天的変異を発見するためのツール「DeepVariant」の拡張機能で、がん細胞と正常な細胞のゲノム配列データを画像に変換し、それを畳み込みニューラルネットワークで解析します。この画像解析により、遺伝子配列を読み取るDNAシーケンシングの過程で生じる微細なエラーと、本物の遺伝的変異を区別し、がん特有の体細胞変異を高精度で検出します。
高精度な DeepSomaticを支えているのは CASTLE(Cancer Standards Long-read Evaluation)と名付けられた高品質な学習用データセットです。このデータセットは、乳がんと肺がんのサンプルについて、3種類の主要なDNAシーケンシングシステムのデータが統合されたもので、各プラットフォームが含んでいるエラーを取り除くことで非常に正確なものになっています。

DeepSomaticは、学習に使用した乳がんや肺がんだけでなく、全く異なる種類のがんにもその能力を応用できるとGoogle Researchは述べています。実際に、悪性度の高い脳腫瘍である膠芽腫(こうがしゅ)のサンプルを解析したところ、原因となる遺伝的変異を正確に特定することに成功しました。

また、小児で最も多いがんである小児白血病の解析も行われました。白血病は血液のがんであるため、比較対象となる正常な血液細胞を採取することが困難でしたが、がん細胞のデータのみを用いる「腫瘍のみ」の解析でも、既に知られていた変異に加えて、新たに他のツールでは見逃されていた10個の変異を発見することができたとしています。
参加したすべての研究チームは、「多くの研究室や臨床医の皆様にこのAIツールをご利用いただけるよう願っています。既知のがん変異を検出することで、化学療法、免疫療法、その他の既存の治療法の選択に役立つ可能性があります。また、新たながん変異を特定することで、全く新しい治療法の開発につながる可能性があります。皆様がこのツールをご利用いただき、それぞれのがん腫瘍についてより深く理解し、その原因を突き止め、最終的に患者さんに最も効果的な治療を提供できるよう願っています」と述べています。
- DeepSomatic(GitHub)
- CASTLE: Cancer Standards Long-read Evaluation(GitHub)