AlphaGenome 저자 라운드테이블

요약

  1. Google DeepMind가 DNA 서열-기능 예측을 통합한 AlphaGenome을 Nature에 발표, 유전체 98% 비코딩 영역 해독을 목표로 한다.
  2. 메가베이스 규모 서열을 단일 염기 해상도로 처리하며, 모델 병렬화와 희소 데이터 압축으로 기술적 한계를 돌파했다.
  3. API를 통해 연구자들이 GPU 없이도 변이 영향을 빠르게 스코어링할 수 있으며, 모델 가중치 공개도 예정되어 있다.

팀 소개와 미션

Google DeepMind Genomics 팀이 AlphaGenome을 Nature에 발표했다. 제품 매니저 Dhavi Hariharan이 Genomics Lead Ziga Avsec, 공동 제1저자 Natasha Latysheva, Jun Cheng, Tom Ward와 함께 개발 과정을 논의한다.

  • [00:51] 팀의 미션은 유전체 서열을 해독할 수 있는 AI 시스템 구축
  • [01:01] DNA는 진화가 수백만 년에 걸쳐 프로그래밍한 “생명의 소스 코드”
  • [01:28] 돌연변이 효과 예측이 유전체 해독 진척의 핵심 지표

왜 AlphaGenome이 필요한가?

유전 질환 진단과 치료를 위한 AI 도구의 필요성:

  • [01:43] 희귀 유전 질환의 상당수가 현재까지도 진단되지 못한 채 남아 있음
  • [02:13] 유전체 이해와 돌연변이 예측은 AI의 가장 영향력 있는 적용 분야 중 하나
  • [02:33] AlphaMissense는 코딩 영역(유전체 2%)의 변이만 다뤘음
  • [02:41] AlphaGenome은 유전체의 나머지 98% 비코딩 부분에 집중

기존 모델들과의 차별점:

  • [05:14] 이전에도 Informa, Borzoi, SpliceAI, Orca 등 다양한 모델 존재
  • [05:35] AlphaGenome은 하나의 모델에서 더 많은 모달리티를 통합
  • [05:42] 메가베이스 규모의 입력 서열과 단일 염기 해상도 출력의 강력한 조합

“이제 하나의 모델로 변이가 미치는 영향을 여러 관점에서 보고 그 영향들을 분자생물학의 서로 다른 층위에서 고려할 수 있습니다.”

기술적 돌파: 모델 병렬화

긴 서열과 고해상도를 동시에 달성하기 어려웠던 이유:

  • [06:52] 더 장거리 서열 예측을 높은 해상도로 하면서 많은 모달리티를 포함하면 계산상 한계에 봉착
  • [07:27] 서열을 잘라 여러 TPU에서 처리하되 서로 소통하도록 설계
  • [07:59] 인접한 서열 구간을 샘플링하고 TPU 간 대화를 가능하게 함

아이디어에서 구현까지:

  • [08:03] 동료 Guido와 점심 대화에서 아이디어 공유, 처음엔 확신 없었음
  • [08:15] 며칠 뒤 가짜 데이터로 돌아가는 프로토타입 완성
  • [08:27] 기존 Informa 학습 루프만큼 빠르게 긴 서열을 고해상도로 처리 가능

데이터 파이프라인 최적화

대용량 학습 데이터 처리의 도전:

  • [08:52] 어느 시점에 40~50GB 데이터를 모델 학습 속도에 맞춰 로딩해야 했음
  • [09:05] 일부 모달리티에서 값의 99%가 0에 가까운 희소 데이터
  • [09:15] 데이터 압축/해제를 최대한 빠르게 하는 것이 핵심

데이터 품질 관리:

  • [09:23] 학습 데이터를 엄격하게 선별
  • [09:31] 품질 점검을 통해 고품질이거나 다양성에 기여하는 데이터만 포함

스플라이싱 모델링

스플라이싱의 중요성:

  • [10:16] 스플라이싱은 유전자가 단백질을 제대로 발현하는 데 필요한 과정
  • [10:24] 유전 정보가 비연속적으로 존재하므로 한데 모아야 함
  • [10:40] 많은 유전 질환이 스플라이싱 결함 때문에 발생

기술적 도전:

  • [11:27] 1D 트랙이 아니라 2D의 극도로 희소한 배열 예측
  • [11:41] 이런 역량은 이 분야에서도 새로운 것

콘택트 맵 모델링

3차원 유전체 구조의 중요성:

  • [11:57] 콘택트 맵은 DNA 구간들 사이의 상호작용을 포착하는 2차원 행렬
  • [12:09] 핵 안의 유전체는 복잡한 3차원 형태로 접혀 있음
  • [12:18] 프로모터-인핸서 상호작용이 유전자 발현에 큰 영향

멀티태스크 학습의 이점:

  • [12:50] 1D 모달리티와 2D 모달리티를 추가해도 성능 저하 없음
  • [13:05] 모든 모달리티가 같은 기반 과정(전사, 스플라이싱 등)을 측정하기 때문

평가와 벤치마킹

변이 영향 예측 평가:

  • [13:51] DNA 서열에 돌연변이가 있는/없는 버전을 각각 모델에 입력
  • [14:08] 예측값의 차이를 찾아 요약하는 방식
  • [14:24] 모델 출력이 약 11GB로, 변이 스코어링이 매우 느렸음
  • [15:02] 같은 장치에서 바로 집계하는 변이 스코어링 API 개발

포괄적 평가 전략:

  • [15:52] 각 개인이 1~2개 모달리티를 맡아 처음부터 끝까지 책임
  • [16:47] 분자 수준에서 실험적 측정값 재현 평가
  • [17:00] 생물체 수준에서 질병 위험 예측 평가

“모델이 암 드라이버 돌연변이를 다른 임의의 대조군보다 훨씬 높게 순위를 매긴다는 점이 놀라웠습니다.”

논문과 출시

프로젝트 일정:

  • [18:52] 출시 논의 시작부터 논문 출판까지 2년 미만 소요
  • [19:05] 한 방에 모여 모니터를 올려두고 함께 작업한 시간들

API 공개

사용 편의성 강조:

  • [19:44] 프리프린트와 거의 동시에 API 공개
  • [20:07] 노트북 열고 예측 실행, 결과 시각화가 아주 빠르게 가능
  • [20:15] GPU나 드라이버 설치 불필요

연구자들을 위한 도구:

  • [21:04] 어떤 변이가 인체에 해로울지 특정하는 도구로 활용
  • [21:13] 기본 생물학 이해 도구로도 활용 가능
  • [21:26] 게놈의 어느 부분이 기능적인지, 어느 세포 유형에서 활성화되는지 예측

커뮤니티 피드백

요청받은 기능들:

  • [22:10] 단일 염기 변경뿐 아니라 삽입, 결실, 구조적 변이 지원 요청
  • [22:37] 모델 임베딩 사용이나 자체 데이터로 파인튜닝 가능 여부
  • [23:00] 추가 종, 모달리티, 세포 유형 요청 (현재 인간과 생쥐만 지원)

“커뮤니티에서 오는 피드백 신호가 저희에게 대단히 중요합니다. 다음에 무엇을 만들지로 직접 이어집니다.”

향후 계획

다음 단계:

  • [23:45] 변이당 수만 개 점수를 하나의 점수로 요약하는 기능
  • [24:32] 전장유전체 연관 분석 같은 대규모 분석 지원
  • [24:54] 가능한 한 많은 변이를 미리 계산해 두는 방안 검토
  • [25:03] 모델 가중치 공개 예정

장기 비전:

  • [25:57] 새로운 단일세포 아틀라스 활용
  • [26:14] 조직 수준뿐 아니라 개별 세포 유형 수준에서 분자 과정 측정
  • [26:39] 더 자세한 내용은 Nature 논문 참조

관련 링크: