AlphaGenome 저자 라운드테이블

팀 소개와 미션

Google DeepMind Genomics 팀이 AlphaGenome을 Nature에 발표했다. 제품 매니저 Dhavi Hariharan이 Genomics Lead Ziga Avsec, 공동 제1저자 Natasha Latysheva, Jun Cheng, Tom Ward와 함께 개발 과정을 논의한다.

[00:51] 팀의 미션은 유전체 서열을 해독할 수 있는 AI 시스템 구축
[01:01] DNA는 진화가 수백만 년에 걸쳐 프로그래밍한 “생명의 소스 코드”
[01:28] 돌연변이 효과 예측이 유전체 해독 진척의 핵심 지표

왜 AlphaGenome이 필요한가?

유전 질환 진단과 치료를 위한 AI 도구의 필요성:

[01:43] 희귀 유전 질환의 상당수가 현재까지도 진단되지 못한 채 남아 있음
[02:13] 유전체 이해와 돌연변이 예측은 AI의 가장 영향력 있는 적용 분야 중 하나
[02:33] AlphaMissense는 코딩 영역(유전체 2%)의 변이만 다뤘음
[02:41] AlphaGenome은 유전체의 나머지 98% 비코딩 부분에 집중

기존 모델들과의 차별점:

[05:14] 이전에도 Informa, Borzoi, SpliceAI, Orca 등 다양한 모델 존재
[05:35] AlphaGenome은 하나의 모델에서 더 많은 모달리티를 통합
[05:42] 메가베이스 규모의 입력 서열과 단일 염기 해상도 출력의 강력한 조합

“이제 하나의 모델로 변이가 미치는 영향을 여러 관점에서 보고 그 영향들을 분자생물학의 서로 다른 층위에서 고려할 수 있습니다.”

기술적 돌파: 모델 병렬화

긴 서열과 고해상도를 동시에 달성하기 어려웠던 이유:

[06:52] 더 장거리 서열 예측을 높은 해상도로 하면서 많은 모달리티를 포함하면 계산상 한계에 봉착
[07:27] 서열을 잘라 여러 TPU에서 처리하되 서로 소통하도록 설계
[07:59] 인접한 서열 구간을 샘플링하고 TPU 간 대화를 가능하게 함

아이디어에서 구현까지:

[08:03] 동료 Guido와 점심 대화에서 아이디어 공유, 처음엔 확신 없었음
[08:15] 며칠 뒤 가짜 데이터로 돌아가는 프로토타입 완성
[08:27] 기존 Informa 학습 루프만큼 빠르게 긴 서열을 고해상도로 처리 가능

데이터 파이프라인 최적화

대용량 학습 데이터 처리의 도전:

[08:52] 어느 시점에 40~50GB 데이터를 모델 학습 속도에 맞춰 로딩해야 했음
[09:05] 일부 모달리티에서 값의 99%가 0에 가까운 희소 데이터
[09:15] 데이터 압축/해제를 최대한 빠르게 하는 것이 핵심

데이터 품질 관리:

[09:23] 학습 데이터를 엄격하게 선별
[09:31] 품질 점검을 통해 고품질이거나 다양성에 기여하는 데이터만 포함

스플라이싱 모델링

스플라이싱의 중요성:

[10:16] 스플라이싱은 유전자가 단백질을 제대로 발현하는 데 필요한 과정
[10:24] 유전 정보가 비연속적으로 존재하므로 한데 모아야 함
[10:40] 많은 유전 질환이 스플라이싱 결함 때문에 발생

기술적 도전:

[11:27] 1D 트랙이 아니라 2D의 극도로 희소한 배열 예측
[11:41] 이런 역량은 이 분야에서도 새로운 것

콘택트 맵 모델링

3차원 유전체 구조의 중요성:

[11:57] 콘택트 맵은 DNA 구간들 사이의 상호작용을 포착하는 2차원 행렬
[12:09] 핵 안의 유전체는 복잡한 3차원 형태로 접혀 있음
[12:18] 프로모터-인핸서 상호작용이 유전자 발현에 큰 영향

멀티태스크 학습의 이점:

[12:50] 1D 모달리티와 2D 모달리티를 추가해도 성능 저하 없음
[13:05] 모든 모달리티가 같은 기반 과정(전사, 스플라이싱 등)을 측정하기 때문

평가와 벤치마킹

변이 영향 예측 평가:

[13:51] DNA 서열에 돌연변이가 있는/없는 버전을 각각 모델에 입력
[14:08] 예측값의 차이를 찾아 요약하는 방식
[14:24] 모델 출력이 약 11GB로, 변이 스코어링이 매우 느렸음
[15:02] 같은 장치에서 바로 집계하는 변이 스코어링 API 개발

포괄적 평가 전략:

[15:52] 각 개인이 1~2개 모달리티를 맡아 처음부터 끝까지 책임
[16:47] 분자 수준에서 실험적 측정값 재현 평가
[17:00] 생물체 수준에서 질병 위험 예측 평가

“모델이 암 드라이버 돌연변이를 다른 임의의 대조군보다 훨씬 높게 순위를 매긴다는 점이 놀라웠습니다.”

논문과 출시

프로젝트 일정:

[18:52] 출시 논의 시작부터 논문 출판까지 2년 미만 소요
[19:05] 한 방에 모여 모니터를 올려두고 함께 작업한 시간들

API 공개

사용 편의성 강조:

[19:44] 프리프린트와 거의 동시에 API 공개
[20:07] 노트북 열고 예측 실행, 결과 시각화가 아주 빠르게 가능
[20:15] GPU나 드라이버 설치 불필요

연구자들을 위한 도구:

[21:04] 어떤 변이가 인체에 해로울지 특정하는 도구로 활용
[21:13] 기본 생물학 이해 도구로도 활용 가능
[21:26] 게놈의 어느 부분이 기능적인지, 어느 세포 유형에서 활성화되는지 예측

커뮤니티 피드백

요청받은 기능들:

[22:10] 단일 염기 변경뿐 아니라 삽입, 결실, 구조적 변이 지원 요청
[22:37] 모델 임베딩 사용이나 자체 데이터로 파인튜닝 가능 여부
[23:00] 추가 종, 모달리티, 세포 유형 요청 (현재 인간과 생쥐만 지원)

“커뮤니티에서 오는 피드백 신호가 저희에게 대단히 중요합니다. 다음에 무엇을 만들지로 직접 이어집니다.”

향후 계획

다음 단계:

[23:45] 변이당 수만 개 점수를 하나의 점수로 요약하는 기능
[24:32] 전장유전체 연관 분석 같은 대규모 분석 지원
[24:54] 가능한 한 많은 변이를 미리 계산해 두는 방안 검토
[25:03] 모델 가중치 공개 예정

장기 비전:

[25:57] 새로운 단일세포 아틀라스 활용
[26:14] 조직 수준뿐 아니라 개별 세포 유형 수준에서 분자 과정 측정
[26:39] 더 자세한 내용은 Nature 논문 참조

관련 링크:

논문: https://www.nature.com/articles/s41586-025-10014-0
커뮤니티: https://www.alphagenomecommunity.com/