팀 소개와 미션
Google DeepMind Genomics 팀이 AlphaGenome을 Nature에 발표했다. 제품 매니저 Dhavi Hariharan이 Genomics Lead Ziga Avsec, 공동 제1저자 Natasha Latysheva, Jun Cheng, Tom Ward와 함께 개발 과정을 논의한다.
- [00:51] 팀의 미션은 유전체 서열을 해독할 수 있는 AI 시스템 구축
- [01:01] DNA는 진화가 수백만 년에 걸쳐 프로그래밍한 “생명의 소스 코드”
- [01:28] 돌연변이 효과 예측이 유전체 해독 진척의 핵심 지표
왜 AlphaGenome이 필요한가?
유전 질환 진단과 치료를 위한 AI 도구의 필요성:
- [01:43] 희귀 유전 질환의 상당수가 현재까지도 진단되지 못한 채 남아 있음
- [02:13] 유전체 이해와 돌연변이 예측은 AI의 가장 영향력 있는 적용 분야 중 하나
- [02:33] AlphaMissense는 코딩 영역(유전체 2%)의 변이만 다뤘음
- [02:41] AlphaGenome은 유전체의 나머지 98% 비코딩 부분에 집중
기존 모델들과의 차별점:
- [05:14] 이전에도 Informa, Borzoi, SpliceAI, Orca 등 다양한 모델 존재
- [05:35] AlphaGenome은 하나의 모델에서 더 많은 모달리티를 통합
- [05:42] 메가베이스 규모의 입력 서열과 단일 염기 해상도 출력의 강력한 조합
“이제 하나의 모델로 변이가 미치는 영향을 여러 관점에서 보고 그 영향들을 분자생물학의 서로 다른 층위에서 고려할 수 있습니다.”
기술적 돌파: 모델 병렬화
긴 서열과 고해상도를 동시에 달성하기 어려웠던 이유:
- [06:52] 더 장거리 서열 예측을 높은 해상도로 하면서 많은 모달리티를 포함하면 계산상 한계에 봉착
- [07:27] 서열을 잘라 여러 TPU에서 처리하되 서로 소통하도록 설계
- [07:59] 인접한 서열 구간을 샘플링하고 TPU 간 대화를 가능하게 함
아이디어에서 구현까지:
- [08:03] 동료 Guido와 점심 대화에서 아이디어 공유, 처음엔 확신 없었음
- [08:15] 며칠 뒤 가짜 데이터로 돌아가는 프로토타입 완성
- [08:27] 기존 Informa 학습 루프만큼 빠르게 긴 서열을 고해상도로 처리 가능
데이터 파이프라인 최적화
대용량 학습 데이터 처리의 도전:
- [08:52] 어느 시점에 40~50GB 데이터를 모델 학습 속도에 맞춰 로딩해야 했음
- [09:05] 일부 모달리티에서 값의 99%가 0에 가까운 희소 데이터
- [09:15] 데이터 압축/해제를 최대한 빠르게 하는 것이 핵심
데이터 품질 관리:
- [09:23] 학습 데이터를 엄격하게 선별
- [09:31] 품질 점검을 통해 고품질이거나 다양성에 기여하는 데이터만 포함
스플라이싱 모델링
스플라이싱의 중요성:
- [10:16] 스플라이싱은 유전자가 단백질을 제대로 발현하는 데 필요한 과정
- [10:24] 유전 정보가 비연속적으로 존재하므로 한데 모아야 함
- [10:40] 많은 유전 질환이 스플라이싱 결함 때문에 발생
기술적 도전:
- [11:27] 1D 트랙이 아니라 2D의 극도로 희소한 배열 예측
- [11:41] 이런 역량은 이 분야에서도 새로운 것
콘택트 맵 모델링
3차원 유전체 구조의 중요성:
- [11:57] 콘택트 맵은 DNA 구간들 사이의 상호작용을 포착하는 2차원 행렬
- [12:09] 핵 안의 유전체는 복잡한 3차원 형태로 접혀 있음
- [12:18] 프로모터-인핸서 상호작용이 유전자 발현에 큰 영향
멀티태스크 학습의 이점:
- [12:50] 1D 모달리티와 2D 모달리티를 추가해도 성능 저하 없음
- [13:05] 모든 모달리티가 같은 기반 과정(전사, 스플라이싱 등)을 측정하기 때문
평가와 벤치마킹
변이 영향 예측 평가:
- [13:51] DNA 서열에 돌연변이가 있는/없는 버전을 각각 모델에 입력
- [14:08] 예측값의 차이를 찾아 요약하는 방식
- [14:24] 모델 출력이 약 11GB로, 변이 스코어링이 매우 느렸음
- [15:02] 같은 장치에서 바로 집계하는 변이 스코어링 API 개발
포괄적 평가 전략:
- [15:52] 각 개인이 1~2개 모달리티를 맡아 처음부터 끝까지 책임
- [16:47] 분자 수준에서 실험적 측정값 재현 평가
- [17:00] 생물체 수준에서 질병 위험 예측 평가
“모델이 암 드라이버 돌연변이를 다른 임의의 대조군보다 훨씬 높게 순위를 매긴다는 점이 놀라웠습니다.”
논문과 출시
프로젝트 일정:
- [18:52] 출시 논의 시작부터 논문 출판까지 2년 미만 소요
- [19:05] 한 방에 모여 모니터를 올려두고 함께 작업한 시간들
API 공개
사용 편의성 강조:
- [19:44] 프리프린트와 거의 동시에 API 공개
- [20:07] 노트북 열고 예측 실행, 결과 시각화가 아주 빠르게 가능
- [20:15] GPU나 드라이버 설치 불필요
연구자들을 위한 도구:
- [21:04] 어떤 변이가 인체에 해로울지 특정하는 도구로 활용
- [21:13] 기본 생물학 이해 도구로도 활용 가능
- [21:26] 게놈의 어느 부분이 기능적인지, 어느 세포 유형에서 활성화되는지 예측
커뮤니티 피드백
요청받은 기능들:
- [22:10] 단일 염기 변경뿐 아니라 삽입, 결실, 구조적 변이 지원 요청
- [22:37] 모델 임베딩 사용이나 자체 데이터로 파인튜닝 가능 여부
- [23:00] 추가 종, 모달리티, 세포 유형 요청 (현재 인간과 생쥐만 지원)
“커뮤니티에서 오는 피드백 신호가 저희에게 대단히 중요합니다. 다음에 무엇을 만들지로 직접 이어집니다.”
향후 계획
다음 단계:
- [23:45] 변이당 수만 개 점수를 하나의 점수로 요약하는 기능
- [24:32] 전장유전체 연관 분석 같은 대규모 분석 지원
- [24:54] 가능한 한 많은 변이를 미리 계산해 두는 방안 검토
- [25:03] 모델 가중치 공개 예정
장기 비전:
- [25:57] 새로운 단일세포 아틀라스 활용
- [26:14] 조직 수준뿐 아니라 개별 세포 유형 수준에서 분자 과정 측정
- [26:39] 더 자세한 내용은 Nature 논문 참조
관련 링크: