본문 바로가기
[Journal]

[Journal] 단백질 구조 예측 알고리즘 AlphaFold2 - 소개와 원리

by 준제 2023. 8. 30.

단백질은 20가지의 아미노산으로 이뤄진 선형 사슬 수십~수천개가 복잡한 3차원 모양으로 접혀 있어(a나선, b병풍) 구조를 파악하기 어려우며 3D모델링으로 표현하는 데에도 한계가 있다. 현대 생명과학에서는 단백질의 구조를 어떻게 파악하고 있을지 알아보자.

다양한 단백질의 구조들

국제 과학 학술지 사이언스는 단백질 접힘 구조를 예측하는 인공지능 알파폴드2의 개발을 21년도 최고의 과학 성과로 선정했다. 구글 딥마인드사는 단백질 구조 예측 인공지능 알파폴드2365000개 이상의 단백질 3차원 구조를 정확히 예측했다. 알파폴드2는 단백질 구조 예측 대회(CASP)에서 90%가 넘는 정확도를 기록했다. 2018년도의 최고기록이 70%대인것과 비교하면 놀라운 발전이다.

 

ALPHAFOLD2의 CASP 정확도 추이

 

사이언스는 연구의 다음 단계로 단백질들의 상호작용 예측을 꼽았다. 딥마인드는 논문에서 4433개의 단백질 복합체 사이 결합을 밝혀내었고, 워싱턴대 연구진도 이어서 992개의 단백질 복합체 구조를 밝혀냈다.

 

알파폴드 2의 원리(알고리즘)을 간단하게 알아보았다. 첫번째 Input feature embeddings 단계는 입력 전처리 단계이다. 단백질 데이터베이스에서 유사 서열을 검색해 서열 다중 정렬(MSA, Multiple Sequence Alignment)을 만들고, 유사 서열의 단백질 구조가 있는 경우 이 구조를 참고해 단백질 아미노산 간 상호 관계를 분석한다. 두번째 Evoformer 단계는 48단계에 거친 딥러닝 네트워크를 이용하여 보다 정확한 아미노산 간 상호작용을 분석한다. 마지막 3단계 Structure module에서는 만들어진 정보를 구체적인 3차원 좌표로 변환시킨다.

알파폴드2의 model architecture

이것으로 정보과학기술과 알고리즘이 분자생물학에 구체적으로 어떻게 적용되고 있는지 알 수 있었다.

 


 

[참고 자료]

l   한겨레. (2021) 올해의 과학 성과에 단백질 구조 예측 인공지능

https://www.hani.co.kr/arti/science/science_general/1023734.html

l   동아사이언스. (2021) 구글 딥마인드AI, 인간 단백질 2만개 구조 모두 예측했다

https://www.dongascience.com/news.php?idx=48207

l   조태호. 알파폴드 리뷰와 해석

https://taehojo.github.io/alphafold/alphafold1.html#%EC%95%8C%ED%8C%8C%ED%8F%B4%EB%93%9C%EC%9D%98-%EC%9B%90%EB%A6%AC