AI는 바이러스 탐정 지구에 숨은 7만여 신종 찾았다
AI는 바이러스 탐정 지구에 숨은 7만여 신종 찾았다
지난 9일 노벨 화학상이 단백질의 구조를 예측하거나 새로운 단백질을 디자인하는 인공지능(AI)을 연구한 과학자들에게 돌아갔다.
AI가 과학을 획기적으로 바꿀 수 있다고 평가한 것이다.
실제로 노벨 화학상 발표 다음 날 AI를 활용해 버이러스 신종을 무더기로 발견했다는 연구 결과가 나왔다.
중국 중산대의 시망(Mang Shi) 교수와 호주 시드니대의 에드워드 홈스(Edward Holmes) 교수 연구진은
“AI를 활용해 7만500개 신종 RNA 바이러스를 발견했다”고 지난 10일(현지 시각) 국제 학술지 ‘셀(Cell)’에 밝혔다.
인간은 유전정보가 DNA에 있지만, RNA 바이러스는 RNA에 담겨 있다.
코로나바이러스가 대표적인 RNA 바이러스이다. 바이러스 유전자를 찾는 일은 힘들다.
과학자들은 그동안 흙이나 물에 있는 유전물질을 분리하지 않고 함께 분석하는 ‘메타게놈학(군유전체학)’을 이용해 RNA 바이러스의 단서를 찾아왔다.
유전물질 더미에서 바이러스 각각의 RNA를 찾기란 건초 더미에서 바늘 찾기와 같다.
바이러스의 숙주가 무엇인지 알지 못하면 실험실에서 숙주를 배양하고 바이러스 RNA를 따로 추출하기 불가능하기 때문이다.
연구진은 AI로 한계를 극복했다.
앞서 2022년 아르템 바바이안 캐나다 토론토대 교수 연구진은 RNA를 복제하는 중합효소로 바이러스를 찾았다.
RNA 중합효소는 바이러스마다 다르다.
연구진은 AI로 환경 시료의 유전물질 더미에서 기존 바이러스에서 발견된 중합효소 유전자와 비슷한 RNA를 찾았다.
마치 건초 더미에 섞인 바늘의 크기와 형태를 대략 알고 찾는 것과 같다.
바바이안 교수 연구진은 이 방식으로 RNA 바이러스 13만 2000개를 찾았다.
하지만 RNA 바이러스는 주변 환경에 따라 빠르게 진화해 돌연변이가 많다.
유전 정보를 담은 RNA도 마찬가지다.
기존 데이터와 비슷한 RNA를 찾는 것만으로는 시료에서 모든 바이러스를 식별하기 어렵다.
이번 연구진은 유전자뿐 아니라 유전자가 만드는 단백질 구조도 고려해 바이러스의 흔적을 찾았다.
유전자 RNA가 참조 RNA와 크게 다르더라도 비슷한 구조를 갖는 단백질을 만드는 부분이 있다면 바이러스의 것이라 본 것이다.
연구진은 오픈AI의 대화형 AI인 챗GPT에서 입력된 텍스트의 문맥을 파악하는 ‘트랜스포머 아키텍처’를 기반으로 ‘루카프롯(LucaProt)’이라는 AI 모델을 개발했다.
유전물질에서 RNA 중합효소 유전자가 어디쯤 있을지 알아내는 식이다.
동시에 메타(옛 페이스북)가 개발한 단백질 구조 예측 AI인 ‘ESM폴드(ESMFold)’로 해당 유전자로 만든 단백질이 RNA 중합효소의 구조인지 확인했다.
연구진이 개발한 AI는 시료에서 얻은 방대한 유전자 염기서열을 읽고, RNA 중합효소의
역할을 하는 단백질을 만드는 서열, 또는 기존 RNA 중합효소를 만드는 서열과 비슷한 서열을 찾았다.
이 방식으로 RNA 바이러스 총 16만1979종을 찾았다.
이 중에는 소금 호수나 열수 분출공과 같은 극한 환경에서 사는 바이러스도 있었다.
그리고 절반 이상인 7만500종은 이전에 발견된 적 없는 새로운 바이러스였다.
바바이안 교수는 이번 연구에 대해 “RNA 바이러스의 생물 다양성을 볼 기회를 발견했다”며 “전에는 보지 못했던 것을 볼 수 있다”고 설명했다.