프라이버시 문제로 공공 데이터만 모여
연합학습 기법으로 민간 데이터 확보 가능할지 관심
[서울=뉴스핌] 방보경 기자 = 정부에서 기획하는 'K-멜로디' 프로젝트가 AI 신약개발 생태계를 성공적으로 구축할지 관심이 쏠린다. AI 신약개발은 단계별 협업 성공사례 및 기업 간 공동연구에서 성과가 부족하다는 지적을 받았지만, 정부는 'K-멜로디'를 통해 민간 데이터를 적극적으로 모음으로써 빅데이터 내실을 다질 수 있을 것으로 보고 있다.
21일 한국제약바이오협회에 따르면 '연합학습 기반 신약개발 가속화 프로젝트(K-MELLODDY, 이하 K-멜로디)'가 오는 2024년 연구개발(R&D) 과제화를 목표로 사업 기획 단계에 있다. K-멜로디는 과학기술정보통신부와 복지부가 공동 추진하는 AI 신약개발 플랫폼이다. 데이터 유출 없는 '연합학습 기술'을 통해 학교, 공공기관, AI·IT·제약바이오 기업 등 다기관 데이터를 한데 모으고, AI 신약개발을 가속화하는 것을 목표로 한다.
19일 열린 포럼에서 김우연 한국제약바이오협회 인공지능신약개발지원센터장이 'AI 신약개발의 글로벌 동향과 우리의 대응'이라는 주제로 발표하고 있다. [사진=한국제약바이오협회] |
◆커지는 AI 신약개발 시장…K-멜로디, 기대 ↑
K-멜로디 사업은 신약개발 관련 축적된 데이터가 부족하다는 데서 착안됐다. 지난 5년간 국내 AI 신약개발 기업 파이프라인 수는 14건에서 105건까지 늘면서 시장 규모가 커지고 있다. 하지만 단계별 협업 성공사례나 가시적인 성과는 여전히 부족했다.
일각에서는 민간기업이 빅데이터를 충분히 제공하지 않는다는 점을 성과 부족의 원인으로 꼽는다. 현재 정부에서는 '중앙 집중 보건의료 빅데이터 플랫폼' 구축에 전념하고 있지만, 이미 알려진 데이터가 많아 활용도가 떨어진다는 지적이 나온다. 시시각각 변화하는 의료 시장에서 유효한 데이터는 정작 제약바이오 기업들이 보유하고 있으나, 정작 기업 측에서는 지식재산권 침해 문제 등으로 데이터 제공을 꺼리고 있다.
이에 K-멜로디는 연합학습 기법을 통해 다양한 이해관계자를 사업에 적극 참여시키고자 한다. 연합학습이란 각사 디바이스를 통해 정보를 먼저 학습하고 모델을 한곳에 모아 더 정교하게 만든 후 각 기업에 퍼뜨리는 기법이다. 정보를 중앙 서버에 직접 공유하지 않는 기법으로, 프라이버시가 보장되므로 민간 참여도가 높아질 것으로 점쳐진다.
K-멜로디가 벤치마킹한 'EU-멜로디'도 성능 면에서 유의미한 결과를 내놨다. 지난 2019년부터 3년간 아스트라제네카, 암젠, 바이엘 등 10개 제약기업이 모여 연합학습을 한 결과, 개별 기업 AI 모델보다 2~4% 성능이 향상된 모델이 등장했다.
◆"유럽 모델 그 이상일 것"…R&D 비용도 1조원 절감
정부에서는 K-멜로디를 EU-멜로디를 충분히 뛰어넘을 수 있는 모델로 보고 있다. 한국제약바이오협회의 인공지능 신약개발 지원센터 관계자는 "한국형 K-MELLODDY사업은 EU MELLODDY의 전임상 단계의 물성 및 독성(ADME/Tox) 약물 최적화 단계에 집중된 부족한 응용 분야를 확장하고자 한다"며 "유럽과 한국에 집중된 질병이 다르듯이 질병에 따른 타겟도 다른데, 한국에 특화된 질병으로 학습된 바이오마커 발굴까지도 확장 가능할 것"이라고 밝혔다.
이어 "단순히 AI 모델의 기존 성능을 뛰어넘는 것이 아니라 실제 실험값과의 성능 비교를 통해 모델을 개선함으로써 AI 신약개발 분야에서 실효성을 확보할 것"이라며 "국가 차원에서 제약산업을 지원하기 위해 산학연정이 다양한 현장의 데이터를 AI 학습시킬 수 있는 구조로 수행할 예정"이라고 설명했다.
사업이 성공할 경우 경제적 효과도 기대된다. 연합학습 기반 ADME/Tox 예측모델을 개발함으로써 4600억 원의 직접적 R&D 투자비가 절감될 것으로 전망하고 있다. 이는 지난 2021년도 제약기업의 R&D 비용 연간 2조 1193억원의 22%에 달한다. 이어 인산화효소 활성저해 예측모델 등 신약개발 전임상까지 사업을 확대할 경우 국가 및 민간의 신약개발 R&D 비용을 1조 원 이상 절감할 것으로 예상된다.
한편, K-멜로디는 지난 2021년 복지부에서 'K-데이터 기반 신약개발 가속화 프로젝트'의 기획과제를 통해 연합학습을 활용한 신약개발 플랫폼을 제안했을 때 처음으로 고안됐다. 이후 지난해 한국연구재단에서 '국내 AI 신약개발 데이터 공유 활성화 방안 마련을 위한 연구'를 통해 구체화됐다. 정부 측은 사업 착수 시점으로부터 3년 안에 플랫폼을 구축하고 향후 2년 동안 집중적으로 플랫폼을 구축할 계획이다.
hello@newspim.com