어떤 기사를 찾으시나요?
닫기
2025-12-18 02:54:07 기준
  • 의약품
  • 데일리팜
  • #MA
  • #약사
  • 글로벌
  • GC
  • #질 평가
  • #제품
  • CT
  • #침
팜스터디

"AI 신약, 왜 챗GPT만큼 성과 못 내나"…전문가 답변은

  • 김진구
  • 2024-09-26 12:00:17
  • 김우연 히츠 대표 "14페타바이트 확보에도 여전히 데이터 부족"
  • "제약바이오, 자연어 처리보다 복잡한 데이터 요구…환원주의로 접근 중"

[데일리팜=김진구 기자] 챗GPT 등 AI(인공지능) 기술이 최근 매우 빠른 발전을 거듭하고 있다. 다만 제약업계 일각에선 신약 개발 분야의 경우 자연어 처리 분야와 비교해 기술 발전의 속도가 다소 느리다는 비판이 꾸준히 제기된다.

김우연 히츠 대표
이와 관련해 국내 AI 신약개발 업체 히츠(HITS)의 김우연 대표는 "여전히 AI 학습에 필요한 데이터가 부족하기 때문"이라는 진단을 내놨다. 김 대표는 지난 25일 히츠 웨비나를 통해 이같이 설명했다.

그에 따르면 AI를 학습시키기 위한 딥러닝에는 천문학적인 데이터가 필요하다. 이와 관련 신약개발을 위한 딥러닝 데이터로는 현재 Short Read Archive라는 곳에 14페타바이트(petabytes) 이상이 축적돼 있다는 게 그의 설명이다. 페타바이트는 1000조를 의미하는 정보 단위로, 흔히 알려진 기가바이트의 100만배에 해당한다.

현 상태로도 거대한 데이터가 축적돼 있으며, 이는 챗GPT를 훈련하는 데 사용한 데이터보다 이미 1000배 이상 큰 규모다. 그럼에도 신약개발을 위한 딥러닝 데이터 양으로는 부족한 게 현실이다.

이에 대해 김우연 대표는 신약개발을 위한 DNA·RNA·세포와 관련한 데이터의 경우 훨씬 복잡하고 다양해야 하기 때문이라고 설명했다.

그는 "바이오 분야는 DNA부터 RNA, 단백질에 이르기까지 시스템이 매우 복잡하다. 더구나 세포마다 사람마다 종마다 환경이 다르다"며 "이렇게 복잡하면서도 다양한 시스템을 AI가 이해하기 위해선 지금보다 더 많은 데이터가 필요하다"고 말했다.

이러한 한계 때문에 최근 AI신약개발 업계에선 '환원주의(Reductionism)'이라는 방식으로 접근하는 추세다. 현 상황에서 인간의 세포 전체를 분석·학습하는 것이 어렵기 때문에, 요소별로 나눠 접근하는 방식이다.

일례로 유전자 발현이나 약물 반응과 같은 분야로 나눠 먼저 접근한 뒤, 충분한 데이터가 누적되면 이런 기술들을 통합한다는 아이디어다. 이러한 요소별 모델 개발 성과는 최근 지속되고 있다고 김 대표는 설명했다.

바이오 빅데이터 증가 속도(자료 히츠)
김 대표는 AI신약개발 분야의 현 상황을 "여러 단계 가운데 첫 번째 문 앞에 온 상황"이라고 설명했다. 기술 발전 속도가 현재까지는 더디게 보일 수 있지만, 가까운 시일 내에 크게 빨라질 것이란 설명이다.

그가 이런 전망을 내놓은 이유는 바이오 데이터 축적 속도가 빨라졌기 때문이다.

김 대표는 "2019년 이후로 축적되는 데이터의 양이 매 6개월마다 2배씩 늘어나고 있다"며 김 대표는 "기술의 발전으로 다양한 환경에서 데이터 축적이 가속화할 것"이라고 기대했다.

김 대표는 "AI의 분석 결과를 실제 신약개발에 적용할 수 있을지와 관련해서도 성과가 쏟아지고 있다"며 "항암제 6종을 선정해 어떤 조합에서 병용투여 효과가 극대화할지 AI를 통해 예측하는 연구가 진행됐다. 이를 암 환자 369명을 대상으로 검증했는데 AI의 예측이 실험으로 증명된 것으로 나타났다"고 말했다.

댓글을 작성하려면 로그인 해주세요.
  • 댓글 0
  • 최신순
  • 찬성순
  • 반대순
운영규칙
  • 등록된 댓글이 없습니다.
    첫 댓글을 남겨주세요.