본문 바로가기 메인메뉴 바로가기

전자정부이 누리집은 대한민국 공식 전자정부 누리집입니다.

콘텐츠 영역

국내 병원 의무기록 해석 잘하는 인공지능 언어모델 개발(2.27.금)

말하기 속도

본문 듣기를 종료하였습니다.

글자크기 설정
목록

국내 병원 의무기록 해석 잘하는 인공지능 언어모델 개발


- 한국어·영어 병기된 의무기록 동시 분석 가능한 인공지능 언어모델 국내 최초로 개발

- 임상 흉부 CT 판독문 분석에서 종합정확도 0.94 달성


  질병관리청(청장 임승관) 국립보건연구원(원장 남재환)은 한국어와 영어가 혼합된 국내 병원 전자의무기록을 보다 정확하게 분석하고 활용할 수 있는 한·영 이중언어 인공지능 모델을 국내 최초로 개발*하였다.

  * 논문명: Domain and Language adaptive pre-training of BERT models for Korean-English bilingual clinical text analysis (붙임 참고)


  국내 의료기관에서 생성되는 전자의무기록(Electronic Medical Record, EMR)의 약 80%는 자유서술 형태의 비정형 문서로 구성되어 있으며, 한국어와 영어 의학 용어가 혼합된 형태로 작성되어 있다. 이에 따라 단일 언어 기반 인공지능 모델을 적용할 경우 분석 정확도가 저하되는 한계가 제기되어 왔다.

 

  이번 연구에서는 한·영 의료 어휘 체계와 말뭉치를 활용하고 추가 사전학습을 수행한 이중언어 인공지능 모델을 개발하였다. 


  이중언어 인공지능 모델을 의료현장에서 수집한 흉부 CT 판독문에 적용하여 다중 질환 분류 분석을 수행하였다. 그 결과, 최대 종합정확도 0.94*를 달성하여 임상 적용 가능성을 확인하였다.

  * 종합정확도는 질환 판별의 정확도와 검출 능력을 종합적으로 평가하는 지표로, 0.9 이상일 경우 임상 활용 가능성을 검토할 수 있는 수준으로 평가됨.


  국립보건연구원은 '비정형 의료 데이터 분석을 위한 인공지능 알고리즘 기술 개발 사업'을 통해 고려대학교 의과대학(연구책임자 주형준)과 함께 비정형 텍스트 의무기록 데이터 활용을 위한 연구를 수행해 왔다. 


  연구를 주도한 주형준 교수는 "이번 연구는 국내 임상 현장 특성을 반영한 이중언어 의료 언어모델을 구현하고, 실제 의료데이터 검증을 통해 임상 적용 가능성을 확인한 점에서 의미가 있다"고 전했다.


한·영 이중 언어 의료 언어 모델 개발 연구 개요  이중 언어 의료 말뭉치 및 어회 구축 한국어 데이터(54.4%) + 영어 데이터(33.8%) 한국어(의학 교과서, 건강 뉴스)와 영어(교과서, MIMIC-IV 임상 노트) 데이터를 균형 있게 통합했습니다.  45,000개의 이중 언어 특화 어휘 생성 WordPiece 알고리즘  도메인 적응형 추가 사전학습(Domain-Adaptive Pre-training) KM-BERT + BioBERT = 기존 모델 기반 의료 맥락 이해 추가 학습  모델 성능 검증 및 주요 성과 흉부 CT 판독문 분류 성능의 획기적 향상  모델명 / 암(Cancer) F1 / 폐렴(Pneumonia) F1 / 평균(Macro) F1 KM-BERT(기존) / 0.9520 / 0.9420 / 0.9460 bi-KM-BERT(개발) / 0.9560 / 0.9560 / 0.9430 bi-BioBERT(개발) / 0.9802 / 0.9430 / 0.9460  이중 언어 학습을 통한 [UNK] 토큰의 최소화 [UNK] 발생률 0.0001% 수준, 전용 어휘 구축으로 문맥 이해도 높임 이중 언어 유사도(MedSTS) 성능 개선


  국립보건연구원 헬스케어인공지능연구과는 코호트 기반의 멀티모달 데이터를 활용한 인공지능 모델 개발 연구를 수행하고 있으며, 연구자와 의료기관이 활용할 수 있는 의료 인공지능 데이터와 연구 생태계 조성을 지속적으로 지원할 계획이다. 

  ※ 이번 연구로 개발한 이중언어 인공지능 모델은 국제 인공지능 누리집 GitHub(github.com/NIHxAI)에 공개 예정


  임승관 질병관리청장은 "이번 성과는 국내 의료기관에서 생성되는 전자의무기록 데이터를 보다 체계적으로 분석․활용할 수 있는 인공지능 기반을 구축했다는 점에서 중요하다"며, "의료데이터의 활용 가치를 높이고, 국내 인공지능 연구 역량을 한 단계 끌어올리는 계기가 될 것"이라고 밝혔다.


  아울러, "이번 기술 개발이 의료정보 활용 체계 고도화와 공공보건 정책의 정밀도 향상으로 이어지기를 기대한다"라고 전했다.


 <붙임> 연구논문 주요내용  


“이 자료는 질병관리청의 보도자료를 전재하여 제공함을 알려드립니다.”

공공누리 출처표시의 조건에 따라 자유이용이 가능합니다. (텍스트)
단, 사진, 이미지, 일러스트, 동영상 등의 일부 자료는 문화체육관광부가 저작권 전부를 보유하고 있지 아니하므로, 반드시 해당 저작권자의 허락을 받으셔야 합니다.
정책브리핑 공공누리 담당자 안내 닫기

이전다음기사

다음[기품원] 국방기술품질원, 한국형 고장률 예측소프트웨어 개발·무상배포

정책브리핑 게시물 운영원칙에 따라 다음과 같은 게시물은 삭제 또는 계정이 차단 될 수 있습니다.

  • 1. 타인의 메일주소, 전화번호, 주민등록번호 등의 개인정보 또는 해당 정보를 게재하는 경우
  • 2. 확인되지 않은 내용으로 타인의 명예를 훼손시키는 경우
  • 3. 공공질서 및 미풍양속에 위반되는 내용을 유포하거나 링크시키는 경우
  • 4. 욕설 및 비속어의 사용 및 특정 인종, 성별, 지역 또는 특정한 정치적 견해를 비하하는 용어를 게시하는 경우
  • 5. 불법복제, 바이러스, 해킹 등을 조장하는 내용인 경우
  • 6. 영리를 목적으로 하는 광고 또는 특정 개인(단체)의 홍보성 글인 경우
  • 7. 타인의 저작물(기사, 사진 등 링크)을 무단으로 게시하여 저작권 침해에 해당하는 글
  • 8. 범죄와 관련있거나 범죄를 유도하는 행위 및 관련 내용을 게시한 경우
  • 9. 공인이나 특정이슈와 관련된 당사자 및 당사자의 주변인, 지인 등을 가장 또는 사칭하여 글을 게시하는 경우
  • 10. 해당 기사나 게시글의 내용과 관련없는 특정 의견, 주장, 정보 등을 게시하는 경우
  • 11. 동일한 제목, 내용의 글 또는 일부분만 변경해서 글을 반복 게재하는 경우
  • 12. 기타 관계법령에 위배된다고 판단되는 경우
  • 13. 수사기관 등의 공식적인 요청이 있는 경우

히단 배너 영역

정책 NOW, MY 맞춤뉴스

정책 NOW

정부정책 사실은 이렇습니다

실시간 인기뉴스 02.27. 11:30 기준

  1. 'K-로봇' 직접 보니…제 할 일 알아서 '척척', 제품 '뚝딱' 순위동일
  2. "4월부터 인구감소지역 여행하고 경비 절반 돌려받아요" 순위동일
  3. 영상 경제 리프팅 하려면 이 정도 리프팅은 해줘야 하잖아? 순위동일
  4. 정부, 교복 가격·학원비 개선…정장형 대신 생활형 교복 등 전환 순위동일
  5. [K-로컬 미식여행 33선] (27) 세계가 반한 K-푸드의 선두주자, 김 NEW
  6. 3·1절, 107년 전 그날을 기억하는 곳으로 단계하락 1

인기, 최신, 오늘의 영상 , 오늘의 사진

오늘의 멀티미디어

정책포커스