콘텐츠 영역
국내 병원 의무기록 해석 잘하는 인공지능 언어모델 개발
- 한국어·영어 병기된 의무기록 동시 분석 가능한 인공지능 언어모델 국내 최초로 개발
- 임상 흉부 CT 판독문 분석에서 종합정확도 0.94 달성
질병관리청(청장 임승관) 국립보건연구원(원장 남재환)은 한국어와 영어가 혼합된 국내 병원 전자의무기록을 보다 정확하게 분석하고 활용할 수 있는 한·영 이중언어 인공지능 모델을 국내 최초로 개발*하였다.
* 논문명: Domain and Language adaptive pre-training of BERT models for Korean-English bilingual clinical text analysis (붙임 참고)
국내 의료기관에서 생성되는 전자의무기록(Electronic Medical Record, EMR)의 약 80%는 자유서술 형태의 비정형 문서로 구성되어 있으며, 한국어와 영어 의학 용어가 혼합된 형태로 작성되어 있다. 이에 따라 단일 언어 기반 인공지능 모델을 적용할 경우 분석 정확도가 저하되는 한계가 제기되어 왔다.
이번 연구에서는 한·영 의료 어휘 체계와 말뭉치를 활용하고 추가 사전학습을 수행한 이중언어 인공지능 모델을 개발하였다.
이중언어 인공지능 모델을 의료현장에서 수집한 흉부 CT 판독문에 적용하여 다중 질환 분류 분석을 수행하였다. 그 결과, 최대 종합정확도 0.94*를 달성하여 임상 적용 가능성을 확인하였다.
* 종합정확도는 질환 판별의 정확도와 검출 능력을 종합적으로 평가하는 지표로, 0.9 이상일 경우 임상 활용 가능성을 검토할 수 있는 수준으로 평가됨.
국립보건연구원은 '비정형 의료 데이터 분석을 위한 인공지능 알고리즘 기술 개발 사업'을 통해 고려대학교 의과대학(연구책임자 주형준)과 함께 비정형 텍스트 의무기록 데이터 활용을 위한 연구를 수행해 왔다.
연구를 주도한 주형준 교수는 "이번 연구는 국내 임상 현장 특성을 반영한 이중언어 의료 언어모델을 구현하고, 실제 의료데이터 검증을 통해 임상 적용 가능성을 확인한 점에서 의미가 있다"고 전했다.
![external_image 한·영 이중 언어 의료 언어 모델 개발 연구 개요 이중 언어 의료 말뭉치 및 어회 구축 한국어 데이터(54.4%) + 영어 데이터(33.8%) 한국어(의학 교과서, 건강 뉴스)와 영어(교과서, MIMIC-IV 임상 노트) 데이터를 균형 있게 통합했습니다. 45,000개의 이중 언어 특화 어휘 생성 WordPiece 알고리즘 도메인 적응형 추가 사전학습(Domain-Adaptive Pre-training) KM-BERT + BioBERT = 기존 모델 기반 의료 맥락 이해 추가 학습 모델 성능 검증 및 주요 성과 흉부 CT 판독문 분류 성능의 획기적 향상 모델명 / 암(Cancer) F1 / 폐렴(Pneumonia) F1 / 평균(Macro) F1 KM-BERT(기존) / 0.9520 / 0.9420 / 0.9460 bi-KM-BERT(개발) / 0.9560 / 0.9560 / 0.9430 bi-BioBERT(개발) / 0.9802 / 0.9430 / 0.9460 이중 언어 학습을 통한 [UNK] 토큰의 최소화 [UNK] 발생률 0.0001% 수준, 전용 어휘 구축으로 문맥 이해도 높임 이중 언어 유사도(MedSTS) 성능 개선](https://www.kdca.go.kr/atchmnfl/CrossEditor/binary/images/000007/20260226170148356_9XVKQ74R.png)
국립보건연구원 헬스케어인공지능연구과는 코호트 기반의 멀티모달 데이터를 활용한 인공지능 모델 개발 연구를 수행하고 있으며, 연구자와 의료기관이 활용할 수 있는 의료 인공지능 데이터와 연구 생태계 조성을 지속적으로 지원할 계획이다.
※ 이번 연구로 개발한 이중언어 인공지능 모델은 국제 인공지능 누리집 GitHub(github.com/NIHxAI)에 공개 예정
임승관 질병관리청장은 "이번 성과는 국내 의료기관에서 생성되는 전자의무기록 데이터를 보다 체계적으로 분석․활용할 수 있는 인공지능 기반을 구축했다는 점에서 중요하다"며, "의료데이터의 활용 가치를 높이고, 국내 인공지능 연구 역량을 한 단계 끌어올리는 계기가 될 것"이라고 밝혔다.
아울러, "이번 기술 개발이 의료정보 활용 체계 고도화와 공공보건 정책의 정밀도 향상으로 이어지기를 기대한다"라고 전했다.
<붙임> 연구논문 주요내용
“이 자료는 질병관리청의 보도자료를 전재하여 제공함을 알려드립니다.”
- 공공누리 출처표시의 조건에 따라 자유이용이 가능합니다. (텍스트)
- 단, 사진, 이미지, 일러스트, 동영상 등의 일부 자료는 문화체육관광부가 저작권 전부를 보유하고 있지 아니하므로, 반드시 해당 저작권자의 허락을 받으셔야 합니다.
문의처 : 문화체육관광부 정책포털과
| 뉴스 |
|
|---|---|
| 멀티미디어 |
|
| 브리핑룸 |
|
| 정책자료 |
|
| 정부기관 SNS |
|
※ 브리핑룸 보도자료는 각 부·처·기관으로부터 연계로 자동유입되는 자료로 보도자료에 포함된 연락처로 문의
※ 전문자료와 전자책의 이용은 각 자료를 발간한 해당 부처로 문의
이전다음기사
다음기사[기품원] 국방기술품질원, 한국형 고장률 예측소프트웨어 개발·무상배포정책브리핑 게시물 운영원칙에 따라 다음과 같은 게시물은 삭제 또는 계정이 차단 될 수 있습니다.
- 1. 타인의 메일주소, 전화번호, 주민등록번호 등의 개인정보 또는 해당 정보를 게재하는 경우
- 2. 확인되지 않은 내용으로 타인의 명예를 훼손시키는 경우
- 3. 공공질서 및 미풍양속에 위반되는 내용을 유포하거나 링크시키는 경우
- 4. 욕설 및 비속어의 사용 및 특정 인종, 성별, 지역 또는 특정한 정치적 견해를 비하하는 용어를 게시하는 경우
- 5. 불법복제, 바이러스, 해킹 등을 조장하는 내용인 경우
- 6. 영리를 목적으로 하는 광고 또는 특정 개인(단체)의 홍보성 글인 경우
- 7. 타인의 저작물(기사, 사진 등 링크)을 무단으로 게시하여 저작권 침해에 해당하는 글
- 8. 범죄와 관련있거나 범죄를 유도하는 행위 및 관련 내용을 게시한 경우
- 9. 공인이나 특정이슈와 관련된 당사자 및 당사자의 주변인, 지인 등을 가장 또는 사칭하여 글을 게시하는 경우
- 10. 해당 기사나 게시글의 내용과 관련없는 특정 의견, 주장, 정보 등을 게시하는 경우
- 11. 동일한 제목, 내용의 글 또는 일부분만 변경해서 글을 반복 게재하는 경우
- 12. 기타 관계법령에 위배된다고 판단되는 경우
- 13. 수사기관 등의 공식적인 요청이 있는 경우
정책 NOW, MY 맞춤뉴스
정책 NOW
인기, 최신, 오늘의 영상 , 오늘의 사진
인기 뉴스
-
배우자 휴가·휴직 제도, 이렇게 바뀝니다!
-
이 대통령 "우리 스스로 지킨다는 강력한 자주국방의 의지로 무장"
-
이 대통령 "땅값 올라 귀농·귀촌 어려워…농지 전수조사" 지시
- 정부는 새벽배송 허용품목에서 신선식품 제외 등의 방안을 외부에 보고한 사실이 없습니다.
-
2026 동계올림픽, 한국 '감동' 남겼다…태극전사 10개의 메달
-
함양 산불 조기 진화 총력…불법 소각 등 위법 행위 무관용 대응
-
정부, 교복 가격·학원비 개선…정장형 대신 생활형 교복 등 전환
-
심정지 등 최중증응급환자, 지정 의료기관으로 바로 이송된다
-
한-브라질 '전략적 동반자 관계' 격상…이 대통령 "양국 관계 새 도약"
-
케이-관광 '3000만 명 시대' 앞당긴다…4월부터 '반값여행'
최신 뉴스
- 시대마다 되새긴 31정신 대통령기록으로 조명하다
- 2025년 어업생산동향조사 결과(잠정) 보도자료
- 한전-한수원 간 국제 중재 관련 정부 권고
- 원화 국제화 TF 출범, 원화 국제화 종합 로드맵 수립 착수
- 외환건전성협의회 겸 MSCI 선진국 지수 편입추진 TF 회의 개최
- 2025년 세제개편 후속 시행규칙 개정 추진
- 구윤철 부총리 AI 혁신기업 현장 방문
- 중부지방산림청, 선제적압도적인 산불 대응을 위한 릴레이 모의훈련 실시
- 중부지방산림청, 2026년 임업직불금 신청, 지금 준비하세요
-
'K-로봇' 직접 보니…제 할 일 알아서 '척척', 제품 '뚝딱'



