본문 바로가기 메인메뉴 바로가기

전자정부이 누리집은 대한민국 공식 전자정부 누리집입니다.

뉴스

콘텐츠 영역

데이터 댐, 대규모 수문을 개방하다

[한국판 뉴딜 10대 대표과제] ①데이터댐

2021.06.22 문용식 한국지능정보사회진흥원(NIA) 원장
목록
문용식 한국지능정보사회진흥원(NIA) 원장
문용식 한국지능정보사회진흥원(NIA) 원장

7월이면 디지털 뉴딜 사업이 추진된 지 만 1주년을 맞는다. 정부는 코로나 경제위기 극복과 4차산업혁명 시대의 선도국가를 목표로 국가적인 역량을 총동원해 디지털 뉴딜 사업을 추진하고 있다. 

디지털 뉴딜의 대표 사업은 데이터 댐 구축이다. ‘인공지능 학습용 데이터 구축’은 그중에서도 시그니처 사업이다. 디지털 뉴딜 1주년을 앞두고 뉴딜을 상징하는 대규모 사업의 결과물이 드디어 개방되기 시작했다.  

8개 분야 170종, 4억8000만 건의 인공지능 학습용 데이터가 6월 말까지 순차적으로 개방된다. 이 데이터는 해외 데이터 셋과 비교해도 뛰어난 경쟁력을 가지고 있다. 음성, 텍스트, 이미지 등의 규모에서 글로벌 최고 수준이다. 특히 이미지 데이터의 경우 압도적이다. 세계적으로 유명한 이미지넷이 약 143만 장의 이미지 데이터를 축적, 공개하고 있는 데 비해 우리 AI 허브의 데이터는 약 1억 4000만 장의 규모를 자랑한다. 

디지털 뉴딜의 첫 제안자이자 기초 설계자로서 디지털 뉴딜의 목표는 두 마리 토끼를 잡는 것이라고 얘기한다. 하나는 일자리 창출이고, 다른 하나는 혁신 성장의 토대 구축이다. 인공지능 학습용 데이터 구축 사업은 이미 두 마리 토끼를 잡는 데 성공했다. 특히 데이터 가공에 크라우드소싱 방식을 채택해 4만여 명의 일자리를 창출했다. 그중 61%가 취업 준비 청년, 경력단절여성, 실업자 등 고용 취약계층으로 코로나발 일자리 위기 극복에 크게 기여했다. 

동시에 인공지능 학습용 데이터 구축사업은 모든 산업의 디지털 전환을 촉진하는 촉매제 역할을 하고 있다. SI 용역사업 위주로 기반이 취약했던 국내 소프트웨어 기업들이 AI, 데이터 전문기업으로 변신하고 있다. 이 중 의료산업의 변화는 주목할 만하다. 우리나라 대형병원이 가진 양질의 의료 데이터, 뛰어난 의료진, AI 전문기업의 기술력 등 3박자가 어우러져 의료 AI 생태계 구축의 전환점이 만들어지고 있다. 데이터를 기반으로 대형병원마다 고유의 AI 진단모델이 만들어질 것이다. 

데이터의 생명은 품질에 달려 있다. 데이터의 품질이 곧 인공지능 서비스의 신뢰성과 안전성을 좌우한다. 이를 잘 알기에 데이터 구축 전 과정에 걸쳐 품질관리 체계를 구축했다. 사업 협약부터 최종 마무리, 추가검증에 이르기까지 사업수행기관, 품질관리 전문기관, 감리기업, 데이터 활용 전문기업이 총동원됐다. 

데이터의 다양성, 정확성, 유효성이라는 3가지 기준을 잣대로 글로벌 수준의 품질검증을 수행했다. 데이터 다양성의 경우 데이터의 윤리적 편향성에 대한 철저한 검토 과정을 거쳤다. 이러한 체계적인 품질검증 과정 덕분에 인공지능 학습용 데이터는 본격 개방 전에 산업계, 연구계, 학계를 아우르는 데이터 활용성 검토 과정에서 긍정적인 평가를 받을 수 있었다. 한편 이용자가 학습용 데이터를 만나는 최초의 접점이 AI 허브 플랫폼이다. 데이터의 활용도를 높이기 위해서는 AI 허브의 성능, 안정성, UI 개선, 검색 기능 개선도 빼놓을 수 없는 과제라 하겠다. 

데이터는 구축보다 활용이 중요하다. AI 데이터를 활용한 기업의 서비스들이 이를 잘 보여준다. ‘한국어 대화 데이터’를 활용한 네이버의  ‘CLOVA AI Call’의 경우 AI 허브의 데이터를 통해 모델의 성능과 서비스 품질을 동시에 향상했다. KT는 광주 지역의 시니어 돌봄 서비스 개발을 위해 전라도 방언 발화 데이터를 활용했는데, 음성인식 성능이 10% 이상 향상되는 성과를 거뒀다. KAIST와 국립암센터는 한국인 헤어스타일 이미지, 유방암 조영술 이미지 등의 데이터를 활용한 연구 논문을 국제 학술지에 발표했다. 한국어, 한국인 헬스케어 등 ‘한국인 특화 데이터’는 해외 데이터 셋에서는 구하기 힘들다. 한국 고유의 데이터를 활용한 AI 서비스 개발사례는 인공지능 학습용 데이터의 필요성을 잘 보여준다.  

데이터 품질에서 100%는 없다. 이런 점에서 데이터 개방은 마침표가 아닌 시작점이다. 지금 내놓는 데이터는 알파 테스트를 마친 0.9 버전이라 할 수 있다. 1.0 버전은 데이터 전문기업과 개발자들의 베타 테스트 과정을 거쳐 차차 만들어질 것이다. 인공지능 학습용 데이터는 국민의 기획으로 시작해 국민의 참여로 완성된다. 양질의 인공지능 학습용 데이터는 세계적인 수준의 AI 기술 개발, AI 모델 정교화, AI 서비스 개발, AI 연구논문을 낳는 밑거름이 될 것이다. 디지털 뉴딜 1주년을 맞아 이미 크고 작은 성과가 만들어지고 있다. 디지털 뉴딜은 대한민국이 인공지능 선도국가가 되는 데 주춧돌이 될 것임을 믿어 의심치 않는다.

이전다음기사

다음기사은혜 갚는 나라, 대한민국

히단 배너 영역

추천 뉴스

2024 정부 업무보고 국민과 함께하는 민생토론화
정부정책 사실은 이렇습니다

많이 본, 최신, 오늘의 영상 , 오늘의 사진

정책브리핑 게시물 운영원칙에 따라 다음과 같은 게시물은 삭제 또는 계정이 차단 될 수 있습니다.

  • 1. 타인의 메일주소, 전화번호, 주민등록번호 등의 개인정보 또는 해당 정보를 게재하는 경우
  • 2. 확인되지 않은 내용으로 타인의 명예를 훼손시키는 경우
  • 3. 공공질서 및 미풍양속에 위반되는 내용을 유포하거나 링크시키는 경우
  • 4. 욕설 및 비속어의 사용 및 특정 인종, 성별, 지역 또는 특정한 정치적 견해를 비하하는 용어를 게시하는 경우
  • 5. 불법복제, 바이러스, 해킹 등을 조장하는 내용인 경우
  • 6. 영리를 목적으로 하는 광고 또는 특정 개인(단체)의 홍보성 글인 경우
  • 7. 타인의 저작물(기사, 사진 등 링크)을 무단으로 게시하여 저작권 침해에 해당하는 글
  • 8. 범죄와 관련있거나 범죄를 유도하는 행위 및 관련 내용을 게시한 경우
  • 9. 공인이나 특정이슈와 관련된 당사자 및 당사자의 주변인, 지인 등을 가장 또는 사칭하여 글을 게시하는 경우
  • 10. 해당 기사나 게시글의 내용과 관련없는 특정 의견, 주장, 정보 등을 게시하는 경우
  • 11. 동일한 제목, 내용의 글 또는 일부분만 변경해서 글을 반복 게재하는 경우
  • 12. 기타 관계법령에 위배된다고 판단되는 경우
  • 13. 수사기관 등의 공식적인 요청이 있는 경우