본문 바로가기 메인메뉴 바로가기

뉴스

img-news

콘텐츠 영역

사투리·국내 주요도로 등 AI 학습용 데이터 170종 개방

‘AI 허브’ 통해 4억 8000만건 활용 가능…AI 데이터 활용협의회도 출범

2021.06.18 과학기술정보통신부

정부가 지난해부터 구축한 인공지능(AI) 학습용 데이터 170종을 개방한다.

과학기술정보통신부와 한국지능정보사회진흥원은 인공지능(AI) 허브(aihub.or.kr)를 통해 학습용 데이터 4억 8000만 건을 개방한다고 18일 밝혔다.

과기정통부는 지난 2017년부터 기업·연구자·개인 등이 시간 및 비용 문제로 개별 구축하기 어려운 인공지능 학습용 데이터를 구축·개방해왔다. 지난해부터는 디지털 뉴딜 ‘데이터 댐’ 구축 프로젝트의 일환으로 구축 규모를 대폭 확대해 추진 중이다.

인공지능 학습용 데이터는 인공지능 개발에 사용된다. 그동안 국내 인공지능 기업들은 인공지능 개발에 필요한 데이터 확보를 위해 해외 오픈데이터를 많이 활용해 왔다. 그러나 한국어, 국내 도로환경 등 국내 실정을 반영하지 못한 오픈데이터는 국내 인공지능(AI) 서비스 개발에 활용되기 어려웠다. 

이번에 개방되는 데이터에는 국내 지역별 방언과 국내 주요도로, 국내 환자 의료영상 등이 포함된다.

인공지능 학습용 데이터 인포그래픽.

이달 30일 공개될 경상·전라·충청·강원·제주 등 한국어 방언 발화 데이터는 음성기반 AI 서비스에 적용할 수 있다.

이달 18∼30일 순차적으로 공개되는 자율주행 데이터 21종은 국내 도로주행 영상과 주차 장애물·이동체 인지영상·버스 노선 주행영상 등을 포함해 자율주행차 개발을 앞당길 것으로 전망된다.

헬스케어 데이터 27종과 개인정보·민감정보가 포함될 우려가 있는 59종의 데이터는 최종검증을 거친 후 이달 30일에 개방한다.

이번에 개방되는 인공지능 학습용 데이터는 데이터 기획부터 구축까지 산업계, 전문가뿐만 아니라 많은 일반 국민들이 참여해 함께 만들었다는 데 의미가 깊다고 과기정통부는 설명했다. 

민간의 광범위한 수요를 바탕으로 분야별 산·학·연 전문가, 주요 활용기업 등이 직접 참여해 산업 파급효과가 크고 민간에서 대규모로 구축하기 어려운 인공지능 학습용 데이터를 기획했다.

데이터 구축에는 국내 주요 인공지능·데이터 전문기업은 물론 주요 대학(서울대·KAIST 등 48개), 병원(서울대병원·아산병원 등 25개) 등 총 674개 기업·기관이 대거 참여했다.

특히, 데이터 수집·가공 등 구축 과정에 경력단절여성, 취업준비청년 등 국민 누구나 참여할 수 있는 크라우드소싱 방식을 도입해 4만여명 국민들의 참여를 이끌어냈다.

또 인공지능(AI) 허브에 대규모로 개방되는 인공지능 학습용 데이터의 품질과 활용성을 검증하고 관리하는 과정에도 분야별 전문가와 전문기관, 활용기업 등이 힘을 보탰다.

지난해 9월부터 8대 분야별 산·학·연 전문가 80여명이 참여하는 ‘품질자문위’를 운영, 전문적 품질관리 지원체계를 구축했고 주요 대기업(네이버·LG·삼성전자·KT·현대차 등), 스타트업(딥노이드·스트라드비젼·비바엔에스 등), 대학 및 연구기관(KAIST·GIST·ETRI·농정원 등) 등 20여개 기업·기관이 참여해 데이터 개방 전, 활용성 검토를 진행해 실제 수요자가 요구하는 데이터 품질 확보를 위한 노력을 기울였다.

과기정통부와 지능정보원(NIA)은 데이터 개방 후에도 이용자 참여형 집중개선기간 운영 등을 통해 이용자의 요구사항을 적극 반영하는 등 민·관 협력을 기반으로 데이터를 지속적으로 개선할 계획이다.

이를 위해 오는 9월말까지 3개월간의 참여형 데이터 집중 개선기간을 운영한다. 온라인 창구 및 전문기관(TTA, KISA 등)과 협력, 데이터 품질 등 이용자 의견에 신속하게 대응하기 위한 TF도 운영할 방침이다.

또 지능정보원(NIA)은 대규모 인공지능 학습용 데이터의 본격적인 개방에 맞춰 인공지능(AI) 허브(aihub.or.kr) 활용환경을 대폭 개선한다.

본인인증 한 번만으로 데이터에 대한 접근 및 활용이 가능하도록 회원가입 시스템을 바꾸고 직관적인 데이터 탐색을 위해 UI/UX도 개선했다.

올 하반기에는 데이터 검색체계를 과제명중심에서 자동차, 표지판 등 사물·객체 중심으로 개편할 계획이다.

이와 함께 인공지능 학습용 데이터를 활용한 알고리즘 고도화 등을 지원하기 위해 데이터 활용 경진대회를 열고 헬스케어 데이터의 활용 활성화를 위해 폐쇄형 안심존의 확대 및 클라우드 기반의 개방형 안심존 구축도 추진하기로 했다.

인공지능 학습용 데이터는 비용과 인력 확보 등의 문제로 데이터를 직접 구축하기 어려운 중소기업이나 스타트업뿐 아니라 대기업도 자체 확보하기 어려운 대규모 데이터를 제공한다는 점에서 그동안 국내 인공지능(AI) 산업계에서 가장 큰 걸림돌로 꼽은 ‘데이터 갈증’을 어느 정도 해소할 수 있을 것으로 과기정통부는 전망하고 있다.

18일 서울 강서구 LG 사이언스파크 ISC에서 열린 ‘인공지능(AI) 데이터 활용협의회 출범식’에서 임혜숙 과기정통부 장관을 포함, 참석자들이 출범 선포를 마치고 기념촬영을 하고 있다.(사진=과학기술정보통신부)
18일 서울 강서구 LG 사이언스파크 ISC에서 열린 ‘인공지능(AI) 데이터 활용협의회 출범식’에서 임혜숙 과기정통부 장관을 포함, 참석자들이 출범 선포를 마치고 기념촬영을 하고 있다.(사진=과학기술정보통신부)

한편, 이날 과기정통부는 ‘인공지능(AI) 데이터 활용협의회’ 출범식을 열고 데이터를 활용하는 기업·기관의 의견을 수렴했다.

‘인공지능(AI) 데이터 활용협의회’는 데이터 품질관리 전문기관인 한국정보통신기술협회(TTA)와 이번 170종 데이터의 활용성 검토에 참여한 기업·기관을 중심으로 구성됐다. 

협의회는 AI 허브 데이터 활용 성과를 공유하고 데이터 품질 제고에 협력할 계획이다.

지능정보원(NIA)은 향후 참여를 희망하는 기업 및 기관을 중심으로 협의회를 지속적으로 확대해 나갈 계획이다.

임혜숙 과기정통부 장관은 “댐의 물이 대지 곳곳으로 스며들어 꽃을 피우듯이 이번에 공개되는 데이터들이 산업 곳곳에서 널리 활용돼 혁신의 열매를 맺을 수 있기를 기대한다”며 “정부도 고품질의 인공지능 학습용 데이터를 지속적으로 제공하고 누구나 데이터를 쉽게 활용하고 성과를 공유할 수 있는 환경을 조성하는 데 지원을 아끼지 않겠다”고 밝혔다.

문의: 과학기술정보통신부 데이터진흥과 044-202-6282

정책브리핑의 정책뉴스 자료는 「공공누리 제1유형 : 출처표시」의 조건에 따라 자유롭게 이용이 가능합니다.
다만, 사진의 경우 제3자에게 저작권이 있으므로 사용할 수 없습니다.
기사 이용 시에는 출처를 반드시 표기해야 하며, 위반 시
저작권법 제37조
제37조(출처의 명시)
① 이 관에 따라 저작물을 이용하는 자는 그 출처를 명시하여야 한다. 다만, 제26조, 제29조부터 제32조까지,
제34조제35조의2의 경우에는 그러하지 아니하다. <개정 2011. 12. 2.>
② 출처의 명시는 저작물의 이용 상황에 따라 합리적이라고 인정되는 방법으로 하여야 하며, 저작자의 실명
또는 이명이 표시된 저작물인 경우에는 그 실명 또는 이명을 명시하여야 한다.
제138조
제138조(벌칙)
다음 각 호의 어느 하나에 해당하는 자는 500만원 이하의 벌금에 처한다. <개정 2011. 12. 2.>
1. 제35조제4항을 위반한 자
2. 제37조(제87조 및 제94조에 따라 준용되는 경우를 포함한다)를 위반하여 출처를 명시하지 아니한 자
3. 제58조제3항(제63조의2, 제88조 및 제96조에 따라 준용되는 경우를 포함한다)을 위반하여 저작재산권자의 표지를 하지 아니한 자
4. 제58조의2제2항(제63조의2, 제88조 및 제96조에 따라 준용되는 경우를 포함한다)을 위반하여 저작자에게 알리지 아니한 자
5. 제105조제1항에 따른 신고를 하지 아니하고 저작권대리중개업을 하거나, 제109조제2항에 따른 영업의 폐쇄명령을 받고 계속 그 영업을 한 자 [제목개정 2011. 12. 2.]
에 따라 처벌될 수 있습니다.
<자료출처=정책브리핑 www.korea.kr>
운영원칙 열기

정책브리핑 게시물 운영원칙에 따라 다음과 같은 게시물은 삭제될 수 있습니다.

  • 1.타인의 메일주소, 전화번호, 주민등록번호 등의 개인정보 또는 해당 정보를 게재하는 경우
  • 2. 확인되지 않은 내용으로 타인의 명예를 훼손시기는 경우
  • 3. 공공질서 및 미풍양속에 위반되는 내용을 유포하거나 링크시키는 경우
  • 4. 욕설 및 비속어의 사용 및 특정 인종, 성별, 지역 또는 특정한 정치적 견해를 비하하는 용어를 게시하는 경우
  • 5. 불법복제, 바이러스, 해킹 등을 조장하는 내용인 경우
  • 6. 영리를 목적으로 하는 광고 또는 특정 개인(단체)의 홍보성 글인 경우
  • 7. 타인의 저작물(기사, 사진 등 링크)을 무단으로 게시하여 저작권 침해에 해당하는 글
  • 8. 범죄와 관련있거나 범죄를 유도하는 행위 및 관련 내용을 게시한 경우
  • 9. 공인이나 특정이슈와 관련된 당사자 및 당사자의 주변인, 지인 등을 가장 또는 사칭하여 글을 게시하는 경우
  • 10. 해당 기사나 게시글의 내용과 관련없는 특정 의견, 주장, 정보 등을 게시하는 경우
  • 11. 동일한 제목, 내용의 글 또는 일부분만 변경해서 글을 반복 게재하는 경우
  • 12. 기타 관계법령에 위배된다고 판단되는 경우
  • 13. 수사기관 등의 공식적인 요청이 있는 경우
운영원칙 닫기

아~차!뉴스