본문 바로가기 메인메뉴 바로가기

전자정부이 누리집은 대한민국 공식 전자정부 누리집입니다.

브리핑룸

콘텐츠 영역

개인정보위, 연구자·기업이 참고할 수 있는 「합성데이터 생성 참조모델」 공개

2024.05.30 개인정보보호위원회
목록

개인정보위, 연구자·기업이 참고할 수 있는 「합성데이터 생성 참조모델」 공개

- 보건의료·공공안전·유통·금융 등 분야별 5종(비정형 2종, 정형 3종)의 합성데이터를 생성하고 생성과정을 모두 공개

- 합성데이터(5종)는 6월 3일부터 ‘가명정보 지원플랫폼(dataprivacy.go.kr)’에서 누구나 활용 신청 가능



개인정보보호위원회(위원장 고학수, 이하 ‘개인정보위’)는 민간 연구자나 기업 등이 인공지능 학습 등을 위해 합성데이터*를 안전하게 생성·활용할 수 있도록 돕기 위해 5종의 「합성데이터 생성 참조모델」을 공개한다.


* 합성데이터(Synthetic data) : 실제 데이터와 통계적 특성이 유사하여 실제 데이터 분석결과와 유사한 결과를 얻을 수 있도록 새롭게 생성해낸 가상의 데이터


합성데이터는 적절하게 생성된 경우 개인정보에 대해 요구되는 법적 제약 없이 활용 가능하고, 민감한 정보가 포함되는 등 개인정보 침해 우려가 있는 경우에도 안전하게 활용할 수 있다는 강점이 있어 대표적인 프라이버시 보호 기술(Privacy Enhancing Technology) 중 하나로 주목받고 있다.


※ ‘합성데이터’는 실제 데이터의 특성만 참조하여 실제 개인과 직접적인 관련이 없는 완전히 새로운 데이터셋을 생성해내는 기술로, 개인정보의 일부 또는 전부를 변형하는 기법인 ‘비식별 처리(가명·익명처리)’ 개념과는 구별됨


이에, 개인정보위는 연구용역을 통해 「합성데이터 생성 참조모델」을 마련하였다. 이번 「합성데이터 생성 참조모델」에는 구강 이미지, 안전모 착용 이미지, 혈당 측정정보 등 5가지 종류의 합성데이터셋과 함께, 해당 데이터를 생성한 절차와 과정에 대한 상세한 설명이 포함되어 있다.


개인정보위는 합성데이터를 활용하고자 하는 기업·연구기관 수요를 조사하고 그 수요에 맞춰 유용한 데이터를 생성했고, 생성과정에 대해서는 각 분야 전문가로 구성된 연구반 검토, 외부전문가의 적정성 심의 등을 거쳤다고 밝혔다.


5종의 합성데이터는 사전 준비 합성데이터 생성 유용성·안전성 검증 활용 등 4단계 절차를 거쳐 만들었다.


합성데이터 생성에는 다양한 첨단 기술들이 활용될 수 있다. 예를 들어, 참조모델의 구강 이미지 합성데이터의 생성에는 인공지능(AI) 기술 기반의 ‘적대적 생성 신경망(GAN, Generative Adversarial Networks)’ 기술이 활용되었다.


생성된 합성데이터는 합성데이터와 원본데이터가 얼마나 유사한지, 동일한 목표를 달성할 수 있는지 등을 검토하는 ‘유용성 검증’과, 생성된 합성데이터를 통해 원본데이터 내 개인이 식별·추론될 가능성이 있는지 등을 검토하는 ‘안전성 검증’도 거쳤다.


유용성·안전성 검증에도 다양한 기법이 활용될 수 있는데, 이번 참조모델에서는 AI가 원본과 합성데이터를 구분하지 못하는 정도를 정량적으로 측정한 ‘구별 불가능성 검증’, 관련 분야 전문가가 직접 원본과 합성데이터를 판별하는 테스트를 수행하는 ‘Visual Turing Test’, 휘도·대조·구조 등을 기반으로 이미지의 형태적 유사성을 평가하는 ‘구조적 유사성 검증’ 등의 기법이 사용되었다.


합성데이터는 실제 데이터의 유용성을 최대한 유지하면서도 원본데이터에 포함된 개인이 식별되지 않도록 생성하는 것이 핵심이다. 그래서 서로 상충 관계에 있는 유용성 검증과 안전성 검증을 적절히 수행하면서 균형점을 찾는 것이 중요하다.


이번 합성데이터 생성에 참여한 연구진은 이러한 목표를 달성하기 위해 목표한 유용성·안전성 수준이 충족될 때까지 데이터를 재생성, 추가처리*, 재검증하는 과정을 거쳤다.


* 유용성 또는 안전성을 저하시키는 데이터를 삭제하거나 조정하는 등


이번에 생성한 5종의 합성데이터는 관련 분야의 전문가를 통해 높은 수준의 안전성이 검증된 만큼, 6월 3일부터 ‘가명정보 지원플랫폼(dataprivacy.go.kr)’을 통해 공개한다. 합성데이터 활용을 원하는 기업이나 연구자는 누구나 신청할 수 있고 최소한의 확인 절차를 거쳐 제공될 예정이다.


고학수 개인정보위 위원장은 “이번에 개인정보위에서 공개한 「합성데이터 생성 참조모델」은 데이터 경제 시대의 개인정보 침해 우려를 없애면서도 데이터를 적극적으로 활용하도록 하여 관련 데이터 산업 생태계의 발전에 크게 기여할 것으로 기대된다”면서, “앞으로도 개인정보위는 본격화되는 데이터 경제 시대에 국민 삶의 질을 제고할 수 있도록 개인정보의 안전한 활용을 위해 적극 노력하겠다”고 밝혔다.


※ 「합성데이터 생성 참조모델」은 5월 30일부터 개인정보위 누리집(www.pipc.go.kr)>법령·정책>법령정보>지침 또는 개인정보포털(privacy.go.kr)>자료>지침자료에서내려받기 가능



* 기타 자세한 내용은 첨부파일을 확인해주시기 바랍니다.


- 담당자 : 데이터안전정책과 주문호(02-2100-3088)

“이 자료는 개인정보보호위원회의 보도자료를 전재하여 제공함을 알려드립니다.”

이전다음기사

다음기사2023년 기준 직장어린이집 설치 의무 이행률 93.1%, 전년 대비 1.6%p 증가

히단 배너 영역

추천 뉴스

국민과 함께하는 민생토론회
정부정책 사실은 이렇습니다

많이 본, 최신, 오늘의 영상 , 오늘의 사진

정책브리핑 게시물 운영원칙에 따라 다음과 같은 게시물은 삭제 또는 계정이 차단 될 수 있습니다.

  • 1. 타인의 메일주소, 전화번호, 주민등록번호 등의 개인정보 또는 해당 정보를 게재하는 경우
  • 2. 확인되지 않은 내용으로 타인의 명예를 훼손시키는 경우
  • 3. 공공질서 및 미풍양속에 위반되는 내용을 유포하거나 링크시키는 경우
  • 4. 욕설 및 비속어의 사용 및 특정 인종, 성별, 지역 또는 특정한 정치적 견해를 비하하는 용어를 게시하는 경우
  • 5. 불법복제, 바이러스, 해킹 등을 조장하는 내용인 경우
  • 6. 영리를 목적으로 하는 광고 또는 특정 개인(단체)의 홍보성 글인 경우
  • 7. 타인의 저작물(기사, 사진 등 링크)을 무단으로 게시하여 저작권 침해에 해당하는 글
  • 8. 범죄와 관련있거나 범죄를 유도하는 행위 및 관련 내용을 게시한 경우
  • 9. 공인이나 특정이슈와 관련된 당사자 및 당사자의 주변인, 지인 등을 가장 또는 사칭하여 글을 게시하는 경우
  • 10. 해당 기사나 게시글의 내용과 관련없는 특정 의견, 주장, 정보 등을 게시하는 경우
  • 11. 동일한 제목, 내용의 글 또는 일부분만 변경해서 글을 반복 게재하는 경우
  • 12. 기타 관계법령에 위배된다고 판단되는 경우
  • 13. 수사기관 등의 공식적인 요청이 있는 경우