2024 여름 SWLUG/[여름] 개인정보보호 프로젝트

데이터 비식별화 개념 학습

un_plugged 2024. 7. 13. 15:45

개인정보의 정의

1. 개인정보

살아 있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보

 

2. 개인식별가능정보

해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 정보

 

3. 가명정보

가명처리된 정보로서 추가적으로 정보를 사용하지 않고서는 더 이상 특정 정보주체를 알아볼 수 없는 정보.

※ 추가 정보는 별도로 보관되어야 하고 해당 개인정보가 자연인을 식별하거나 식별할 수 없도록 하기 위해 기술적, 조직적인 조치가 적용되어야 함

 

-> 위의 3가지가 개인정보이다.

 

▶ 참고) 개인정보가 아닌 것

-  사망한 자, 자연인이 아닌 법인, 단체 또는 사물 등에 관한 정보

- 익명정보: 더이상 개인을 식별할 수 없는 정보

 

 

 

비식별화 조치 - 식별자 제거

"식별자 제거를 통한 식별방지 + 프라이버시 모델 기반 추론방지”

다른 정보와 결합했을 때 개인을 쉽게 특정할 수 있는지를 검사하는 '비식별 조치 적정성 평가'를 함께 진행해야 한다! 

위와 같은 원본 환자 테이블에서 

위와 같이 식별방지, 추론 방지 과정을 거쳐 식별과 추론이 불가능하게 만드는 것이다. 

 

식별자

  • 인 또는 개인과 관련한 사물에 고유하게 부여된 값이나 이름
  • 민등록번호, 전화번호, 이메일, 이름 등과 같이 1:1로 대응이 가능한 경우
  • 원칙적으로 삭제되어야 하지만, 데이터 이용 목적상 반드시 필요하다면 비식별 조치를 취해야함

속성자

  • 다른 정보와 쉽게 결합하는 경우, 특정 개인을 알아볼 수도 있는 정보

준식별자

  • 자체로는 식별자가 아니지만, 다른 데이터와 결합을 통해 특정 개인을 간접적으로 추론하는데 사용될 수 있는 속성
  • 거주 도시명, 몸무게, 혈액형 등
  • 비식별화 기법들에서 변형/조작의 대상

민감정보

  • 개인의 사생활을 드러낼 수 있는 속성
  • 데이터 분석시 주로 측정되는 대상 속성으로 대부분의 현대적 비식별화 기법들에서 데이터 값들을 보존
  • 병명, 예금 잔고, 카드 결제 액 등

 

 

 

비식별 조치 - 프라이버시 모델

비식별 처리 이후에는 해당 비식별 처리가 적정한지에 대한 평가가 필요한데, 이러한 적정성 평가 방법에는 프라이버시 보호 모델 적용이 필요하다. 가능한 추론의 형태와 프라이버시 노출에 대한 정량적인 위험성을 규정하는 방법이다.

 

프라이버시 모델 1. k-익명성

  • 한 개인이 k-1명의 다른 사람(레코드)과 구별되지 않아야 함
  • 민감하지 않은 속성을 수정하여 획득

 

위의 사진이 병원이 배포한 의료데이터라고 하자.

공개된 투표인명부가 위와 같을 때 연결 공격으로 세찬이 기관지염을 앓고 있음을 알 수 있다. 


※연결 공격

  • 준식별자 정보는 공개된 정보를 (ex. 투표인명부) 통해 추론의 근거로 사용가능
  • 준식별자 값들의 조합을 통해 배포된 데이터의 개인이 추론되어 민감정보가 노출될 수 있음 -> 여기선 연령, 성별, 우편번호의 조합으로 세찬의 병명을 알아냄

따라서 위와 같이 처리함으로써 다른 사람과 구별될 수 없게 만든다.

 

그러나 이러한 k-익명성 모델에 취약점이 존재한다,

1. 동질성 공격

k-익명성에 의해 레코드들이 범주화 되었더라도 일부 정보들이 모두 같은 값을 가질 수 있기 때문에 데이터 집합에서 동일한 정보를 이용하여 공격 대상의 정보를 알아내는 공격

레코드 9~12의 질병정보는 모두 ‘위암’이므로 k-익명성 모델이 적용되었음 에도 불구하고 그 질병정보가 직접적으로 노출되었다. 

 

2. 배경지식에 의한 공격

주어진 데이터 이외의 공격자의 배경 지식을 통해 공격 대상의 민감한 정보를 알아내는 공격

공격자가 위의 레코드에서 한 여성의 질병 정보를 알아내려고 한다. 질병은 전립선염 또는 고혈압임을 알 수 있으나 "여자는 전립선염에 걸릴 수 없다"라는 배경 지식에 의해 공격 대상의 질병은 고혈압으로 쉽게 추론 가능하다. 

 

프라이버시 모델 2. l-다양성

각 블록이 적어도 l개의 다양한 민감정보를 가지고 있어야 한다. 

※블록: 데이터에서 민감하지 않은 속성 값이 동일한 레코드 집합

예를 들어 위와 같은 3-다양성 의료데이터는 적어도 3개의 다양한 민감정보(기관지염, 감기, 위암)을 가지고 있다.

 

그러나 이러한 l-다양성에도 취약점이 존재한다.

1. 쏠림 공격

정보가 특정한 값에 쏠려 있을 경우 l-다양성 모델이 프라이버시를 보호하지 못한다.

예를 들어 임의의 ‘동질 집합’이 99개의 ‘위암 양성’ 레코드와 1개의 ‘위암 음성’ 레코드로 구성되어 있다고 하면 공격자는 공격 대상이 99%의 확률로 ‘위암 양성’이라는 것을 알 수 있다. 

 

2. 유사성 공격

비식별 조치된 레코드의 정보가 서로 비슷하다면 l-다양성 모델을 통해 비식별 된다 할지라도 프라이버시가 노출될 수 있다. 

예를 들어 위의 표에서 레코드 1,2,3이 속한 동질 집합의 병명이 서로 다르기때문에 l-다양성은 충족하지만 병명들의 의미가 모두 위와 관련된 것으로 유사하다. 공격자는 공격 대상의 질병이 ‘위’에 관련된 것이라는 사실을 알아낼 수 있다.

 

프라이버시 모델 3. t-접근성

데이터 집합에서 구별되지 않는 레코드들의 민감한 정보의 분포와 전체 데이터의 민감한 정보의 분포의 차이를 t 이하로 만들어 프라이버시를 보호하는 모델이다.

 

 

 

비식별 조치의 절차

1. 데이터 이해하기

  • 개인정보 여부 판단
  • 식별자(ID) / 준식별자(QI) /민감정보(SA) 구분 -> 식별자 삭제
  • 민감정보의 중요도나 위험성 판단
  • 비식별화 이후의 데이터 활용 방향 예측

-> 데이터 손실량 / 데이터 활용성 / 위험성에 대한 종합적 고려

 

2. 비식별화 방법 결정하기

  • 프라이버시 모델 및 안전도 수준 (k, l, t …)  모델을 구현하는 기술 선택하기

3. 비식별화 수행

 

4. 데이터 품질 평가

  • 필요시 2단계로 다시 돌아감

5. 비식별 적정성 평가

  • 외부인이 포함된 전문가 평가단; k,l,t 모델 사용
  • 부적정 평가 시 2단계로 이동하여 비식별 조치 재수행

6. 비식별화된 데이터 배포 및 사후 관리

 

 

 

비식별화 조치 기법

비식별화 조치 방법에는 위의 그림과 같이 대표적인 5가지 방법과 그 안의 세부 기술로 나눌 수 있다. 프로젝트 주제가 정확히 정해진 것은 아니라 우선 대표적인 방법만 이 글에서 공부해보겠다. 

 

 

 

삭제

  • 가장 기본적이고 강력한 비식별 조치로는 주로 식별자에 대해 많이 이루어짐
  • 식별 가능한 내용을 삭제하는 방식으로 주민등록번호, 날짜정보 등에 사용 -> 비식별 데이터로 만듦
  • 식별자가 아닌 속성자도 데이터 이용 목적과 관련이 없는 경우에는 삭제가 원칙 -> 속성자 역시 특정 환경에서는 준식별자의 역할할 수 있기 때문! 

가명처리

  •  비식별 처리 중 첫 번째로 언급되는 기술로 개인 식별이 가능한 데이터를 직접적으로 식별할 수 없는 다른 값으로 대체하는 기법
  •  다른 값으로 대체하기 때문에 데이터의 변형 또는 변질 수준이 낮음
  • 그러나 대체 값 부여 시에도 식별할 수 있는 고유 속성이 계속 유지된다는 단점이 있음

 

총계처리  

  • 통곗값(전체 혹은 부분)을 적용하여 특정 개인을 식별할 수 없도록 하는 방식 -> 민감한 수치 정보에 대한 비식별 조치가능
  • 통계분석용 데이터 셋 작성에 유리함
  • 그러나 정밀 분석이 어렵고 집계 수량이 적을 경우 추론에 의한 식별 가능성이 있다는 단점이 있음
  •  평균·최대·최소·최빈·중간값 등으로 처리하는 총계처리, 다른 열에 비해 오차가 큰 특정 열 항목을 평균값 등으로 대체하는 부분총계 등이 있음

 

데이터 범주화 

  • 쉽게 개인을 식별할 수 있는 정보(이름, 전화번호, 주소, 생년월일, 사진 등)의 전부 또는 일부분을 대체값(공백, 노이즈 등)으로 변환하는 기술
  • 개인 식별 요소를 제거하는 것이 가능하며 원 데이터 구조에 대한 변형이 적다는 장점
  • 그러나 마스킹을 과도하게 적용할 경우 데이터 필요 목적에 활용하기 어려우며 마스킹 수준이 낮을 경우 특정한 값에 대한 추론이 가능하다는 단점이 있음

 

 

 

관련 사례

https://www.lawtimes.co.kr/LawFirm-NewsLetter/170076

 

비정형 데이터에 대한 엄격한 가명처리의 필요성을 상기 시켜준 "이루다 사건"에 관한 기사이다.

 

 

 

참고 자료

교육자료_비식별_조치_전문가_대상_교육.pdf
0.56MB

 

https://www.kdata.or.kr/mydata/www/board/guide_04/boardView.do?bbsIdx=70