2024 여름 SWLUG/개인정보보호 프로젝트 9

데이터 비식별화 처리 웹페이지 구현 - 최종

지난 주차에서 3가지 오류가 있었다.범주화 기능 없음파일에 한국어가 들어갈 시 실행이 안됨필드 추가한 것 적용 안됨여기서 범주화 기능 같은 경우 파이썬 코드에서는 나이를 기준으로 삼았는데  범주화는 어떤식으로 나누고 어떤걸 어떻게 하게 할건지를 입력해야하기에 조금 복잡해서...이번 웹페이지에선 생략하였다. 웹 개발을 더 충분히 공부한 뒤 이 프로젝트를 디벨롭하면 좋을 것 같다!   view.py 수정from django.shortcuts import renderimport pandas as pdimport hashlibimport osfrom .forms import CsvProcessFormfrom django.conf import settingsdef mask_string(value, mask_cha..

[파이썬]데이터 비식별화 코드 최종 + 웹 개발 기초 및 기획

import pandas as pdimport hashlib# CSV 파일 경로 설정input_file_path = 'C:/Users/82106/Desktop/test2.csv'output_file_path = 'C:/Users/82106/Desktop/test2_processed.csv'# CSV 파일 읽기 (한글 처리 위해 cp949 인코딩 사용)data = pd.read_csv(input_file_path, encoding='cp949')# 환자ID 마스킹 처리 함수def mask_id(index): return 'ID' + str(index).zfill(4)# 이름 마스킹 처리 함수 (성을 제외하고 마스킹)def mask_name(name): return name[0] + "*" * (..

R Studio CSV 파일 불러오기

이번 과제는 엑셀 파일을 csv파일로 변환 후 불러오고 저장해보는 과제이다. 참고 강의https://www.youtube.com/watch?v=lDmze6TL6Ds   사용할 엑셀 파일아직 데이터 셋을 만들지 않아 공공데이터포털에서 제공하고 있는 엑셀 데이터를 이용해 실습해보겠다. 개인정보보호 프로젝트니까 개인정보보호에 관련된 엑셀 파일을 활용해보았다...ㅎㅎ   Step 1. 다운받은 엑셀 데이터를 csv 파일로 변환한다. 확장자는 ".csv"이다. 확장자와 파일 형식을 바꾸어주고 확인을 누르면 현재 시트만 저장이 가능하다고 나온다.csv 파일은 엑셀의 여러 시트를 저장하지 못하고 하나의 파일에 하나의 시트만 저장이 가능하다는 단점이 있다. 이제 R Studio에서 이 파일을 변경해보겠다. Step 2..

R프로그래밍 기초 2 - R프로그래밍 구조

for 반복문for ( variable in vector ) statementfor ( variable in list ) statement실행문이 하나일 때는 중괄호 생략이 가능하다. 크롤링을 할 때 반복문을 이용해서 여러 개 데이터를 합칠 수 있다. ※dim() 데이터가 몇 행, 몇 열로 구성되어있는지 확인하는 함수이다.dim("데이터명")행 열 순으로 출력된다.  ※cat()print와 역할이 똑같으나 엔터 역할이 가능하게 한다. 따라서 어디서 오류가 났는지 쉽게 파악할 수 있으므로 for문을 사용항상 cat을 써준다!for(i in 1:10){ cat("\n",i) ## enter } 즉, cat을 사용하게 되면 "n"이라는 문자가 아니라 R에서 enter능력을 가지고 있는 'n'을 쓰게 해주는..

R프로그래밍 기초 1 - R 소개와 데이터 구조

R 소개 및 변수 선언R이란?데이터의 처리, 통계 계산 및 분석, 그래픽스를 위한 프로그래밍 언어파이썬,C 등과는 다르게 한 줄 한 줄 실행하는 언어라 직관적이고, 에러가 어디서 났는지 쉽게 파악할 수 있다. R 스튜디오실행 단축키: Ctrl+Enter(tools에서 단축키 확인 가능)주석: ##변수 선언위의 그림에서 a=1과 a 하지만 a = 1과 a ==1과 헷갈릴 수 있으니 a 또한, R은 한 줄씩 실행하므로 현재 a에는 2가 들어있다. 이번엔 대소 비교를 하는 문장이다. 반환값은 True나 false가 나온다. 숫자형과 문자형위의 사진처럼 변수에 문자열을 넣을 수 있다. 문자열을 대입할 때에는 꼭 큰 따옴표로 문자열을 처리해준다.만약 10번 문장처럼 문자열을 따옴표 처리하지 않는 경우 abc라는 ..

개인정보 비식별화 조치

개인정보의 정의1. 개인정보살아 있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보 2. 개인식별가능정보해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 정보 3. 가명정보가명처리된 정보로서 추가적으로 정보를 사용하지 않고서는 더 이상 특정 정보주체를 알아볼 수 없는 정보.※ 추가 정보는 별도로 보관되어야 하고 해당 개인정보가 자연인을 식별하거나 식별할 수 없도록 하기 위해 기술적, 조직적인 조치가 적용되어야 함 -> 위의 3가지가 개인정보이다. ▶ 참고) 개인정보가 아닌 것-  사망한 자, 자연인이 아닌 법인, 단체 또는 사물 등에 관한 정보- 익명정보: 더이상 개인을 식별할 수 없는 정보   비식별화 조치 - 식별..