for 반복문
for ( variable in vector ) statement
for ( variable in list ) statement
실행문이 하나일 때는 중괄호 생략이 가능하다.
크롤링을 할 때 반복문을 이용해서 여러 개 데이터를 합칠 수 있다.
※dim()
데이터가 몇 행, 몇 열로 구성되어있는지 확인하는 함수이다.
dim("데이터명")
행 열 순으로 출력된다.
※cat()
print와 역할이 똑같으나 엔터 역할이 가능하게 한다. 따라서 어디서 오류가 났는지 쉽게 파악할 수 있으므로 for문을 사용항상 cat을 써준다!
for(i in 1:10){
cat("\n",i) ## enter
}
즉, cat을 사용하게 되면 "n"이라는 문자가 아니라 R에서 enter능력을 가지고 있는 'n'을 쓰게 해주는 것이다.
if 조건문
파이썬의 조건문과 형식이 똑같다.
if (statement1) statement2
if (statement1) statement2 else statement3
if (statement1) {
statement2
} else if (statement3.1) {
statement3.2
} else {
statement3.3
}
마찬가지로 실행문이 하나일 때는 중괄호 생략이 가능하고 조건식은 참 또는 거짓으로 판별될 수 있어야 한다.
while 반복문
while (statement1) statement2
몇번을 반복할지 결정이 안되어 있는 경우 while 문을 이용하여 반복문을 구현한다. while 문은 statement1이 TRUE이면 statement2를 실행하고 FALSE라면 반복을 실행하지 않고 빠져나온다.
while(T) ##무한 반복
※? 함수명: 함수에 대한 설명이 help에 나온다.
파일 읽고 쓰기
1. 파일을 저장할 위치를 복사해서 따옴표 처리 -> 이때 역슬래쉬를 한번 더 넣어줘야한다. 역 슬래쉬는 해당 문자를 다른 기능으로 해주기 때문이다.
2. getwd() 함수로 현재 작업 공간을 불러온다.
3. setwd() 함수로 현재 작업 공간을 변경한다.
m <- matrix(1:15, ncol=3, byrow = T)
m2 <- data.frame(m) ##데이터 프레임으로 만들기
colnames(m2) <- paste0("v", 1:3) ##열의 이름을 v1,v2,v3라고 이름 붙이기
m2 ##일단 m2 출력
colnames: 열 이름 바꾸기 함수
paste(0): 이름 붙이기 함수로 사용되는 나열된 원소 사이에 공백을 두고(0을 붙이면 공백 없이) 결과값을 출력하는 함수
위와 같이 m2가 있다고 가정하자.
csv 파일 읽고 쓰기
1. write.csv(matrix, "저장할 파일명.csv")으로 m2파일을 m2.csv라는 이름으로 저장한다.
2. read.csv(파일명)으로 csv 파일을 불러온다.
근데 이렇게 되면 열의 개수가 하나 늘어나는데 그 이유는 rowname이 하나의 행으로 인식하기 때문이다.
따라서 아래의 2가지 방법을 통해 열 개수를 유지할 수 있다.
- 저장할 때 row.names = F로 하기
- aaa<-read.csv("m2.csv)[, -1]로 첫번째 열을 지움
주로 전자의 방법으로 작성한다.
write.csv(m2, "m2.csv", row.names = F)
R데이터 파일 읽고 쓰기
csv같은 경우 matrix나 데이터 프레임 형태만 저장 가능하고 데이터를 저장하고 불러들이는 과정에서 데이터가 깨질 수 있다. 또한 열이 하나 늘어나는 등 파일 그대로 불러 들일 수 없다.
-> 만약 엑셀 형태의 데이터를 저장할 시 csv 파일로 저장하는 것이 좋다!
그렇기 때문에 R데이터 파일을 주로 이용한다. 어떤 데이터 형태 그대로 다 저장 가능하며 데이터가 엄청나게 커지는 경우 r데이터가 굉장히 유용하다.(속도 훨씬 더 빠름)
1. save(저장할 데이터, file = "저장할 파일명.RData")로 파일을 저장한다.2. load("파일명")으로 파일을 불러온다.
리스트
lista <- list() ##lista라는 변수에 list선언
lista
lista[[1]] <- m2 ##lista의 1번째 큰방에 m2 대입(큰방과 작은방 구분)
lista
리스트는 큰 방과 작은 방으로 이루어져있고 큰 방에는 어떠한 데이터 형태도 들어갈 수 있다.
만약 위와 같이 lista[[2]][[2]]라면 2번째 큰방의 2번째 작은방인 2가 출력된다.
save(lista, file = "lista.RData") ##list는 R 파일로 저장
load("lista.RData")
리스트는 R파일로만 저장이 가능하다.
기본적인 plot 다루기 - 데이터 시각화
plot(1)을 입력했을 때 나오는 그림이다. R은 데이터를 시각화하기 위해 plot() 함수를 제공한다.
기본적인 r의 plot은 ggplot 패키지를 활용하여 시각화한다.
'2024 여름 SWLUG > 개인정보보호 프로젝트' 카테고리의 다른 글
[파이썬] 데이터 비식별화 처리 (0) | 2024.08.08 |
---|---|
[R프로그래밍] 데이터 비식별화 처리 코드 실습 (0) | 2024.08.04 |
R Studio CSV 파일 불러오기 (0) | 2024.07.28 |
R프로그래밍 기초 1 - R 소개와 데이터 구조 (0) | 2024.07.21 |
개인정보 비식별화 조치 (0) | 2024.07.13 |