본문 바로가기

공부와 공부와 공부/R

(11)
6-5 프로그래밍 예제 - readline(), cat() readline() 사용자에게 어떤 값을 입력 받을 때 사용 n
6-4 apply계열 함수 - apply(), lapply(), sapply() R에서 for while 함수 사용을 권장하지 않는다. for과 while은 처리해야할 것들, 즉 반복 횟수가 많아지면 실행하는데 많은 시간을 소요한다. 따라서 반복 처리를 더 간단하게 하는 다른 함수를 사용하는데, 바로 apply()계열 함수 이다. apply계의 함수 apply(iris[,1:4],2,mean) apply(iris[,1:4],1,mean) 는 아래 for 을 사용한 반복문과 동일하다. for(i in 1:4){ print(mean(iris[,i])) } lapply() apply()와 유사하지만 결과가 List Format이므로 lapply()는 리스트 형태의 값에서 주로 사용한다. ※무조건 컬럼 방향으로 나옴 lapply(iris[,1:4], mean) abc
6-1 R 프로그래밍 if(), for(), while(), for문과 while문 차이 If문 만일; 조건문; 조건이 참이면 실행, 조건이 거짓이면 다른 실행 참, 거짓 여부에 따라 다른 처리가 이루어 질 때 사용 Ifelse 실행 명령이 하나일 경우 ifelse 사용 for, while 반복문 for 과 while 의 차이 for(I in 1:10 { } 중괄호 부분을 여러 번 반복해서 실행하겠다 몇 번을 실행하고 어떻게 반복할 건지 정해야함 예제) 구구단 2단 구하기 for(i in 1:10) { cat("2*",i,"=",2*i,"\n") } 짝수와 홀수 조건 별 데이터 값 구하기 v1
5-3 다변량 자료의 탐색 R 선그래프 plot() lines() R 선그래프 두개의 변수 중 하나가 시간을 나타내는 값일 때 사용 시계열 분석 month=c(1:12) late=c(5,8,7,9,4,6,12,13,8,6,6,4) plot(late~month, main="Late Students", type="l", lty=1, lwd=1) 복수의 선 그래프 그리기 하나의 선 그래프를 그린 후에 그 위에 다른 선그래프를 겹쳐 그리는 방식 month=c(1:12) late1=c(5,8,7,9,4,6,12,13,8,6,6,4) late2=c(4,6,5,8,7,8,10,11,6,5,7,3) plot(late1~month, main="Late Students", type="l", lty=1, lwd=1) lines(late2~month, type="b", col="blue")..
5-2 다변량 자료의 탐색 R상관분석, 상관계수 plot(), cor(), cbind(), rbinds(), lm() 상관분석 두개의 변수, 두개의 양적 자료에 대한 분석 방법 산점도와 항상 함께 이용 수치적으로 변수들의 상관관계를 표현 상관계수 R -1
5-1 다변량 자료의 탐색 - 산점도 plot(), pch(), pairs() 다변량 자료다변량 자료의 탐색 분석하려는 주제가 두 개 이상인 것 변수가 두 개인 경우는 이변량 자료 이변량 자료 분석이 많음 2차원 형태의 배열에 넣어서 분석 분석 대상이 되는 주제가 변수 산점도 plot() 이변량 자료의 분포 및 상관관계를 시각적으로 보여줌 변수의 상관관계를 확인할 수 있음 wt
4-4 문자열 함수 Paste(), Substr(), nchar(), gstr() 문자열 함수 단어들을 합치거나 자르는 함수 Paste()함수 여러 문자열을 연결하여 하나로 만들 때 사용 Substr() Substring의 약자 문자열 자르기 nchar() number of character 문자열의 길이 gsub() 문자열 바꾸기 (replace) ※위 자료는 K-MOOC 단국대학교 오세종 교수님의 R 데이터 분석 입문을 참고하였습니다.
4-3 R을 이용해 만드는 일변량 양적 자료 그래프 Mean(), diff(), sd(), range(), boxplot(), hist(), stem() 일변량 양적 자료를 활용해 만드는 다양한 그래프 양적 자료는 크기 비교가 가능해 질적 자료 대비 분석 방법이 다양하다. 평균(Mean) 개별 값들의 합계를 그 개별 값들의 개수로 나누는 것 ex) 균형점, 무게중심 절사평균(Trimmed Mean) 표본중에서 작은값n%와 큰값 n%를 제외하고 나머지(100-2n)%의 자료만 사용하여 구한 평균 극단적인 값에 의한 오차를 줄이기 위해 사용 자료가 정규분포를 이루면 평균이 의미가 있으나 어느 한쪽으로 치우친 경우 평균 보다는 중앙값을 대표값으로 사용할 수 있음 4분위수 3개의 수로 데이터를 추정 나열한 것을 4등분 함 등분점 3개 mydata=c(50,60,100,75,200) mydata.big 구간을 나누어 표시할 것 막대그래프와 히스토그램의 차이 his..