본문 바로가기

5-2 다변량 자료의 탐색 R상관분석, 상관계수 plot(), cor(), cbind(), rbinds(), lm() 상관분석 두개의 변수, 두개의 양적 자료에 대한 분석 방법 산점도와 항상 함께 이용 수치적으로 변수들의 상관관계를 표현 상관계수 R -1
5-1 다변량 자료의 탐색 - 산점도 plot(), pch(), pairs() 다변량 자료다변량 자료의 탐색 분석하려는 주제가 두 개 이상인 것 변수가 두 개인 경우는 이변량 자료 이변량 자료 분석이 많음 2차원 형태의 배열에 넣어서 분석 분석 대상이 되는 주제가 변수 산점도 plot() 이변량 자료의 분포 및 상관관계를 시각적으로 보여줌 변수의 상관관계를 확인할 수 있음 wt
4-4 문자열 함수 Paste(), Substr(), nchar(), gstr() 문자열 함수 단어들을 합치거나 자르는 함수 Paste()함수 여러 문자열을 연결하여 하나로 만들 때 사용 Substr() Substring의 약자 문자열 자르기 nchar() number of character 문자열의 길이 gsub() 문자열 바꾸기 (replace) ※위 자료는 K-MOOC 단국대학교 오세종 교수님의 R 데이터 분석 입문을 참고하였습니다.
4-3 R을 이용해 만드는 일변량 양적 자료 그래프 Mean(), diff(), sd(), range(), boxplot(), hist(), stem() 일변량 양적 자료를 활용해 만드는 다양한 그래프 양적 자료는 크기 비교가 가능해 질적 자료 대비 분석 방법이 다양하다. 평균(Mean) 개별 값들의 합계를 그 개별 값들의 개수로 나누는 것 ex) 균형점, 무게중심 절사평균(Trimmed Mean) 표본중에서 작은값n%와 큰값 n%를 제외하고 나머지(100-2n)%의 자료만 사용하여 구한 평균 극단적인 값에 의한 오차를 줄이기 위해 사용 자료가 정규분포를 이루면 평균이 의미가 있으나 어느 한쪽으로 치우친 경우 평균 보다는 중앙값을 대표값으로 사용할 수 있음 4분위수 3개의 수로 데이터를 추정 나열한 것을 4등분 함 등분점 3개 mydata=c(50,60,100,75,200) mydata.big 구간을 나누어 표시할 것 막대그래프와 히스토그램의 차이 his..
R 그래프를 만드는 데 뜨는 에러 Error in RStudioGD() R 그래프를 만들기 위해 barplot() 함수를 쓰자 다음과 같은 에러가 발생하였다. Error in RStudioGD() : Shadow graphics device error: r error 4 (R code execution error) 찾아보니 cairo package 가 없어 발생하는 오류이다. 하기 URL로 접속하여 cairo package를 다운로드 받은 후, R을 재실행 하면 해당 오류는 해결 된다. https://cran.r-project.org/web/packages/Cairo/index.html CRAN - Package Cairo Cairo: R Graphics Device using Cairo Graphics Library for Creating High-Quality Bitma..
4-2 R을 이용해 막대그래프와 파이그래프 만들기 table(), barplot(), par(), pie() 일변량 질적 자료의 분석: 막대그래프와 파이그래프 만들기 질적 자료는 개수를 세는 것이 기본 (Yes 가 몇 개 No 가 몇 개?) 따라서, 일변량 질적 자료를 얻기 위한 첫번째로 table 명령, 혹은 length() 함수를 포함한 도수분포표를 작성해야한다. 도수분포표 작성 막대그래프 작성 질적자료를 시각화 하는 대표적인 그래프는 막대그래프 barplot() 함수를 통해 막대그래프를 그릴 수 있다. 위 x축 레이블과 Y축 레이블은 한글로 써도 그래프 상에 표시가 된다. barplot() 함수의 매개변수는 다음과 같으며, 이를 활용하여 다양한 그래프를 그릴 수 있다. head(mtcars) carb
4-1 기초 통계 개념 기초 통계 개념 자료분석에는 자료의 성질에 대한 이해가 먼저 필요 자료 성질에 따른 분류 1. 질적 자료=범주형 자료 : 숫자 형태와 같이 크기로 표현될 수 없는 데이터 ex) 교육수준(초졸, 중졸, 고졸, 대졸), 성별 표시 2. 양적 자료: 자료가 숫자로 표현되고 크기를 가짐 1) 이산자료: 정수값을 취할 수 있는 자료 ex) 각 세대의 자녀 수 2) 연속자료: 실수 값을 취하 수 있는 자료 ex) 키, 몸무게, 온도 >> 자료 형태에 따라 분석 방법이 달라짐 변수의 개수에 따른 분류 1. 일변량 자료: 변수가 하나인 데이터 ex) 몸무게 분포 분석 à 몸무게 하나에 대한 데이터 >> 몸무게가 변수, 벡터에 저장 2. 다변량 자료: 변수가 두 개 이상인 데이터 ex) 출생 지역과 몸무게의 상관 관계 ..
[세부여행] 여행 준비 1. 항공과 숙박 예약/ 하고 싶은 것 정리 6/28~7/4 (5박 7일) 필리핀 세부 여행 항공권을 구매했다. G마켓여행에서 판매하는 투어2000 상품으로 220,400원 이다. 다른 글들을 보니 엄청 싸진 않지만 적정 가격에 잘 산 것 같다. 항공권을 구매했으니 숙소를 정할 차례다. 필리핀은 치안이 좋지 않아 밤은 물론 낮에도 함부로 돌아다니면 안된다고 들었다. 자유롭게 돌아다니지 못한다면 투어 외에 리조트에서 보내는 시간이 많을 것 같아 숙소 고르는 데 매우 신중했다. 물론 샹그릴라나 제이파크 아일랜드 처럼 유명하고 좋은 리조트에 가면 좋겠지만, 조금이라도 여행 비용을 줄이고 싶었다. 그 보다 한 단계 낮은급의 마리바고 블루워터, 뫼벤픽, 화이트샌드 비치 리조트 등을 살펴봤다. 모두 10만원 초반 ~ 중반 대로 구매할 수 있다. 그래도 5박을..