책소개
본서는 분석 기법을 데이터에 적용가능하게 분석 목적을 고려하여, 원데이터를 정제하고 리모델링(plyr, reshape 등), 데이터 요약변수 생성, 파생변수 생성 하는 등 데이터 가공 하여 데이터 마트를 구축하기위한 기법들을 수록하였습니다.
빅데이터 분석가 직종 일을 처음 시작하는 주니어 컨설턴트라면, 현재 학습과정을 포함한 데이터 과학자 STEP1 빅데이터 분석 프로그램 입문, 데이터과학자 STEP2 외부 및 내부 데이터 수집 및 저장, 데이터 과학자 STEP3 빅데이터 분석을 위한 데이터 탐색 및 가공, 데이터 과학자 STEP4 패턴 탐색을 위한 시각화 단계까지의 교재는 학습하고 숙지 한다면 현업에서 기술적 어려움이 해소되리라 필자의 생각입니다.
관련 자료의 공유는 cafe.naver.com/dataan에 있습니다.
목차
I.빅데이터LAKE및교차표
1.데이터마트,요약변수,파생변수
2.교차표이해
3.두속성의값구성파악을위한교차표
4.명목형속성2개,숫자형속성1개의교차표
5.두개의컬럼으로구성된데이터에서,한개의컬럼에대해서만
교차표작성하기
6.length교차표
7.평균교차표:기어의개수와실린더의개수별평균연비교차표
8.교차표의열이름읽기
9.결측치(NA)가집계된교차표
10.교차표에합과비율표시하기
11.자동차연비에영향을미치는변수탐색교차표따라하기
II.결측값과이상값처리
1.결측값과이상값
2.결측치처리방법
3.잘못입력된값찾기
4.특정값결측으로설정하기
5.데이터프레임에서속성별로NA개수파악
6.결측치(NA)가존재하는행모두출력
7.결측치가있는행삭제
8.결측치와이상값이있는케이스에NA표시를남기고데이터셋
9.두속성중에하나라도결측(NA)값을가진행모두삭제
10.결측(NA)을중위수(median)로치환
11.붓꽃종별로결측(NA)을종별중앙값으로치환
12.성별구분코드값이외값모두NA로변경하기
III.중복관리:케이스및속성
1.중복된행식별하기
2.DataFrame에서모든속성값동일한행삭제하기
3.중복이하나라도있는지확인하기
4.두Object가동일한지확인하기
IV.정렬및그룹화
1.순위(order)와정렬(sort)비교
2.여러개의정렬기준설정:붓꽃종류데이터에Petal.Length속성과
Petal.Width속성기준으로정렬하기
3.영화데이터읽어와서영화명을기준으로정렬하기
4.붓꽃종류데이터에서정렬기준속성찾기
5.그룹화:airquality데이터
6.팁을가장많이지불한그룹고객특성
7.동물의몸무게데이터에따라동물의종데이터를정렬하기
8.연습문제
V.데이터필터링
1.데이터타입별로속성추출하기
2.수치형타입의컬럼에만추출해서집계(summary)하기
3.조건과매칭되는첫번째위치탐색하기
4.조건에매칭되는케이스추출하기
5.여러개의조건으로일치하는데이터추출하기
6.조건에일치하는subset추출하기
7.data.table에서조건에적합한케이스추출하기
8.인종level중에백인과흑인만추출해서시각화하기
9.두데이터를비교해서존재하지않는항목탐색하기
10.짝수위치탐색하기
VI.파생변수
1.파생변수이해및관련함수
2.transform()과mutate()비교따라하기
3.온도와오존값변환하기
4.비행주행빠르기정도를나타내는파생변수생성하기
5.비율척도에서서열척도파생변수생성
6.차량연비를낮음(low),중간(medium),높음(high)로파생변수생성하기
7.야구선수아이디별로데뷔차수를나타내는파생변수생성하기
8.조건의일치하는지여부를나타내는파생변수생성
9.Sepal.Length가5.0이상이고Species가Setosa인지여부로파생변
수생성하기
VII.리모델링
1.변수명이level이되게리모델링
2.3점척도로구성된질문응답데이터리모델링하기
3.속성내값을다른속성값과일대일대응관계로확장하기
4.닭을살찌우면서안전한닭의모이는무엇인가
5.영화장르리모델링따라하기
VIII.요약변수
1.요약변수의이해와생성하기
2.월별로평균을산출
3.요약값계산시NA연산불가메세지해결
4.붓꽃측정데이터에서붓꽃의종류별최대값,최소값,평균요약변수추가하기
5.비행기이착륙기록데이터