타이타닉 데이터 분석 3.Feature Engineering (Final)

- 4월 23, 2015

#테스트의 생존자 열에 NA값을 넣고 rbind를 이용해 두 시트를 합친다.

test$Survived <-na p="">combi <-rbind test="" train="">

#R에선 문자열은 팩터화시키는데 이를 케릭터화시킨다. text character는 문자열을 분리할 수 있다.

combi$Name <- ame="" as.character="" combi="" p="">combi$Name[1]
[1] "Braund, Mr. Owen Harris"

#,와. 를 기준으로 문자열을 분리시킨다.

strsplit(combi$Name[1], split='[,.]')
[[1]]
[1] "Braund" " Mr" " Owen Harris"

#Mr라는 단어만 분리시킨다.

strsplit(combi$Name[1], split='[,.]')[[1]][2]

[1] " Mr"

#combi의 title열에 함수의 조건에 맞는 값들을 넣는다. 밑의 명령어의 결과값은 Mr,Miss,Mrs 등으로 표현 될 것이다.

combi$Title <- ame="" combi="" div="" fun="function(x)" sapply="" split="[,.]" strsplit="" x="">

#sapply란 무엇인가?

lapply: 결과를 리스트 형태로 반환
sapply: 벡터, 또는 행렬의 형태로 반환 (s: simplify)
> patients.sub
weight height
1 65.4 170
2 55.0 155
3 380.0 NA
4 72.2 173
5 51.0 161
6 NA 166

> lapply( patients.sub, mean, na.rm = TRUE )
$weight
[1] 124.72

$height
[1] 165

> sapply( patients.sub, mean, na.rm = TRUE )
weight height
124.72 165.00

#띄어쓰기를 없애고 깔끔하게 Mr,Mrs,Miss 등을 만든다.

combi$Title <- combi="" div="" itle="" sub="">

#sub란 무엇인가?

x=abcd(ef를 x=abcdef로 바꾸고 싶을때,

sub("||(","",x) 나 sub("(","",x,fixed=TRUE)를 이용해 바꿔야한다.

즉, sub는 단어나 글자를 바꿀 때 쓰인다.

#마무리로 Title열을 팩터화 시킨다.

combi$Title <- combi="" div="" factor="" itle="">

#가족 수 열을 만들어 구한다. 가족 수 또한 결과에 영향을 미칠 것이라는 추측.

combi$FamilySize <- 1="" arch="" combi="" div="" ibsp="">

#Surname 열을 추가해 sapply로 이름 열에서 첫번째 단어를 뽑아 대입한다.

combi$Surname <- ame="" combi="" div="" fun="function(x)" sapply="" split="[,.]" strsplit="" x="">

#FamilyID라는 열을 만들어 FamilySize와 Surname값들을 합쳐 대입한다.

combi$FamilyID <- amilysize="" as.character="" combi="" div="" paste="" sep="" urname="">

#가족 수가 2보다 작으면 small이라는 값을 넣는다.

combi$FamilyID[combi$FamilySize <= 2] <- div="" mall="">

#combi의 FamilyID로 famIDs라는 데이터 프레임을 만든다.

famIDs <- amilyid="" combi="" data.frame="" div="" table="">

#2보다 작은 값을 Freq에 넣는다.

famIDs <- 2="" div="" famids="" req="">

#패밀리 아이디를 덮어쓰고 팩터화 시킨다.

combi$FamilyID[combi$FamilyID %in% famIDs$Var1] <- div="" mall="">

combi$FamilyID <- amilyid="" combi="" div="" factor="">

#마지막으로 combi를 test와 train으로 분리시킨다.

train <- combi="" div="">

test <- combi="" div="">

#의사결정나무를 그리고 예측하고 저장한다.

fit <- age="" data="train," div="" embarked="" familyid="" familysize="" fare="" method="class" parch="" pclass="" rpart="" sex="" sibsp="" title="" urvived="">

Prediction <- div="" fit="" predict="" test="" type="class">

> submit <- assengerid="test$PassengerId," data.frame="" survived="Prediction)</div">

> write.csv(submit, file = "myfirstdtree.csv", row.names = FALSE)

Q. %in%은 무엇인가?

이 블로그 검색

Computer & Books

타이타닉 데이터 분석 3.Feature Engineering (Final)

댓글

댓글 쓰기

이 블로그의 인기 게시물

윈도우 설치에서 파티션 설정 오류(NTFS)

#5 수경재배 스마트팜 (1)

하둡 설치 오류 정리