#################################################################################################### ### Project: ADsP (Advanced Data analytics semi-Professional) ### Chapter: 03 Data analysis ### Part : 03 Data mart - 02 Data manipulation ### Script : Ch03_03_02_manipulation.R #################################################################################################### #################################################################################################### ### Setting up environment #################################################################################################### # Packages pkgs <- c("ggplot2", "klaR") sapply(pkgs, require, character.only=TRUE) #################################################################################################### ### Data #################################################################################################### data(diamonds) data(iris) #################################################################################################### ### Data exploration #################################################################################################### dia.data <- diamonds head(dia.data) summary(dia.data) #################################################################################################### ### Variable importance #################################################################################################### # klaR: 특정 변수가 주어졌을 때 클래스가 어떻게 분류되는 지에 대한 에러율을 돌려주고 # 그래프로 결과를 보여주는 기능이다. # greedy.wilks( ): 세분화를 위한 stepwise forward 변수선택을 위한 패키지. # 종속변수에 가장 영햐역을 미치는 변수를 wilks lambda를 활용하여 변수의 중요도를 정리 # Wilk's Lambda = 집단 내 분산 / 총분산 iris2 <- iris[, c(1, 3, 5)] plineplot(Species ~., data=iris2, method="lda", x=iris[, 4], xlab="Petal.Width") # Petal.Width에 따라 Species의 분포가 다름을 알 수 있다. 이러한 경우 Pedal Width를 grouping해서 # categorical variable로 만들어주면 해석이 용이할 수 있다. mN <- NaiveBayes(Species~., data=iris) par(mfrow=c(2, 2)) plot(mN)