맛동산

seq, sample, rowMeans, rowSums 본문

머신러닝/R

seq, sample, rowMeans, rowSums

오지고지리고알파고포켓몬고 2017. 3. 26. 20:08

seq(-2, 2, by=.2) # 0.2씩 증가 (시작,끝,by)

seq(length=10, from=-5, by=.2) # -5부터 10개 생성 (10개, -5부터, .2씩) 


rnorm(20, mean = 0, sd = 1) # 정규분포를 따르는 20개 데이터 생성

runif(20, min=0, max=100) # 0~100사이의 20개 난수 생성 # 범위 지정 난수 발생


sample(0:100, 20) # 0~100사이의 20개 sample 생성




setwd("D:/Rwork/Part-I")

excel <- read.csv("excel.csv", header=TRUE)

head(excel, 10) 

str(excel)


#colMeans()함수 : 각 열의 평균 계산

colMeans(excel[1:5]) # 원래는 excel[r,c]로 표현하는데 인덱스를 하나로쓰면 excel[c]를 의미함

rowMeans(excel[,1:5]) # rowMeans(excel) 이거랑 같넹

# 결과치는 nrow만큼 나옴!




round(1.5) # 반올림 -> 2

ceiling(1.3) # 올림 -> 2

floor(1.9) # 내림 -> 1



r3 <- rbinom(n, 1, 0.5) # 1개 size에서 1/2(0.5)확률로 난수 정수 생성 

r3 #  0 1 0 1 1 0 1 1 1 0 






# 흔한 샘플링

no <- c(1,2,3,4,5)

score <- c(10,30,40,10,50)

df <- data.frame(no,score)

df

# 70%는 학습데이터로 쓰고 30%은 검증데이터로 쓰겠다!


sample(nrow(df),nrow(df)*0.7) # (5, 5의70%)

# 5 3 2 그러나 우리가 원하는것은 관측지(score)을 뽑아내는것이죠


idx <- sample(nrow(df),nrow(df)*0.7) # (5, 5의70%)


training<-df[idx,]

training # 70-학습데이터


test<-df[-idx,]

test # 30-검증데이터



# rowMeans(year_col) # 2차원 자료형

# rowSums(year_col)

'머신러닝 > R' 카테고리의 다른 글

pylr패키지 ddply  (0) 2017.03.26
plyr패키지 join  (0) 2017.03.26
논리연산자, ifelse, table  (0) 2017.03.26
stringr  (0) 2017.03.26
데이터프레임(Dataframe) 기초  (0) 2017.03.26
Comments