일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- Tornado
- OrientDB
- 프레임워크
- spring
- mariadb
- Python
- 연결
- 토네이도
- r script
- 이클립스
- AWS
- Judge
- 저지
- 백준
- r
- 알고리즘
- API
- 배열
- 파이썬
- 설치
- online
- ubuntu
- 자료형
- BAEKJOON
- Java
- Framework
- 연동
- MongoDB
- 오픈한글
- 자바스크립트
- Today
- Total
맛동산
seq, sample, rowMeans, rowSums 본문
seq(-2, 2, by=.2) # 0.2씩 증가 (시작,끝,by)
seq(length=10, from=-5, by=.2) # -5부터 10개 생성 (10개, -5부터, .2씩)
rnorm(20, mean = 0, sd = 1) # 정규분포를 따르는 20개 데이터 생성
runif(20, min=0, max=100) # 0~100사이의 20개 난수 생성 # 범위 지정 난수 발생
sample(0:100, 20) # 0~100사이의 20개 sample 생성
setwd("D:/Rwork/Part-I")
excel <- read.csv("excel.csv", header=TRUE)
head(excel, 10)
str(excel)
#colMeans()함수 : 각 열의 평균 계산
colMeans(excel[1:5]) # 원래는 excel[r,c]로 표현하는데 인덱스를 하나로쓰면 excel[c]를 의미함
rowMeans(excel[,1:5]) # rowMeans(excel) 이거랑 같넹
# 결과치는 nrow만큼 나옴!
round(1.5) # 반올림 -> 2
ceiling(1.3) # 올림 -> 2
floor(1.9) # 내림 -> 1
r3 <- rbinom(n, 1, 0.5) # 1개 size에서 1/2(0.5)확률로 난수 정수 생성
r3 # 0 1 0 1 1 0 1 1 1 0
# 흔한 샘플링
no <- c(1,2,3,4,5)
score <- c(10,30,40,10,50)
df <- data.frame(no,score)
df
# 70%는 학습데이터로 쓰고 30%은 검증데이터로 쓰겠다!
sample(nrow(df),nrow(df)*0.7) # (5, 5의70%)
# 5 3 2 그러나 우리가 원하는것은 관측지(score)을 뽑아내는것이죠
idx <- sample(nrow(df),nrow(df)*0.7) # (5, 5의70%)
training<-df[idx,]
training # 70-학습데이터
test<-df[-idx,]
test # 30-검증데이터
# rowMeans(year_col) # 2차원 자료형
# rowSums(year_col)
'머신러닝 > R' 카테고리의 다른 글
pylr패키지 ddply (0) | 2017.03.26 |
---|---|
plyr패키지 join (0) | 2017.03.26 |
논리연산자, ifelse, table (0) | 2017.03.26 |
stringr (0) | 2017.03.26 |
데이터프레임(Dataframe) 기초 (0) | 2017.03.26 |