통계 이야기
[1일차] Do it! 쉽게 배우는 R 데이터 분석 / 1~98p / 둘째 마당, 데이터 갖고 놀기, 데이터 프레임의 세계로
728x90
반응형
< 1장 ~ 4장 >
R은 어디에 쓸 수 있을까
1) 머신러닝 모델링
2) 텍스트 마이닝
3) 소셜 네트워크 분석
4) 지도 시각화
5) 주식 분석
6) 이미지 분석
7) 사운드 분석
working directory 설정방법
Session > Set working directory > choose directory
working directory를 원하는 장소로 설정하셔야
나중에 파일을 찾아서 사용하기가 쉬워요 !
var1 <- c(1, 2, 5, 7, 9)
var2 <- c(1:5) ; var2
var3 <- seq(1,5) ; var3
var4 <- seq(1, 10, 2) ; var4
var1 + var2
mean(var2)
# 문자전용 함수 paste
str5 <- c("hello", "world", "is", "good") ; str5
paste(str5, collapse = ",")
str6 <- c("hello", "world", "is", "good") ; str6
paste(str6, collapse = " ")
library(ggplot2)
# parameter마다 달라지는 그래프 형태
qplot(data = mpg, x = hwy)
qplot(data = mpg, x = cty)
qplot(data = mpg, x = drv, y = hwy)
qplot(data = mpg, x= drv, y = hwy, geom = 'line')
qplot(data = mpg, x= drv, y = hwy, geom = 'boxplot', colour = drv)
# 혼자서 해보기
score <- c(80, 60, 70, 50, 90) ; score
mean(score)
mean_score <- mean(score)
데이터 프레임이란, 가장 많이 사용하는 데이터 형태. 열(변수, Column)과 행(케이스, Row)으로 구성되어 있습니다.
열은 주로 변수와 같은 속성을 나타내고 행은 주로 정보를 보여주게 됩니다.
# data frame 만들기
english <- c(90, 80, 60, 70)
math <- c(50, 60, 100, 20)
df_midterm <- data.frame(english, math)
df_midterm
class <- c(1, 1, 2, 2)
df_midterm <- data.frame(english, math, class)
mean(df_midterm$english)
# $ 기호는 데이터 프레임 안에 있는 변수를 지정할 때 사용한다.
# 혼자서 해보기
price <- data.frame(price = c(1800, 1500, 3000), selling = c(24, 38, 13))
mean(price$price)
mean(price$selling)
# 엑셀 파일 불러오기
library(readxl)
df_exam <- read_excel("excel_exam.xlsx")
df_exam
mean(df_exam$english)
# 만약첫 행부터 데이터가 시작되는 엑셀파일이라면 ?
# df_exam <- read_excel("excel_exam.xlsx", col_names = F)
# 엑셀 파일 시트가 여러개라면 ?
# df_exam <- read_excel("excel_exam.xlsx", col_names = F, sheet = 3)
# 문자가 들어가 있는 csv 파일을 불러올 때는, stringsAsFactors = F 파라미터를 넣어준다
df_midterm
#csv 파일로 저장하기
write.csv(df_midterm, file = "df_midterm.csv")
# data frame을 RData 파일로 저장하기
save(df_midterm, file = "df_midterm.rda")
# RData 불러오기
load("df_midterm.rda")
728x90
반응형
댓글