728x90
반응형

통계 이야기21

[5일차] Do it! 쉽게 배우는 R 데이터 분석 / 219P~ 351P / 데이터 분석 기술을 효율적으로 익히는 방법 안녕하세요. 일을 하느라고, 주말을 이용해서 이제야 공부를 다시 해봅니다. 진행하는 데에 아무런 문제는 없었지만, 텍스트 마이닝 부분에서, KoNLP 패키지 관련된 이슈가 좀 힘들었습니다. R 네임스페이스 오류로 계속 안되더라구요. 이 이슈때문에 지도 시각화 일부분도 조금 애를 먹었던 것 같습니다. 분명 4버전 전에는 잘 되었던 코드들인데도 불구하고 , 업그레이드 되면서 새롭게 찾아봐야 하는 이슈들이 있는 것 같더라구요. 밑 코드 블럭을 활용하여 do it R 데이터분석 책에 나타나있는 코드를 활용하여 공부했습니다, 코드를 하나하나 뜯어봤고 다른 것에 적용시키면서 오늘 하루를 보냈던 것 같습니다. T검정이나, 상관성 분석 등은통계학적 이론을 먼저 알고나니, 코드로 구현하는 것은쉽게 구현할 수 있었던 것 .. 2022. 7. 3.
[4일차] Do it! 쉽게 배우는 R 데이터 분석 / 180P~ 218P / 실제 데이터 분석하기 ! # 그래프만들기 산점도란. x축과 y축에 점으로 표현한 그래프를 산점도라고 합니다. 산점도는 나이와 소득처럼 연속 값으로 된 두 변수의 관계를 표현할 때 사용됩니다. ggplot2 레이어 구조 이해 > ggplot2 문법은 레이어 구조로 되어 있습니다. 배경을 만들고, 그 위에 그래프 형태를 그리고, 마지막으로 축 범위, 색, 표식 등 설정을 추가하는 순서로 그래프를 만듭니다. # 그래프 만들기 library(ggplot2) # ggplot2 레이어 구조 이해 # 배경 설정 # x축은 displ, y축은 hwy로 지정해 배경 생성 ggplot(data =mpg, aes(x = displ, y= hwy)) # 배경에 산점도 추가 ggplot(data = mpg, aes(x = displ, y= hwy)) .. 2022. 5. 10.
[3일차] Do it! 쉽게 배우는 R 데이터 분석 / 145P~ 179P / 자유자재로 데이터 가공하기 / 결측, 이상치 정제 남은 부분인 summarise, group_by, left_join 부분 완료. 추가적으로 dplyr 안에 있는 함수들로 연결해서데이터 분석해보기. # 2022.05.07 data % summarise(mean_math = mean(math)) data %>% group_by(class) %>% summarise(mean_math = mean(math)) # group_by를 통해 반별로 집단을 나누고, n 을 통해 각 반 별로 몇 명이 있는지 알 수 있다. data %>% group_by(class) %>% summarise(mean_math = mean(math), sum_math = sum(math), median_math = median(math), n = n().. 2022. 5. 7.
[2일차] Do it! 쉽게 배우는 R 데이터 분석 / 98P~ 144P / 자유자재로 데이터 가공하기 head() : 데이터 앞 부분 출력 tail() : 데이터 뒷 부분 출력 View() : 뷰어 창에서 데이터 확인 dim() : 데이터 차원 출력 str() : 데이터 속성 출력 summary() : 요약 통계량 출력 summary() 함수의 출력값 Min 1st Qu Median Mean 3rd Qu Max as.data.frame 은 데이터 속성을 데이터 프레임 형태로 바꾸는 함수. 어떤 데이터를 분석하든, 가장 먼저 data.frame, dim, summary 등의 함수를 활용하여 각 변수들의 전반적인 특징을 먼저 파악하는 것이 중요합니다. dplyr 패키지 filter() : 행 추출 select() : 열 추출 arrange() : 정렬 mutate() : 변수 추가 summarise() : .. 2022. 5. 5.
[1일차] Do it! 쉽게 배우는 R 데이터 분석 / 1~98p / 둘째 마당, 데이터 갖고 놀기, 데이터 프레임의 세계로 R은 어디에 쓸 수 있을까 1) 머신러닝 모델링 2) 텍스트 마이닝 3) 소셜 네트워크 분석 4) 지도 시각화 5) 주식 분석 6) 이미지 분석 7) 사운드 분석 working directory 설정방법 Session > Set working directory > choose directory working directory를 원하는 장소로 설정하셔야 나중에 파일을 찾아서 사용하기가 쉬워요 ! var1 2022. 5. 4.
data mining, polynomial regression + step functions + Natural cubic spline + smoothing spline + local regression + GAM in R polynimial regression (다항식 회귀) - y_i=β_0+β_1 x_i+β_2 x_i^2+β_3 x_i^3+〖…+β〗_d x_i^d+ϵ_i [ϵ_i is the error term] - Generally, d is not greater than 3 or 4 (더 커지면 너무 극심하게 비선형 곡선이 됨) step functions (계단 함수) - X의 범위를 여러 개의 bin으로 분할하여 각 bin에 다른 상수를 적합 - Continuous variable을 ordered categorical variable로 변환 regression splines (회귀 스플라인) - Piecewise polynomials regression with a single knot (단일 매듭 조각별 다항식.. 2021. 12. 18.
data mining, forward + backward + ridge + lasso + pcr + pls linear model Y=β_0+β_1 X_1+…+β_p X_p+ϵ (Least squares methods) Forward Stepwise Selection - Best subset selection은 2^p개의 model을 고려해야하므로 p가 크면 사용하기 힘듦 - Null model에서 시작하여 한번에 한 개씩의 explanatory variable을 추가함 Backward Stepwise Selection - Full model에서 시작하여 한번에 한 개씩의 explanatory variable을 제외함 To choose a model with a low test error 1. estimate test error indirectly by making an adjustment to the tra.. 2021. 12. 17.
data mining, maximal margin classifier + support vector classifier + support vector machine in R - Maximal margin classifier (최대 마진 분류기): linear boundary로 class 구별 (에러 없음) - Support vector classifier (서포트 벡터 분류기): linear boundary & soft margin classifier (에러 포함) - Support vector machines (서포트 벡터 머신): non-linear class boundaries Maximal margin classifier (최대 마진 분류기) - Separating Hyperplane (분리 초평면) •Suppose a hyperplane that separates .. 2021. 12. 16.
data mining, random forest + boosting in R - Bagging에서와 같이 bootstrapped training sample에서 여러 개의 decision tree를 만듦 - Tree에서 분할이 고려될 때마다 p개의 predictors의 full set에서 m개의 predictors로 구성된 random sample만 선택하여 이들 중에서 한 개가 선택되도록 함 - 보통 m≈√p을 사용 - Random forest는 bagging방법에서 variance를 더 줄임으로써 test error를 줄임.. Why? • 하나의 very strong predictor와 여러 개의 moderately strong predictors가 있다고 가정하면 대부분의 tree에서는 top split에 very strong predicto.. 2021. 12. 15.
Data Mining , Classification tree + Regression tree + Bagging Bagging (배깅) - 배깅의 목적은 분산 감소 - generate B different bootstrapped training data sets using random sampling with replacement from Z data set: - compute f ̂_1^∗ (x), f ̂_2^∗ (x),…, f ̂_B^∗ (x) by training the method on B different training sets - finally average all the predictions - Regression tree에 bagging을 적용하기 위해서는 B개의 bootstrapped training sets을 사용하여 B개의 regres.. 2021. 12. 14.
Simulation 공부 with R 공부하려고 TISTORY하는 범창입니다. simulation을 이용한 연구를 위해서는 난수 발생이 필수입니다. 그 중에서 0과 1사이의 균일 난수가 가장 기본 random numbers는 독립의 성격을 갖는 U(0, 1) random variables EX3 파이 추정 P(U1^2 + U2^2 2021. 10. 2.
빅데이터 ; R markdown 실습하기 R markdown을 처음 써봤습니다. R markdown을 사용하여 특정 데이터셋에 대해 빈도수를 구하고 이를 그림으로 나타내기 최종 pdf로 추출하는 과정까지 실습한 내용입니다. barplot(table(crime$Category)) Calls: ... process_file -> split_file -> lapply -> FUN -> parse_block 실행이 정지되었습니다 라는 에러문구가 나오면 ``` {r pressure, echo = F} ~~~ ``` 이렇게 한번 했으면 ``` {r pressure2, echo = F} ~~~ ``` 이렇게 pressure에다가 두 번째라는 것을 나타내주어야 합니다 --- title: "21-07-20" output: html_document --- ```.. 2021. 8. 2.

추천 글

728x90
반응형