Historical Diary

728x90

통계6

[5일차] Do it! 쉽게 배우는 R 데이터 분석 / 219P~ 351P / 데이터 분석 기술을 효율적으로 익히는 방법 안녕하세요. 일을 하느라고, 주말을 이용해서 이제야 공부를 다시 해봅니다. 진행하는 데에 아무런 문제는 없었지만, 텍스트 마이닝 부분에서, KoNLP 패키지 관련된 이슈가 좀 힘들었습니다. R 네임스페이스 오류로 계속 안되더라구요. 이 이슈때문에 지도 시각화 일부분도 조금 애를 먹었던 것 같습니다. 분명 4버전 전에는 잘 되었던 코드들인데도 불구하고 , 업그레이드 되면서 새롭게 찾아봐야 하는 이슈들이 있는 것 같더라구요. 밑 코드 블럭을 활용하여 do it R 데이터분석 책에 나타나있는 코드를 활용하여 공부했습니다, 코드를 하나하나 뜯어봤고 다른 것에 적용시키면서 오늘 하루를 보냈던 것 같습니다. T검정이나, 상관성 분석 등은통계학적 이론을 먼저 알고나니, 코드로 구현하는 것은쉽게 구현할 수 있었던 것 .. 2022. 7. 3.

Data Mining , Classification tree + Regression tree + Bagging Bagging (배깅) - 배깅의 목적은 분산 감소 - generate B different bootstrapped training data sets using random sampling with replacement from Z data set: - compute f ̂_1^∗ (x), f ̂_2^∗ (x),…, f ̂_B^∗ (x) by training the method on B different training sets - finally average all the predictions - Regression tree에 bagging을 적용하기 위해서는 B개의 bootstrapped training sets을 사용하여 B개의 regres.. 2021. 12. 14.

Simulation 공부 with R 공부하려고 TISTORY하는 범창입니다. simulation을 이용한 연구를 위해서는 난수 발생이 필수입니다. 그 중에서 0과 1사이의 균일 난수가 가장 기본 random numbers는 독립의 성격을 갖는 U(0, 1) random variables EX3 파이 추정 P(U1^2 + U2^2 2021. 10. 2.

빅데이터 분석 ; 신경망 알고리즘 ; 뉴런 데이터 불러오기 data 2021. 7. 22.

빅데이터 분석 ; logistic regression ; 로짓분석 ; 분류분석 ; classification analysis 안녕하세요. 창이에요 ! kaggle data인 social_network_ads 데이터를 가지고 빅데이터 분석을 해보았습니다. logistic regression으로 모형을 적합하고 어떤 방법으로 반복, 시행 했을 때 가장 높은 평균과 표준편차를 갖는지 알아보겠습니다. 데이터 탐색 head(data) social network_ad 데이터 활용 400행에 5개 변수 User.ID(연속) Gender(이산) Age(연속) EstimatedSalary(연속) Purchased(이산형) par(mfrow = c(1, 2))plot 화면에 두개의 그래프가 들어갈 수 있도로 구성 hist(data$Age) ; hist(data$EstimatedSalary) str(data) sum(is.na(data))[1] .. 2021. 7. 21.

빅데이터 분석 ; LDA(선형판별분석) QDA(2차판별분석) data는 kaggle에 있는 고객데이터 사용하였습니다. customer id ; 연속형 (고객아이디) Gender : 이산형(성별) Age : 여기서는 연속형으로 사용 (나이) Annual Income : 연속형(소득) Spending Score ; 연속형 (소비점수) 탐색 data 2021. 7. 20.

이전 1 다음

추천 글

728x90

티스토리툴바