Historical Diary

728x90

통계 이야기21

기초통계 ; 빅데이터 수업 복습하기 학교에서 빅데이터 과정 수업을 들으면서 공부했던 것들입니다. rnorm, dbinom 등 통계에 대한 기본적인 것들을 공부했었는데요 ! 개인적으로 복습하면서 끄적끄적 해봤습니다. R 사용했습니다. 1. 앞면과 뒷면이 나올 확률이 동일한 공정한 동전을 10번 던졌을 때 앞면이 3번 나올 확률은? dbinom(3, size = 10, prob = 0.5) 2. 공정한 동전을 10번 던졌을 때 앞면의 수를 X 라고 하자. X 는 이항분포를 따른다. X 의 확률질량함수를 그래프로 그려라. x 2021. 7. 25.

빅데이터 분석 ;군집 ; Clustering 군집분석이란 ? 군집의 개수, 내용, 구조 등이 완전히 알려지지 않은 상태에서, 변수 사이의 유사성(similarity)이나 비유사성(또는 거리, distance)에 근거하여 군집을 형성 하는 탐색적 자료분석입니다. 마케팅에서 주로 군집분석을 사용하죠 ! 마케팅의 용어 중 "STP" 라고 다들 아시나요 ? STP 중 Segmentation, 고객 분류 시 주로 clustering 사용하곤 해요 ! clustering은 계층적(Hierarchical) clustering과 비계층적(Non-hierarchical) clustering으로 나뉘는데요. 계층적 클러스터는 "Single Linkage" "Complete Linkage" "Average Linkage" "Ward" 다시 이렇게 나뉘어지고 비계층적 .. 2021. 7. 25.

빅데이터 분석 ; 신경망 알고리즘 ; 뉴런 데이터 불러오기 data 2021. 7. 22.

빅데이터 분석 ; LDA ; logistic regression ; dicision tree ; 동시 비교 Select Language English Japanese Korean 안녕하세요. 창이에요 ! kaggle data인 social_network_ads 데이터를 가지고 빅데이터 분석을 해보았습니다. LDA, logistic regression, dicision tree를 각각 만들어보고 어떤 방법으로 반복, 시행 했을 때 가장 높은 평균과 표준편차를 갖는지 알아보겠습니다. LDA 데이터 불러오기 data 2021. 7. 22.

빅데이터 분석 ; logistic regression ; 로짓분석 ; 분류분석 ; classification analysis 안녕하세요. 창이에요 ! kaggle data인 social_network_ads 데이터를 가지고 빅데이터 분석을 해보았습니다. logistic regression으로 모형을 적합하고 어떤 방법으로 반복, 시행 했을 때 가장 높은 평균과 표준편차를 갖는지 알아보겠습니다. 데이터 탐색 head(data) social network_ad 데이터 활용 400행에 5개 변수 User.ID(연속) Gender(이산) Age(연속) EstimatedSalary(연속) Purchased(이산형) par(mfrow = c(1, 2))plot 화면에 두개의 그래프가 들어갈 수 있도로 구성 hist(data$Age) ; hist(data$EstimatedSalary) str(data) sum(is.na(data))[1] .. 2021. 7. 21.

빅데이터 분석 ; LDA(선형판별분석) QDA(2차판별분석) data는 kaggle에 있는 고객데이터 사용하였습니다. customer id ; 연속형 (고객아이디) Gender : 이산형(성별) Age : 여기서는 연속형으로 사용 (나이) Annual Income : 연속형(소득) Spending Score ; 연속형 (소비점수) 탐색 data 2021. 7. 20.

빅데이터 분석 ; 연관성 분석(2) ; kaggle 데이터에 적용 kggle에 있는 공개 데이터에 적용시켜보기 data 2021. 7. 19.

빅데이터 분석 ; 연관성 분석(1) ; kaggle 데이터에 적용 library(arules) library(arulesViz)apriori 알고리즘 패키지 grocery data 패키지 support : 최소 지지도 confidence : 최소신뢰도 minlen : 최소물품수 maxlen : 최대물품수 smax : 최대지지도 ecl 2021. 7. 18.

빅데이터 분석하기 ; 데이터 탐색하기 kaggle에 있는 데이터 "supermarket" 데이터를 이용. 17개의 열과 1000개의 행으로 이루어진 데이터이다. csv 파일을 첫 행이 보일 수 있도록 불러온 후, 먼저 데이터의 구조부터 살펴보았다. table 함수를 통해 질적변수의 개수를 알아보았다. barplot(table(Branch), col = c("red", "blue", "green"), ylim = c(0, 400)) Branch 변수를 간단하게 그림으로 알아보려 했는데, y 축의 길이가 너무 커서 0, 400까지 범위를 줬고 색을 빨-파-초 순서대로 줘봤다. barplot(table(Payment), col = c("red", "blue", "green"), ylim = c(0, 400)) Branch 변수를 간단하게 그림으로.. 2021. 7. 16.

이전 1 2 다음

추천 글

728x90

티스토리툴바