통계 이야기

빅데이터 분석하기 ; 데이터 탐색하기

창이 2021. 7. 16.
728x90
반응형

kaggle에 있는 데이터 "supermarket" 데이터를 이용.

17개의 열과 1000개의 행으로 이루어진 데이터이다.

csv 파일을 첫 행이 보일 수 있도록 불러온 후, 먼저 데이터의 구조부터 살펴보았다.

table 함수를 통해 질적변수의 개수를 알아보았다.

barplot(table(Branch), col = c("red", "blue", "green"), ylim = c(0, 400))

Branch 변수를 간단하게 그림으로 알아보려 했는데, y 축의 길이가 너무 커서 0, 400까지 범위를 줬고 색을 빨-파-초 순서대로 줘봤다.

barplot(table(Payment), col = c("red", "blue", "green"), ylim = c(0, 400))

Branch 변수를 간단하게 그림으로 알아보려 했는데, y 축의 길이가 너무 커서 0, 400까지 범위를 줬고 색을 빨-파-초 순서대로 줘봤다.

또한 연속형 변수인 Total 변수를 알아보기 위해

summary(Total)을 활용하여

summary(Total)

Min. 1st Qu. Median Mean 3rd Qu. Max.

10.68 124.42 253.85 322.97 471.35 1042.65

최소와 최대, 1사분위, 3사분위수, 평균 등을 알아보았다. 이를 plot을 통해 그림을 그렸고 col = “Branch”를 통해 어떤 브랜드에서 많은 돈을 쓰는지 개략적으로 알아볼 수 있었다.

mosaicplot(~ Branch + Gender , data = sales, main = "sales data", col = hcl(c(240, 1)), off =2)
mosaicplot(~ Gender + City , data = sales, main = "sales data", col = hcl(c(240, 1)), off =2)

모자이크플랏을 통해 변수들간의 관계를 그래프로 나타내어보았다.

728x90
반응형

댓글

추천 글