통계 이야기

기초통계 ; 빅데이터 수업 복습하기

창이 2021. 7. 25.
728x90
반응형

학교에서 빅데이터 과정 수업을 들으면서 공부했던 것들입니다. 

rnorm, dbinom 등 통계에 대한 기본적인 것들을 공부했었는데요 ! 

개인적으로 복습하면서 끄적끄적 해봤습니다.

 

R 사용했습니다. 

 

1. 앞면과 뒷면이 나올 확률이 동일한 공정한 동전을 10번 던졌을 때 앞면이 3번 나올 확률은?

dbinom(3, size = 10, prob = 0.5)

2. 공정한 동전을 10번 던졌을 때 앞면의 수를 X 라고 하자. X 는 이항분포를 따른다. X 의 확률질량함수를 그래프로 그려라.

x <- 0:10
p <- dbinom(x, size = 10, prob = 0.5)
plot(x, p, type = 'h')

3. 공정한 동전을 10번 던졌을 때 앞면이 8번 이상 나올 확률은?

sum(dbinom(8:10, size = 10, prob = 0.5)

4. 공정한 동전을 10번 던졌을 때 앞면의 수를 X 라고 하자. X 의 누적분포함수를 그래프로 그려라.

plot( pbinom(0:10, size = 10, prob = 0.5), type = "h")

5. 공정한 동전을 10번 던졌을 때 앞면의 수를 세는 실험을 반복한 결과 X1,⋯,Xn 을 생각해 보자. 이러한 난 수를 n=1000 개 생성하는 실험을 하여라. 결과의 절대돗수와 상대돗수를 계산하고 결과를 그래프로 그려 보아라. 이 그래프에 이론적인 확률의 그래프를 추가하여 비교하여 보아라.

x <- rbinom(10000, size = 10, prob = 0.5) #절대도수
table(x) 
table(x)/sum(table(x)) #상대도수
prob <- prop.table(table(x)) # 절대분포 테이블이 있을 때 상대도수 계산
xs <- as.numeric(names(prop))
plot(xs, prop, type = "h")
points(xs, dbinom(xs, size = 10, prob = 0.5))

6. 어느 콜센터에 10분에 평균 7건의 전화가 온다. 10분 당 걸려오는 전화의 수가 포아송분포를 따른다고 하 자. 10분 동안 10건 이상의 전화가 걸려올 확률은?

dpoiss(x = 10, lambda = 7)

7. 평균 10인 포아송 분포의 확률질량함수 그래프를 그려라.

plot(dpois(0:10, 10))

8. 2017년 기준 서울 20대 초반 남성의 키는 평균 174.4cm이고 표준편차는 5.7cm로 알려져있다. 정규분포 를 따른다고 가정하자. 임의의 한 사람의 키가 170cm 이하일 확률은?

pnorm(170, mean = 174.4, sd = 5.7)

9. 2017년 기준 서울 20대 초반 여성의 키는 평균 161.2cm이고 표준편차는 5.9cm이다. 정규분포를 따른다 고 가정하자. 남성과 여성의 키의 확률밀도함수를 그려서 비교하여라.

curve(dnorm(x, mean = 161.2, sd = 5.9), xlim = c(130, 210))
curve(dnorm(x, mean = 174.4, sd = 5.7), add= T)

10. Cushny와 Peebles는 1904년 hyoscyamine hydrobromide의 광학 이성질체의 수면 효과의 차이를 10명의 환자들 대상으로 실험 결과를 Journal of Physiology에 발표하였다. L-이성질체가 D-이성질체의 수면 효 과의 차이를 관찰하였다. 차이가 정규분포를 따른다고 가정하자. 10명 대상 실험 결과 표본평균 1.58시 간, 표본표준편차 1.23시간이었다. 수면 효과의 차이의 95% 신뢰구간을 구하여라

m = 1.58
sd = 1.23
a <- rnorm(10, 1.58, 1.23^2) 
t.test(a)$conf.int

11.실제 데이터는 다음과 같다. 차이 L−D 의 95% 신뢰구간을 구하여라. 차이가 없다는 귀무가설을 검정하여라.

sleep <- read.table(header = TRUE, textConnection("
patient D L
1 0.7 1.9
2 -1.6 0.8
3 -0.2 1.1
4 -1.2 0.1
5 -0.1 -0.1
6 3.4 4.4
7 3.7 5.5
8 0.8 1.6
9 0 4.6
10 2.0 3.4
"))
t.test(sleep$L-sleep$D)$conf.int

12. 멘델의 유전 법칙의 예상에 따르면 어떤 콩의 2세대의 주름 여부와 색깔에 따른 비율이 9 : 3 : 3 : 1이라고 한다. 다음은 100개의 표본을 관찰한 결과이다. 적합도 검정을 하여라.

N <- matrix(c(9, 51, 3, 18, 3, 21, 1, 10), nrow = 2,
dimnames = list(
"유형" = c("이론", "관측"),
"비율" = c("주름없는 노랑", "주름없는 초록",
"주름있는 노랑", "주름있는 초록")))
col <- colSums(N)
row <- rowSums(N)
E = row %o% col / sum(N) ; E
chi <- (E-N)^2/E ; chi
sumchi <- sum(chi) ; sumchi
pval <- 1-pchisq(sumchi, df= 3) ; pval

 

728x90
반응형

댓글

추천 글