통계적 사고 (2판) 연습문제 (thinkstats2.com, think-stat.xwmooc.org)
Allen Downey / 이광춘(xwMOOC)
from __future__ import print_function
import thinkstats2
import thinkplot
import math
import random
import numpy as np
from scipy import stats
from estimation import RMSE, MeanError
이번 장에서, μ를 추정하는데 xbar 와 중위수를 사용했고, xbar가 MSE 하한을 산출함을 알아냈다. 또한, σ를 추정하는데 S2 와 S2n−1 을 사용했고, S2 은 편향되었고, S2n−1은 불편향임을 알아냈다. 유사한 실험을 실행해서, xbar와 중위수가 μ의 편향된 추정값임을 알아내라. 또한, S2 혹은 S2n−1 가 MSE 하한을 산출하는지 검사하라.
모수 λ=2를 갖는 지수분포에서 표본 n=10개를 추출한다고 가정하자. 실험을 1000번 모의시험하고 추정값 lamhat의 표본 분포를 도식화한다. 추정값의 표준오차와 90% 신뢰구간을 계산하라.
다른 n 값을 갖는 실험을 반복하고, n 값과 표준오차를 도식화한다.
하키와 축구같은 스포츠 게임에서 득점 사이 시간은 대체로 지수를 따른다. 그래서 게임에서 한 팀이 득점한 골을 관측함으로써 득점을 추정할 수 있다. 이 추정 과정은 득점 사이 시간을 표집하는 것과 약간 다르다. 그래서 작동방법을 살펴보다.
게임당 골로 득점률 lam을 인자로 받고, 전체 시간이 1 게임 경과할 때까지 득점사이 시간을 생성함으로서 게임을 모의시험하고 나서, 득점한 점수를 반환하는 함수를 작성하라.
많은 게임을 모의시험하고, lam 추정값을 저장하고 나서 평균 오차와 RMSE를 계산하는 또다른 함수를 작성하라.
추정값을 이와 같은 방식으로 만드는 것이 편향됐을까? 추정값에 대한 표본분포와 90% 신뢰구간을 도식화하시오. 표준오차는 얼마인가? lam 값을 크게하면, 표집오차에 무슨일이 생길까?