In [27]:
# 패키지 로딩하기 : 패키지를 메모리(RAM)에 올리는 기능
import pandas      as pd
import scipy.stats as stats
import numpy       as np

In [2]:
# 데이터 읽어오기
income = pd.read_excel(io         = "./income.xlsx",
                       sheet_name = 0,
                       header     = 0)

income

Unnamed: 0,id,money
0,1,20
1,2,100
2,3,70
3,4,30
4,5,40
5,6,55
6,7,60


In [21]:
# 데이터 저장하기 : excel
income.to_excel(excel_writer = "./income_2024_0221_1702.xlsx")

In [22]:
# 데이터 저장하기 : pickle
income.to_pickle(path = "./income_2024_0221_1704.pickle")

In [23]:
# 데이터 읽어오기 : pickle
income2 = pd.read_pickle(filepath_or_buffer = "./income_2024_0221_1704.pickle")
income2

Unnamed: 0,id,money
0,1,20
1,2,100
2,3,70
3,4,30
4,5,40
5,6,55
6,7,60


### 1. 일표본 검정(One samplet test)
- 일표본 t검정(One sample t-test)
- 윌콕슨의 부호 순위 검정(Wilcoxon's signed rank test)

In [6]:
# 귀무가설 : 성인들의 용돈의 평균은 50만원이다.
# 대립가설 : 성인들의 용돈의 평균은 50만원보다 많다.

In [4]:
# 1단계 : 정규성 검정(Normality Test)
# 귀무가설(Null Hypothesis)        : 정규분포를 따른다.
# 대립가설(Alternative Hypothesis) : 정규분포를 따르지 않는다.

# n < 5000  : Shapiro-Wilk Normality Test     : scipy.stats.shapiro(data.variable)
# n >= 5000 : Anderson-Darling Normality Test : scipy.stats.anderson(data.variable)

# n = 7 < 5000 : Shapiro-Wilk Normality Test

In [5]:
stats.shapiro(income.money)

ShapiroResult(statistic=0.9682345063181119, pvalue=0.8854483279544569)

In [7]:
# 유의수준(alpha)     : 0.05
# statistic = 0.968  : 검정통계량(W)
# p-value    = 0.885 : 유의확률

# p-value(0.885) > alpha(0.05) : 귀무가설 : 정규분포를 따른다.

In [8]:
# 2단계 : 일표본 t검정(One sample t-test)
# stats.ttest_1samp(data.variable, popmean = , alternative = )

stats.ttest_1samp(income.money,
                  popmean     = 50,
                  alternative = "greater")

TtestResult(statistic=0.35150886809475873, pvalue=0.3686107540123118, df=6)

In [9]:
# statistic = 0.352 : 검정통계량(t)
# p-value   = 0.369 : 유의확률
# df        = 6     : 자유도(degree of freedom) = n-1 = 7-1

# p-value(0.369) > alpha(0.05) : 귀무가설
# 성인들의 용돈의 평균은 50만원이다.
# 유의확률이 0.369이므로 유의수준 0.05에서
# 성인들의 용돈에 통계적으로 유의한 변화는 없는 것으로 나타났다.

# 참고
# popmean     : 귀무가설의 모집단의 평균
# alternative : 대립가설 : "greater", "less", "two-sided"

In [24]:
# 참고
income.money.mean()

53.57142857142857

In [25]:
# 귀무가설에서 모집단의 평균 : 50만원
# 표본에서 관찰된 표본 평균  : 53만 6천원
# 약 3만 6천원 정도가 증가되었음. 이것이 우연에 의한 것인지 아니면 필연에 의한 것인지

In [26]:
# (표본)표준편차 = S
income.money.std()

26.881574500371954

In [28]:
# t = (X bar - mu) / (S / root(n))
(53.57142857142857 - 50) / (26.881574500371954/np.sqrt(7))

0.35150886809475873

In [13]:
# 귀무가설 : 다이아몬드의 가격의 평균은 4000달러이다.
# 대립가설 : 다이아몬드의 가격의 평균은 4000달러보다 적다.

In [11]:
diamonds = pd.read_excel(io         = "./diamonds.xlsx",
                         sheet_name = "data",
                         header     = 0)
diamonds.head()

Unnamed: 0,id,carat,cut,color,clarity,depth,table,price,x,y,z
0,1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,3,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,4,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,5,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75


In [14]:
# 1단계 : 정규성 검정(Normality Test)
# 귀무가설 : 정규분포를 따른다.
# 대립가설 : 정규분포를 따르지 않는다.

In [15]:
diamonds.shape

(53940, 11)

In [16]:
# 53940 : 행의 개수 : n = 53,940 > 5000 : Anderson-Darling Normality Test
# 11    : 열의 개수

In [17]:
stats.anderson(diamonds.price)

AndersonResult(statistic=3474.0163510249404, critical_values=array([0.576, 0.656, 0.787, 0.918, 1.092]), significance_level=array([15. , 10. ,  5. ,  2.5,  1. ]), fit_result=  params: FitParams(loc=3932.799721913237, scale=3989.439738146379)
 success: True
 message: '`anderson` successfully fit the distribution to the data.')

In [18]:
# statistic = 3474.016 : 검정통계량(A)
# critical_values      : 임계값(0.787)
# significance_level   : 유의수준(0.05, 5%)

# 검정통계량(3,474.016) > 임계값(0.787) : 대립가설 : 정규분포를 따르지 않는다.
# 검정통계량 < 임계값                   : 귀무가설

In [19]:
# 2단계 : 윌콕슨의 부호 순위 검정(Wilcoxon's signed rank test)
# stats.wilcoxon(data.variable - mu, alternative = "less")

stats.wilcoxon(diamonds.price - 4000,
               alternative = "less")

WilcoxonResult(statistic=564679024.5, pvalue=0.0)

In [20]:
# statistic = 564679024.5 : 검정통계량(W+)
# p-value   = 0.000       : 유의확률

# p-value(0.000) < alpha(0.05) : 대립가설 : 다이아몬드 가격의 평균은 4000달러보다 적다.
# 유의확률이 0.000 이므로 유의수준 0.05에서
# 다이아몬드의 가격은 통계적으로 유의하게 적어진 것으로 나타났다.

In [29]:
# 참고
diamonds.price.describe()

count    53940.000000
mean      3932.799722
std       3989.439738
min        326.000000
25%        950.000000
50%       2401.000000
75%       5324.250000
max      18823.000000
Name: price, dtype: float64