## 4.9　統計検定

### 4.9.1　Z検定

In [1]:
import pandas as pd         # pandasを 'pd' という名で読込み
from scipy import stats     # scipy.stats の読込み
import numpy as np          # numpyを 'np' という名で読込み

In [2]:
# 正規分布（μ=0,σ=1）に沿った乱数生成（10,000個のデータ）
y1 = stats.norm.rvs(loc=0,scale=1,size=10000)
# 対数正規分布（μ=0,σ=1）に沿った乱数生成（10,000個のデータ）
y2 = stats.lognorm.rvs(loc=0,s=1,size=10000)
df = pd.DataFrame(columns=['Norm','LogNorm'])   # DataFrameを用意
df['Norm'] = y1;    df['LogNorm'] = y2          # y1, y2 を DataFrame にセット

In [3]:
sigma = df['Norm'].std()    # 母集団の不偏標準偏差
mu = df['Norm'].mean()      # 母平均
print( 'μ:', mu )
print( 'σ:', sigma )

μ: -0.006048186756400338
σ: 0.9992157423504187


In [4]:
n = 30                  # 標本数
df2 = df.iloc[0:n]      # 標本の抽出
x = df2['Norm'].mean()  # 標本の平均
print( '標本平均:', x )

標本平均: -0.025040665039414326


In [5]:
se = sigma / np.sqrt(n)     # 標準誤差の取得
z = (x - mu) / se           # 検定のための「zスコア」の算出
print('zスコア:',z)

zスコア: -0.10410773507294901


In [6]:
# 信頼度95%(α=0.05)で信頼できる限界値
L = stats.norm.ppf( q=0.025, loc=0, scale=1 );   print('下側の限界値:',L)
U = stats.norm.ppf( q=0.975, loc=0, scale=1 );   print('上側の限界値:',U)

下側の限界値: -1.9599639845400545
上側の限界値: 1.959963984540054


In [7]:
L < z and z < U     # 採択域に入っているか

True

In [8]:
x = df2['LogNorm'].mean()   # 標本の平均（対数正規分布）
z = (x - mu) / se           # 検定のための「zスコア」の算出
print('zスコア:',z)
L < z and z < U             # 採択域に入っているか

zスコア: 12.183627944852056


False