- 講師:本多 淳也
- 参考書:エージェントアプローチ人工知能 第2版
- 参考書:イラストで学ぶ 人工知能概論
In [1]:
import numpy as np
import matplotlib.pyplot as plt
講義概要
確率変数と確率分布
用語 | 意味 |
---|---|
確率(probability) | 事象の起こりやすさを定量的に示す $0$ から $1$ の値 |
確率変数(random variable) | その変数に関する任意の事象に対して確率が定義されている変数 |
確率分布(probability distribution) | 確率変数に関する各事象に対してその確率を与える関数 |
離散型(discrete type)確率変数 | ある可算集合 $\mathcal{X}$ の中のいずれかの値をとる確率変数 |
確率質量関数(probability mass function) $f(x)$ | $$f(x)\geq0,\quad \sum_{x\in\mathcal{X}}f(x) = 1$$ |
連続型(continuous type)確率変数 | 連続値をとる確率変数 |
確率密度関数(probability density function) $f(x)$ | $$f(x)\geq0,\quad\int_{-\infty}^{\infty}f(x)dx=1$$ |
累積分布関数(cumulative distribution function) $F(x)$ | $$F(x) = P(X\leq x)=\int_{-\infty}^{x}f(u)du\ \text{ or } \sum_{i:i\leq x}f(i)$$ |
確率分布の性質を表す指標
用語 | 数式 | 説明 |
---|---|---|
期待値(expectation) | $$E(X) = \sum_xxf(x)\ \text{ or }\int xf(x)dx$$ | 確率変数の値の平均(正確には確率による重み付きの平均) 確率変数を代表する値を表す指標 ※外れ値(outlier)に敏感 |
中央値(median) | $P(X\leq x)=1/2$ を満たす $x$ | データを大きい順(または小さい順)に並べたときの真ん中の値。 |
最頻値(mode) | $f(x)$ を最大にする $x$ | データの中で最も頻度が高い値 |
分散(variance) | $$\begin{aligned}V(X) &= E\left\{(X-E[X])^2\right\}\\&=E\left\{X^2-2E[X]X+(E[X])^2\right\}\\&=E[X^2]-E\left[2E[X]X\right]+(E[X])^2\\&=E[X^2]-2E[X]E[X]+(E[X])^2\\&=E[X^2]-(E[X])^2\end{aligned}$$ | 確率変数の散らばり具合を表す指標 |
標準偏差(standard devariation) | $\sqrt{V(X)}$ | 分散の平方根 |
標準化(standardization) | $$Z=\frac{X-E(X)}{\sqrt{V(X)}}$$ | 任意の確率変数 $X$ に対して、期待値 $0$、分散 $1$ の確率変数 $Z$ が定義できる。 |
歪度(skewness) | $$\alpha_3 = \frac{E\left\{\left[X - E(X)\right]^3\right\}}{\left\{V(X)\right\}^{3/2}}$$ | 確率変数の非対称性を表す。 |
劣度(kurtosis) | $$\beta_4 = \frac{E\left\{\left[X - E(X)\right]^4\right\}}{\left\{V(X)\right\}^{2}}-3$$ | 確率分布の尖り具合を表す。 |
積率(moment) | $$\mu_r = E\left[X^r\right]$$ | 期待値・分散・歪度・劣度などを表すパラメータ。全ての次数の積率を指定すれば、確率分布を一位に決定することができる。(左は $r$ 次の積率) |
積率母関数(moment generating function) | $$M_X(t) = E[e^{tX}]=\begin{cases}\sum_xe^{tx}f(x)\\\int e^{tx}f(x)dx\end{cases}\\ M_X^{(r)}(0)=\mu_r$$ | 全ての次数の積率を生成する関数。存在しない(無限大に発散する)こともある。 |
In [2]:
def computation_variance(n=10000, mu=0, sigma=1, seed=None):
X = np.random.RandomState(seed).normal(loc=mu,scale=sigma,size=n)
EX = sum(X)/n
EX2 = sum(X**2)/n
# Calculate variance in 3 ways.
var1 = np.var(X)
var2 = sum((X-EX)**2)/n
var3 = EX2 - EX**2
print("`np.var(X)` =", var1)
print("E{(X - E[X])^2} =", var2)
print("E[X^2] - (E[X])^2 =", var3)
In [3]:
computation_variance(mu=100, seed=0)
In [4]:
computation_variance(mu=1e8, seed=1)
※ 「二乗の平均 - 平均の二乗」は丸め誤差の影響を受けやすい
歪度(skewness)
確率変数の非対称性を表す。
$$\alpha_3 = \frac{E\left\{\left[X - E(X)\right]^3\right\}}{\left\{V(X)\right\}^{3/2}}$$
In [5]:
def plot_skewness(ax=None, seed=None, n=100):
if ax==None: fig, ax=plt.subplots()
X = np.random.RandomState(seed).randint(low=1,high=7,size=n)
ax.hist(X, density=True, bins=6, color="blue", align='left')
EX = np.mean(X)
VX = np.var(X)
skewness = np.mean((X-EX)**3)/VX**(3/2)
ax.set_title(f"skewness = {skewness:.3f}")
return ax
In [6]:
fig = plt.figure(figsize=(12,3))
for i,seed in enumerate([44756,96331,76432]):
ax = fig.add_subplot(1,3,i+1)
ax = plot_skewness(ax=ax, seed=seed)
plt.show()
劣度(kurtosis)
確率分布の尖り具合を表す。
$$\beta_4 = \frac{E\left\{\left[X - E(X)\right]^4\right\}}{\left\{V(X)\right\}^{2}}-3$$
In [7]:
X = np.linspace(-5,5,10000)
In [8]:
f1 = lambda x:1/1250*(5-abs(x))**4
f2 = lambda x,mu=0,sigma=1:1/np.sqrt(2*np.pi*sigma**2) * np.exp(- (x-mu)**2/2*sigma**2 )
f3 = lambda x:1/4 if abs(x)<=2 else 0
In [9]:
def plot_kurtosis(X, func, ax=None):
if ax==None: fig, ax=plt.subplots()
Y = np.array([func(x) for x in X])
ax.plot(X, Y, color="red")
Y /= sum(Y)
EX = np.sum(Y*X)
VX = np.sum(Y*(X-EX)**2)
kurtosis = np.sum(Y*(X-EX)**4) / VX**2 - 3
ax.set_title(f"kurtosis = {kurtosis:.3f}")
return ax
In [10]:
fig = plt.figure(figsize=(12,3))
for i,func in enumerate([f1,f2,f3]):
ax = fig.add_subplot(1,3,i+1)
ax = plot_kurtosis(X=X, func=func, ax=ax)
ax.set_xlim(-5,5); ax.set_ylim(0,1)
plt.show()
同時確率
用語 | 数式 | 説明 |
---|---|---|
同時確率(joint probability) | 複数の確率変数が関わる確率 | |
同時確率質量関数 | $$P(X=x,Y=y) = f(x,y)\\f(x,y)\geq0,\quad\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}f(x,y)=1$$ | 離散型の同時確率 |
同時確率密度関数 | $$P(a\leq X\leq b,c\leq Y\leq d) = \int_c^d\int_a^bf(x,y)dxdy\\f(x,y)\geq0,\quad\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}f(x,y)dxdy=1$$ | 連続型の同時確率 |
共分散¶
- $X$ と $X^{\prime}$ の共分散(covariance):
$$\mathrm{Cov}(X,X^{\prime}) = E\left[(X-E[X])(X^{\prime}-E[X^{\prime}])\right]$$
- $\mathrm{Cov}(X,X^{\prime})>0$ の時:$X$ と $X^{\prime}$ の増減は同傾向
- $\mathrm{Cov}(X,X^{\prime})<0$ の時:$X$ と $X^{\prime}$ の増減は逆傾向
- $\mathrm{Cov}(X,X^{\prime})=0$ の時:$X$ と $X^{\prime}$ の増減は無関係
- 共分散は、以下の形でも表されるので、A社の株価を $X$、B社の株価を $X^{\prime}$ とすると、以下の解釈も可能
$$V(X+X^{\prime}) = V(X) + V(X^{\prime}) + 2\mathrm{Cov}(X,X^{\prime})$$
- $\mathrm{Cov}(X,X^{\prime})>0\Longleftrightarrow V(X+X^{\prime})>V(X)+V(X^{\prime})$ なので、A,B両者の株を買うと分散が拡大する → 変動リスクが増大し、資産価値は不安定
- $0>\mathrm{Cov}(X,X^{\prime})\Longleftrightarrow V(X)+V(X^{\prime})>V(X+X^{\prime})$ なので、A,B両者の株を買うと分散が縮小する → 変動リスクが抑制され、資産価値は安定
独立性¶
- 全ての $(x,y)$ で $p_{X,Y}(x,y) = p_X(x)p_Y(y)$ の時、$X$ と $Y$ は互いに独立(independent)
- 2つの確率変数が独立の時、
- 積の期待値は各々の期待値の積と一致 $$E[XY] = E[X]E[Y]$$
- 和の積率母関数は各々の積率母関数の積と一致 $$M_{X+Y}(t) = M_X(t)M_Y(t)$$
- 2つの確率変数は無相関 $$\mathrm{Cov}(X,Y) = 0$$
- 2つの確率変数が独立ならば無相関であるが、逆は一般には正しくない。
条件付き確率
- ベイズの定理(Bayes’ theorem) $$P(X|Y) = \frac{P(Y|X)P(X)}{P(Y)}$$
In [ ]: