前半:相澤先生
(問1)
- 顔が蛍光灯の下で撮影したら青白く写ったのはなぜか。
- 虫眼鏡をつかって、開口径、焦点距離 = \(A(5,2)\ B(6,3)\ C(7,4)\) のうち、一番早く焦げるのはどれか。
- 服が地下街で見たときお気に入りの服だったが、日中着てみたらお気に入りの色とちょっと違った。なぜか?
(解答)
- カメラのホワイトバランス機能を用いずに蛍光灯の下で撮影したためと考えられる。昼間の太陽光の色温度は5500K程度であるが、この値より低くなるほど光源の赤みは増し、高くなるほど青みが増す。色温度が高いこの光源が顔に反射したのを撮影したことが、顔が青くなった理由である。
- 焦光性能が高いレンズの方がより焦げやすいと考えられるので、\(F\)値の小さいレンズの方が良い。\(F\)値は\(F\)=(焦点距離)/(レンズの直径)で与えられ、レンズの\(F\)値はそれぞれ\(A(0.4)\ B(0.5)\ (0.57)\) となるので、最も早く焦げるのは、\(A\)
- 1と同じ。証明の色温度が異なると同じ白色でも赤みがかかったり青みがかかってしまうから。
(問2)
以下の目的のとき、それぞれどのようなフィルタを用いるのが適切か。
- 大振幅のスパイクノイズを除去したい。
- エッジを維持しつつ、小振幅のガウシアンノイズを除去したい。
(解答)
- ¬メディアンフィルタ¬ メディアンフィルタは、注目画素を中心とした領域で、輝度値の中央値をフィルタの出力とするもので、中央値を用いることで 外れ値に相当するスパイクノイズ を取り除ける。平坦化フィルタでは綺麗に取り除けない上にエッジがぼやけてしまうが、メディアンフィルタではエッジがあまり影響を受けずにスパイクノイズを除くことができる。
- ¬バイラテラルフィルタ¬ バイラテラルフィルタは、注目画素からの距離による重みと注目画素との画素値の差分に応じて、ガウス分布に従う重みを付けた平坦化フィルタである。画素値が離れるほど重みが小さくなるため、エッジ周辺で画素値が混ざり合わず、エッジを保存できる。
(問3)
- 1M枚の画像から完全に一致する画像を見つけるにはどうすればいいか。
- 1M枚の画像から、輝度値が異なる似た画像を取り出したい。どのようにすればいい か。なぜその手法だと使えるのか。
(解答)
- ¬粗密探索(coarse-to-fine search)法¬に従い、解像度を下げた画像を次々に作成し、解像度の低い画像で一致したものだけをより高い解像度の画像で判定することを繰り返す。 なお、この時、「完全に一致する画像」 を見つけたいのであれば、平均化して解像度を落とすのではなく、数点サンプリングして解像度の低い画像を作成した方が効率が良いと考えられる。
- ¬BoVM(Bag-of Visual Words)¬という画像特徴表現と最近傍探索によって実現が可能である。BoVF表現とは、SIFTなどの特徴ベクトルをk-means法などによりクラスタリングし、 \(k\)クラスに分割する。その後、\(k\)クラスの出現頻度を元にkd-tree法により探索木を構築する。 探索木を用いれば、近接した数データのみを考えれば良いため、非常に効率が良い。
後半:山崎先生
(問5)
- PCAを説明せよ。
- 8点アルゴリズムを説明せよ。
(解答)
- PCA(主成分分析)は多次元の特徴空間に分散する多数の学習用入力画像から、分布をよく説明する低次元の特徴空間(部分空間)を求め、特徴選択を行う手法。誤差最小化、分散最大化の二通りの定式化方法があるが、分散共分散行列の固有値の大きな方から対応するベクトルを第1成分、第2成分、…と決めれば良い。
- 視点が異なる2枚の画像があるとした時、3次元中の点Pがそれぞれの画像でそれぞれ点 \((u,v),(u^{\prime},v^{\prime})\) に見えているとする。この時、
$$ \left(\begin{array}{lll}{u^{\prime}} & {v^{\prime}} & {1}\end{array}\right)\underbrace{\left(\begin{array}{lll}{f_{11}} & {f_{12}} & {f_{13}} \\ {f_{21}} & {f_{22}} & {f_{23}} \\ {f_{31}} & {f_{32}} & {f_{33}}\end{array}\right)}_{F}\left(\begin{array}{l}{u} \\ {v} \\ {1}\end{array}\right)=0 $$を満たす行列 \(F\) が存在する。 Fが得られると、2つのカメラの位置関係(回転行列 \(\mathbf{R}\) と平行移動ベクトル \(\mathbf{t}\))が得られるため、他方のカメラの点がもう一方のカメラでどこに見えるのかわかり、三次元幾何が計算できる。 Fは \(3\times3\) の行列だが、行列Fには定数倍の不定性があるため、未知数の数は8個である。1組の画像座標から1つの線型方程式が得られるため、最低8点の対応点が見つかればFを計算することができ、3次元幾何が得られる。こうして8組の点から3次元幾何を計算する手法を8点アルゴリズムという。
(問6)
アンサンブル学習の3つの手法について特徴と違いを説明せよ。
(解答)
アンサンブル学習には、@バギング@、@ランダムフォレスト@、@ブースティング@がある。
- @バギング@: トレーニングデータを(重複を許して)ランダムに分割して、それぞれ学習器 \(f^b(\mathbf{x})(b=1,2,\ldots,B)\)を作り、全体の結果は回帰ならば平均 \(f(\mathbf{x}) = \frac{1}{B}\sum_{b}f^b(\mathbf{x})\)m分類ならば多数決とする。複数の学習器を用いることで過学習を防ぐことができる。
- @ランダムフォレスト@: 基本的にはバギングと手順は同じであるが、学習器がそれぞれ学習に用いる特徴量もランダムに選択する。これにより、各学習器の性能が全く異なることが、バギングとの違いである。
- @ブースティング@: 各学習器の学習時に、その学習器がどのようなときに誤るかをそれぞれの学習器の性能を見て重み付けし、各学習器の重み付けを考慮して平均や多数決を取る。他の2 つと異なり学習を並列に行うことができない。ビッグデータではしばしばランダムフォレストに劣る。
(問7)
パーセプトロンの学習が収束するまで表を埋めよ。
- 初期重み \((w_2, w_1,w_0) =\)(学生証番号下2桁、下1桁、1)
- 学習率 \(\eta=1\)
- 学習データ
- \((x,y) = (0, 1) (1, 2 )\) のとき、正解ラベルは \(1\)
- \((x,y) = (2,1)\) のとき 正解ラベルは \(0\)
- 入力値は \(x_0 = 1, x_1 = y, x_2 = x\)
- 出力は
$$\begin{cases} 1 & \text{if $w_2x_2 + w_1x_1 + w_0x_0 \geq 0$}\\ 0 & \text{otherwise.} \end{cases}$$
(解答)
初期重み \((w_2, w_1,w_0) = (0,3,1)\) とする。
Step | \(x_0\) | \(x_1\) | \(x_2\) | 真理値 | \(w_0\) | \(w_1\) | \(w_2\) | 出力値真理値-出力値 | \(\Delta w_0\) | \(\Delta w_1\) | $\Delta w_2 |
---|---|---|---|---|---|---|---|---|---|---|---|
1 | 1 | 1 | 0 | 1 | 1 | 3 | 0 | 1 | 0 | 0 | 0 |
2 | 1 | 2 | 1 | 1 | 1 | 3 | 0 | 1 | 0 | 0 | 0 |
3 | 1 | 1 | 2 | 0 | 1 | 3 | 0 | 1 | -1 | -1 | -1 |
4 | 1 | 1 | 0 | 1 | 0 | 2 | -2 | 1 | 0 | 0 | 0 |
5 | 1 | 2 | 1 | 1 | 0 | 2 | -2 | 1 | 0 | 0 | 0 |
6 | 1 | 1 | 2 | 0 | 0 | 2 | -2 | 0 | 0 | 0 | 0 |