機械学習

第7回: 法則性の発見: 最小二乗法と回帰

千葉工業大学 上田 隆一


This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

機械学習(と統計)第7回

今日やること

  • データの法則性
  • 最小二乗法
  • 回帰
機械学習(と統計)第7回

データの法則性

  • 右図: 第4回でとりあげたデータ
  • 今回、次回は別の問題を考える
    • 横軸の値()に対して、縦軸の値の傾向を求める(回帰)
      • 横軸の値に対して縦軸の値はどういう傾向にあるか
機械学習(と統計)第7回

回帰が適切な例

  • の関係があると分かっている場合は分布の当てはめより適切
    • 時系列データなど(例: 株価、人口の推移)
      • 時間を分布で扱う必要はない
    • 実験データをナントカ方程式に当てはめてみる
機械学習(と統計)第7回

最小二乗法による一次方程式のあてはめ

  • に対し、直線が真ん中を通るを求める
    • が傾き、が切片
    • おそらくどこかで勉強した、一番基本的な回帰

どうやって「真ん中」を決めるか?
機械学習(と統計)第7回

どうやって「真ん中」を決めるか

  • 線とそれぞれの点の軸方向の距離を損失と考えて、距離の2乗を足して最小化
    • 損失関数


      の値を最小化
    • なんで2乗?: 必然性はないが分散を最小にしたいと解釈すれば自然
機械学習(と統計)第7回

損失関数を最小化するパラメータの導出

  • 損失関数をパラメータで偏微分して、になるパラメータを求める
      • をどうずらしてもそれ以上の値が変わらない
        ほかにそういう点がなければそのときの値がの最小値
  • 前ページの式を解いてみましょう
      • それぞれで微分したもので連立方程式をたてる
機械学習(と統計)第7回

答え

としています


  • は平均値)
機械学習(と統計)第7回

計算してみましょう

  • に対して最小二乗法を適用
  • 式(さっき求めたもの):
機械学習(と統計)第7回

答え

  • に対して最小二乗法を適用
    • 各種平均値を計算

機械学習(と統計)第7回

損失関数の重要性

  • ベイズの定理とともに機械学習に重要
  • 「損失関数の最小化」は機械学習のほぼすべての手法で共通の考え方
    • 「最大化」の場合は符号を変えると最小化になる
    • 機械学習の一番単純な説明(1、2の繰り返し)
      • 1: なにか入力して出力を観測
      • 2: 損失関数の値が小さくなるようにパラメータを変更
    • 最小二乗法: 偏微分で最適なパラメータが分かるので学習が不要なだけ
      • 偏微分で作った連立方程式が解ければ任意の式に適用可能
      • 大規模あるいは非線形な問題では適用できない
        様々な手法を使用
機械学習(と統計)第7回

微分方程式で解けない場合の最適化

  • 個のパラメータで構成される損失関数の最適化を考えてみましょう
      • どうやってをいじっての値を減らすか
  • ためしにだけずらしてみる
      • 後者の値が小さくなったらに変更すると
        「よりよく」なる
    • 問題: いろいろを試すとよいんだけどパラメータが多いと組み合わせが多くて大変
      計算で一番よいを求められないだろうか?
機械学習(と統計)第7回

ふたたび偏微分


  • は、それぞれを少しずらしたときのの変化量
  • 変化量の計算
  • わかること
    • という制限がある場合、最も減るのは
      のとき
      • 内積が最小になる
    • 上記の赤字の式にしたがってパラメータを更新すればよい
機械学習(と統計)第7回

まとめ

  • 最小二乗法を題材にして回帰を勉強
  • 損失関数を偏微分して連立方程式を解ければ、任意の式に最小二乗法(と、その他さまざまな最適化手法)を適用可能
  • 連立方程式が解けない場合は偏微分した値にしたがって少しずつパラメータを変更していけば良いパラメータが見つかる
    • 具体例は人工ニューラルネットワークのところで
  • しかし、なにか足りないんじゃないでしょうか?
    • 前回(ベイズの定理)の話を踏まえるとなにか抜けてないか?
機械学習(と統計)第7回

残った問題

  • 1つの答えしか出さない
    • 「自信のなさ」が表現できない
    • データ4つで右上図のように当てはめしてよい?
    • の大小で当てはまりの良さは比較できるが、どれだけ自信がないかは分からない
  • パラメータの数が多いと「過学習」
    • データを曲線でつないだグラフができる
      正しいこともあるが、単にデータが少ないだけかもしれない
    • 人間でもよくある
機械学習(と統計)第7回