機械学習

第1回: ガイダンス・イントロダクション

千葉工業大学 上田 隆一


This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

機械学習(と統計)第1回

今日やること

  • 機械学習とはなに?
  • 機械学習と統計と動物
機械学習(と統計)第1回

機械学習とはなに?

  • 英語にするとmachine learning
    • 同名の教科書[Mitchell 1997]: https://www.cs.cmu.edu/~tom/mlbook.html によると
      Definition: A computer program is said to learn from
      experience E with respect to some class of tasks T
      and performance measure P, if its performance at tasks in
      T, as measured by P, improves with experience E.
      
わからんので別の視点で考えてみましょう
機械学習(と統計)第1回

知能と機械学習

  • 右の図は何に見えますか
  • なんで◯◯に見えるんでしょう?
    (話し合ってみましょう)
機械学習(と統計)第1回

人間の眼の仕組み

  • こんな構造
    https://commons.wikimedia.org/wiki/File:Retina-diagram.svg, by S. R. Y. Cajal and Chrkl, CC-BY-SA 3.0)
    • 左から光が入って右側の視細胞(2種類、1.3億個)で受け止め電気信号に
    • 電気信号は右に向かって処理されて図の下向きの赤い線から脳へ
      • 網膜の各部分の赤い線が「視神経(100万個)」の束になって脳に
  • こんな構造なので
    • 何か見ると1.3億のバラバラな信号として入る
      • 白黒の絵の場合は1.3億のスイッチのON/OFFの信号に単純化できる
なんでバラバラなのに形がわかるの?
機械学習(と統計)第1回

さらなる疑問1(形や大きさに関して)

  • 別の場所に見えても形がわかる
  • 回転していても形が分かる
  • 大きさが違っても形が分かる

  • 何匹いるかも分かる
スイッチのON/OFFで考えると全然違う信号なのになんで?
機械学習(と統計)第1回

さらなる疑問2(ものの識別や名前に関して)

  • そもそも点々を実物の◯◯とみなすのはなぜ?
    • p.4の議論では、(私みたいによほどひねくれてない限り)誰もなにも疑問に思ってなかったはず
  • ネズミは絵に描いた猫を嫌がるだろうか?
    • 絵や鏡に写ったものは実物ではない
機械学習(と統計)第1回

いまの話のまとめ

  • 脳は刺激をたくさんのスイッチで受け取ってるらしい
    • 目のほか、耳や鼻や舌なども
    • おもいのほかデジタル
  • 脳はデジタル信号になんらかの解釈を加えているらしい
    • バラバラな刺激の信号から法則性を見つける
    • 法則性のあるものを識別する
      • 解釈ができるから、食べる、逃げる、他の人と話すなど
        自分に利益のある行動ができる
どうやってこのような「知能」を獲得したんだろう?(→研究者の興味
機械学習(と統計)第1回

知能に対して過去の研究者が考えたこと

  • 「正しい情報をコンピュータに与えると正しい答えを出すはず」
    →たくさんの正しい情報から理屈をこね回して答えを出すプログラムを
    作れば人工知能ができる
  • 「ロボットに正しい情報をコンピュータに与えると正しい行動をするはず」

いかにも頭よさそうだけどほんまか?
機械学習(と統計)第1回

正しい行動ってなに?

  • 質問: なぜ事故が起きるかもしれない乗り物に乗るのか?
    • 飛行機、自動車、ジェットコースター
  • 真面目な答え
    • 生活のため(じゃあジェットコースターは?)
    • ◯◯だから安全
    • ◯◯だから私は乗らない
  • 不真面目な答え
    • みんな乗ってるから
    • しらねー(はやくこのくだらない講義から開放してほしい)
    • うるせー(この講義終わったらどこに行こう?)
機械学習(と統計)第1回

もう1つの質問

  • 猫ってなんで猫ってみんな呼んでるの?そもそも猫ってなに?
  • 真面目な答え
    • 猫という言葉は眠った子という言葉が・・・
    • 猫はネコ科の動物で・・・
  • 不真面目な答え
    • みんな猫って呼んでるから
    • あれは猫だって保育園で習った
    • 犬でもたぬきでも牛でも馬でもないから
    • しらねー(今日の夕飯はなんにしよう?)
    • うるせー(はやく先に行け)
機械学習(と統計)第1回

不真面目な答えこそ知能の鍵

  • 考えるのだってコストがかかる
    • 他に考えるべきことがある/答えがでるまで考えると時間に間に合わない/
      なんの得にもならない/他の人と違うことをするといろいろ面倒
  • 「みんな乗ってるから」
    • これは実は「バラバラな情報から法則性を見つける」の例
    • これができるから飛行機のことを仕組みから勉強しなくてもよい
  • 「猫は猫」
    • 法則性のあるものを識別する」のいい加減な仕組みの例
    • みんな犬と区別つけてるし、猫と呼ぶから猫
      • 他の国では別の呼び方だし、下手すると区別してないかも
機械学習(と統計)第1回

改めて機械学習の定義を読んでみましょう

  • Wikipediaの和訳で(CC BY-SA)
    • コンピュータプログラムがタスクのクラスTと性能指標Pに関し
      経験Eから学習するとは、T内のタスクのPで測った性能が
      経験Eにより改善される事を言う。 — トム・M・ミッチェル
  • 要は
    • 「経験(情報)を加えていくと、与えられた仕事がより上手にできるようになる仕組みを持つプログラムを、機械学習のプログラムと言いましょう」ということ
    • どこにも「理屈」とは書いてない
このアプローチが大きな成功を収めている
機械学習(と統計)第1回

機械学習を理解したい(せっかく講義を聞くんだから)

  • 「理屈じゃなくて経験を扱う」をどうやって理屈で扱うの?
    • 残念ながら機械学習のプログラムを書いたり理解したりするには理屈は必要
    • 理屈軽視発言をしてきましたが、経験に当てはまりのよい説明を与えるのが理屈の役割でこれはこれで重要

良い道具があります
機械学習(と統計)第1回

良い道具: 統計学

  • 統計学はとりあえず原因は横に置いて、出てきたデータを扱う
    • 例: 右の写真を見せたら100人中99人が「餃子」、
      1人が「群れで飛ぶ鳥」と回答
      →99%の確率で餃子
      • すごく雑な議論だけどテレビでうるさい「AI」というのは基本こういうもの
      • 「なにが餃子なのか」はあとから考える
  • 医師でなくても数学で脳のやっていることは解釈可能
機械学習(と統計)第1回

ということで

  • この講義では、統計から機械学習を理解していきます
    • 数式は出てくるけど、「この式はこんなことをやっている」で十分
  • 構成
    • 序盤: 統計の基礎
      • バラバラな情報をどう計算するか
    • 中盤: ベイズ統計学
      • バラバラな情報をどう認識するか
    • 終盤: 機械学習のアルゴリズム
      • バラバラな情報をどう利用するか
機械学習(と統計)第1回

統計と機械学習の基礎の基礎: 代表値で選ぶ

機械学習(と統計)第1回

問題: 誰を代表に選びましょう?

  • 誰がボーリング大会の代表になるか決めるために、何ゲームかやって点数を記録しました。誰を選びましょう?
    • 結果
      • Aさん: 134, 93, 123, 110, 98
      • Bさん: 84, 78, 92, 210
      • Cさん: 42, 138, 134, 99, 145
    • 本当はもっとゲームをやりたい/最初から選考ルールを決めておきたかったのですが、諸事情があって無理でした。
      • (※ボーリングよりもマラソンやフィギュアスケートの代表選考にありがちな話)
どうやって選びましょうか? or どうやって選ぶプログラムを作りましょうか?
機械学習(と統計)第1回

統計で一番基本的な「平均値」で考える

  • 平均値: 各数値を足して数値の個数で割ったもの

    • A: 111.6
    • B: 116
    • C: 111.6
      • 一番いいBさんに決定!・・・でいいのか???
  • 全ゲームのスコア(再掲)

    • A: 134, 93, 123, 110, 98
    • B: 84, 78, 92, 210
    • C: 42, 138, 134, 99, 145
機械学習(と統計)第1回

「中央値」だとどうでしょう?

  • 中央値: 数値を小さい/大きい順に並べたときに中央に来る値
    (数値の数が偶数のときは中央の2個の平均値とする)
    • A: 93, 98, 110, 123, 134 -> 110
    • B: 78, 84, 92, 210 -> 88
    • C: 42, 99, 134, 138, 145 -> 134
      • 選ばれる人が変わる
        (こっちのほうが良さそうだけどそれでいいのかな?)
  • 全ゲームのスコア(再掲)
    • Aさん: 134, 93, 123, 110, 98
    • Bさん: 84, 78, 92, 210
    • Cさん: 42, 138, 134, 99, 145
機械学習(と統計)第1回

結局どういうことなのか?

  • はっきり言って、スコアの情報だけだと統計の知識は役に立たないし、
    そういう問題は世の中に多い
    • むしろ振り回して喧嘩したり墓穴を掘ったりしている人が多い
  • 代表値
    • 平均値や中央値など、データを1つの値で要約した値
    • もう少し広い言葉に要約統計量という用語
    • 1つの値で要約 = 他の情報が抜け落ちる
機械学習(と統計)第1回

本日のまとめ

  • 人間
    • 案外適当なところがある
      • 原理よりも経験(法則性)に頼りがち
  • 機械学習とは
    • 経験でプログラムに仕事をうまくさせる
  • 経験の扱い
    • 統計学を使うとよさそうだ
機械学習(と統計)第1回

次回

  • 今回の「代表値」に加えて基礎となる統計の知識を確認
機械学習(と統計)第1回