確率ロボティクス第1回(その2):
統計の基礎と代表値

千葉工業大学 上田 隆一


This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License. Creative Commons License

確率ロボティクス第1回(その2)

今回の内容

  • 代表値
  • データのばらつき
  • 偏りと外れ値
確率ロボティクス第1回(その2)

代表値

確率ロボティクス第1回(その2)

代表値ってなに?

  • まず挙がるもの: 平均値、中央値、最頻値
    • 統計の講義を受けたことがあれば誰でも知っている
  • 安心して寝るのはまだ早い
    • ちゃんと使いこなしてますか?
確率ロボティクス第1回(その2)

データの表現

  • なにかデータがあったとしましょう
    • データの列をと表す
      • とりあえずデータは数値だと仮定
  • 例(教科書より): Aさん、B君が自作のロボットでコースを何周できるか
    挑戦したときの結果
  • 用語
    • データを1個とるために何かを試すこと: 試行
    • 試行で観測された現象: 事象(数値とは限らないので注意)
確率ロボティクス第1回(その2)

ここでの問題

  • 前ページの例、どっちの結果の方がいいのか?
  • 「もっと試行しないと分からない」という話は横において、
    どう比較あるいは分析するか?(考えてみましょう)
    • 代表値を使うのが初歩
確率ロボティクス第1回(その2)

代表値: データの特徴を1つの数値で表現したもの

  • 代表的な代表値:
    • 平均値: データをすべて足して、データの個数で割ったもの
    • 最大値・最小値: データ中で最大、最小の値(トートロジーになってますが)
      • それぞれと表記
    • 中央値: データを数値の大きさで順に並べた時に順番が中央にきたデータの値
      • データの個数が偶数のときは中央の2つを足して2で割る
    • 最頻値: データ列中で最も個数の多い値
      • 複数のときはぜんぶが最頻値
確率ロボティクス第1回(その2)

問題

  • 前ページのAさん、B君のデータに対してこれらを求めてみましょう
  • 答え
    平均値 最大値 最小値 中央値 最頻値
    Aさん 2.8 7 0 2.5 1, 2, 3
    B君 4.1 6 2 4 4, 5
    • 計算は簡単だが、何がこれから言えるだろうか?(考えてみましょう)
確率ロボティクス第1回(その2)

言えること

  • ある代表値に対する優劣
    • 平均値はB君のほうがよい
    • 最大値はAさんのほうがよいけど、Aさんのほうが試行が3回多い
  • 分析と改善へのヒント(これが一番重要)
    • Aさんのロボットは最大値が7と周回を重ねられることもあるが、
      平均値や最小値が小さく早くリタイヤしやすいので原因を調べたほうがいい
    • B君のロボットは平均値や最小値を見ると安定しているが、
      5, 6周より多く周れない原因を調べたほうが良い
  • 言ってはいけないこと(代表値の誤用)
    • 平均値が良いからB君のロボットの方がよい
    • 最大値が良いからAさんのロボットの方がよい
確率ロボティクス第1回(その2)

代表値を使うのは難しい

  • 代表値は元のデータの劣化した姿
    • 情報理論だと「データの不可逆圧縮」に相当
    • たくさんのデータを1つで置き換えれば情報量が減る
  • 判断材料にすることで代表値は意味を持つ
    • 代表値よりも、それから推測される原因への考察が重要
    • 講義前半で言ったように統計は不真面目
  • 優劣を決めるならルールや実験条件の整備が必要
    • それでもなにをもって優れているとするかは、統計は答えを持たない
    • 相手をやり込めるために持ち出しがちだが不適切な場合のほうが多い
確率ロボティクス第1回(その2)

データのばらつきを表す指標

確率ロボティクス第1回(その2)

先ほどのAさん、B君の結果の考察から

  • Aさんの最大値、最小値の開きが大きいことが指摘されていた
  • 確かにAさんの各周回数は、B君のものに比べて互いに
    差が大きい(ばらついている
  • ここでの問題: 最大値-最小値だけでなくデータ全体をつかって
    「ばらつき」を数値化できないか?
    • 最大値-最小値だと1, 2個の極端な数値に左右されやすい
確率ロボティクス第1回(その2)

分散(不偏分散)

  • 最も一般的なばらつきの指標
  • 平均値と各データの差の2乗の平均値(よりちょっと大きい値)
      • 不偏分散と呼ばれる値(分母がだと標本分散)
      • 論文の実験結果に「分散」として書いてあるのは不偏分散の値
  • なんで
    • 平均値もばらついていて定かではないので、
      その分だけ値が大きくなる(「ロボットの確率・統計」の3.3.4項)
  • なんで2乗?
    • いろいろ計算の上で都合がよい(なんらかの本質性がある)
確率ロボティクス第1回(その2)

問題

  • Aさん、B君のデータの不偏分散を求めてみましょう
    • どっちが大きいでしょうか?
    • 道具は手計算、表計算、シェル芸なんでもどうぞ
    • 式(再掲):
  • 答え
    • Aさん:
    • B君:
確率ロボティクス第1回(その2)

標準偏差

  • 分散の正の平方根
    • 式(分散の式にをかぶせただけ)
    • 問題: Aさんの分散が、B君の分散がのとき標準偏差は?
      • Aさん: 、B君:
  • なんで分散があるのに標準偏差を導入するのか(考えてみましょう。次ページ)
確率ロボティクス第1回(その2)

標準偏差を導入する理由

  • もとのデータと単位が揃う
    • 分散の単位は「周」と謎だが
      標準偏差だと「周」
    • グラフに書き込める
  • 人に伝えるときは標準偏差を使う
    • 「どれだけばらつくの?」と聞かれたら
      標準偏差を答えておけばよい
  • 平均値標準偏差: よく使われる表記法
    • Aさん:
    • B君:
確率ロボティクス第1回(その2)

偏りと外れ値

確率ロボティクス第1回(その2)

問題

  • ロボットに搭載するために、壁までの距離を測るセンサXとZを2つ買ってきて、1mの距離を10回計測したら次のようになりました
    • どっちを搭載したいでしょうか?
試行回 1 2 3 4 5 6 7 8 9 10 平均値 標準偏差
X 0.90 0.75 0.83 1.20 1.12 1.15 1.07 1.21 0.93 1.21 1.04 0.17
Z 1.21 1.09 1.23 1.14 1.19 1.22 1.20 1.09 1.13 1.23 1.17 0.06
  • 答え
    • Zのほうの計測値からを引いて使えばいいかもしれない
      • Zはなにか問題があるかも、という考え方も正しいので絶対ではない
確率ロボティクス第1回(その2)

偏り(バイアス)と校正

  • Zのほうの平均値のずれ偏り(バイアス)と呼ばれるもの
    • 毎回おなじだけずれているので「ばらつき」ではない
  • 校正(キャリブレーション)
    • バイアスを計測して値に補正をかけること
    • ばらつきはどうしようもないがバイアスは補正可能
  • 下の表: Zの計測値からをひいて集計しなおしたもの
試行回 1 2 3 4 5 6 7 8 9 10 平均値 標準偏差
Z' 1.04 0.92 1.06 0.97 1.02 1.05 1.03 0.92 0.96 1.06 1.00 0.06
確率ロボティクス第1回(その2)

ロボットと校正

  • ロボット周りでは校正が必要な場面が多い
    • いま扱っている例のようなセンサ値の補正
    • カメラの歪み補正
    • ジャイロの原点調整(失敗すると目のまわった人みたいにフラフラする)
    • 台車がまっすぐ走らないときの左右のバランスの補正
  • 校正の限界: ロボットは動き回るので・・・
    • 台車の場合: 路面でバイアスの傾向が変わる
    • センサの場合: 温度、湿度、明るさなどでバイアスの傾向が変わる
      とても厄介
確率ロボティクス第1回(その2)

校正しすぎるのは問題となることがある

  • 時間がかかる(場合によっては報われない)
    • バイアスが原因だとはっきりしていないのに
      校正し続けたことはありませんか?
  • 校正しない(自動化する)方法を考えたほうが生産的
    • デモも大事ですが研究者はこっちに集中しないといけません
確率ロボティクス第1回(その2)

外れ値(アウトライア)

  • 大きく他と値が違うデータが混入
    • 例: Xのセンサ値をとっていたら10回目に[m]という値が出た
      • これをほかの値と同列に扱っていいものか?
        この結果をどう要約して人に伝えましょうか?(考えてみましょう)
試行回 1 2 3 4 5 6 7 8 9 10 平均値 標準偏差
X 0.90 0.75 0.83 1.20 1.12 1.15 1.07 1.21 0.93 5.00 1.42 1.27
  • 考え方(あくまで一例)
    • このデータを外れ値として除外して平均値、標準偏差を求め、「大きく外れた値がでることがある」と但し書きしたほうが特性が伝わる
      • 原因が明らかに違う誤差は分けて考えた方がよい
確率ロボティクス第1回(その2)

ロボットと外れ値

  • バイアスと同様、ロボットにはつきもの
    • 前半で言った整備されていない環境=外れ値が発生する環境
      • センサの前を人や猫が横切る
      • 台車がなにかに引っかかって、モータの出力に対して変な移動量が発生
  • バイアスと同様、原因を取り除くより、うまく対応する仕組みを考えると
    ロボットが賢くなる
確率ロボティクス第1回(その2)

まとめ

  • 代表値
    • 単なる要約(要約統計量)で万能の道具ではない
    • 計算は簡単だが使い方が難しい
  • データのばらつき
    • 論文には不偏分散(と、不偏分散から計算した標準偏差)を使いましょう
  • 偏りと外れ値
    • これと戦うのが自律ロボットの研究
    • なにか大会に出るときは順位の追求より、規定よりちょっと
      難しい問題設定を解くようにしたほうが研究の面では捗る
確率ロボティクス第1回(その2)