本書の構成
この本は次の4つのパートに分かれています。
第Ⅰ部 序論——バイアスとアルゴリズム(1章〜5章)
人間のバイアスを心理学的見地から解説するほか、AIシステムにおいてアルゴリズムがどう開発、活用されているのかも紹介します。さらにここでは第Ⅱ部以降で言及する用語や枠組みも説明します。
第Ⅱ部 アルゴリズミックバイアスの原因と発生の経緯(6章〜11章)
アルゴリズミックバイアスの原因や背景を探り、主たる発生源を6つ紹介します。この知識をしっかり身につければ、アルゴリズミックバイアスを管理、予防するための基礎が得られます。この本の後半でも随所でこの6つの発生源に言及しています。
第Ⅲ部 ユーザー視点のアルゴリズミックバイアスの対処法(12章〜17章)
ユーザー(ここでは広く「データサイエンティスト以外のすべての人」を指します)の視点に立って、アルゴリズミックバイアスにどう対処すればよいのかと、アルゴリズミックバイアスを予防する上でそうしたユーザーがいかに大きな力を発揮し得るかを紹介します。
第Ⅳ部 データサイエンティスト視点のアルゴリズミックバイアスの対処法(18章〜23章)
アルゴリズムの開発者であるデータサイエンティストを対象として書いたもので、アルゴリズミックバイアスを予防するための包括的、実際的な手引きとなっています。そのため、この本ではもっとも技術的色合いの濃い部分となりますが、著者としては、学部生からIT企業の経験豊富な解析担当部長まで、知識も経験もさまざまに異なる読者を念頭に置いて、誰にでも理解でき、各人各様にヒントや手がかりを見つけていただける、そんな解説を心がけたつもりです。
章一覧
対象読者
「統計学や法律の教科書」でも「特効薬」でもない
本書の構成
意見と質問
謝辞
第I部 序論——バイアスとアルゴリズム
1章 アルゴリズミックバイアスとは
2章 人間による意思決定で生じ得るバイアス
3章 アルゴリズムとバイアスの排除
4章 モデルの開発
5章 機械学習の基本
第II部 アルゴリズミックバイアスの原因と発生の経緯
6章 実世界のバイアスがアルゴリズムにどう反映されるか
7章 データサイエンティスト自身のバイアス
8章 データがもたらすバイアス
9章 アルゴリズムと安定性バイアス
10章 アルゴリズム自体がもたらすバイアス
11章 ソーシャルメディアとアルゴリズミックバイアス
第III部 ユーザー視点のアルゴリズミックバイアスの対処法
12章 アルゴリズムを使うべきか否か
13章 アルゴリズミックバイアスのリスクの評価
14章 一般ユーザーによるバイアスの回避策
15章 アルゴリズミックバイアスの検出方法
16章 管理者の介入によってバイアスを抑止する方法
17章 公平公正なデータの生成法
第Ⅳ部 データサイエンティスト視点のアルゴリズミックバイアスの対処法
18章 モデル開発におけるバイアスの回避法
19章 データのX線検査
20章 機械学習を採用するべき時
21章 機械学習を従来の手法に組み込むコツ
22章 自己改良型モデルにおけるバイアスの予防法
23章 大規模組織におけるバイアス予防法の慣行化
詳細目次
対象読者
「統計学や法律の教科書」でも「特効薬」でもない
本書の構成
意見と質問
謝辞
第I部 序論——バイアスとアルゴリズム
1章 アルゴリズミックバイアスとは
2章 人間による意思決定で生じ得るバイアス
2.1 バイアスの働き
2.2 バイアスの分類
2.3 アクション志向バイアス
コラム すぐに行動計画を!
2.4 安定性バイアス
2.5 パターン認識にまつわるバイアス
「ノイズ」への対処
確証バイアス
ステレオタイピング
2.6 インタレストバイアス
2.7 ソーシャルバイアス
2.8 個々の意思決定 vs. 全体像
2.9 まとめ
3章 アルゴリズムとバイアスの排除
3.1 アルゴリズムの簡単な例
3.2 アルゴリズムが教えてくれること
式(3.2)に関する第1の注目点——誤差が小さくなる
式(3.2)に関する第2の注目点——個々の属性が招く変動を抑制する傾向がある
式(3.2)に関する第3の注目点——無意味な係数のあぶり出し
アルゴリズムによるバイアスの排除
3.3 まとめ
4章 モデルの開発
4.1 モデル開発の概要
4.2 ステップ1 モデルのデザイン
4.3 ステップ2 データエンジニアリング
サブステップ2-1 標本の定義
サブステップ2-2 データ収集
サブステップ2-3 標本の分割
サブステップ2-4 データ品質の評価
サブステップ2-5 データ集計
4.4 ステップ3 モデル推定
サブステップ3-1 不要レコードの除外
サブステップ3-2 特徴量の開発
サブステップ3-3 変数の最終選考
サブステップ3-4 係数の初回推定
サブステップ3-5 モデルの調整
コラム ハイパーパラメータの選択
サブステップ3-6 モデルの出力と決定則のキャリブレーション
サブステップ3-7 モデルの文書化
4.5 ステップ4 モデルの検証
4.6 ステップ5 モデルの実装
4.7 まとめ
5章 機械学習の基本
5.1 機械学習の目的
改善策1 非線形の変換
改善策2 サブセグメント
改善策3 予測変数の追加
5.2 機械学習とは?
5.3 他のモデリング手法との比較
5.4 まとめ
第II部 アルゴリズミックバイアスの原因と発生の経緯
6章 実世界のバイアスがアルゴリズムにどう反映されるか
6.1 確証バイアスの架空の事例
6.2 戦うべきはアルゴリズムではない
6.3 まとめ
7章 データサイエンティスト自身のバイアス
7.1 データサイエンティストの確証バイアスの影響
「ステップ1 モデルのデザイン」における確証バイアスの作用
「サブステップ2-1 サンプル定義」における確証バイアスの作用
7.2 データサイエンティストの自我消耗の影響
7.3 データサイエンティストの自信過剰がバイアスに与える影響
7.4 まとめ
8章 データがもたらすバイアス
8.1 データがもたらすバイアスの概要
8.2 A-1 主観的・定性的なデータがもたらすバイアス
8.3 A-2 表面上は定量的に見えるデータがもたらすバイアス
8.4 B-1 人間自身のバイアスを反映しているデータがもたらすバイアス
8.5 B-2 衝撃的な出来事に大きな影響を受けたデータがもたらすバイアス
8.6 C-1 コンセプト的な誤りに由来するバイアス
8.7 C-2 データの不適切な処理がもたらすバイアス
8.8 まとめ
9章 アルゴリズムと安定性バイアス
9.1 モデルに内在する不安定性
9.2 データに存在しない事例への対処
9.3 反応速度の重要性
9.4 アウトカムの判定の際に働く安定性バイアス
9.5 まとめ
10章 アルゴリズム自体がもたらすバイアス
10.1 アルゴリズムのエラー
10.2 サンプルサイズとケースフリークエンシーの役割
10.3 決定木による予測
10.4 倫理的な視点から
10.5 まとめ
11章 ソーシャルメディアとアルゴリズミックバイアス
11.1 ソーシャルメディアにおけるアルゴリズムの影響
ランク付けの裏事情
特徴量の選択
対象の項目がユーザーの期待にどの程度応えられるものであるか
ニュース記事がユーザーの視点をどの程度変えられるか
特定の視点のユーザーに対する露出度がどの程度不足しているか
致命的なフィードバックループ発生の恐れ
11.2 ユーザーの役割
11.3 システム変更の必要性
11.4 まとめ
第III部 ユーザー視点のアルゴリズミックバイアスの対処法
12章 アルゴリズムを使うべきか否か
12.1 アルゴリズムを利用する程度
もっとも単純な方法
人間による判断
単純な基準に基づくアルゴリズム
ハイブリッドなアプローチ
システム設計上のオプション
12.2 アルゴリズムの効果の評価法
エラー率
ヒット率
ジニ係数
コルモゴロフ=スミルノフ検定(K-S検定)
アウトカムのシミュレーション
アルゴリズムのパフォーマンスが劣る場合
12.3 まとめ
13章 アルゴリズミックバイアスのリスクの評価
13.1 損害の深刻度の評価
13.2 バイアスの傾向の評価
13.3 まとめ
14章 一般ユーザーによるバイアスの回避策
14.1 一般ユーザーによる回避の取り組み
14.2 身につけるべき習慣1 訊いて訊いて訊きまくる
14.3 身につけるべき習慣2 推定値ではなく「不明」のラベルを付けさせる
14.4 身につけるべき習慣3 意味のある数値を報告してもらう
14.5 無知の知
14.6 まとめ
15章 アルゴリズミックバイアスの検出方法
15.1 アルゴリズムの監視とは
監視は定期検診のようなもの
監視体制の整備
メトリクスの向き
単純なメトリクスと高度なメトリクスの併用
15.2 代表的なメトリクス
分布分析(M1。フォワードルッキング)
オーバーライド分析(M2。フォワードルッキング)
キャリブレーションの評価(M3。バックワードルッキング)
ランク付け(M4。バックワードルッキング)
15.3 各分析の実践
分布分析(M1)の実践法
多項アウトプットの場合
連続的なアウトプットの場合
バイナリアウトプットの場合
測定結果の解釈
フローとストックの違い
統計的有意性
バイアスに関係のない属性を利用した統計的有意性の確認
マテリアリティ(重要性の原則)
オーバーライド分析(M2)の実践法
ランク付け(M4)の実践法
キャリブレーションの評価(M3)の実践法
15.4 有意性と正常範囲
分布分析(M1)
オーバーライド分析(M2)
キャリブレーションの評価(M3)
ランク付け(M4)
トリガーがはっきりしない時
15.5 根本原因解析
分布分析
決定木
バイアスがどのような形でレポートに登場するか
データの欠損行
データの欠損列(欠損している特徴量や予測変数)
主観的なデータ
トラウマを引き起こす衝撃的な出来事が反映されたデータ
外れ値
データクリーニングの不備によってデータに生じるアーティファクト
安定性バイアス
ユーザーのインタラクションによって動的に発生するバイアス
実世界のバイアス
コラム 中央値、平均値、最頻値
15.6 ブラックボックス・アルゴリズムの監視
15.7 自己改良型のアルゴリズムの監視
15.8 まとめ
16章 管理者の介入によってバイアスを抑止する方法
16.1 偏見との戦い
16.2 アルゴリズムの役割の限定
16.3 アルゴリズムの修正
16.4 まとめ
17章 公平公正なデータの生成法
17.1 データは新たな金
17.2 公平なデータの生成
17.3 まとめ
第Ⅳ部 データサイエンティスト視点のアルゴリズミックバイアスの対処法
18章 モデル開発におけるバイアスの回避法
18.1 「ステップ1 モデルのデザイン」におけるバイアスの回避
現場の知見の重視
コラム 勘のいい人
「汚染」への対応
最終的なビジネスの目的の再確認
潜在的なバイアスを意識したモデリング手法の選択
18.2 「ステップ2 データエンジニアリング」におけるバイアスの回避
サブステップ2-1 標本の定義
サブステップ2-2 データ収集
サブステップ2-3 標本の分割
サブステップ2-4 データ品質の評価
サブステップ2-5 データ集計
18.3 「ステップ3 モデル推定」におけるバイアスの回避
サブステップ3-1 不要レコードの除外
サブステップ3-2 特徴量の開発
欠落
派生特徴量のコンセプトレベルでの妥当性
サブステップ3-3 変数の最終選考
サブステップ3-4 係数の初回推定
サブステップ3-5 モデルの調整
サブステップ3-6 モデルの出力と決定則のキャリブレーション
サブステップ3-7 モデルの文書化
18.4 「ステップ4 モデルの検証」におけるバイアスの回避
18.5 「ステップ5 モデルの実装」におけるバイアスの回避
予測特徴量の実装
バイアスのかかっていない最新データの継続的な生成
18.6 まとめ
19章 データのX線検査
19.1 第1の検査——サンプルレベルの分析
19.2 第2の検査——データリーケージ
変数の予測力の測定
ランダムな欠損値の有無の分析
19.3 第3の検査——データの構造を把握するための2つの分析法
欠損値の構造が類似している複数の変数のまとまりの特定
主成分分析(PCA)による冗長な変数の排除
19.4 第4の検査——異常検知のための2つの分析法
手作業で異常を検知する手法
機械学習による異常検知
19.5 第5の検査——保護された変数を使った相関分析
19.6 第6の検査——視覚による分析
19.7 まとめ
20章 機械学習を採用するべき時
20.1 ナイロンと木綿
20.2 機械学習はナイロンと同じ運命をたどる?
20.3 職人ワザか機械学習か
20.4 まとめ
21章 機械学習を従来の手法に組み込むコツ
21.1 特徴量レベルの機械学習
21.2 機械学習を活用したセグメンテーション
21.3 シフト効果を利用する手法
21.4 担当者のセカンドオピニオンを引き出す手法
21.5 まとめ
22章 自己改良型モデルにおけるバイアスの予防法
22.1 モデル開発時の留意点
「ステップ1 モデルのデザイン」の留意点
「ステップ2 データエンジニアリング」の留意点
「ステップ4 モデルの検証」の留意点
22.2 非常ブレーキ
22.3 モデルの監視
22.4 リアルタイムの機械学習
22.5 まとめ
23章 大規模組織におけるバイアス予防の慣行化
23.1 ポイント1 データのフローとウェアハウジング
23.2 ポイント2 標準とテンプレート
23.3 ポイント3 中庸の重要性
23.4 ポイント4 キャリブレーション
23.5 ポイント5 モデルの検証
23.6 ポイント6 モデルの監視
23.7 ポイント7 バイアスのない公平公正なデータの継続的な生成
23.8 まとめ
コラム モデル開発の十戒
●著者紹介
●訳者紹介
会社概要
ご連絡
Copyright © 1993-2024 Marlin Arms Corporation
当サイトでは、第三者配信による広告サービスを利用しています。このような広告配信事業者は、ユーザーの興味に応じた商品やサービスの広告を表示するため、当サイトや他サイトへのアクセスに関する情報(氏名、住所、メール アドレス、電話番号は含まれません) を使用することがあります。この処理の詳細やこのような情報が広告配信事業者に使用されないようにする方法については、こちらのページをご覧ください