アルゴリズムのバイアスは、あなたが思うよりも一般的です。 学術 紙 2012年にベンダーからその顔認識システムを示した Cognitec アフリカ系アメリカ人の方が白人よりも5〜10%悪かった。 2011年 中国、日本、韓国で開発されたモデルは、白人と東アジア人を見分けるのが難しいことがわかった。 別の最近の 調査 グーグルとアマゾンによって作られた人気のスマートスピーカーは、ネイティブ生まれのユーザーよりもアメリカ以外のアクセントを理解する可能性が30%低いことがわかった。 そして、 2016年の論文 グーグルニュースの記事への単語の埋め込みは女性と男性の性別ステレオタイプを示す傾向があると結論を下した。
それは問題だ。 良いニュースは、マサチューセッツ工科大学のコンピューターサイエンスと人工知能研究所(MIT CSAIL)の研究者たちが解決策を模索していることです。
論文の中で 学習した潜在構造を介したアルゴリズムバイアスの発見と軽減 「今週ホノルルで開催される人工知能倫理と社会に関する人工知能の進歩のための協会の会議で発表される予定です。 。 彼らは、コンピュータビジョンシステムにおけるバイアスをテストするために特別に設計されたデータセットで評価されたとき、それが優れた性能と「カテゴリーバイアスの減少」の両方を示したと主張しています。
「特に顔の分類は、使用されているデータセットが適切に検証されていないことが明らかになっても、解決されていると見なされることが多いテクノロジです」とPh.D. 関連論文の共同執筆者である学生のAlexander Aminiが声明の中で述べています。 「セキュリティ、法執行機関、その他の分野でこれらの種類のアルゴリズムが使用されるようになってきているため、これらの問題を修正することは特に重要です。」
アミニと仲間の博士 大学院生のWilko SchwartingとMITの教授Sangeeta BhatiaとDaniela Rusと共に、学生Ava Soleimanyが新しい論文に貢献しました。
MIT CSAILがこの問題を最初に解決したわけではない – 2018年の論文の中で、David Sontag教授と同僚たちは次のように述べている。 AIの偏りを減らす方法 予測結果の精度を落とすことなく。 しかし、ここでのアプローチは、目的のタスク(たとえば顔の検出)と、トレーニングデータの潜在的な潜在構造を同時に学習する、新しい半教師付きの徹底した徹底的な学習アルゴリズムを特徴としています。 後者のビットによって、トレーニングデータ内の隠れたバイアスまたは暗黙のバイアスを発見し、データの前処理や注釈を必要とせずにトレーニング中にそのバイアスを自動的に取り除くことができます。
デバイアスの仕組み
研究者のAIシステムの心臓部は、変分オートエンコーダ(VAE)、つまり人間の脳内のニューロンをモデルにした数学関数の層であるエンコーダ、デコーダ、および損失関数です。 エンコーダは生の入力を特徴表現にマッピングし、デコーダは特徴表現を入力として受け取り、それらを使用して予測を行い、そして出力を生成します。 (損失関数は、アルゴリズムが与えられたデータをどれだけうまくモデル化しているかを測定します。)
提案されたVAE、ダビエビデージングVAE(またはDB − VAE)の場合、エンコーダ部分は、データ点が与えられた場合の潜在変数の真の分布の近似を学習し、一方デコーダは潜在空間から入力を復元する。 復号化された再構成は、訓練中に潜在変数の教師なし学習を可能にする。
「重大な社会的影響」を伴う実世界の問題に対するデバイアシングアルゴリズムを検証するために、研究者らはDB-VAEモデルを400,000画像のデータセットでトレーニングし、それぞれ80%と20%をトレーニングセットと検証セットに分けました。 彼らはそれからPPBテストデータセットでそれを評価しました。そして、それは様々なアフリカとヨーロッパの国からの1,270人の男性と女性の議会議員の画像から成ります。
結果は本当に有望でした。 研究者によると、DB-VAEは肌の色合いや髪の毛の存在などの顔の特徴だけでなく、性別や年齢などの他の特徴も習得できました。 個々の人口統計(人種/性別)とPPBデータセット全体のデバイアシングの有無にかかわらず訓練されたモデルと比較して、DB-VAEは分類精度の向上と人種間の分類バイアスの減少を示しました。 公平で公平なAIシステムの開発。
「公平なシステムの開発と展開は、意図しない差別を防ぎ、これらのアルゴリズムを長期的に受け入れられるようにするために非常に重要です」と、共著者は書いています。 「提案されたアプローチは、現代のAIシステムの体系的でアルゴリズム的な公平性を促進するための追加のツールとして役立つと思います。」
進歩して
過去10年間の多くの過ちは、AIの偏見の可能性についての憂鬱な絵を描いています。 しかし、それは、より正確で偏りの少ないシステムへの進歩が見られなかったことを示唆するものではありません。
6月に、マイクロソフトは人工知能(AI)公平性の専門家と協力して、トレーニングに使用するデータセットを修正および拡張しました。 フェイスAPI Microsoft Azure APIは、画像内の人物の顔を検出、認識、分析するためのアルゴリズムを提供します。 肌の色合い、性別、年齢にわたる新しいデータにより、肌が濃い男性と女性のエラー率を最大20倍、女性のエラー率を9分の1に減らすことができました。