ディープラーニングは、なぜ、こんな簡単な画像認識もできないのか?

ディープラーニングは、なぜ、こんな簡単な画像認識もできないのか?

このエントリーをはてなブックマークに追加

この画像は、人間の顔ですよね。
誰でもわかります。
最近のAIなら、100%の確信を持って「人間の顔」と答えます。
ディープラーニングのすごいところです。

では、次の画像はどうでしょう?

「人間の顔っぽいけど・・・、こんな人間いませんよ」

そうですよね。
明らかにおかしいです。
おでこに口があります。
こんな人間いません。
断言できます。

でも、ディープラーニングで学習したAIに画像認識させると、これも、100%の確信をもって「人間の顔」と答えるのです。
どこかおかしいなんて、微塵も感じないようです。

 

なぜ、こんなことが起こるのでしょうか?
これが、ディープ・ラーニングの盲点なのです。

ディープラーニングは、なぜ、自然言語処理で失敗したのか?」で説明したように、ディープラーニングでは、大量の画像から自動で特徴量を抽出します。
たとえば、猫の画像があれば、まず、耳や目、鼻、口などのパーツに分類し、耳の形などの特徴から、猫と判断するわけです。
何十万枚の大量の画像があれば、犬や、他の動物とは違う、猫の特徴を抽出できるのです。

耳の形や顔の形、しっぽ、体の大きさから犬か猫かを判断するところは、まさに、人間と同じです。
これが、ディープラーニングのすごいところです。

でも、人間は、額に口がある画像を見て、明らかにおかしいと思いますよね。
なぜ、こんなに簡単なことが、AIはわからないのでしょう?

 

ディープラーニングに限らず、機械学習では、統計を使いますので、大量のデータが必要となります。
データの数が少ないと、偏りが生じてしまうからです。

何百万枚もの人間の顔画像のデータがあれば、人間の顔を見分けるのに十分なデータといえるでしょう。
ところが、落とし穴はここにあります。

現実に存在する顔写真のデータを何百万枚、何千万枚集めても、その元データ自体に偏りがあるのです。
どういうことかというと、人間の顔は、目の下に鼻があって、鼻の下に口があって、目の上に額があります。
何千万枚の顔写真を集めても、額に口がある写真は存在しません。

顔の正しいパーツの位置を機械学習で学習させるには、顔のパーツのあらゆる位置の組み合わせの画像データが必要になります。
そのうち、正しい組み合わせがこれだと教えることで、顔のパーツの正しい位置が学習できるのです。

ところが、たとえ、全人類の顔写真を集めたとしても、あらゆる顔パーツの位置の組み合わせのデータが得られるわけではありません。
すべての人類は、鼻の下に口があって、目の上には口はありません。
つまり、現実世界のデータをすべて集めても、あらゆる方面から検討しても偏りのないデータを集めることは不可能なのです。

AI業界では、大量のデータさえ集めれば、あとは、ディープラーニングが自動で学習してくれるという風潮がありますが、実際には、現実世界のすべてのデータを集めたとしても、現実世界自体が偏っているため、最適に学習することができないのです。

その結果、人間なら、簡単におかしいと思う、あり得ない顔を見ても、AIには、永久にそれを見抜けないのです。
これが、現在のディープラーニングの限界なのです。

この傾向は、画像認識より、自然言語処理でより鮮明に表れます。
次回は、そのことについて説明します。

 

このエントリーをはてなブックマークに追加

コメントを残す