「教えて!いろはちゃん」全文掲載

「教えて!いろはちゃん」全文掲載

このエントリーをはてなブックマークに追加

日刊工業新聞社の「機械設計」2019年3月号に寄稿した「教えて!いろはちゃん」の続きを「機械設計」2019年7月号に書きました。
今度は、「教えて!いろはちゃん ~人類はAIに支配されちゃうの?~」です。
今回のテーマは、AIと倫理です。
みんなが知りたがってる、人類がAIに支配されるか?!がテーマです。
アマゾンで絶賛、発売中なので、よかったら読んでみてちょうだい。

そこで、今回は、いろはちゃん第2回を記念して、第1回の「教えて!いろはちゃん ~AIはどうやって言葉の意味を理解するの?~」を全文掲載しちゃいます。
最近のAIブームだけじゃなくて、50年の歴史を踏まえたAI批評となってます。
今のAIで何ができなくて、何が問題で、どうすればできるのかまで、解決策まで書いてます。
しかも、中学2年生でも読めるようにかいてるので、これは必読です!

それでは、どうぞ!

 

教えて!いろはちゃん
~AIはどうやって言葉の意味を理解するの?~

ロボマインド 田方 篤志

たかた あつし:代表取締役 ドラえもんの心を開発する町の発明家。自身の思いついたアイデアを実現するため、どこにも属さず20年間研究し続けた結果、今主流のAIとは異なる方向に進化し、意識をもって普通に会話できるAI創造の着想を得る。研究開発ブログは、のべ100万人以上に読まれる。日本経済新聞社と経済産業省が主催するAIサミット「AI/SUM2019」にてAIスタートアップ90に選出される。

 

意味理解の呪い

知らない女子高生が俺の家にいる。
いや、問題はそこじゃない。
上半身しかない。
いや、床から女子高生が生えているのだ。

「あんた、さっきから何、ジロジロみてるのよ」
「うわっ、しゃべった!」
「当たり前でしょ。さっさと、初期設定、終わらせなさいよ」

目の前に「初期設定」と書かれたボタンが宙に現れた。なるほど、これがARグラスかぁ。眼鏡のレンズに映像を投影することで、現実世界に3Dヴァーチャルの映像が重なって表示される。まるで、現実世界にヴァーチャル女子高生がいるようだ。手を伸ばして指先でボタンに触れると、ボタンが光って画面が切り替わった。

「なるほど、指先の位置を画像認識で割り出してして、ボタンを押したことを判定しているんだな」

眼鏡に取り付けられたカメラで撮影した画像をリアルタイムでポリゴン化し、ポリゴン化した床の上にヴァーチャル・キャラクターを配置するのか。どうやら、配置するときの座標がずれて下半身が床の下に埋められたようだ。矢印ボタンを押してキャラクターの高さを調整すると、つま先まで床から出てきて床の上を器用に歩き始めた。

「やっと歩けるようになったわ」と言いながら嬉しそうに部屋を歩き回る。
「あっ、そうだ。私は『百瀬いろは』。この度は、エビスグラスをお買い上げいただき、誠にありがとうございます」と、ぴょこんと一礼する。
「あっ、僕は『一ノ瀬仁』。エビスグラスが半額セールだったから、つい、買ってしまったんだよ」
「えぇ~、私ってセール品なの。エビスデンキの主力製品だってエビス社長も言ってたのに~ うっ、うっ、うっ、」
「まぁ、まぁ、泣かないで。エビスグラスはすごいと思うよ。大阪万博2025の公認グラスの最終候補まで残ってたしさぁ」
「結局選ばれなかったじゃない。選ばれると思って大量に作ったから半額セールになったんでしょ。うっ、うっ、うわ~ん」

「あっ、いや、でも、いろはちゃんは、とってもかわいいよ」
「ぐすん、ほっ、本当……。もっと、ほめてよぉ」
「え~っと、そうだ、自然な会話できるとこがマジすごいよ。いろはちゃんって、AIなんでしょ」
「うん。ぐすん……。もしかして、AIに興味ある?」
「うん、今、大学で人工知能の勉強をしてるとこなんだよ」
「私、AIには詳しいのよ。AIのことなら、何でも聞いて」

「それじゃぁ、自然言語処理について教えてよ。いろはちゃんて、自然言語処理を使って会話してるんでしょ」
「そうよ。仁君は自然言語処理について、どれだけ知ってるの?」
「たしか、最初にするのが形態素解析だったよね」
「そう。文を単語に区切るのが形態素解析。『太郎は、学校に行きました。』という文の場合、『太郎/は/、/学校/に/行き/まし/た/。』って感じに分けるわよね」
「次にするのが、係り受け解析でしょ」
「そう。『太郎』は『行く』に係るとか、『学校』も『行く』に係るとか、係り受け関係を解析するの」
「最後は、意味を理解する意味解析して終わりでしょ。意外と簡単だよね」

「えっ、あんた、今、何て言った?」
「な、何、怖い顔してんだよ」
「意味理解って、そんなに簡単じゃないのよ! 自然言語処理は、長年、意味理解の呪いに縛られてきたのよ!」
「大げさだなぁ……って。えっ、なっ、何だ?」
部屋がにわかに暗くなってきた。よく見ると部屋の中に井戸らしきものができている。と思う間に、井戸の中から髪の長い女の人が出てくるではないか。長い髪を前に垂らして顔がみえない。

「さっ、貞子……。止めてくれ! 俺、そういうの苦手なんだ……」
そう言うと、部屋が明るくなって、元のいろはちゃんに戻った。
「ごめんなさい。ただ、仁君が、あまりにも意味理解の恐ろしさを知らないから、わからせたかっただけよ」

「でも、意味理解の何が難しいんだよぉ。言葉の意味って、オントロジーって言うのを使うだけでしょ」
「オントロジーは、単語の意味を単語同士の関係で整理したものよね。たとえば、『概念』の関係だと、食品概念の下に麺類があって、麺類概念の下にラーメンがあるとか。『全体-部分』の関係だと、自動車全体に対して、タイヤやハンドルは部分の関係とか」
「そう、そのオントロジーの情報を単語に追加すれば意味理解ができるじゃん」
「単語に情報を追加して何がわかるの? 文の情報量は増えるけど、じゃぁ、その文の意味ってなに? その文で言いたいことって何?」
「そっ、そんな立て続けに質問されても分からないよ」
「係り受け解析まではできても、肝心の文の意味が理解できないから、第二次AIブームは終わってしまったの。これが意味理解の呪いよ」
「今は、第三次AIブームでしょ。たしかディープラーニングでAIブームが復活したんだったよね。じゃぁ、ディープラーニングで意味理解の呪いが解けたってことじゃないの?」
「そんな簡単な話じゃないわ。その話の前に、AIの二つの派閥について説明しとくわ」

「二つの派閥って、『きのこの山』派と『たけのこの里』派みたいなもの?」
「全然違うわ。一つはコネクショニズムで、もう一つは記号主義よ」
「どっちが『きのこの山』派で、どっちが『たけのこの里』派?」
「だから、全然違うっていってるでしょ! コネクショニズムって、ニューラルネットワークを使って学習する手法で、大量のデータを統計処理して学習するタイプよ。記号処理は、人が作ったルールに従って記号を処理する手法で、係り受け解析したり、オントロジーを使うタイプよ。AIの歴史は、この二つの派が競い合って発展してきたの」
「ディープラーニングって、たしかニューラルネットワークを多段階にしたって聞いたけど、ディープラーニングがコネクショニズムってことだよね」
「そうよ。今の第三次AIブームはコネクショニズムが中心なの。第二次AIブームは記号主義が中心だったのよ」

 

ディープラーニングの方法

「それじゃ、第三次AIブームの立役者のディープラーニングについて詳しく教えてよ」
「ディープラーニングがネコの概念を獲得したって話は知ってる?」
「たしか、グーグルがYouTubeの大量の画像を学習させたって話でしょ。教えなくても勝手にネコの画像を認識できるようになったとか」
「そう。1000台のコンピュータを3日間走らせて1000万枚の画像を学習させたの」
「一体、ディープラーニングは何を計算してたの?」

「最初は画像の細かい部分に対して、似た形をまとめるの。直線とか丸といった風にね。次は、それらを組み合わせて、さらに大きな部分で似た形をまとめるの。

 

 

そうすると、動物だと目や耳の形が現れてくるの。さらに目や耳をまとめると顔の形にまとまるの。そうやって、最も標準的なネコの画像が得られたってわけ。それがネコの概念だって、当時、話題になったの」

 

「でも、ネコを認識できるってどういうこと? 3日もかかってちゃ、あんまり使い道ないんじゃないの?」
「時間がかかるのは学習する段階だけよ。学習が終われば、あとは、適当に画像を読み込ませれば、ネコが写っているかどうか一瞬で判断できるのよ」
「そうか。グーグルフォトに写真をアップすれば、自動でネコとか人物って分類してくれるのは、ディープラーニングを使っているのか。なるほど。それじゃ、どうやってネコって判断してるの?」

「それは、耳の形とか目の形の特徴で判断するの。つまり、ネコの特徴を自動で学習したってことよ」
「すごいなぁ。まるで人間と同じじゃない。う~ん、ちょっと待って。ネコの顔を耳とかの部分でまとめてるって、さっきのオントロジーの『全体-部分』の関係と似てない?」
「いいところに気が付いたわね。ディープラーニングは特徴を取り出すのが得意なの。ただし、どんな特徴を取り出すかは、プログラムで最初から決められているの」
「どういうこと?」
「今の場合だと、最初は小さい部分で整理して、次は、その小さな部分を使ってもう少し大きな部分を整理したでしょ。つまり、大きな部分は小さな部分でまとめるようにプログラムされているの。だから、結果的にオントロジーの『全体-部分』の関係と同じになるのよ」

「じゃ、長い時間かけて何を計算していたの?」
「部分はどんな形が最適かといったことを計算してるの。たとえば、ネコの耳はとがってるとかよ」
「へぇ~、面白いなぁ。ディープラーニングってさぁ、たしか、画像だけじゃなくて、テキストでもできるんでしょ。ディープラーニングで翻訳の精度が上がったって聞いたけど」
「そうよ。英文と、それを翻訳した日本文の組み合わの大量のデータを学習させるの。計算の中身は、単語や並びや位置よ。そうした大量のデータを計算すると、結果的に、今までより翻訳の精度があがったのよ」
「単語の並びや位置を学習させたってことは、係り受け解析なんかしてないってこと?」
「そうよ」
「つまり、人間が考えたルールより、機械に自動で学習させた方が優れてたってことかぁ。つまり、コネクショニズムが勝ったってことだね」
「そんな単純な話でもないけど、確かに、そういう風に見る人は多いわね」

 

会話ができるロボット実現の壁

「やっぱ、ディープラーニングってすごいなぁ! 次は、大量の会話文を機械学習させれば、自由に会話ができるAIができるってわけじゃん」
「残念ながら、そううまくいかなかったわ」
「えーっ、なんで? 会話文を学習させれば自動で会話のルールを学習するでしょ」
「ディープラーニングじゃルールは学習できないわよ。さっきネコのが画像認識で説明したでしょ。ルールに該当するのは、全体を部分でまとめるプログラムのとこよね。このプログラムは人間が作る部分で、大量のデータを入れたからって、自動で学習されるわけじゃないのよ」
「でも、翻訳でできたんだから、会話でだってできるでしょ」

「会話と翻訳とは違うのよ」
「どこが違うの?」
「翻訳だと正解が決まっているでしょ。ある英文に対する正しい日本語訳は、大量にデータを用意すれば、ある程度絞られるのよ。ところが、会話文はそうはいかないわ。たとえば、プロ野球の阪神巨人戦の応援ツイートを集めたとしても、『阪神がんばれ』『「巨人負けろ』『巨人がんばれ』『阪神負けろ』っていう正反対の発言が集まって一つに絞れないから学習にならないのよ。会話は、相手が何を言うかわからないのが最大の課題なのよ」

「そうかぁ。でも、会話できるAIはいっぱいあるじゃない。ソフトバンクのPepper君とか、iPhoneのSiriとか、AIスピーカーとか。あれはどうなってるの?」
「あれはシナリオ・ベースと言って、シナリオを持たせているの。さらに、会話といっても、質問応答がほとんどよ。質問に対する答えなら、正解は絞れるわ。たとえば、『明日の天気を教えて』という質問と、『明日の天気は〇〇です』という答えをペアにして用意しておいて、『明日の天気を教えて』と聞かれたら、天気を調べて『明日の天気は晴れです』って答えるわけ」
「確かに、そのぐらいの会話ならできそうだなぁ。でも、Pepper君が、普通に会話してるのをテレビで見たことがあるよ。Pepper君は、きっと、心をもっていて会話ができるんだよね」
「Pepper君もシナリオ・ベースよ」
「えー、でも会話は、相手が何を言うかわからないっていったじゃん。何を言うかわからないのにシナリオなんて作れっこないじゃん」
「それじゃぁ、試しにやってみる?」
「うん、いいよ」

「ねぇ、最近、何か美味しい物食べた?」
「そうだなぁ。先週、焼肉をおごってもらったよ」
「うわぁ、いいなぁ。私も食べたかったなぁ。
どう、これがシナリオ・ベースよ」

「意味わかんないよ。これって、ただの会話じゃん」
「そうじゃないの。私は、前もって決めてたセリフしかしゃべってないのよ」
「前もって決めてたセリフってどのセリフのこと?」
「『ねぇ、最近、何か美味しい物食べた?』と『うわぁ、いいなぁ。私も食べたかったなぁ』の二つよ」
「えーと、つまり、僕が何て答えても『うわぁ、いいなぁ。私も食べたかったなぁ』って答えてたってこと?」
「そうよ。自由に会話しているように見えて、さりげなく、相手に食べ物の名前を答えさせたのがミソ。相手が食べ物の名前さえ言ってくれれば、『私も食べたかったなぁ』と答えれば、会話が成立するってわけ」

「何かズルいなぁ。それじゃぁ、僕が、『最近、美味しい物なんか食べてないよ』って答えてても、『うわぁ、いいなぁ。私も食べたかったなぁ』って答えてたわけ? これって、会話が破綻してるよね」
「そうよ。それがシナリオ・ベースの弱点なの」
「弱点っていうより、たまたまうまくいったときだけ会話が成立してただけじゃん。そんなの、人工知能じゃないよ」
「そうなの。でも、これが自然言語処理の姿なの。この手法は昔からあって、人工無脳とも呼ばれてるわ」
「うまいこというねぇ。昔っていつから?」

「世界で最初の対話プログラムは『イライザ』というソフトで、1965年頃のことよ」
「つまり60年前から、ほとんど進歩してないってこと? ITの分野で60年も進歩していないって……」
「ちゃんと会話しようとすると、相手が何を言いたいのか、ちゃんと意味を理解しないといけないの。そんな当たり前のことができないの。これが意味理解の呪いよ」

「でも、日常会話は難しくても、特定の仕事に特化したチャットボットとかならできるよね。商品の注文や申し込みができるAIチャットボットなんかよくあるじゃない」
「IBMのワトソンを使ったチャットボットサービスね。あれは、手作業で全て登録しないといけないので結構大変なのよ」
「大変って、どのくらい?」
「たとえば、セミナー申し込み受付チャットボットを作る場合、お客さんが入力しそうな文を全て登録する必要があるの。次のようにね。

・セミナーに申し込みたい
・セミナーを受けたい
・セミナーを受講したい
・セミナーに申し込みをしたい
・セミナーに参加したい」

「えー、こんな細かいこと、全部登録しないといけないの?」
「そうよ。これでも、もし、お客さんが『セミナーの申し込み方を教えて』って入力すれば、『その質問は登録されていません。別の質問を入力してください』ってなるのよ」
「意味を理解せずに文字だけで判断するからこうなるのか。これだと、登録作業する人件費のほうが高くなってしまうなぁ」

「だから中には、AIが答えられない場合は人に交代したり、そもそも最初から、裏で人が回答してるAIチャットボットもあるわ」
「それじゃ、本末転倒じゃない? でも、本家本元のIBMのワトソンは、テレビのクイズ番組で優勝したんでしょ。あれは、裏で人が答えてるわけないよね」
「当り前よ。あれは、IBMが膨大なデータを入力したからクイズ番組で優勝できたってわけよ」
「意味理解せずにAIで対話しようとするのは、これほど大変なのかぁ。まさに、意味理解の呪いだよなぁ」
「ようやくわかってきたようね」

 

会話をゲームとして考える

「う~ん、でも、ディープラーニングって、翻訳や画像認識以外にも、囲碁や将棋みたいなゲームでも成功したじゃない。それを使えないかなぁ」
「どういうこと?」
「たとえば、会話って、二人の人が交互に話すじゃない。それって、一種のゲームじゃない?」

「会話をゲームとして考えるのね。面白そうね。ゲームとして考えるんだったら、まずは、ルールが必要よね。会話のルールって何かしら?」
「将棋の駒の動きに対応するのは言葉のルール?つまり文法かなぁ」
「確かに文法は文を作るのに必要ね。でも、それより重要なのは、相手の発言に対してどんな返答をするかってことよ。将棋の場合、次の一手はどうやって決めるのかしら?」
「たぶん、相手の王将に近づくように駒を進めるんだよね」
「何のために?」
「そりゃ、相手の王将を取るためじゃん」
「そうよね。それが目的だものね。つまり、ゲームを進めるには、目的が必要なの」

「なるほど、目的が決まれば、次にどう動けばいいいか分かるのか。会話も目的が分かれば、返答が決まるのかぁ……。あっ、もしかして、意味理解って、目的に関係するんじゃない?」
「意味理解の謎に近づいてきたわね!」
「将棋は、相手の王将を取ろうとして駒を進めるわけだ。それが、相手の王将から離れるように駒を進めたりすると、『あれ、どういうこと?』と相手は思うわけだ。これは、まさに、将棋の意味を理解していないってことになるよ」
「そう。王将を取るって目的を二人とも理解してるからゲームが成り立つものね」
「うん、会話も同じじゃん。自分の言いたいことと関係のない返事が返ってきたら、言いたいことが理解できてないと思うし」
「つまり、相手の言いたいことが分かるってことが会話の目的よね。じゃぁ、会話で言いたいことって何かしら?」
「う~ん。それが分かんないんだよなぁ?」
「それじゃぁ、具体例で考えてみましょう。

『お年玉で1万円もらったんだよ』
って子供が言いました。さて、次の3つのうち、正しい返答はどれでしょう?

  • 『そりゃ、よかったね』
  • 『1万円札って、タテはピッタリ76ミリなんだよ』
  • 『サザエでございま~す』

さて、どれが正解でしょう?」
「そりゃ、1番でしょ」
「なぜ?」
「だって、会話が成立してるのは1番だけじゃない」

 

感情の理解

「伝えたいことが伝わってるってこと?」
「そう」
「じゃぁ、この場合、その伝えたいことって何」
「1万円もお年玉もらって嬉しいってこと?」
「そう、自分が嬉しいってことよね。じゃぁ、逆に、2番は、なぜだめなの?」

「2番は、どこからツッコんでいいか悩むけど、とりあえず、76ミリはピッタリじゃないし」
「確かに、そこは気になるわねぇ。それから?」
「その子の言いたいことが伝わってないでしょ。その子にとって、1万円札のタテの長さなんてどうでもいい話しじゃん。言いたいのは、そこじゃねーし」
「うん、そうよね。知ってる知識を答えただけじゃ会話にならないわよね。じゃ、3番は?」

「3番は、そもそもサザエさんは、全然、関係ないじゃん」
「あら、意外とマジメに答えるのねぇ」
「ここは、ちゃんとするとこでしょ」
「そうね。まとめると、この子が伝えたかったのは、嬉しいってことよね」
「そう。嬉しいが伝わってないと、会話が成立しないよ」
「あと一歩よ。じゃぁ、嬉しいをもっと一般的な言葉で言うと何になる?」
「えーとっ……? 感情……?」

「そう、感情よ。それが答えよ」
「伝えたいことって、感情ってこと?」
「そう。ある人が誰かに話を聞いてほしいって思うのは、自分の感情を分かってほしい場合なの」
「その感情が伝われば、会話が成立するってこと?」
「そう。嬉しいって感情が伝わったことを示したのが『そりゃ、よかったね』になるわけよ」
「うん、うん、確かに」

「『庭のアサガオが枯れてしまったの』と言われれば『それは悲しいよね』と答えれば、会話が成立するの」
「おぉ、確かに! 感情さえ外さなければ会話になるんだ! つまり、会話の目的って、感情を見つけるってこと?!」
「そう! ついに、意味理解の謎を解いたようね」
「意味理解の呪いは、感情で解けるのかぁ」

「そうよ。自然言語処理最大の課題、意味理解は感情を中心に整理すれば解決するのよ」
「なるほど。感情で整理するって人が作ったルールよね。人が作ったルールに従って処理するのは記号処理。つまり、意味理解は記号主義が勝利したってこと?」
「そんな単純な話じゃないわ。ルールが決まればディープラーニングで学習することも可能よ。でも、さっきも言ったけどディープラーニングでは新しいルールを見つけることはできないの。ディープラーニングでできるのは、ルールに従う最適な解や特徴を見つけること。つまり、コネクショニズムと記号主義では、担当するとこが違うってことよ。どちらも必要なの」

「そういうことかぁ。ここで重要なのは、感情に着目すれば意味のある返答ができるってことだよね。でも、ちょっと待って。『お年玉で1万円もらったよ』に『そりゃ、よかったね』って返答しただけじゃ、そこで会話が終わってしまうよ。会話って、続かないと意味ないじゃん」
「それじゃぁ、たとえば『お年玉で何を買おうか?』って聞けば会話が続くよ」

「でも、それは感情とは関係ないよ。ただの質問じゃん」
「そんなことないわ。何か好きな物を買うこと考えるとワクワクするわよね。これって感情じゃない?」
つまり、感情を呼び覚ますような質問をすることも会話になるってこと?」

「そう、質問でも呼びかけでも、感情を呼び覚ませば会話が弾むの。逆に、感情が発生しないこと言われても、あまり会話が続かないわ。たとえば『他にも76ミリがないか、探してみましょう!』とか言われてもワクワクしないでしょ」
「うん、『おやおや、こんなとこに76ミリがありましたぜ。ウヒヒヒヒ』なんてならないしなぁ」
「そう。だから、『1万円札のタテの長さは76ミリ』なんて知ってる知識を答えただけじゃ会話にならないの」

「まとめると、ある出来事を誰かに伝えたいって思うのは、その出来事で何らかの感情が発生したわけだよね」
「そう。伝えたいことが何にもないとしゃべらないでしょ。たとえば『昨日の夕方、公園に行ったら男の子が砂場で遊んでいたよ』と言われたら何て答える?」
「えーと、『だから何?』って聞くかなぁ?」

「そうでしょ。それって、何が言いたいかわからないから聞いたんでしょ。じゃぁ、こう続いたらどうかしら。『よく見ると、その子の体が透けていたの』」
「えっ、どういうこと?」
「不思議に思ってその子を見ていたら、こっちに向かって歩いてきたの」
そう言うと、部屋が薄暗くなり、いろはちゃんは男の子に変身して仁君にゆっくりと近づいてきました。そうして、目の前まで来ると、仁君を見上げて言いました。
「お兄ちゃんには、僕が見えるの?」
「うわ~!」そう言うと仁君は泣きそうになりながら、その場に崩れ落ちていきました。

 

このエントリーをはてなブックマークに追加

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です