2017年12月26日掲載 ITトレンド全般 InfoCom T&S World Trend Report

AI(人工知能)との向き合い方~AIビジネスのかたちを考える



IoT・ビッグデータ・AIが注目されて久しいが、各々どの程度身近になってきたのか捉えがたいのではないだろうか。もちろん、これらは相互に関連し、相乗効果を出して、ビジネスや生活に役に立つものであるが、本稿では、そのうちのAI(人工知能)について概略を見ていきたい。

AIで何かできるのか?

まず、気になるのは、AIで「何ができるのか」ということであろう。

日々、マスメディア等では、AIで新たに可能になったことが報道されている。例えば、2016年に韓国のプロ囲碁棋士イ・セドルにAlphaGo(Google傘下のDeepMind社のAI)が勝ち、2017年には、AlphaGoの進化版 (AlphaGo Zero) は人間が打った棋譜を与えなくても機械同士の対局を3日繰り返すことでこのレベルまでに達するという論文も発表された。一方、日本でも2014年にソフトバンクよりコミュニケーションロボットPepperが発表され、ロボットやAIが注目され、2017年には、音声アシスタント搭載スピーカーのGoogle Home、Amazon Echo、Clova WAVEが日本語に対応して、1万円台という身近な価格で相次ぎ発売された。このような状況を見ていると、読者の方々はAIは何でもできるようになったのかとか、手の届く範囲のAIと実用まで遠い研究レベルのAIをどう考えれば良いのか、と思うのではないだろうか。以下ではどのようなものが実用に近づいているのか考えたい。

 汎用か、特定用途か

AIの定義は一義的に定まらないが、“人工的につくられた知能”というのが最大公約数的なところと言えるだろう(表1)。知能を使う範囲と深さが人間と同等であれば、ヒューマノイド(人型ロボット)も目前かもしれず、こうしたどんな場面でも使える知能は汎用人工知能 (AGI : Artificial General Intelligence) と呼ばれる。しかし、現在のところは特定用途についてのみ、人間と遜色ない、または超えるレベルまで到達しているのが実際のところだと言える。囲碁におけるAlphaGoは囲碁の分野で人間を超えるレベルにまで到達しているが、これはこの分野でのみ研究レベルで進んでいるものであり、実用化しつつあるのは、音声アシスタント搭載スピーカーのような特定用途向けのみと言えるだろう。

国内の主な研究者による人工知能 (AI) の定義

【表1】国内の主な研究者による人工知能 (AI) の定義
(出典:総務省『平成28年版情報通信白書』)

ちなみに、汎用か、特定用途か、ということと近い議論に、「強いAI」と「弱いAI」という話がある。これは、哲学者のジョン・サール (John Searle) が1980年に「脳、心、プログラム」という論文で心の研究について示した概念で、弱いAIとは、“コンピューターの主要な価値は、それが私たちにとって有用な道具であること”という見方である。一方、強いAIとは"適切にプログラムされたコンピューターは本当に心になる"という見方である。現在のAIは、弱いAIという見方に立ってAIの能力を実際に使っていこうという方向である。強いAIの観点では、AGI実現の前に“心”をどう考えるかということが必要になるだろう。

実用化しつつある領域

近年のAIの発展で、実用的になってきたのは、具体的にどういう分野だろうか。

 画像認識

近年注目されている分野の一つは画像認識の分野である。例えば、医療画像の解析におけるAIの活用は実用に近づいており、米国Enlitic社の画像診断システムは2015年に、豪州の医療画像診断サービス会社であるCapitol Healthが採用し、2017年には日本の丸紅が日本市場向けにEnlitic社との独占業務提携を発表した。日本でも東大発ベンチャーであるエルピクセル社が2014年に設立され、国立がん研究センターとともに画像解析によるがん診断支援ソフトウェアの開発を進めている。

音声認識・自然言語処理

また、音声認識・自然言語処理も着々と実用段階に入りつつある。音声認識は音声を文字にすることであり、文字から意味を認識しすることが自然言語処理であるが、両者は組み合わせて使われることが多い。例えば、2017年、日本でも続々と発売された音声アシスタント搭載スピーカー等は典型例であり、スマートフォンの音声認識機能、SiriやGoogle Nowの活用は定着しつつあると言えるだろう。また、ソフトバンクのPepperやヴィストンのSota、富士ソフトのPALROといったコミュニケーションロボットは音声認識・音声応答が可能であり、これらは街でもその姿が見かけられるようになってきた。もちろん、音声認識を伴わず自然言語処理だけが用いられることもあり、Google等で利用している人も多い自動翻訳も自然言語処理の一つである。

画像認識や音声認識は、昨今、急速に進歩してきた。画像認識も音声認識も人間自体の誤り率は5%程度と言われるが、そのどちらもAIの誤り率は人間と同程度にまで到達してきている(図1、図2)。画像・音声などの雑多な情報を含むデータの中から一定の規則や意味を持つ対象を取り出す処理はパターン認識と呼ばれる。音声で言うと、声の高さも発音の仕方も様々な人の音声「あ」を他の音と区別し、分類して、文字「あ」に対応させることが音声認識ということだ。様々なデータを他のデータと区別し、1つの概念と結びつけるというのがパターン認識のポイントだと言える。AIは目や耳からの情報(データ)を人間と同じようにカテゴライズできるようになってきた。これが、昨今、AIが急速に進歩している部分と言える。

画像認識の誤り率

【図1】画像認識の誤り率
(出典:”ImageNetホームページ”から作成)

Googleの音声認識の誤り率

【図2】Googleの音声認識の誤り率
(出典:VentureBeatホームページ)

AIの仕組みはどうなっているのか?

それでは、AIの使い方を見る前に、仕組みを大雑把に眺めておこう。

様々なAI

AIへのアプローチは複数あり、「一つは,人間の知能そのものを持つ機械を作ろうとする立場,もう一つは,人間が知能を使ってすることを機械にさせようとする立場」があると言われる(人工知能学会HP)。ここでは、最近のAIの活かし方を考えているので、後者の考え方に則ることとしたい。この立場からすると、理解するというのは、感覚器、即ちセンサーから入力されたデータを抽象化して、構造化することであり、判断するというのは、構造化された中身から状況に応じた最適値を探して出力することになるだろう(さらに出力がリアルタイムに物理的な動きへとつながれば、それはロボットである)。

現在、第3次AIブームと言われるが、AIについては、これまでも数々の実現方法が考えられてきた。1950年代後半から1960年代の第1次AIブームは探索・推論の時代と呼ばれ、数学の定理の証明等、論理的な処理をコンピューターができることが注目された。1980年代の第2次AIブームは知識の時代と言われ、エキスパートシステムのように専門家の考えを知識ベースとして処理させること等が注目された(図3)。

人工知能 (AI) の変遷

【図3】人工知能 (AI) の変遷
(出典:NVIDIAホームページ)

最近の第3次AIブームで注目されているのは、ディープラーニングである。ディープラーニングは、第2次ブームで開発された機械学習の進化版と考えて良く、深層学習と訳される。以下では機械学習、特に、ディープラーニングを中心にその仕組みを概観していきたい。

 機械学習

知能の働きの特徴的なものとして自ら「学ぶ」ということが考えられる。機械に学ばせるということは、一定量のデータ(訓練データ)を与えて学習させた後、新たなデータ(テストデータ)を与えたときに、想定したとおりの理解や判断ができるかどうかということである。単純な例としては、手書きの数字をたくさん入力して学習した後に、新たに書いた手書きの「5」を「4」ではなく、「5」に対応させられるかということである。これは推論と呼ばれる(図4)。

学習と推論

【図4】学習と推論
(出典:MNISTを用いて作成)

学習の方法としては、以下の3つが考えられる(図5)。1つ目は入力されたデータに対して人が考えた一定のやり方、即ち、アルゴリズムによって答えを出す方法である。2つ目はデータについて人が特徴を分析し、それを定量化して定義した特徴量を訓練データとして入力して学習させる方法である。3つ目は機械に人間が特徴量等を検討せずに、直接多数の入力をして、その後学習をさせ、新しい入力に対して人のように正しく識別できるようにする方法である。ディープラーニングは第3の方法と言える。第1の方法から第2、第3の方法と人間の関与が減っていくが、第1、第2の方法は人間が特徴を抽出する必要があり、これが思いのほか難しく、一つの壁になっていた。例えば、人の画像と猫の画像を識別する際の特徴を機械に分かるようにどう定義するかとか、人間のAさんとBさんの画像を識別する方法を客観的にどう説明するか、などのような難しさがあったわけである。ディープラーニングは人間の関与を減らして、その代わりに大量の計算をすることにより、コンピューターが自分自身で特徴を数値式にできるようにした方法と言えるだろう。

「機械」にデータから学ばせる手法

【図5】「機械」にデータから学ばせる手法
(出典:『ゼロから作るDeep Learning』斎藤康毅、オーム社、2016 より作成)

ディープラーニングはニューラルネットワークを多層に結びつけたものである(図6)。これは人間の脳の神経細胞、ニューロンを模したものと考えられている(図7)。人間の脳の神経細胞はたくさんの他の神経細胞から電気信号を受け取り、それを処理して次の神経細胞へ電気信号を送る。この入り口にあたるシナプスの伝達効率がそれぞれシナプス毎に異なっており、シナプスの伝達効率の分布全体が学習や記憶であると考えられている。

ディープラーニングのイメージ

【図6】ディープラーニングのイメージ
(出典:各種資料をもとに筆者作成)

 

人間の神経細胞(ニューロン)

【図7】人間の神経細胞(ニューロン)
(出典:http://www.jst.go.jp/pr/announce/20120120/index.html)

AIにおけるニューロンも、多くのシナプスに相当する入力を処理して1つの出力を出す(図8)。単純な計算を多数行うことにより、入力に対して適切な出力をしようとするものだ。ニューロンの動作は、前の層のニューロンの出力を重みパラメータ (w) に掛け算してそれに定数 (b) を加え、それをある関数(活性化関数)にあてはめて値を出力するというものだ。1つのニューロンは掛け算と足し算と関数グラフへの当てはめだけという単純な計算しかやっていない。人間の神経細胞も一つ一つは複雑なことをしていなくても複雑な学習や記憶ができるのはシナプスの伝達効率の分布全体によって可能にしているのと同様に、重みパラメータ (w) と定数 (b) の全体が学習を表現しているからだ。AIが学習する際は、訓練データが出力層で正解になるように重みパラメータ、定数を調整していくことになる。一方、学習の後、推論する際には入力側にデータを入れて、各層を順次算出し、出力するのである。 

ニューロンの動作イメージ

【図8】ニューロンの動作イメージ
(出典:各種資料をもとに筆者作成)

複数の層のニューラルネットワークは活性化関数を曲線や折れ線(非線形関数)にすることにより、滑らかな識別ができることが知られている(図9)。近年、ディープラーニングが成果を上げているのは、主に、ニューラルネットワークを多層にすることや、計算の工夫・大規模化によるものである。

多層ニューラルネットワークによる 識別のイメージ

【図9】多層ニューラルネットワークによる識別のイメージ
(出典:各種資料をもとに筆者作成)

このように、機械学習における学習の結果というのは、入力に対してコンピューターが特徴を抽出した数値式、または数値式の集まりと言える。この数値式の出力値が認識や判断の結果を示すこととなる。学習するということは、訓練データをもとに出力に向けた数値式の最適な重みパラメータの値を自動的に設定することに他ならないのである。 

3つの学習

AIの仕組みを考える上では、3つの学習についても触れておく必要があろう。「教師あり学習」、「教師なし学習」および「強化学習」である。

まず、「教師あり学習」であるが、例題と正解をペアで与えて学習する方法である。実は上述してきたことは基本的に「教師あり学習」について述べている。細かく言うと、訓練データ(例題)と正解データのペアを多数与えて、出力への数値式を決定するという学習である。

2つ目の「教師なし学習」は、学習データだけを与えることでデータの傾向を学習することであり、広い意味でのクラスタリングと考えられる。膨大なデータから相関関係やパターンを見つけることにより、データの構造を見つけ出すことと言える。

3つ目は、「強化学習」である。これは、「教師あり学習」、「教師なし学習」とは異なり、一連の行動の結果だけに報酬を与えることで、そこに至るまでの一連の行動を評価させ、報酬を最大化するための意思決定の仕方を学習させるものである。例えば、ゲームのように1手1手の良し悪しより勝ちという最終的な結果を求めるものに適用される。一定期間の運用実績を求める株の売買なども「強化学習」の対象と言える。囲碁でAlphaGoがイ・セドル棋士を破ったのも、ディープラーニング×「強化学習」の成果である。

AIはどう使えば良いのか? AIビジネスはどうなっているのか?

これまで、AI、特にディープラーニングの仕組みを概観したが、これをどう使っていくのか、そのビジネスはどういう形になってきているのか考えたい。

AIを使う形態は、大きく分けて2通りあると言える。

1つ目は、GoogleやAmazon、Microsoftがクラウドで提供する学習済みモデルをInternet等を通して使う形態である。例えば、機械翻訳APIを使ってホームページの顧客入力フォームのコメントを翻訳するなどは比較的容易にできる。

2つ目は、ライブラリ等のツール類を用いたり、クラウドハードウェアを利用したりして、自ら開発する形態である。音声認識や画像認識のような汎用性のあるものは上述のように学習済みモデルも使えるようになってきているが、IoT等で自らデータを収集してきたものをAIで処理したい場合などは、学習済みモデルを使えないので、プログラムを開発し、学習モデルを構築する方法をとる必要がある。

それでは、現在利用できるAIのツールやサービス等について見てみよう。

人工知能 (AI) 活用への流れ

【図10】人工知能 (AI) 活用への流れ ~ディープラーニングを中心として~
(出典:各種資料をもとに筆者作成)

AIを開発するためのツールとしては、まず、アルゴリズムがある。AIというと幅広いが、ディープラーニングにも画像認識に強いもの、音声認識に強いもの等、様々であり、自ら開発するためには適切なものを選択する必要がある。また、アルゴリズムをソフトウェアとして開発するためのライブラリも各種提供されている。また、機械学習のためのデータが必要であり、良質で大量のデータが用意できるかがAIの開発競争の一つのポイントである。さらに、学習のために大量の計算が必要であり、大量処理・高速化のためのハードウェアも工夫されている。

これらのアルゴリズム、ライブラリ、学習データ、ハードウェアを用いることにより、機械に学習させることができるようになり、学習の終わった状態、学習モデルができる。これは仕組みの項で述べたように"数値式"であり、AIの性能を決める部分である。この学習モデルを利用方法に合わせたアプリケーションとして実際に活用することになる。AIの良し悪し決める学習モデルの部分をサービスとして提供するビジネスも出てきており、AIプラットフォームと呼ばれることもある。

アルゴリズム

AIをゼロから開発する際は、様々なアルゴリズムからどれを使うかを選択する必要がある(次ページ図11)。AIの研究の最重要部分の一つがアルゴリズムの研究であり、大企業によるスタートアップ企業の買収や人材の獲得合戦が起きている。これまで注目された話としてはGoogleがジェフリー・ヒントン (Geoffrey Hinton) 氏のいるDNNresearch社を買収(2013年)したり、デミス・ハサビス (Demis Hassabis) 氏のいるDeepMind社を買収(2014年)したり、Facebookがニューヨーク大学のヤン・ラカン (Yann LeCun) 氏の監督のもとシリコンバレー、ニューヨーク、パリに人工知能研究所を作ったりするといった動きがある。

人工知能アルゴリズムの大まかな分類

【図11】人工知能アルゴリズムの大まかな分類
(出典:『インターフェース』2017年12月号、CQ出版社に筆者加筆)

以下にキーワードとなるアルゴリズムについて簡単に触れてみたい。

畳み込みニューラルネットワーク (CNN : Convolutional Neural Network)

画像認識の精度向上に効果があるとされ注目されているアルゴリズム(図12)。基本となるニューラルネットに、畳み込み層 (Convolution Layer) とプーリング層 (Pooling Layer) と呼ばれるフィルターが組み込まれているのが特徴である。フィルターというのは、ある画素の周辺の画素のデータを重みを付けて加算したり、合算して小さくすることであり、これにより特徴を抽出しやすくできるとされている。

畳み込みニューラルネットワーク (CNN)

【図12】畳み込みニューラルネットワーク (CNN)
(出典:Deepage.netホームページ)

再帰型ニューラルネットワーク (RNN : Recurrent Neural Network)

SNS上での問いかけに自動的に応答する「りんな」や自動翻訳などの自然言語処理、その他、時系列等の連続的に続いていく情報に対して効果があるとされるアルゴリズム。学習する際に前の時刻のデータを合わせて学習することが特徴とされている。

Deep Q-Network

強化学習のためのアルゴリズム。今取りうる選択肢の中から最も評価される行動をとるというQ-Networkという手法に、ディープラーニングを取り入れたもの。前述したGoogleの囲碁AIのAlphaGoで採用されていることで知られている。

ライブラリ

AIのソフトウェアを開発し、学習モデルを構築するためにはプログラムをコーディングする必要があるが、共通的な部分は既に出来上がったものを使うのが良いだろう。そのようなライブラリ(フレームワークと呼ばれることもある)も各種出てきている(表2)。ディープラーニング向けのライブラリとしては、Tensorflow、CNTK、MXnet、Theano、Chainer、Keras等が良く知られており、これらのライブラリはオープンソースとして無料で利用できるようになっている。

ディープ・ラーニング向けのフレームワーク/ライブラリ

【表2】ディープ・ラーニング向けのフレームワーク/ライブラリ
(出典:『インターフェース』2017年12月号, CQ出版社より筆者作成)


以下に代表的なライブラリについて簡単に解説する。

Tensorflow

Googleから2015年に公開された数値計算用ライブラリ。Googleから公開されていることもあり、人気が高く、開発者サイトGitHubでも多数のコードが公開されている。多くの書籍等も発行されており、情報量の多さがユーザーの多さにつながっている。デスクトップ、サーバー、モバイル端末等幅広く対応している。

CNTK (Cognitive Tookit)

Microsoftが2015年に公開したディープラーニングのためのライブラリ。CNN、RNN等標準的なモデルを簡単に実現可能としており、複数のGPUやサーバーを使って大規模演算が高速にできることを特徴としている。Microsoftのクラウド (Azure) 上で実行できる。

MXnet

Apacheソフトウェア財団が供給している学習・推測のライブラリ。2016年にAmazonがAWSの深層学習フレームワークとして採用すると発表した。プロトタイプの作成、学習、展開を簡単にするための抽象化された(細かいコーディングを減らす)インターフェイスを特徴としている。

Theano

モントリオール大学で2007年にディープラーニングを意識して開発されたPython用の数値計算ライブラリ。AI冬の時代と言われたころから第3次AIブームに至るまでの時期に開発されてきて、2017年に10年かけてバージョン1.0となったが、開発中止が発表された。

 Pytorch

Facebookから2017年に公開されたライブラリ。研究向けに公開されており、最新研究をいち早く実装する傾向がある。

 Chainer

日本のAIベンチャー企業、Preferred Networkにより2015年に公開されたライブラリ。比較的簡単に、直感的にコーディングできるインターフェイスを持っている。時系列に適するRNNのプログラムが開発しやすいと言われる。

 Keras

インターネット上の"https://keras.io/"で公開されているライブラリ。プログラム実行の際には、このライブラリから上述したTensorflowやCNTK、Theanoを利用するようになっている。拡張性が高く、初心者にも扱いやすいため、人気がある。

 これらライブラリは、大学で作られた老舗のライブラリであるTheanoが2017年に開発中止となる一方、同年にFacebookのPytorchが公開されたように、研究フェーズからデジタルジャイアントと呼ばれる企業が開発に力を入れるという実業フェーズになっているのが分かる。

ハードウェア

AIの利用に向けたハードウェアも注目されている。特にディープラーニングの学習には非常に多くの演算量がかかるため、これを高速に処理することが必要である。このために、並列処理に強いプロセッサー(処理装置)の活用や専用プロセッサーの開発が注目されている。並列処理に強いプロセッサーとしては、GPU(画像処理装置)に注目が集まっている。特にGPUのメーカーの最大手であるNVIDIAには注目が集まっており、AMD、インテル、ARMといったプロセッサーの有力メーカーもGPUの製品群を展開している(表3)。

主なGPU製品群

【表3】主なGPU製品群(出典:『インターフェース』2017年12月号、CQ出版社)

また、ディープラーニング専用のプロセッサーを開発するという動きもある(図13)。GoogleはTPU (Tensor Processing Unit) と呼ばれるASIC(Application Specific Integrated Circuit:特定用途向けIC)の開発を2014年から始め、2015年より利用を開始しているという。プログラミング可能な半導体チップ (Field Programmable Gate Array : FPGA) をAI向けにプログラミングして使うという方法もあり、MicrosoftはクラウドサービスのAzureでこれを活用している。また、AmazonのクラウドサービスAWSではFPGAによるコンピューティングアクセラレーター機能の提供も行われている。

DNN (Deep Neural Network) 用ハードウェア

【図13】DNN (Deep Neural Network) 用ハードウェア
(出典:https://www.microsoft.com/en-us/research/blog/microsoft-unveils-project-brainwave/)

ところで、「なぜGPUやTPUが必要なのか? CPUではダメなのか?」という疑問もあるだろう。これについて少々触れてみたい。

GPUやTPUが必要な理由は、一言で言うと、学習の際の演算量が多いからである。前述したとおり、学習というのは数値式を求めることであり、各ニューロンから次の層のニューロンへの重みと定数を算出することである。例えば、簡単な手書きで作られた0~9の文字認識のベンチマーク用データセットであるMNISTを1層のニューラルネットワークで学習させようとすると、28×28の入力と10の出力と10の定数が必要なので、28×28×10=7,840個の重みと10の定数を求める必要がある。ディープラーニングの場合、これに層の数を乗じた数となる。10層であれば10倍だ。これらについて訓練データ6万枚に最も良く合うような値を求める必要があるのだ。また、コンピューターによって数値解を求める場合は、人間のように逆演算で求めるのではなく、数値を入れてみることを繰り返すことによって誤差の最も少ないものを解とするという方法となるので、計算量が莫大に増えるのである。3+x=9をx=9-3とは計算できず、xに1,2,,,6と代入していくイメージである。

また、なぜCPUではなくGPUかという問いについて考えよう。CPUはすべてのコンピューターの動作に対応すべく、例外処理等も上手くさばけるように作られている。一方、ディープラーニングにおける学習時の演算は、ひたすら足し算と掛け算、即ち積和演算をやり続けるだけであり、これに特化したプロセッサーの方が相応しい。画像のための座標計算等を高速に計算するためのGPUは定型かつ大量の演算を並列に処理するように作られており、ディープラーニングの演算に丁度良かったわけである。もちろん、特定用途向けとしてのASICの開発はこの延長線にあるわけだ。

学習データ

ハードウェアの計算能力と共に重要なのが、学習データである。学習のためには大量のデータが必要であり、バランス良く質の高いデータである必要がある。Googleのようなデジタルジャイアントは毎日、世界中のWebサイトの画像や文章の情報を入手したり、SNS等の情報を入手したりできるため、AIの競争の中で有利なポジションにいるとされる。

企業買収によるデータの入手という動きもある。例えば、IBMの動きは興味深い。IBMは医療用画像解析を行うMerge Healthcare社を2015年に買収したが、その狙いの一つが合計300億のレントゲン写真、MRI、CTスキャン画像と考えられている。また、同社が2016年に買収したTruven Health Analyticsは米国の連邦政府や州の機関、またその従業員組合、健康保険会社、生命保険会社等の保険請求、治療内容、医療費詳細を持つとされる。さらに、2017年、日本IBMが気象情報提供サービスを開始したが、これは2016年に買収したThe Weather Company社の予測モデルや気象データを活用して気象のビジネスへの影響について予想等を行うサービスである。

無数にあるデータの中でも、画像や文章、音声は汎用性が高いデータで、急速に進化しているパターン認識に使われることもあり、重要度が高いと言える。こうしたデータは共有データセットとして公開されるようにもなっている(表4)。例えばニューヨーク大学から公開されたMNISTというデータセット(上述)は手書き画像に対して正解データが付されたものであり、画像認識の入門用のデータとして、学習、評価に良く利用されている。

主要な共有データセット

【表4】主要な共有データセット
(出典:『AI白書 2017』情報処理推進機構)

また、今後、特化した領域にAIを適用するためには、それに相応しい学習データの入手が鍵となる。それぞれの企業が入手したり、アライアンスによりパートナーから入手したり、場合によっては公的機関からということもあるかもしれない。例えば、医療分野では上述したように日本のベンチャー、エルピクセル社は国立がんセンターと共同で研究しているし、米国のEnlitic社は顧客となる医療画像診断サービス会社からのデータを利用する一方、米国がんセンター (NCI) が公開しているTCIA (The Cancer Imaging Archive) を用いた検証をアピールしている。

AIプラットフォーム(共有クラウドAI)

大量かつ高品質な学習データと高速なハードウェア、さらにAIに関するノウハウによって作られた学習モデルはAIビジネスにおける競争力の源泉である。Google、Amazon、Microsoftといったデジタルジャイアントはこれをビジネスにする形として、利用者がクラウド上で学習モデルを使うことができるようにしている(表5)。

【表5】主要な共有クラウドAI(出典:『AI白書 2017』情報処理推進機構)

【表5】主要な共有クラウドAI(出典:『AI白書 2017』情報処理推進機構)

GoogleはGoogle Cloud Machine Learningというサービスとして動画分析や画像分析、音声認識、テキスト分析、翻訳、ジョブ検索・発見ツール等をAPIという形でクライアント端末から呼び出して使えるようにしている。基本的に分単位等の従量課金で提供している。

AmazonはAmazon AIという名前で学習モデルをクラウドサービスAWS上で使えるようにしている。これは処理数に応じた従量課金である。また、仮想サーバー、Amazon EC2のサービス上でディープラーニング用のソフトウェアが使えるように、マシンイメージ"Amazon Deep Learning AMI"として起動に必要なOSやアプリケーションサーバーを提供している。また、こうした上でMXnetのようなAI用のライブラリを利用可能にしている。

Microsoftも学習モデルをAPIとして提供するとともに、利用者が自分で簡単に機械学習モデルを利用し、それをAPIとして提供することもできるようなクラウドサービスを開始している。Machine Learning Studioではプログラミング不要で機械学習を使うこともできる。 

アプリケーション

AIの利用形態としては、身近なところではスマートフォンやPCの音声認識や音声アシスタント搭載スピーカーなどがある。また、インターネットの検索やショッピングサイトのレコメンド機能としても既に利用されていると言えるだろう。これからは、利用者が自分が使いたい形でAIを使うことができるかが重要になってくる。AIプラットフォーム等を使って比較的手軽に取り組むか、適切なアルゴリズムを選ぶところから始めてプログラムを開発し、学習モデル構築を行うといったように利用者の使い勝手に合わせて特化した最適なものを作り出すか、という選択肢が持てるようになってきたと言える。

これからどうなるか?

10年以上先の将来を考えると、AIは人間を凌駕するか? といったシンギュラリティの話などになってしまうが、近い将来のAIの使い方という観点で考えてみたい。

ハードウェア、計算資源の観点からすると、現在の進歩は衰えを知らないスピードで進んでいくであろうし、クラウド等を利用して使いやすさの点でも身近になっていくだろう。ポイントは学習データの取得とこれを適用できる人材だと思われる。これまで述べたように画像や音声認識といった汎用性の高いものはAIプラットフォームのAPIの形で使えるだろう。しかし、それぞれの企業における特定の業務にディープラーニング等のAIを適用しようとした場合は、学習データの入手から適切なアルゴリズム等を使った学習モデルの作成までを企業毎に実施する必要があり、データの入手と企画・開発をするための人材が求められることになるだろう。

また、技術の面で注目したいのは転移学習である。一定程度、学習した学習モデルをベースに特定用途の学習データで学習させることにより、特定用途に適した学習モデルを作り出すことであり、適用範囲を容易に広げられる技術として期待できる。

幅広く活用可能で、将来も大きく広がるAIであるが、身近な仕事や生活が少しずつ良くなっていくための技術としても期待したい。


【お詫びと訂正】
2017年12月26日に掲載した本原稿において、コミュニケーションロボットの名称について表記に誤りがございました。
お詫びして訂正させていただきます。大変失礼いたしました。

■誤表記内容
誤「富士ソフトのPalmi」
正「富士ソフトのPALRO」


※この記事は会員サービス「InfoCom T&S」より一部無料で公開しているものです。

関連レポート

会員限定レポートの閲覧や、InfoComニューズレターの最新のレポート等を受け取れます。

ICR|株式会社情報通信総合研究所 情報通信総合研究所は情報通信のシンクタンクです。
ページの先頭へ戻る
FOLLOW US
FacebookTwitterRSS