AI開発をリードするAppen Japanが日本市場の未来を予想
Appen Japan(アッペンジャパン)の代表取締役、吉崎哲郎さんへインタビュー。世界トップクラスのトレーニングデータによるAI開発をリードする同社が考える日本市場の未来、そしてAIと切り離せないアノテーションとは?実際にお聞きしました。
(当記事は2022年11月29日に公開されたもので、吉崎哲郎氏の役職は当時のものです)
目次
Appen Japan(アッペンジャパン)とは
Appen(アッペン)は、オーストラリアのシドニーに拠点を置く1996年設立の企業。
データソーシング、データアノテーション(※)、モデル評価において26年目となる経験を持ち、170か国、235を超える言語を話す100万人以上の熟練したクラウドワーカーと、独自のAI支援データアノテーションプラットフォームからなる専門性によって、AI開発をリードしています。
※ データアノテーション:機械学習を実施するうえで、莫大な量のデータそれぞれがなにを意味しているのか正解を用意する必要があり、それを作成していく作業を指す。吉崎さんにくわしくお聞きしたので、後述します。 |
テクノロジー、自動車、金融、小売、ヘルスケアなどの各業界、あるいは政府のリーダーたちに、世界クラスのAI製品の展開を支援。
現在(2022年11月時点)世界に9支社を構え、そのうち日本支社(Appen Japan)は2021年に設立されました。急激な成長を遂げている日本の人工知能分野において、ハイクオリティーな学習データの普及によって、さらに市場の発展を加速させています。
きたる2025年、日本では団塊の世代がすべて75歳以上の後期高齢者になります。少子化も進むなか、AIへの期待値は他国と比べても特に高いといえるでしょう。 IDC Japan 株式会社によると、2020年~2025年の国内AIシステム市場の年間平均成長率は25.5%で推移すると予測されています。
▶参考: IDC Japan 株式会社「国内AIシステム市場予測を発表」
今回のインタビューでは、日本におけるAI発展の戦略、そしてその未来についてお伺いしました。
Appenのケイパビリティ
―御社は26年目となる実績がありますが、吉崎さんの考えるケイパビリティをお伺いできますか?
アッペンジャパン株式会社 代表取締役 吉崎哲郎さん(以下、吉崎さん):3つのポイントがあると思っています。
まずは、グローバルに展開するAIモデル開発分野の経験値ですね。
1996年に創業し、音声、言語分野からスタートさせ、検索エンジンの検索結果の関連性を調べたり、画像、動画、自動車の自動走行関連と、どんどん分野を広げていったりしているので、それぞれの専門領域の経験値が非常に高いというのは1つのポイントだと考えています。
あと、トレーニングデータをつくる際に「アノテーション」と呼ばれる、データにそれぞれのタグ情報をつけていく作業をするんですけども、自社でそのプラットフォームを開発しているというのが2つめのポイントですね。
最後に、全世界に100万人を超えるクラウドワーカーを抱えているというのが3つめ。
言語や画像を収集したり、翻訳したり、いろんな業務に携わっていただいています。
―それがAIの学習データになるわけですね。
100万人以上ってすごいですね。
吉崎さん:日本にいらっしゃる方はそのうち2万人くらいなんですけど、もっと増やしていきたいなーと思っています。
―なにか現時点で増やすための工夫などはされているのでしょうか?
吉崎さん:まだあまりできていないんですけど、Appenという会社や、そういった仕事があるということが知られていないと思うので、認知度を上げるための宣伝活動をしていきたいと思っています。
今YouTubeなどで「Appen」と検索すると、「副業」というワードが多く出てくるんですが、英語が堪能じゃないとできないんじゃないか、などくわしい内容が正確に広まっていない状況なので、どういう会社で、どういう仕事ができて……というのをもっと広めていきたいですね。
アノテーションとは
―「アノテーション」について、もう少しくわしく教えていただけますか?
吉崎さん:AIモデルを開発する際に、「教師データ」という学習データが必要になるのですが、音声やテキスト、画像、動画などに必要なタグ情報を付与します。
音声データだったら書き起こしデータを、物体検知の場合は、人のボディや顔部分にバウンディングボックス(※2)を配置するなど。
※2 バウンディングボックス:主に画像やシェイプ、テキストを囲む長方形の枠線のこと。画像編集ソフトなどにおいて、一部を加工するときに用いられる機能として認識している方もいるかもしれないが、つまり、物体検出の際にそれぞれの領域を区切る矩形を指す。 |
吉崎さん:たとえば写真を見て顔認識するとなると、顔がどこにあるのか、バウンディングボックスで囲って、その人の性別や居住地域といった属性情報を与えて学習させるんです。
あと機械翻訳する場合は、音声やテキストに対して該当する翻訳文章を書き起こします。
それをアノテーションといいます。
―AIで音声を文字起こししてくれるサービスも増えていますが、個人的にはまだ任せられず、もう少し精度が上がったらうれしいなーと思っているんですけど、それもアノテーションによって学習量が増えれば増えるだけ、人間の聞き取り力に近づいていくということでしょうか?
吉崎さん:そうですね。いろいろなデータをもとに学習していくことで、より書き起こしの精度が高まったり、「フィラー」と呼ばれる間をつなぐような言葉や相槌など不要な部分を抜いたり、より便利になっていくと思います。
日本市場の特徴
―2021年に日本法人を立ち上げることになった経緯についてお伺いできますか?
吉崎さん:私自身は今年の3月から着任したので、お話しできる範囲でご説明しますね。
それまでAppenでは米国やヨーロッパ、中国を先行して市場開拓を行っており、日本については本社のオーストラリアや中国のチームがリモートでビジネスを展開していたんですが、そのときすでに20社くらいお客さまがいらっしゃったんですよ。
それで徐々に日本のAI市場も成熟しつつあると考え、法人設立し、投資も活発に行いはじめたというかたちです。
―他国と比べて日本市場の特徴はありますか?
吉崎さん:基本的にはそんなに大きく変わることはないんですけど、ほかの国と比べると日本は製造業のお客さまが多いというのは特徴の1つかもしれません。
くわえて土木・建築が盛んだという背景もあり、グローバルでは、音声や言語に関係したトレーニングデータのニーズが高いのに対して、日本では画像や動画を分析したり、分類したり、物体検知したり、といった「コンピュータビジョン」と呼ばれる領域のニーズが高いです。
あと最近では、自然言語処理を利用したAIモデル開発のニーズ、PDFやドキュメントをデータとして活用するAI-OCR(※3)と呼ばれる分野のニーズも高まっています。
もちろん自動車に関連した、自動運転やADAS(先進運転支援システム※4)需要も大きいですね。
※3 AI-OCR:AI技術を活用したOCRの仕組みやサービスのこと。海外ではICR(Intelligent Character Recognition)とも呼ばれる。OCRはOptical Character Recognition(Reader)の略で、日本語では「光学文字認識」と訳されることもある。紙に印字された文字や手書きの文字をカメラやスキャナを介してテキストデータとして読み取ることのできる技術を指し、AIを活用することでより高精度に実現させたのがAI-OCR。 ※4 ADAS:Advanced Driver Assistance Systemsの略で、その名のとおりドライバーの運転をアシストする機能のこと。「自動ブレーキ機能標準装備」や「レーンキープアシスト搭載」など。 |
日本市場におけるAI戦略
―世界的に無人で自動運転させる技術も発展しており、高齢者がますます増えていく日本においても移動手段として大きな需要を感じます。
2020年4月から道路交通法が改正されたことで、条件付きで運転者の操縦なしの自動運転が認められるようになりました(※5)よね。
※5 運転自動化なし(レベル0)~完全運転自動化(レベル5)まで自動運転についてレベル分けされており、日本では2020年4月の道路交通法改正により、レベル3の「条件付運転自動化」まで可能となった。これにより、公道でも自動運行装置を用いた走行が認められ、一定の条件下において運転者の操作が不要となった。 |
吉崎さん:今アメリカや中国で、自動車産業においてEV化と自動走行化の車両開発が盛んなんですけど、日本でもやはり自動車産業は基幹産業なので、非常に活発に開発が行われています。
自動車関連のAIの活用は日本の大きなニーズだと思います。
―自然言語処理を利用したAIモデルの開発もニーズが高まっているとおっしゃっていましたが、具体的にお話しいただけますか?
吉崎さん:人間の話し言葉や書き言葉に近い言語を入力して、なにかを検索できたり、チャットボットで応対できたり……といったニーズが高まっています。
たとえば宅急便の再配達の指定を行うチャットボットは、みなさんの生活において身近なものになりつつあるんじゃないかと思いますが、そういった、人間が実際に普段話したり書いたりしている言葉をインプットして対応していくようなAIシステムの活用は非常に多くなっていると思います。
―日本は他国と比べるとAIの技術が遅れているという話も聞くんですが、なにか考えられる理由などはありますか?
吉崎さん:いろんな要因があると思いますが、1つは圧倒的にアメリカや中国におけるAI領域の論文の数が多いんですね。
つまり、研究に携わる人口が多いんです。
日本でもようやくデータサイエンティスト科といったものが増えてきましたが、―最近では逆にそういったものばかり注目されてきてしまっている面もありますが―、やっぱりAIの開発などに携わる人数の差が大きいと思います。
コロナ禍でリモートワークする方が増えたこともあり、今まで以上にデジタルの活用を進めなくてはいけないという背景のもと、どんどんAIの活用、データの活用も浸透してきたところじゃないですかね。
―これからの伸び率に期待できそうですね。
日本におけるAIの活用先
―日本では今どういった分野で一番AIが活用されているのでしょう?
吉崎さん:多岐にわたって活用されているので挙げるのが難しいくらいなんですが、先ほど申し上げた製造業、土木・建築、医療、金融、広告・マーケティング、それからもちろんIT系、通信系など、さまざまな分野で使われています。
活用方法は、自動音声認識、機械翻訳、チャットボット、検索エンジンや企業ホームページの関連性分析、広告効果の測定、画像による判定や分類、物体検知、各種OCRや自動車関連など。
―今後新たにどういったところで活用されていくと想定されますか?
吉崎さん:製造業、土木・建築はまだ導入したばかりという企業も多いと思うので、裾野として今後どんどん広がっていくでしょうね。
あとは先ほど申し上げましたが、よりコンピュータビジョンの領域と自然言語処理関連ニーズが高まると思われます。
それによって、どんどんきめ細かい応答ができるようになると思います。
―スラングなどは多くの国で見られますが、日本は特に流行り言葉が多かったり、そもそもの語彙数も多いと思います。
他国と比べて自然言語処理が難しい点などはあるのでしょうか?
吉崎さん:あまり変わらないですかね。
どの国もやはり言語ごとに略称や世代ごとに使われる言語があるので、一般的には辞書や「コーパス」と呼ばれる用語集を参照しながら、要約したり翻訳したりしています。
たとえばTwitterでつぶやかれる用語っていうのは、業界や製品といった名称が多かったり、Twitterユーザーならではの言い回しがあったりするので、そういったものを抽出して辞書化して、いろんな業界や世代、SNSの領域に対応できるようにするんです。
―日本は流行った言葉が死語になるサイクルも早いですが、それも学習して、時がきたら使わないようにできるんですか?
吉崎さん:もちろんです。
そういったバリエーションをどのくらい学習データに与えてあげるか、金融業界なら金融に関する用語、医療関係なら医療に関する用語として学習していくことによって、それぞれの分野ごとに精度を高めることができます。
なので、どのくらいいろんな領域の学習データを与えてあげられるか、という点がAI開発において重要です。
AIによって人間の仕事は奪われていくのか
―今AIによる画像生成が流行っていたり、小説の創作も以前より技術的に進化していると思います。
クリエイティブな分野もAIでまかなえるようになると、よく聞く話ではありますが、AIによって人間の仕事が奪われるような事態に発展することはありえるのでしょうか?
吉崎さん:たとえばAIによる画像合成や音声合成に関しては著作権の扱い方が議論されていたり、まだ法律が追いついていなかったりするところもあるので、なんともいえませんが、たしかにAIが人間の仕事を奪うんじゃないかというレポートは一時見られましたね。
ですが、奪う以前に現状ではリソース不足の問題が大きいと思います。
領域によっては人材不足はかなり深刻なので、今まで人間が行っていた部分をAIが担い、効率的に作業することで、人間はよりクリエイティブな方向、違う領域に能力を活かすことができるようになるんじゃないかと考えています。
たとえば今まで感覚的に判断していた物事も、AIを活用することでより精度を上げて正しく判定できるようになるなど、効率化、付加価値の向上といったメリットのほうが圧倒的に多いと思います。
また、それによって今までその作業を行っていた人間は、ほかのことに目を向けることができるようになりますよね。
―では今の段階ではむしろ、今までできなかったことができるようになるといった面のほうが大きいということですね。
吉崎さん:そうですね。
たとえば何百人という人材を抱えたサポートセンターであっても、手が回らず、問い合わせた人がかなり待たされてしまうということがあると思うんですけど、ある程度チャットボットで柔軟に対応できるようになれば、お客さまも非常に短期間で満足が得られるようになると思うので、使い分けが重要だと思います。
企業がAIを取り入れるには
―御社の提供するアノテーションプラットフォーム「Appen Data Annotation Platform」は、多くの企業にAIを取り入れるきっかけも与えていると思いますが、まだ取り入れていない企業に向けて、どういった視点でAIに切り替えるというアイデアを持てばいいのか、なにかヒントなどいただけますか?
吉崎さん:意外とディープラーニングって、大量に学習するデータがあれば、開発すること自体はそれほど難しくないんですよ。
ブラックボックスといわれることもあるくらい、中身がわからなくてもデータをたくさん放りこめば、きちんと精度の高い判定ができるモデルがつくれてしまうんです。
ただ、どの領域に、なにを使って、どういった人材がそれを開発するのかというのが大事だと思います。
企業の中でだれがそれを担うのか、責任とリソースを明確にすべきでしょうね。
―機械に人間のセンスをどう掛け合わせるか、というのが大事ということですね。
吉崎さん:そうですね。それによって、うまく開発していけるんじゃないかと思います。
優れたAIをつくるために必要なもの
―優れたAIをつくる際にも必要なのは、それを開発する人間のセンスでしょうか?
吉崎さん:AIというのは機械学習(マシンラーニング)と呼ばれる部分とディープラーニングと呼ばれる部分に分けることができるんですけど、どちらにしても、どういうアルゴリズム、数式をあてはめるか、どういうモデルを採用するか、というのが重要な要素のひとつになります。
どんなにいいアルゴリズム、モデルを選択しても、与える教師データの量や質が足りないとAIの精度は上がりません。
なので、要求される量の、質の高いトレーニングデータを実現させることが大切だと考え、我々はまさしくその領域にフォーカスした活動を行っています。
―ということは、後発でAIを開発したいと考えた場合、よっぽどノウハウがないと大変そうですね。
吉崎さん:実は、今はそうでもないんですよ。
たしかに以前は完全に自分たちで、万単位、十万単位の大量のデータを用意しなければいけなかったんですけど、今はディープラーニングの領域も進化していて、すでにそういった大量のデータで学習したモデルに対して、自分たちが検知したいデータを追加で覚えこませるという転移学習、追加学習と呼ばれる手法が確立してきています。
ほかの方がつくったものを転用することで、自分たちの領域の判定に有効になることがわかってきているので、いろんな選び方ができるんじゃないかなと思います。
―新規参入のハードルが下がったということですね。
吉崎さん:そうですね。
たとえば開発済みのモデルに、先ほどおっしゃっていたような、死語にあたる言葉やSNSで使われている表現を追加学習させることも可能です。
翻訳するにしても、方言やその業界でしか使われない特殊な言葉、文章を追加で学習させるようなアプローチは非常に有効だといわれています。
―人間だと死語も完全に使用しなくなるわけではなく、シチュエーションや相手に応じてあえて使うことで笑いを生み出したりすることもありますが、AIでもそれは可能になるのでしょうか?
吉崎さん:すでに自然言語処理を用いることで、ある程度ジョークを用いたコミュニケーション能力は発達しているので、データをどう学習させるか次第で可能だと思います。
今後のAppenのグローバル&日本市場における展望
―御社では定期的に新しい機能を追加されていますが、直近だとPOI(※6)データの提供を始められましたよね。
※6 POI:Point Of Interestの略で、そのまま「ポイントオブインタレスト」といわれることもある。直訳すると「興味のある場所」だが、一般的には「地図上の特定のポイント」を指し、地図上で表現できるあらゆる地点を示すことができる。多くは、施設や店舗など。 |
吉崎さん:はい。ポイントオブインタレストと呼ばれる領域は、特にコロナ禍と後のニューノーマル下で大きく変化しています。
企業も飲食店も、ショップや商業施設も、営業時間、開業・閉業、移転など、これまでの情報から大きく変わったところが多いですよね。
最新の情報にアップデートするとともに、統計データや地図情報と照らし合わせて、分析や意思決定を行っていけるような技術が求められていると思います。
そこでAppenでは、Quadrant(クアドラント※7)を買収することでPOIデータを刷新し、地理空間情報と連動されるソリューションを展開しています。
※7 Quadrant:モバイルロケーションデータ、POIデータ、および対応するコンプライアンスサービスのグローバルリーディングカンパニー。2021年9月よりAppenグループ。 |
―まだまだコロナ禍ではありますが、行動制限は一時より緩和され、人々の外出量も増えているので、POIデータが常に最新のものになれば、便利になるだけでなく、そこからコミュニケーションが広がる未来も想定できますね。
そのほかに今後、日本市場で展開を考えているものはありますか?
吉崎さん:より多言語を意識したアプローチが必要でしょうね。
円安傾向にある近年では、日本発でグローバル展開していくビジネスニーズはこれまで以上に必要になってくると思います。
先ほども申し上げましたが、AI開発に関わるデータサイエンティスト関連の人材など、いろいろな面から見て、残念ながら日本はアメリカや中国などと比べると、まだまだ伸ばしていかなければいけない領域が多いです。
こうしたなかで、グローバル化を意識した多言語化、ダイバーシティを意識した倫理的なAIの開発などが、より必要になってくると思います。
―具体的にはどのように進められるのでしょうか?
吉崎さん:日本の企業文化として、失敗しちゃいけないという考え方がすごく強いと思うんですよね。
でもAIの活用やモデルの開発というのは、トライアンドエラーみたいな感じで、1回つくったら必ずうまくいくっていうほど簡単ではない部分もあるので、つくってみて、検証して、より精度を高めるためにどんどんつくりかえていく、あるいは追加で学習させるといったことも必要です。
なので失敗をおそれず、適用して、改良して、本当に使えるものにしていく、という考え方が大事なんじゃないかな、と思います。
―それはAI業界に限らず、どの分野においてもいえることかもしれませんね。
AIは日進月歩で進化し続けている
―吉崎さん自身が今後、AIに関する分野で新たに挑戦したいことなどはありますか?
吉崎さん:個人的にAIのモデルをつくったり、なにかに適用してみたり、っていうことを自分の時間にやってみたいなと思っています。
―ご自身で使われるAIの開発ということですよね。おもしろそうです!
差し支えなければどういったものかお伺いできますか?
吉崎さん:画像を分類するものですね。
―便利そうですね。
Google レンズが登場したとき、結構衝撃でした。
素人目線ですが、その画像がどんなものか認知して、瞬時に似た画像を表示してくれるのは、とても不思議です。
吉崎さん:それもディープラーニングのおもしろいところなんですが、画像の中のいろんな要素を見て「ここはきっと顔っぽい」「ここは目で、ここは鼻だろう」といった特徴点を洗い出してくれるんです。
そのとき実際に中で行われている計算は、人間が見てもわからないような複雑なものなんですけど。
それで、「特徴点に合致するような画像はこういったものである可能性が高い」とディープラーニングが自分で判定したり推論したりするという感じです。
iPhoneでも、より人の部分が抜き出せるようになったり、写真に写るテキストをOCRでデータとしてコピーできるようになったり、徐々に進化していっていますよね。
―たしかに、いつの間にか裏技みたいな機能がどんどん増えていて、便利になっていっていると感じます。
もはやAIは自然と人々の生活のなかに溶けこんでいますね。
「覚える」という技術と「忘れる」という個性
なにかを創作したとき、どんなに斬新なものであっても、実は完全に自分ひとりで思いついた部分は1mmもない、と聞いたことがあります。たしかに私たちは日々さまざまな情報に埋もれて生活をしているため、まったくなにもインプットせずに自分のアイデアだけで一からなにかを生み出すというのは不可能かもしれません。
自身が覚えていなくても、頭の片隅にあった残像からヒントを得るということもあるでしょう。それをそれとして認知することなく、けれど、それをきっかけになにかほかの新しいものを発信する、―データに対する感情を持ち合わせていないのに、応用してアウトプットすることで人間とコミュニケーションできるようになるAIに少し似ているようです。
充分な量の質の高いトレーニングデータを用意できれば、優れたAIは開発できると吉崎さんはおっしゃっていました。AIにとってのデータが、人間にとっての記憶であるならば、充分な量の濃密な記憶さえあれば、それが人間を人間たらしめるのでしょうか。
人間は持っている能力をすべて使いきっていないといわれています。そのためなのか、時に大事なことでさえ忘れてしまいます。一生懸命覚えたはずの数式も、楽しみにしていたデートの約束も、懐かしい家族の顔でさえも。
むしろ記憶を違えることなく保ち続けることよりも、忘れていくことにこそ人間らしさが表れるかもしれません。
普段からよく口にしている名前であっても、不意に忘れてしまうことがあります。たとえば好きな俳優の名前などを思い出せなくなり、「○○という映画に出演していた」「先日インスタに○○の衣装を着た写真を投稿して話題になった」「最近友人が近所で見かけたと言っていた」など、その人に関する別の情報を使って相手に伝えようとした経験のある人は多いのではないでしょうか。
人はこうして、欠損した記憶を補完する作業を行います。そもそも持っている情報や知識も、そしてそのなかからどれを選んで補うかも人それぞれ。つまり、忘れたときにこそ、その人らしさが表れるのではないか、とも思います。
与えられたデータすべてを記憶し続けられるAIと、忘れることのできる人間、できることも得意なことも異なる私たちは、共生することでまた新しいなにかを生み出すことができるかもしれません。
RANKING ランキング
- WEEKLY
- MONTHLY
UPDATE 更新情報
- ALL
- ARTICLE
- MOVIE
- FEATURE
- DOCUMENT