記事を探す

2024.5.30 ITトレンド全般イベントレポート

NAB Show 2024視察を経て考察するAIとメディア業界

船津宏輝（退職済み） (株)情報通信総合研究所主任研究員

この記事をシェアする

2024年4月14日から17日まで、米国ネバダ州のラスベガスコンベンションセンターで世界最大規模の映像機器展示会「NAB Show（以下、「NAB」）」が開催された。改装中のノースホールを除く、ウエストホール、セントラルホール、サウスホール（1階および2階）で放送機器やソフトウェアなど、最新のメディア・エンターテインメント（以下、M&E）業界向けソリューションが展示された。

今年のNABの注目キーワードはAIだ。数多くのAIを活用したソリューションが展示され、セッションやキーノートスピーチでもAIが話題に上っていたが、特に生成AIが注目されていた。2日目の4月15日、トレンドバー^[1]では生成AIのポストプロダクションへの活用が最も票を集めていた（写真1）。

2022年11月にサービスを開始したOpenAIの対話型生成AI「ChatGPT」は、開始からわずか2カ月でアクティブユーザー数が1億人を突破し、その急速な普及が、多くの産業において生成AIの可能性と危険性の議論を引き起こした。従来のAIは「与えられた情報を基にした情報の検索、整理」や「決められたルールに基づく様々な行為の自動化」などが得意だったが、ChatGPTをはじめとする生成AIは学習したデータを基に新たなコンテンツを作ることができ、文章に加えて画像や動画の生成も可能である点が従来のAIとは異なる。言い換えると、生成AIの主な特徴は「様々なコンテンツを新たに生成できる」点と「様々なコンテンツを生成するための高度な学習能力を備えている」点にある。

M&E業界においても生成AIをはじめとしたAIの影響は目覚ましく、これまで映像の撮影や制作・編集時に必要だった作業を簡易化・代替することができるようになってきた。本稿では、今年のNABにおけるセッションや展示の内容を紹介し、従来のAIや生成AIがM&E業界に与える影響について考察する。

NAB Show 2024概要

今年のNABには世界中から約61,000人が来場したが、2019年の約90,000人には及ばなかった。各ホールには41を超える国から1,300社以上の企業がブースを出展し、ウエストホールにはAWSやMicrosoftなどのクラウド事業者、VerizonやAT&Tといった通信事業者がブースを展示。セントラルホールには、キヤノンやパナソニック、ソニーやGrass Valleyといった放送・映像機器の総合メーカーが出展し、加えて音響機器や照明機材なども展示されていた。サウスホールにはビデオ編集ソフトウェアやポストプロダクション関連のソリューションを提供する、RossやBlackmagic Design、Avid、Adobeなどが出展していた。

また、合計750以上のセッションが開催され、メインステージでのキーノートスピーチを含む多くのセッションで、AIが議論の中心となっていた（写真2）。

【写真2】多くの人が訪れたラスベガスコンベンションセンターのサウスホール

展示、セッションを含めAIが前面に押し出されていたが、特に撮影、制作・編集におけるAIを活用した展示が多く、生成AIを活用したソフトウェアなども数多く展示されていた。以降では実際にどのようなソリューションが展示されていたのかを紹介する（図1）。

【図1】放送コンテンツ制作ワークフローとNABで見られたAI活用ソリューション
（出典：公開情報、NAB視察をもとに筆者作成）

撮影におけるAIを活用したソリューション

撮影におけるAI活用の事例としては、従来のAIを用いたカメラの展示がいくつか見られた。スポーツ映像ソリューションを提供するPixellotのAIカメラ「Show S3」は、専用のカメラヘッドを会場に設置することで、人が介入することなくカメラが自動で選手やボールを追いかけることができる。そのため、カメラマンの数を減らし人件費を削減することで、90%以上の撮影コストダウンが可能だ。また、撮影後も自動でハイライトの作成や、クリッピングの編集ができるなど、編集段階での稼働の削減も可能だ。

AIカメラに加え、バーチャルプロダクション^[2]（以下、「VP」）のソリューションも数多く展示されていた。ニコンの子会社であるMark Roberts Motion ControlはVPのソリューション「The Unreal Ride」をセントラルホール入り口に展示。同ソリューションにはゲームエンジン「Unreal Engine」が活用され、Unreal Engine上の生成AIによりテキストや音声情報から瞬時に背景を生成することができる。

体験ブースでは、体験者が車に乗り込むと、あたかも背景に映し出される場所で、車を運転しているかのような映像が左右のディスプレイに流れていた。このVPの活用をすれば、場所や時間、天候に左右されずに撮影が行えるため、大規模な撮影セットの設置が不要となり、大幅なコスト削減が可能となる（写真3）。

【写真3】Unreal Engineを活用した「Unreal Ride」によるVPのデモ

ポストプロダクション（制作・編集）におけるAIを活用したソリューション

NABでは、ポストプロダクションにおけるAIの利用事例が目立ち、特に生成AIを活用した革新的なソフトウェアが注目されていた。以下に代表的なものを紹介する。

Adobe

画像や映像編集ソフトウェアなどで世界最大手のAdobeは、動画編集ソフト「Adobe Premiere Pro」のビデオ編集ワークフローに生成AIを導入することをNAB会期中の4月15日に発表。生成AIを活用した新たな機能が実装されるとともに、生成AIを用いて作成されたすべてのコンテンツに、作成に使われたAIモデルなどの情報を確認できるよう、コンテンツのクレデンシャル（認証情報）が付加されることになる。Adobeは2023年9月から画像生成アプリケーション「Firefly」にも生成AIを導入していたが、編集ソフトにも導入することになる。これにより実装される主な機能は以下のとおり。

生成拡張：クリップ[3]の冒頭や末端に足りないフレームを追加してシーンを少し延長することができる。AIによって生成された映像により、編集を微調整したり、シーンを数秒長く持続させたり、トランジション[4]をカバーしたりすることができる。
映像内オブジェクトの追加と削除：AI搭載の「マスクとトラッキング」ツールにより、映像内で動くオブジェクトを処理できる。オブジェクトを「追加」する機能と「削除」する機能があり、シーン内で動くオブジェクトの置換や不要なアイテムの削除、必要な装飾の追加などができる。
Bロール[5]の作成：テキストプロンプト[6]を使って、ストーリーに合った動画クリップをAIに生成させることができる。保存されたストック映像からBロールショットを探す手間を省くことができるうえ、調達が困難なBロールを生成することが可能。

また、同社は生成AIを用いたオーディオ編集機能の提供を2024年5月に始めることを発表した。この機能により、音声クリップへの会話や環境音などの自動タグ付けが可能となり、編集作業の更なる効率化が期待されている。

Opus Clip

米サンフランシスコに拠点を置くOpus ClipはOpenAIの生成AIテクノロジーを用いて長編動画からショート動画を作成するアプリケーション「Opus Clip」をブースで展示。特にソーシャルメディア（YouTubeショート、Instagramリール、TikTokなど）での視聴者へのリーチを拡大したい事業者にとって革新的なツールといえる。

Opus Clip上に長編動画をアップロードすると、AIがビデオを分析し最も重要な場面を特定した後、10程度のショート動画（クリップ）を作成。それぞれのショート動画には自動的に字幕を付けることもでき、日本語を含む複数の言語にも対応している。また、AIによる自動的なBロール映像の挿入、サードパーティ製のソリューションとの統合も可能で、前述したAdobe Premiere Proに作成したクリップをエクスポートすることもできる。

ソニー

ソニーはAIを活用して制作・編集における業務効率を改善するソフトウェア「A2 Production」を展示。同ソフトウェアを使えば、ソニーが独自に開発するAIモデルを活用したコンテンツ解析が可能となる。例えば多数のカメラで撮影した複数の映像クリップをAIが解析し、ハイライトの作成や、映像や音声の同期調整作業を自動で行うことで、編集者の負担軽減に寄与する。また、ソニーが提供する編集システムやコンテンツ管理システムとの連携も可能だ。

具体的な活用シーンとしては、スポーツの得点シーンなどにおけるハイライト映像の作成をAIが支援し、自動編集を行うことで、人的リソースを削減しつつ、視聴者にいち早く映像を届けることができる。また、原稿や記事の文字起こしも可能で、これまで手作業で行っていた業務をAIが代替することができることから、編集作業前の下準備においても同ソフトウェアの活用が期待されている。

上記のほかにもAIを活用した展示は多数あった。AWSは生成AIを活用したコンテンツ制作やメディアサプライチェーン・アーカイブにおけるソリューションを展示していたほか、映像や音響関連製品を開発するAvidは同社の最新技術であるAI「Ada」を導入したワークフロー自動化に寄与するソリューションを展示していた。

音声・翻訳関連の展示としては、3Play MediaがAIを活用した翻訳、ダビング[7]のソリューション「AI Dubbing」を展示。AIを活用した多言語への翻訳やライブラリ内の音声とのボイスマッチングによる自動ダビングにより、昨今重要視されているコンテンツのグローバライゼーション[8]における同ソフトウェアの有効性を示した。

キーノートスピーチで語られたAI活用の利点

AIに関するキーノートスピーチやセッションの中で特に興味深かったのはWelcome speechと題して、FuturiのCEOダニエル・アンスタンディング氏が登壇した講演だ。アンスタンディング氏はヒューマノイドロボット「Ameca」[9]とともに登壇し、AIがM&E業界に与える影響についてAmecaと議論した（写真4）。

【写真4】Amecaがキーノートスピーチに登壇し、AIとM&E業界について議論する様子

アンスタンディング氏の質問に対してAmecaは、FuturiがCMG Custom Researchと共同で行った消費者に対するアンケートの結果を引用して応答し、時折ジョークなどを交えながら自然な会話を披露した。同調査では、エンターテインメント、スポーツ、ローカルニュースなど、特定のニュースカテゴリにおいて、視聴者がAIによって生成されたコンテンツをより受け入れる傾向がある一方で、国際情勢、政治、論評などにおけるAIの使用は好まない傾向があることなどがわかった。また、テレビニュース視聴者の45%は、その情報が正確で事実に基づいている限り、AIがより良い記事の選択に役立つと考えていることなども示された。

アンスタンディング氏はこのキーノートスピーチの中で、ニュースの読み上げ音声を3回再生し、聴衆にその音声が人間によるものかAIによる読み上げかを尋ねたが、ほとんどの聴衆が違いを判別できないほど、AIによる読み上げ音声は洗練されていた。アンスタンディング氏は、これにより、将来ポッドキャストやラジオの読み上げをAIが代替できる可能性を示した。

最後にアンスタンディング氏は、AIは作業者を単純作業から解放し、よりクリエイティブな作業に従事させることができるため、有効活用していくべきであるとの考えを示した。また、AIの導入によって失われる職もあるが、同時に新たに生まれる職もあると述べ、AIがメディア業界に変革をもたらすことを強調した。

M&E業界におけるAI活用の危険性と不安要素

AIの活用が多くの業務を効率化する一方で、いくつかの危険性や注意すべき点も存在する。特に、今回のNABで注目された生成AIは、新たなコンテンツ（文章、音声、画像、映像など）を創出することができるため、既存の編集者やデザイナー、クリエイターの職を脅かす可能性がある。また、この技術はディープフェイクや偽情報の拡散の原因ともなり得る。さらに、個人情報や機密情報の漏洩リスクがあるため、プロンプトにこれらの情報が含まれる場合、特に注意が必要である。

例えば、米ハリウッドではAIの利用とストリーミングサービスによる収益の分配をめぐるストライキが発生した。生成AIが脚本の作成や俳優の映像の複製、エキストラの代替を進める中で、業界内では脚本家や俳優の仕事がAIに置き換えられることへの危機感が高まっていた。そこで全米映画俳優組合と脚本家組合は全米映画テレビ制作者協会に対して「AIに脚本を学習させたり書かせたりしないこと」「エキストラ俳優たちの顔と体をスキャンして作ったAIによって動作するデジタルレプリカをスタジオ側が自由に使わないこと」などを求めて2023年5月にストライキを行った。同騒動は9月に終結し、AI使用の制限や、スタジオ側がAIを用いて生成した資料についてはそのことを明記することなどについて合意がなされた。情報漏洩やディープフェイク、ハリウッドのAIストライキなど、AIをM&E業界で活用する際の危険性が既に顕在化しているといえる。

M&E業界におけるAI活用の今後

今回のNABでは、コンテンツ制作におけるワークフローの自動化や、シーンの延長、Bロールの作成など、生成AIをはじめとしたAIを活用したソリューションが多数展示されていた。これらの技術により、時間を要していた作業が効率化され、より質の高いコンテンツの制作が可能となり、効率化により浮いた時間をよりクリエイティブな活動に充てることが期待されている。また、キーノートスピーチやセッションにおいてもAIがM&E業界で果たす役割や活躍への期待がうかがえた。

一方で、職の喪失、個人情報の漏洩、ディープフェイクや偽情報の拡散などがAI活用における主要な懸念事項として明らかになっており、これらのリスクへの対策は必要不可欠である。AIがコンテンツ制作における作業効率化や品質向上に寄与することは間違いないが、現状は過度な期待が向けられているようにも見て取れる。

M&E業界においては、高品質のコンテンツの持続的な提供に向け、AIの潜在的なリスクを十分に理解した上で、その利点を最大化しつつリスクを管理するバランスの取れたアプローチが求められている。

[1] 来場者が今年のM&E業界に最も影響があると考える項目に投票する仕組み。

[2] テレビや映画の撮影・制作において、リアルタイムでコンピューターにより生成された映像をLEDディスプレイなどの背景に映し出し、役者があたかもその場所にいるかのように撮影する技術のこと。本物のセットや屋外のロケーションと同様の現象をつくり出すことができる。

[3] 短い映像や音声、画像など動画の編集作業に必要な素材のこと。

[4] 映像や動画のカット間のつなぎ目にかける効果のこと。

[5] Aロール映像（メインの映像）を補完するための風景映像やインサート映像のこと。

[6] AIに送る指示・命令文などのこと。

[7] 収録音声を翻訳後の言語に吹き替えること。

[8] 特定の国で制作されたコンテンツを他の国で視聴できるように内容を最適化させること。

[9] 英国のロボット開発企業Engineered Artsが開発を進めるロボットで、ChatGPTを搭載することにより自然なコミュニケーションが可能。またDeepLにより日本語で会話をすることも可能。

※この記事は会員サービス「InfoCom T&S」より一部抜粋して公開しているものです。