Google VideoPoet: 動画生成に革命を起こす

- DX
2024年01月12日

GoogleのVideoPoetは、動画生成AIの分野における大きな進歩を表しています。
今回はGoogleのVideoPoetについて解説していきます。

機能と特長

概要

VideoPoet は、テキストプロンプトから動きの多い可変長動画を作成するために設計された大規模言語モデル (LLM) です。
追加のテキストガイダンスなしで、入力ビデオに一致するオーディオを生成する機能により、この分野で際立っています。
これは、従来の動画生成モデルでは一般的に見られない機能です。

多用途な動画生成

VideoPoet は、大きくて興味深い、忠実度の高いモーションを幅広く含む動画の作成に優れています。
MAGVIT V2 ビデオトークナイザー、SoundStream オーディオトークナイザーを搭載しています。
これらのコードは、表示可能なビデオまたはオーディオに変換し直すことができます。

インタラクティブで制御可能な編集

VideoPoet はインタラクティブな編集機能を提供し、ユーザーがビデオ内の目的の動きを制御できるようにします。
制御可能なカメラモーションもサポートしており、テキストプロンプトでカメラショットの種類を指定できるようになります。

様式化と効果

テキストプロンプトに従って入力ビデオを様式化できるため、さまざまな視覚スタイルと効果をシームレスに適用できます。

長い動画の生成

VideoPoet は、動画の最後の 1 秒を条件にして次の 1 秒を予測することで、より長い動画を生成できます。
このプロセスは無制限に繰り返すことができるため、任意の長さの動画を作成することができます。

現状とアクセシビリティ

現時点では、Google VideoPoet は一般に公開されていません。
2023 年に発表および展示されましたが、まだ開発中です。
ただし、その機能は、デモWebサイトやGoogle研究チームが発表した研究論文を通じて調べることができます。

結論

GoogleによるVideoPoetの導入は、動画生成AIの大幅な進歩を示しています。
単純なテキスト入力または既存のメディアから高品質の動画とオーディオを作成する機能は、最新のAIの力を示しています。
VideoPoet はまだ開発段階にありますが、その潜在的な用途とコンテンツ作成への影響は膨大であり、有望です。
テクノロジーが進化するにつれて、動画制作とAI支援によるクリエイティブの新たな地平が開かれることが期待されています。

生成AIサービスは、今後もさらなる発展を遂げ、ビジネスに必要不可欠なものとなっていきます。
弊社では、生成AI「フリーコードサービス」というサービスをリリース予定です。
リリース時にはお使いいただけますと幸いです。

前の記事へ次の記事へ