ニュース

グーグル、新動画生成モデル「Veo 3」 マンガも作れる「Imagen 4」

Googleは、最新のメディア生成モデル「Veo 3」「Imagen 4」と、映像製作用ツール「Flow]を発表した。既存の「Veo 2」にも新機能を追加している。

動画生成モデルのVeo 3は、Veo 2よりも映像品質を向上させ、音声付き動画の生成が可能になった。街中の交通音や公園の鳥のさえずり、キャラクター同士の対話なども生成できる。テキストや画像によるプロンプト入力から、現実世界の物理法則の反映、正確なリップシンクまで、あらゆる側面で優れた性能を発揮するという。

理解力も優れ、プロンプトで短いストーリーを伝えるだけで、その内容を鮮明に表現した映像を生成する。Veo 3は既に米国のGoogle AI Ultraユーザーを対象にGeminiアプリ、Flowで利用可能。Vertex AI上のエンタープライズ向けユーザーも利用できる。

Veo 2には、映画制作者と共同開発したという新機能を搭載。参照画像による動画生成では、キャラクターやシーンなどの画像を参照することで、一貫性のあるクリエイティブ制御を可能にするほか、回転やカメラワーク、ズームなどを指示できるカメラコントロール、動画内のオブジェクトを追加・削除できる機能なども搭載する。

参照画像による動画生成機能とカメラ コントロール機能は、Flowで利用可能。これらすべての新機能は今後数週間でVertex AI APIで提供開始し、今後数カ月でさらに多くの製品に展開予定。

Flowは、Veo向けに設計されたAI映像制作ツールで、Google DeepMindの最先端モデルであるVeo、Imagen、Geminiを統合。自然言語でFlowにシーンを指示し、キャスト、ロケーション、オブジェクト、スタイルなどストーリー要素を一元的に管理できる。これによりクリップ、シーン、ストーリーをシームレスに作成可能になる。

米国のGoogle AI Pro、Ultraプランユーザー向けに提供が開始され、近日中にさらに多くの国でも提供開始予定。

画像生成モデルのImagen 4は、スピードと精度を兼ね備えた画像生成モデルとし、複雑な布地模様、水滴、動物の毛並みのような細かい部分も鮮明に描写する。フォトリアルなスタイルと抽象的なスタイルの両方に対応可能。様々なアスペクト比で最大2K解像度の画像を生成できる。文字表現やタイポグラフィの生成能力も大幅に向上し、グリーティングカード、ポスター、漫画なども簡単に作成可能。

既にGemini アプリ、Whisk、Vertex AI、WorkspaceのGoogle スライド、Vids、ドキュメントなどで利用可能。近日中にImagen 3と比較して最大10倍のスピードで処理が可能なImagen 4の高速版も公開予定。