OpenAIのSoraが他の動画AIを吹き飛ばした!

プロンプトと呼ばれるテキストを元に動画をAIが生成する動画AIはこれまで数多く出てきましたが、その全てを吹き飛ばしたと言っても過言じゃない物があのChartGPTでも有名なOpenAIからリリースされそうです。

今はまだ一部のある権限を持ったユーザー(モデルを進化させる方法についてのフィードバックを得る為にビジュアルアーティスト・デザイナー・映画製作者)しかアクセス出来ませんが近いうちに一般ユーザーでも使えるようになると思うと期待が高まるばかりです。

何がスゴイの?

まずはデモで公開されている下の動画をご覧ください。

下に紹介する動画は「Text-To-Video」と呼ばれる『文章から動画を作成』した動画です。

引用元:https://openai.com/sora#capabilities

Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.

プロンプト(日本語訳):数匹の巨大なケナガマンモスが雪に覆われた草原を踏みしめながら近づいてきます。その長いケナガマンモスの毛皮が風に軽く吹きながら歩きます。遠くには雪に覆われた木々やドラマチックな雪を頂いた山々が見えます。うっすらとした雲と太陽が高く昇る午後半ばの光です。距離を置くと温かみのある光が生まれ、低いカメラの視点から美しい写真と被写界深度で大きな毛皮に覆われた哺乳類が見事に捉えられます。

引用元:https://openai.com/sora#capabilities

Prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.

プロンプト(日本語訳):一杯のコーヒーの中で航行する 2 隻の海賊船のフォトリアリスティックなクローズアップ ビデオ。

引用元:https://openai.com/sora#capabilities

Prompt: A close up view of a glass sphere that has a zen garden within it. There is a small dwarf in the sphere who is raking the zen garden and creating patterns in the sand.

 プロンプト:中に禅の庭があるガラス球の拡大図。球体の中には小さな小人がいて、禅庭をかき集めて砂に模様を作っています。

引用元:https://openai.com/sora#capabilities

Prompt: A petri dish with a bamboo forest growing within it that has tiny red pandas running around.

プロンプト: 中に竹林が生え、小さなレッサーパンダが走り回っているシャーレ。

引用元:https://openai.com/sora#capabilities

Prompt: A cartoon kangaroo disco dances.

プロンプト: 漫画のカンガルー ディスコ ダンス。

これらが全部テキストから作られたAIなのが凄いんです!

引用元:https://openai.com/sora#capabilities

Prompt: A corgi vlogging itself in tropical Maui.

 プロンプト:熱帯のマウイでビデオブログを投稿しているコーギー。

他の動画AIのクオリティとはかけ離れたレベルで作成されています。

他の動画AIは一枚の静止画を繋ぎ合わせたような所謂「パラパラ漫画」のようなクオリティでした。

ですが、OpenAIの「Sora」は

滑らかなカメラワーク、リアルな質感、細部まで表現されている正確性等どれを見ても今までの動画AIは比べ物になりません。

引用元:https://openai.com/sora#capabilities

Prompt: The Glenfinnan Viaduct is a historic railway bridge in Scotland, UK, that crosses over the west highland line between the towns of Mallaig and Fort William. It is a stunning sight as a steam train leaves the bridge, traveling over the arch-covered viaduct. The landscape is dotted with lush greenery and rocky mountains, creating a picturesque backdrop for the train journey. The sky is blue and the sun is shining, making for a beautiful day to explore this majestic spot.

プロンプト: グレンフィナン高架橋は、英国スコットランドにある歴史的な鉄道橋で、マレーグとフォート ウィリアムの町の間の西ハイランド線を横断します。蒸気機関車が橋を出発し、アーチで覆われた高架橋の上を進む様子は壮観です。豊かな緑と岩山が点在する風景が、列車の旅に絵のように美しい背景を作り出しています。空は青く、太陽は輝いているので、この雄大なスポットを探索するには美しい一日になります。

はっきり言ってヤバイです。

他の動画生成AIは数秒~課金しても20秒位なのに対しSoraは約1分の動画を生成出来るところも他より優れています。

『物理世界にどのように存在するのかも理解します』

特にスゴイのが動画内のガラスに反射した映像や濡れた道路に反射した車のヘッドライトが正確に表現されていたり、電車内のガラスに映った人物が物の影になった瞬間にはっきり反射して映るシーンなんかは今までの動画AIでは考えられないほどリアルになっています。

これはOpenAI社が言う「Sora は、複数のキャラクター、特定の種類のモーション、被写体と背景の正確な詳細を含む複雑なシーンを生成できます。モデルは、ユーザーがプロンプトで何を要求したかだけでなく、それらのものが物理世界にどのように存在するのかも理解します。」と謳っている部分が下の動画に当てはまると思います。

引用元:https://openai.com/sora#capabilities

Prompt: Reflections in the window of a train traveling through the Tokyo suburbs.

プロンプト: 東京郊外を走る電車の窓に映る反射。

引用元:https://openai.com/sora#capabilities

Prompt: A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer.

プロンプト:眠っている飼い主を起こして朝食を要求する猫。飼い主は猫を無視しようとしますが、猫は新たな戦略を試み、最終的に飼い主は猫をもう少し引き留めるために枕の下から秘密のお菓子を取り出しました。

またOpenAI社は次のような事も言っています。

言語を深く理解・生き生きとした感情を表現する魅力的なキャラクターを生成する

このモデルは言語を深く理解しており、プロンプトを正確に解釈し、生き生きとした感情を表現する魅力的なキャラクターを生成することができます。Sora は、生成された 1 つのビデオ内で、キャラクターやビジュアル スタイルを正確に保持する複数のショットを作成することもできます。

引用元:https://openai.com/sora#capabilities

この文言に当てはまる動画が以下のような動画です。

Prompt: New York City submerged like Atlantis. Fish, whales, sea turtles and sharks swim through the streets of New York.

プロンプト: ニューヨーク市はアトランティスのように水没しました。魚、クジラ、ウミガメ、サメがニューヨークの通りを泳ぎます。

Prompt: The story of a robot’s life in a cyberpunk setting.

プロンプト: サイバーパンク環境におけるロボットの生活の物語。

Prompt: An extreme close-up of an gray-haired man with a beard in his 60s, he is deep in thought pondering the history of the universe as he sits at a cafe in Paris, his eyes focus on people offscreen as they walk as he sits mostly motionless, he is dressed in a wool coat suit coat with a button-down shirt , he wears a brown beret and glasses and has a very professorial appearance, and the end he offers a subtle closed-mouth smile as if he found the answer to the mystery of life, the lighting is very cinematic with the golden light and the Parisian streets and city in the background, depth of field, cinematic 35mm film.

プロンプト: 60代のひげを生やした白髪の男性の極端なクローズアップ。彼はパリのカフェに座りながら宇宙の歴史について深く考え込んでおり、彼の目は画面の外で歩いている人々に焦点を当てている。彼はほとんど動かずに座っており、ボタンダウンのシャツにウールのコートのスーツを着ており、茶色のベレー帽と眼鏡をかけており、非常に教授っぽい外観をしており、最後には見つけたかのように口を閉じて微妙な笑みを浮かべています。生命の謎への答え、照明は金色の光と背景のパリの通りと街、被写界深度、映画のような 35mm フィルムで非常に映画的です。

私

特に最後のベレー帽を被った白髪の男性の動画はもう本物の映画のようですね!瞬きの仕草も口元や頬の動きなど本当の人間のようです!

また眼鏡に映る窓もリアルだし、背後に映っている背景の中の人も全員リアルに動いているのが驚愕です!

弱点もある

現在の現行モデルには弱点があるそうです。

例えば、

現行モデルには弱点があります。複雑なシーンの物理を正確にシミュレートするのに苦労する可能性があり、原因と結果の特定のインスタンスを理解できない場合があります。たとえば、人がクッキーをかじったとしても、その後クッキーに噛み跡が残らない可能性があります。

また、モデルは、プロンプトの空間的な詳細 (たとえば、左右を混同するなど) を混乱させる可能性があり、特定のカメラの軌跡をたどるなど、時間の経過とともに発生するイベントの正確な説明に苦労する可能性があります。

引用元:https://openai.com/sora#capabilities

以下の動画がその弱点の一例です。

プロンプト:バスケットボールがフープを通過し、その後爆発します。
弱点: 不正確な物理モデリングと不自然なオブジェクトの「モーフィング」の一例。

引用元:https://openai.com/sora#capabilities

Prompt: Basketball through hoop then explodes.

プロンプト: バスケットボールがフープを通過し、その後爆発します。

爆発後に別なボールが現れリングを通過してしまっているのが弱点ということでしょうか。

以下のような動画も弱点の一例となっています。

メッセージ: 草に囲まれた人里離れた砂利道で、5 匹のハイイロオオカミの子がはしゃぎ、追いかけっこをしています。子犬たちは走ったり飛び跳ねたり、追いかけっこしたり、噛み合ったりして遊んでいます。
弱点: 特に多くのエンティティが含まれるシーンでは、動物や人が自然に現れることがあります。

引用元:https://openai.com/sora#capabilities

Prompt: Five gray wolf pups frolicking and chasing each other around a remote gravel road, surrounded by grass. The pups run and leap, chasing each other, and nipping at each other, playing.

プロンプト:草に囲まれた人里離れた砂利道で、5 匹のハイイロオオカミの子がはしゃぎ、追いかけっこをしています。子犬たちは走ったり飛び跳ねたり、追いかけっこしたり、噛み合ったりして遊んでいます。

ハイイロオオカミの子が集まると分身して何匹も出現しているのが弱点ということでしょうか。

Soraを安全に利用できるようにする為に

現在はOpenAI社の中でモデルを敵対的にテストする『レッドチーム』と呼ばれる人たちと協力してAIの問題点を研究して重要な安全装置を講じるそうです。

また、DALL・E3にも構築されている安全方法を活用して、極端な暴力、性的コンテンツ、嫌がらせ的な画像、有名人の肖像、または他人の IP を要求するものなど、OpenAI社の使用ポリシーに違反するテキスト入力プロンプトをチェックして拒否し、生成されたすべてのビデオのフレームをレビューして、ユーザーに表示する前にビデオが使用ポリシーに準拠していることを確認するために使用される堅牢な画像分類子も開発したそうです。

このようなチェック体制の元に作られるAI動画なら著作権の問題もクリア出来るようになると推測されます。

Soraの公式HPはコチラ➡https://openai.com/sora

(情報が入り次第更新し続けます)

コメント

タイトルとURLをコピーしました