(CLO) Google は「Whisk」と呼ばれる新しい人工知能 (AI) ツールをリリースしました。これにより、ユーザーは写真をアップロードして、テキストを入力しなくても AI が生成した合成画像を取得できるようになります。
Whisk は AI を使用して、アップロードされた写真の主題、コンテキスト、スタイルを組み合わせ、新しい、よりユニークな画像を作成します。
GoogleはWhiskを「クリエイティブツール」と表現しており、プロの写真編集スキルを必要とせずに、ユーザーが新しいビジュアルアイデアを素早く生み出せるように支援します。Googleによると、このツールは従来の画像編集ツールではなく、創造性を刺激し、迅速な発見を促すことを目的とした楽しいAIツールです。
ユーザーが写真をアップロードすると、Whisk は Google の AI サービスである Gemini と、Google が DeepMind から取得したテキストから画像を作成するツールである Imagen 3 テクノロジーを組み合わせて使用します。
Gemini が写真を分析してキャプションを作成し、その後 Imagen 3 がその写真の要素をクリエイティブな方法で組み合わせ、被写体の「本質」をそのままコピーするのではなく保持します。
泡立て器ツールのインターフェース。スクリーンショット
つまり、最終的な結果は元の画像と100%同一ではない可能性があります。例えば、新しい画像に写っている被写体の身長、髪型、肌の色などが元の画像と異なる場合があります。しかし、ユーザーは入力情報を調整したり、シーンやスタイルを変更したり、複数の被写体を組み合わせたりすることで、異なる画像を作成できます。
WhiskはテキストだけでなくRAW画像からも画像を作成できるため、写真編集の経験がなくてもクリエイティブな可能性を広げることができます。「Whiskは、ユーザーが被写体、コンテキスト、スタイルをクリエイティブな方法でリミックスできるように設計されており、ピクセルを一つ一つ細かく編集するのではなく、視覚的に探求することができます」と、Google Labsのプロダクトマネジメントディレクターであるトーマス・イリジック氏は述べています。
Whisk はまだ開発の初期段階ですが、このツールは Google Labs のウェブサイトとして公開されており、現在は米国のユーザーが利用できます。
ウェドブッシュ・セキュリティーズのマネージングディレクター兼シニアアナリストのダン・アイブス氏は、ウィスクはテクノロジー競争におけるグーグルのもう一つの「力の誇示」となると述べた。
アイブス氏はまた、Googleが2014年に買収したAIラボDeepMindが、GoogleがAI分野における地位を維持する上で重要な資産であると指摘した。Whiskを含むAI製品は、今後数年間のGoogleの製品開発戦略の重要な部分を占めており、2025年までに複数の新製品が発売される予定だ。
Whiskツールは、ユーザーの介入を最小限に抑えながら、AIを活用してクリエイティブな作品を作成するための新たな道を切り開きます。これは、AIが視覚要素を理解し、創造的に組み合わせる技術の進歩を示しています。
Whiskは、GoogleやOpenAIをはじめとする大手テクノロジー企業の間で広まっている、画像、テキスト、 動画の生成を通して新たなクリエイティブ体験を実現することを目指す消費者向けAIツールの開発というトレンドの一端を担うものです。OpenAIは最近、Whiskと直接競合するテキスト動画生成ツール「Sora」も発表しました。
ゴック・アン(CNN、The Verge、ZDNETによる)
[広告2]
出典: https://www.congluan.vn/google-ra-mat-cong-cu-tao-hinh-anh-ai-tu-hinh-anh-that-post326441.html
コメント (0)