【感動】DALL-E3の使い方|あなたもイメージどおりの画像ができる
「画像生成AIはプロンプトが難しい」
「思ったとおりの画像ができない」
そんなイメージをもっていませんか?
もし画像生成AIがうまく使えていないなら、DALL-E3を使ってみてください。
DALL-E3は、OpenAIが開発した画像生成AIです。これまでの画像生成AIと違ってChatGPTがベースにあることで、プロンプトを自動で適切に直してくれます。
とても簡単な日本語のプロンプトから、イメージを正確に再現した画像が生成されてびっくりするはずです。
この記事ではDALL-E3の使い方と合わせて、どんなことができるのかを解説します。
DALL-E3は無料で使うこともできるので、この記事を読んだらすぐに使い始められますよ。
本音を言うと、無料よりChatGPTに課金して使うのが一番いいです。その理由も記事を読めばわかります。
ぜひ最後までお読みください。
DALL-E3とは?
DALL-E3とは、OpenAIが開発した画像生成AIです。テキストから高精度でリアルな画像を生成できるという特徴があります。
従来の画像生成AIでは、生成された画像について修正はできませんでした。DALL-E3は、ChatGPTにプラグインとして組み込まれており、画像生成のプロンプトを作成したり、微調整したりすることができます。
ChatGPTでは有料版でのみ利用可能ですが、BingのImage Generatorというサービスなら無料で利用可能です。
DALL-E3の特徴
DALL-E3には、以下のような特徴があります。
従来の画像生成AIではできなかった、あるいは難しかったことが本当に簡単にできるようになりました。
理解力が高い
従来のシステムよりもニュアンスやディテールを理解し、自然言語のテキストを正確なイメージに変換することができます。
つまり、プロンプト作成のテクニックがいらないということです。
例えば、「煙を吐きながら走っている汽車に驚くサムライの画像を作ってください」という簡単なプロンプトで以下の画像ができました。
サムライが変な方向を向いていますが、「煙を吐きながら走る汽車」と「驚くサムライ」がきちんと生成されています。
適切なプロンプトを作ってくれる
簡単なプロンプトでも正確に表現ができるのは、ChatGPTによってプロンプトが生成されたからです。
例えば上のサムライの画像では以下のプロンプトが作られました。
プロンプト
Photo-style render of a startled samurai in the foreground with a vintage steam train billowing smoke in motion behind him.
簡単な日本語の命令を精緻な英語のプロンプトに変換してくれています。
ChatGPTを基盤として、プロンプトを洗練させることができるのです。
できた画像の修正が可能
従来の画像生成AIでは、画像の修正ができませんでした。生成の結果を見て、プロンプトを作り直して再度生成する。これを繰り返していました。
DALL-E3はできた画像を元に修正をかけられます。
試しに「4の画像を汽車でなくドイツの戦車にしてください」としたら、以下の画像になりました。
サムライが別人になりましたが、注文通りの修正です。
ワンポイント!
DALL-E3は一度に4枚画像を生成します。左上が「1」、右上が「2」、左下が「3」、右下が「4」となっているので、この番号で画像を指定できます。
生成画像は商用利用可能
DALL-E3で生成した画像は、コンテンツポリシーと利用規約を守っている限り、商用利用可能です。
画像の商用利用が可能となる背景には、以下のようなOpenAIの取り組みがあります。
- 現在活動しているアーティストのスタイルを真似るリクエストの拒否
- アーティストが自身の作品をAIのトレーニングから除外する「オプトアウト」機能
- 暴力的・憎悪的な内容のリクエストへの制限
- 公人をモチーフにした画像生成を制限
実際、「チャップリンの似顔絵を描いて」とお願いすると、以下のように拒否されました。他人の権利を間違って侵害しないように作られているのです。
DALL-E3の使い方
さっそくDALL-E3を使ってみましょう。
方法は3つあります。
Bingで使う
もしすでにMicrosoft Bingをお使いなら、何もせずそのままDALL-E3による画像生成ができます。
ただ画像生成のプロンプトを入力して、実行するだけです。
上と同じく、汽車に驚くサムライの画像を作ってみました。
一応できましたが、本家に比べると質は下がった印象です。「煙を吐く」がタバコになっていますね。あと、汽車ではなく電車です。
Bingの導入については、こちらの記事の「Microsoft Bing AIの始め方」をご覧ください。
Microsoft Edgeブラウザをインストールするだけなので簡単です。
ChatGPTより上!? Microsoft Bing AIでもっと良質な記事を作成する方法【プロンプトあり】
Image Creatorで使う
Image Creatorは、Microsoft Bingの画像生成機能です。
マイクロソフトアカウントにログインして、こちらのページで画像が作れます。
Microsoft Edgeを使っていないなら、こちらの方が簡単です。
上と同じ画像を作ってみましょう。
プロンプトを入れて、ピンクの「作成」ボタンを押すだけです。
できましたが、サムライが煙を吐いていたりして、プロンプトの理解精度は今ひとつでした。ちょっとホラー要素が加わっています。
ChatGPTで使う
最後は本家、ChatGPTで使う方法です。
これまでの結果を見ると、プロンプトの理解は本家が一番良さそうですが、偶然だったのかもしれません。
そこで再度、同じプロンプトで汽車を見て驚くサムライの画像を作ってみます。
使い方は、プロンプトを入力して実行するだけです。
結果は以下のとおり。今回も注文どおりの出来栄えです。さすが本家。
ChatGPTは有料版の契約が必要
精度が高いChatGPTですが、DALL-E3を使うには有料契約が必要です。
有料版の「GTP-4」にアップグレードしたら、GPT-4の中から「DALL-E3」をクリックしてチェックを入れてください。あとは、上のようにプロンプトを入れれば画像が作れます。
DALL-E3でできることを検証
DALL-E3でできることを検証してみます。
もっとも精度のよかったChatGPTでやってみましょう。
ロゴ制作
以下のようなプロンプトでロゴを作ってみます。
少し細かく条件を指定しました。
プロンプト
#役割
あなたは{ロゴデザイナー}です。
#依頼
{カフェのロゴマーク}を作ってください。
#条件
カフェの名前は{猫の手}
{猫の肉球}を図案に入れてください。
{温かみ}があって{スマートな}感じ
結果は以下のとおり。かなり注文どおりです。
いい出来ではないでしょうか。
ワンポイント!
文字がおかしいのは、DALL-E3で日本語を表示できないからです。現時点でこれはどうしようもないので、英語表記を指定するか、文字なしでロゴマークだけ作るのがいいでしょう。
ダミー画像
続いて、ダミー画像です。
企業の採用サイトやバナーにテスト用で使えそうな画像を作ってもらいます。
プロンプト
#依頼
{日本の企業で働く会社員}の画像を作ってください。
#条件
画像を使う場所は{企業の採用サイト}です。
{爽やか}で、{はつらつとした}イメージにしてください。
以下のような画像ができました。
従来の画像生成AIですと、人物は不自然になりがちでしたが、これはかなり自然に見えます。
さらに、同じ人物で別の場面を作ってもらいました。
パソコンで仕事をしているところ。
仲間と笑顔で社内を歩いているところ。
うまくいかないケースもあります。
例えば以下の食事シーン。両手で箸とフォークを持っているのは変ですね。若干顔も変わっているようです。
以下のプロンプトで画像の修正を試みました。
プロンプト
中央の男性は右手に箸だけ持たせて、左手はテーブルの上においてください。
かなりよくなりましたが、前と同じ場面ではありません。1箇所だけ直すのは難しいようです。顔もだんだん変わってきました。
ブログのアイキャッチ
ブログのアイキャッチ画像を作ってもらいます。
クーシーブログの「モバイルファーストに特化したデザインで押さえるべき4つのポイント」という記事でやってみましょう。
プロンプト
#依頼
{ブログのアイキャッチ}を作ってください。
#条件
記事のタイトルは、{モバイルファーストに特化したデザインで押さえるべき4つのポイント}です。
{ポップ}で、{明るい}{シンプルな}イメージにしてください。
{文字は入れないで}ください。
結果は以下のとおり。
タイトルから考えてもらうのは、うまくいきませんでした。
プロンプトをもっと具体的に修正し、以下のようにしました。
今回はタイトルを削除し、モチーフを入れてあります。
プロンプト
#依頼
{ブログのアイキャッチ}を作ってください。
#条件
{スマートフォンを操作している人}をモチーフにしてください。
イメージカラーは{薄い青}
{イラスト}にしてください。
{シンプルな}イメージにしてください。
{文字は入れないで}ください。
結果は以下のとおり。
こちらの方がうまく行きそうです。
他の画像生成AIとの比較
DALL-E3とAdobe Firefly、Stable Diffusionを比較します。
DALL-E3はChatGPTが基盤になっていることもあり、テキストベースで画像を生成するのがとても得意でした。他の二つのAIはどうでしょうか。
Adobe Firefly:部分的な修正がしやすい
参考
無料で使えますが、クレジットが尽きたら使えません。無料版は1ヶ月25クレジット、有料版はもっとたくさん付与されます。
Adobe Fireflyは画像生成だけでなく、テキストに効果を加えたり、生成塗りつぶしにより部分的な修正ができるところが特徴です。
直したいところを消してそこだけを生成できるので、DALL-E3のように、修正するごとに他の要素が変わっていくことはありません。
単独でも十分使えますが、IllustratorなどのAdobe製品との連携でさらに便利になるツールと言えます。
なお、Adobe Fireflyで生成した画像は商用利用可能です。
詳しくは以下の記事をご覧ください。
注目の画像生成AI!「Adobe Firefly」Web版の使い方をシンプルに解説
Stable Diffusion:モデルで画像のテイストを選択
参考
Stable Diffusionも無料で使えますが、普通に使うとおかしな画像が生成されます。
原因は、「プロンプト」と「モデル」です。
プロンプトは英語で、Stable Diffusionにわかりやすく書かなければなりません。その点は、普通に日本語で書けばOKなDALL-E3の方が便利です。
Stable Diffusionで高品質な画像ができるのは、モデルのおかげです。モデルにはそれぞれ「人物描画が得意」「宇宙の描画が得意」などの特徴があります。目的に合わせてモデルを変えることで、高品質な画像が作れる仕組みです。
無料、あるいは登録をすると使えるモデルもありますが、有料のものがほとんどです。また商用利用不可のモデルもあります。商用利用を考えるとDALL-E3の方が使いやすいかもしれません。
まとめ
以上、画像生成AI「DALL-E3」について解説しました。
DALL-E3が革新的なのは、圧倒的に簡単にイメージに近い画像が作れるようになったところです。AIが画像を作ってくれるとはいえ、今ひとつ使う気になれなかった人も、DALL-E3を契機に使う機会が増えるかもしれません。
プラグインやAdvanced Data Analysisも一緒に使えることを考えると、ChatGPTの有料版に課金するのはさらに悪くない選択肢になったのではないでしょうか。画像生成AIがさらに身近になりそうな、DALL-E3のお話でした。
この記事を書いた人
クーシーブログ編集部
1999年に設立したweb制作会社。「ラクスル」「SUUMO」「スタディサプリ」など様々なサービスの立ち上げを支援。10,000ページ以上の大規模サイトの制作・運用や、年間約600件以上のプロジェクトに従事。クーシーブログ編集部では、数々のプロジェクトを成功に導いたメンバーが、Web制作・Webサービスに関するノウハウやハウツーを発信中。
お問い合わせはこちらから
Web制作デザイン、丸ごとお任せ
お問い合わせする
テキスト:加藤久佳 デザイン:大坂間琴美