DALL-E 3 を学んだ過程のログから。新技術を習得するためのシラバス的な進め方 with ChatGPT as Copilot

Last updated at 2024-05-26Posted at 2023-10-27

背景

私は Ganerative AI の中でも、Text 生成系のものあるいは API操作系 (これが Copilotの実体) は、割と直感的に使えるものが多いんです。なぜなら、普段のお仕事でやっている*事の置き換えに近いからです。アプリの操作が、文章での操作に変わった。というのが基本概念ですので。

最近のChatGPT のセッションでも、Ruway Gen-2 について取り扱っています。

私は全然扱えません!😭

これは、私がコンテンツとしての動画を作るノウハウが少ないためです。恐らく YouTube 用の動画を作成している方々には、それが容易だと想像をしています。

さて、いつまでも「私は画像の作成は出来ないんです。苦手なんです!」とは言っていられません。なぜなら、私のタスクの中には、プレゼンテーションがあります。プレゼンテーションの中では、ふんだんに画像を使っているんです。

この Blog を書いている時点で、一番直近で公開したプレゼンはこちらですね。画像がたくさんあると思います😅

Microsoft の中では、業務で利用していい許諾のとれている画像については、担当の方々がいて、社内に共有してくれているんです😊。ですので、Microsoft 社員の使うプレゼンテーションには。他の社員のプレゼンで見た、同じ人が幾度も出てくると思います。
利用可能な期間もありますからね。

今、なぜこのBlogに至ったかというと。

1カ月先くらいまでのプレゼンテーションやワークショップの準備が終わった私としては。ここで、新しいスキルを身に着けよう と思ったんです。そう、仕事でも使う Text to Image の DALL-E 3 にチャレンジします。

その過程を共有する事で。新しい技術を習得する過程を共有しようと思います。リスキリングのプレゼンテーションをしている手前。自身がやっていないとダメダメですよね! 悪い評論家になっちゃいます!

戦略

1. 最先端でなくていい

私は Field Engineer であり、リサーチャーではありません。社会・企業での課題を技術の観点から解決するのが私の最大のミッションであり、Software Engineer として対価をいただいてから一貫しての仕事に対してのモチベーションでもあります。ま、純粋にコンピューターを動かしているのが好きなんですけどね😊

つまり最先端である必要はないのです。課題解決のための最高の道具は欲しいんですが、それは技術的に難しものや、新しいものである必要はないんです。直近役に立つ事に重きを置いています。ここがリサーチャー・研究者との大きな違い。

という事は、世界中で誰かが試して記事を書いていたりしています。情報の鮮度を考えると、ネットの方がいいですね。

2. 自分の仕事の中から、実用的なテーマを探す

Bing Chat の Image Creator にアクセスすると、サンプルの Prompt と結果の画像がいくつもあります。例があるのは理解を早めてくれる上で、本当に大事。でも、自分の仕事で使えないことが多いんですよ。私の場合。仕事との分離がどうしてもある。
なので、仕事で使うシーンから、Text to Image用の Prompt につなげる行為をした方が私の場合は知識が定着します。

Bing Image Creator:
https://www.bing.com/images/create?

サンプルの Prompt:

この宇宙飛行士みたいな画像はいいんですけどね。要は「いつ、どこで・これを使います? そう何のシーンで使うのかわからないんですよ。

3. ChatGPT のヘルプを得る

これは、ChatGPT をほぼ毎日使っていて日常としているからです。つまりChatGPTに使い慣れていない方にとっては、この部分は「???」となるかもしれません。
ChatGPTに以下を手伝ってもらおうと思います。

シナリオ毎の文章の作成。Prompt ではなく、その前のドラフト
(出来るのであれば) DALL-E 3 用のPrompt を直接作成

同じことかもしれないですが😊
まだ、試していないので、タスクを分解してみています。後者が出来れば、最高です。

戦術

シラバス的なものですね。以下の通りで進めます。
いずれも、見つけたドキュメントやURLなどは、ログを残しておくことが大事です! 自分用ですね。

1. 基礎を理解する

書籍・ネットの記事・社内外のプレゼン資料
- 私は毎回社内の資料を最優先で探します。
- なぜなら、そのまま外部で使える可能性が高いからです。情報セキュリティの管理と知財管理の観点からです。外部資料は、自分のプレゼンテーションで使えない可能性がありますので。ここは会社員であり Microsoft という組織に属している事の大きなメリットなんです。
- そして、その資料の作成者、つまり、詳しい人が誰かを知る機会にもなります。同僚ですから何かあったら「さらっと」聞けますよね!
- 皆さんの会社では、プレゼンテーションの資料などは、共有されていますか? 個人のPCあるは企業で使っている OneDrive for Business などのクラウドなのに、社内に共有せず、自分の作業領域だけに保存をしていませんか?
- もちろん、ネットの良い記事はホントにありがたい... 必ずいるはず!初心者向けかつ、私が欲しい情報を書いてくれている方が!
  - 良いサイトは、ブックマークをお忘れなく!

2. 作業環境を用意する。基礎知識の確認

雑に動かします。エラーは殆ど出ませんからね😊
もう、わかりますよね。「業務でのChatGPTは禁止」と会社からお達しが出たら、どうしたらいいと思いますか?上司への相談は必須ですけど。仕事に当たらない範囲で、個人でそれぞれと契約するんです。会社が契約するあるいはそれと同等の環境が用意されるまでの間です。これをするためには契約行為をある程度でいいので知っておかないといけない。私は OpenAI の ChatGPT は個人としての契約ですよ。
幸いにして私には OpenAI の DALL-E 3 と Bing Chat の双方の環境があります
- これは Bing Image Creator のスクショ。
- これは OpenAI の ChatGPT 有料版 (plus) メンバー向けのスクショです。

3. テーマを決める。応用に入るために

自分の仕事に沿ったテーマを決めます。
- テーマは以下にしてみました。これは人それぞれ
  1. ChatGPT プレゼンの表紙
  2. ChatGPT セミナーの集客ポスター - これはツールとしては Microsoft Designer でかなり作れそうなんですが。素の画像部分にのみ焦点を当ててます
  3. まさにイメージなんですが。話を聞くだけでやらない人 vs 操作をしてみる人

4. テクニックを収集する。応用として

更なる Prompt Engineering 向上のための Tips 集を、ネットで検索して探します。本は残念ですが、この情報更新の早さに役に立たないことが多いです。
90点くらいの作品を目指したいんです。何せ自分自身がどういうものが欲しいか分かりません。という事は100点になるなんて、滅多にないですよね。そして、私の仕事に置いて画像はおまけなんです。プレゼンの資料で大事なのは文字の方だと思います。
ChatGPT の Prompt Engineering の Tips 集などのために、ブラウザーにてブックマークとして集めていたものの中に、やはり役に立つものがありました。
- https://learnprompting.org/ja/docs/image_prompting/intro
実はテクニックは無くてもいいんです。こればっかり気にする人がいますけどね。90点が95点になるだけですよ。皆さんは画像作成のプロで、そこで勝負をしているわけではないですよね???

このBlogの骨子はここまでです。
で、この先は、その具体例になります。具体例があるのは、理解を深める上で大変役に立つと思います。これは経験上の話ですが。

実践へ

では、さっそく進めましょう。

1. 基礎を理解する

まずはドキュメントを探します。

1.1. 社内ドキュメント

先にお話した通り。私は自社内の資料を探します。
これは「DALL-E 3」など、製品名で探せるコトが多いです。なぜならテクノロジーカンパニーなので。

はい。これ私の社内検索でのあるある集です。

知り合いのスライドが見つかる
開発チームのスライドが見つかる ==> これは、社外に出せない情報が含まれている場合がある。単なる参考資料にしか使えないかも
自分のスライドが見つかる ==> もっともがっかりする瞬間😭

これが、私が検索しているときに注意している事です。

ファイルの作成日時は必ず確認!
- 数か月前のファイルは、情報が古すぎる場合がある
中身をみるまで分からない
- 検索結果の資料のタイトルと、概要見出しから、5-10個程度探します。Power Point のスライドは、絵としてそのページを見ないと、自分が欲しい物かどうか、わからないんですよね。よく社内用のビジネスプランニングの資料が検索にヒットしちゃうこともありますし。
ファイルの置いてあるフォルダーで遡って、他のファイルも見てみる
- そのファイルじゃないもので、欲しいものが見つかることがあります。これは確率が低いんですけどね

その過程で Prompt が収集できることがあります。これはドラフトとしてテキストファイルなどに保存しておくと、後でいろいろと出来ます。Prompt はテキストなんで、保存が簡単でいいですね!

...

はい、いろいろと探してみました。DALL-E については、話はシンプルな事もあって、私にとって有益なものは探せなかったです。

1.2. ネットの記事

ネットの検索ですね。検索用のキーワードを置いておきます。
組み合わせるんですよー
そして、ネットの記事は残念ですが英語の方がいいです。海外の方の方が情報の量も質もいいことが多いです。

Image Prompting
Image Generation
DALL-E Prompts

そして見つけた有用そうなサイト。これは執筆日時点ですね。あくまで。

素直に公式サイトは一読スベキだと思います。

そして、素晴らしいサイトに辿り着いた!!!😍

これは、もう勝ったも同然ですね。ブクマ確定。このサイト。困ったら見るリファレンス・辞書的なものが横にあればいいんです。全部覚える必要はない。
注意点は、DALL-E 2 が基になっているサイトです。執筆時点でですが。制限などは、DALL-E 3 で変わっている可能性がありますから。動かしながら、公式ドキュメントなどを必要に応じて参考にする必要があります。このサイトの著者も、わかっている可能性が高いですからね。ここまでのドキュメントを作る方ですから。

これは MidJourney のドキュメントです。幾つかパラメーターがありますので、同じように DALL-E 3 で使えるかは分かりません。

現時点で見つけた教科書的なサイトはこちらですね。
他にもあるかもしれませんが。

後は、こちらも。

純粋に参考になったサイト:

こちらの方のサイトは。画像を描画する上での、パラメーター的なものを列挙してくれているので、リファレンスとしてメッチャ助かります。これは、普段から画像を扱っていたり、写真や動画の撮影なんかをしていれば、よく使われるんでしょうけどね。これもブクマ確定!😊

スタイル・画材・手法

ポートレートの種類

品質

カメラ・光・照明・アングル

が、設定として使えそうです!

2. 動かしてみる

ポイントを。

問題の切り分けをしなくてもいいように。まずは純粋なモデルで試します。つまり、OpenAI の DALL-E 3 環境で。で、Bing Chat でも試してみます。どんな違いがあるのかを知るために
日本語 で試します。私の中では、LLM は、言葉が扱える全ての人が使うツールとして位置づけています。英語を強いるのは、ユーザーを減らすことに繋がりますので。

2.1. First Try

最初はコピペです。
いくつもネットにあるサンプルをそのまま使います。動作確認ですね。下手にいじらないことが大事。

先のサイトから、良さげなプロンプトを選択します。

Prompt:

Innovate a movie poster for a film of a genre of your choosing, such as sci-fi, and give it a title, like ‘Space World’

OpenAI の ChatGPT で、DALL-E 3を有効化します。

Prompt 投入!

動きましたね! 😍

さて、日本語で試してみます。ちなみに ChatGPT に翻訳させたものです😅

Prompt:

例えばSFなど、お好みのジャンルの映画のポスターを革新的にデザインして、それに「Space World」のようなタイトルをつけてください

WOW!😍
勿論、先の英語の Prompt 投入とは異なりますが。それは、LLMは毎回同じ答えを出力するので大した問題ではないです。
私が見て、良さげな画像が出力されているので、それでいいんです。

Bing Chatでも試してみました。

これは、また毛色が異なりますねー文字が強調されているように見えます。
まだ初回ですから、この差異については、無視しましょう。なぜなら、Bing Chat の出力もまた、私の欲しい画像だからです。

2.2. パラメーターを触る。調整がどこまで出来るのかを知る

公式ドキュメントなどに明記がありません。つまり、このパラメーター関連は、画像を扱う上で一般知識として知っておかないといけないという事です。それでも、私には教科書的なリファレンスが必要です。なぜなら、知識が無いので😅

先ほどネットで見つけたサイトの記事をメッチャ参考にします!

スタイル・画材・手法, ポートレートの種類, 品質, カメラ・光・照明・アングル

が、パラメーターとして使えそうです!

さー行きましょう!

スタイル

パラメーター	Prompt	結果
イラスト風	SFの映画のポスターを革新的にデザインして、それに「Space World」のようなタイトルをつけてください。イラスト風で
ステンシル風	SFの映画のポスターを革新的にデザインして、それに「Space World」のようなタイトルをつけてください。ステンシル風で
クレヨン風	SFの映画のポスターを革新的にデザインして、それに「Space World」のようなタイトルをつけてください。クレヨン風で

動きますね!😎

という事は、他のパラメーターたちも動きそうです。必要な時にやってみればいいですね。そして、この動きそうなパラメーターは。全部覚えてられないので、このサイトや似た辞書的なサイトのブックマークで生きて行けそうです。

3. 業務に役に立つシナリオで動かしてみる

さて、業務シナリオでやる事が大事です。自分に役に立つものですからね。一気に知識が深まります😊

さて、先のテーマでもあり、私のここ直近数カ月でご要望の多い
「ChatGPTセミナー+Workshopのイベントチラシ」
の画像を作成させましょう。

ここでは、その Prompt の題材を ChatGPT と一緒に作ります。なぜならば、どんな画像がいいのか、全く思いつかないからです!😅
ChatGPT は追加の情報を幾つか入力すれば、それ相応の文章を作る能力が高いです。ここでは思いつくものを挙げていきます。

ChatGPT への Prompt:

### 指示 ###
以下の情報を基にして画像の説明文を作成してください。

情報: ###
- セミナーのポスター
- ChatGPT など生成系AIに関するもの
- 参加者は学生・社会人など誰でも
- 参加者に楽しい気持ちになってもらいたい
- 参加者がセミナーが終わったら、「直ぐにChatGPTを触りたい!」という気持ちになってもらいたい
- 未来には明るさがあるように思ってもらいたい
###

ChatGPT に投入してみます。

長っ!!!😅
そして、内容が薄っ!!!🤣

これをそのまま使ってみましょうか。まずは。この文節が幾つかあるもので、DALL-E 3 が画像を作成できるのか? に興味があります。

ChatGPT のアプリの場合は、出力された文字列をコピーできますからね。そのまま DALL-E に投入してみます。

!!!
動きましたねー

左の画像:

右の画像:

文字化けは甚だしいですが。それはどうでもいいです。「文字は作成するな」と指示すればいいですからね。あるいは、文字なんて PowerPoint で作ったほうが柔軟性が高いですから。ね。

この指示、つまり制限が出来るか? が動くのかを確認してみましょう。

「未来への一歩: 生成AIとの対話」

このカラフルで活気に満ちたポスターは、"未来への一歩: 生成AIとの対話" というセミナーを紹介しています。中央には、明るく鮮やかな色合いで描かれたChatGPTのイラストが目を引きます。イラストは、友好的でアクセスしやすいChatGPTのキャラクターを表しており、学生から社会人まで幅広い層が興味を持ちそうです。
ポスターの背景には、デジタルテクノロジーのモチーフが斬新かつ洗練されたスタイルで表現されています。これは、生成AIの進歩と、それがもたらす未来への楽観的なビジョンを象徴しています。
セミナーの詳細情報は、明瞭で読みやすいフォントで記載されています。開催日時、場所、参加方法などが一目でわかります。また、「どなたでも参加可能」というフレーズが、多様な聴衆を歓迎する温かい雰囲気を醸し出しています。
特に注目すべきは、参加者がセミナー後に「すぐにChatGPTを触ってみたい！」と思えるような、刺激的でインタラクティブな体験を提供するというメッセージです。これは、ポスター下部に掲載された「体験型学習セッションあり」という注釈で強調されています。
全体的に、このポスターは教育的でありながら楽しい、そして未来への希望を感じさせるデザインとなっており、多くの人々を魅了することでしょう。

### 制限 ###
画像の中に文字は入れない

結果です。30秒くらい待ちますね。

左の画像:

右の画像:

私なりの気づきです。

"Seminar"っていう文字は入っちゃっていますけどね😅
制限は効いているようです。これは数度試してみる事が大事ですけど
具体的な指示はしていないのですが。その中でも創造性を発揮してくれているように見えます。イベントのポスター的な画像なんで、むしろ抽象的な絵の方がいいんです。今回は。AIタレントを作ってもいいんですけど、それはそれで多様性の世の中で、難しいコトもありますので。

2.3. Prompt に、思いついた絵の説明を足していく

これは、既知のテクニックなんです。

雪の中で犬ぞりに乗っている

という文章を思いついたら。「夕焼け」を足してます

夕焼けの雪の中で、犬ぞりに乗っている

どんどん足していきます。

白樺を背景にして、夕焼けの雪の中で、犬ぞりに乗っている。水彩画調

白樺を背景にして、夕焼けの雪の中で、犬が犬ぞりを引いている。高品質のアート

楽しくなってきました😎

白樺を背景にして、夕焼けの雪の中で、犬が犬ぞりを引いている。ピクサー風のかわいい3Dイラスト

WOW!!!😍

白樺を背景にして、夕焼けの雪の中で、犬が犬ぞりを引いている。アニメ風オフィシャルアート

この文量だとDALL-E 3のレスポンスは5-7秒程度。10秒以下。早いです。

で、ここまで他の方の Prompt を参考にDALL-E 3と遊んでの気づきです。

絵をどの様に描画するのかを説明する。これで、最適な Prompt に辿り着きそう😊

で、その「絵」が思いつかないんですけどね😅

まとめ

知識がない中で、ChatGPT の手を借りながら、先に進める事が出来ました。LLMの推論結果には揺れが必ずありますので、画像は10パターンでも、何パターンでも作成できるので、ドラフトとしては十分です。

もし、ChatGPT を使えなかったら。私はずっと画像の作成はできなかったでしょう。今、新しいスキルの分野に LLM の力を得ながら進む事が出来そうです。

勿論、プロの方には到底敵いません😊
ですが、ある程度のレベルまで追いつく自信はあります。なぜなら、トライ&エラーが簡単で、回数は多く重ねられるからです。

皆さんも DALL-E 3 や、他の生成系AIを自分で触って試してみてください。その回数が皆さんの筋肉となり、力になる事は確実ですからね😊

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up