ChatGPT Plus 体験レポート➁

2023/11/10

A cat cyborg is programming in cyberspace. There is no keyboard, the prompts are verbal, and the screen is transparent so the letters appear to stand out.

概要
DALL-E 3
GPT4実例
色深度
シード値
感想

ChatGPT

概要

ChatGPTは、アメリカの企業OpenAIによって2022年11月30日に発表された。このモデルは、先行するGPT-3.5モデルをベースにしており、自然言語理解と生成の能力を備えている。発表当初、ChatGPTはその対話型の能力で注目を集め、多くの分野での応用が期待されていた。

拡張され有料のChatGPT PlusではGPT4が使える。GPT4は25000文字まで入力できるという。なによりも画像を入力として使うようにデザインされているようだ。

ChatGPTのTop画面でGPT3.5 かGPT4が選べる。「GPT-4 With DALL-E,browsing and analysis 」と表示されているので画像生成、ネット検索、分析などが統一されて使える。

Explore > Made by OpenAI で表示される十数個のなかから目ぼしいものを使ってみた。つまりこのようなものを自分用に作れるということだろう。

.....で、試しに自分用に作ってみようとした。GPTと会話しながらメニューを作っていくが、日本語で入力できても全て英語で質問されるので聞きなれない単語もあり質問の意味は分かるが答えに窮する。おおよそ分ったのである程度の目的を準備してからいずれ試すことにした。

DALL-E 3

ChatGPTにDALL-E 3について聞いた

DALL-Eの歴史は、テキストから画像を生成する技術の進化を示しています。最初のDALL-Eは2021年にOpenAIによって発表され、基本的なテキストプロンプトから画像を生成する能力を持っていました。その後、DALL-E 2が登場し、さらに高品質な画像生成と、より複雑なプロンプトに対する応答性を備えていました。

2023年9月21日には、その後継となるDALL-E 3がOpenAIから公開されました。DALL-E 3は、以前のバージョンと比較して、特に長いまたは複雑なプロンプトに対してより正確な画像を生成する能力が大幅に向上しています。DALL-E 3は、「自然」スタイルと「鮮やか」スタイルの2つの新しいスタイルを導入しました。自然スタイルは、DALL-E 2のリアリズムに近いものですが、鮮やかスタイルは、よりハイパーリアルでシネマティックな画像を生成する新しいスタイルです。

DALL-E 3は2023年10月にChatGPT PlusおよびEnterprise顧客向けにChatGPTにネイティブで組み込まれ、その後OpenAIのAPIと"Labs"プラットフォームを通じて利用可能になる予定です。また、MicrosoftはBingのイメージクリエーターツールにこのモデルを実装し、将来的にはDesignerアプリにも実装する計画です。

このようにDALL-Eは継続的な技術進化を遂げており、テキストからの画像生成の質と反応性を高めています。

Made by OpenAI 実例

Cosmic Dream : Visionary painter of digital wonder

現実にはあり得ない画像を作る
現代の絵画展でみかけるようなイメージ

こちらはSF調

"生物を追加して"、とプロンプトしたら羽のついた鬼太郎の目玉おやじのようなものが飛んでいるので、"妖精に変更"

英語のサブメニューに「Emoji」とあったので試したところ「絵文字」だった。日本語は無理だろうと試したところ英語で書かれる

"サイバースペースのイメージをアスペクト比16:9で作って"
Dive into this digital ocean, where the currents of data flow in neon brilliance.

Dall-e : Let me turn your imagination into imagery

"日本の紅葉"
京都の夕暮れがよく表現されている

"奥入瀬渓流の紅葉"
水面の反射が良い

"八甲田山の紅葉"

詳しくプロンプト : "1970年代の日本　地方の小さい駅で　麦わら帽子をかぶった若い女性が電車に乗って都会へ旅だそうとしています。
満開の桜から風に乗って桜の花びらが青空にひらひらと飛んでいきます。遠くの高い山には雪が残っていて空は青い。"

1枚目

2枚目

"1960年代の日本の農村の景色中央に橋があって川が手前に流れている　川の両岸は田んぼで空き地に野草の花が咲いている　子供たちが川の浅瀬で遊んでいる　遠くの山には残雪"

昔の農村の景色

2枚目

"屋根を茅葺" 　
前の画像とは変わった

"A cat cyborg is programming in cyberspace. There is no keyboard, the prompts are verbal, and the screen is transparent so the letters appear to stand out."

キーボードは不要なので消してと伝えたが何度やっても残っている

"可愛い小鳥が木の枝に留まってこちらを見ています。背景は秋の紅葉の森です。背景をぼかしてください。アスペクト比16:9で"

イメージどおり

2枚目

"スペイン人の女性ギターリストがアルハンブラ宮殿でギターを弾いている"

ギター曲の背景画像用
Here are the images depicting a Spanish woman guitarist playing a guitar in the Alhambra Palace. The setting includes Moorish architecture and traditional Spanish attire, creating a scene rich in cultural and historical ambiance.(ChatGTP)

2枚目

色深度

"色深度についてピクセルとの関連で説明して"

色深度とは、画像内の各ピクセルに割り当てられる色情報の量を意味します。ピクセルは、デジタル画像を構成する最小の単位で、それぞれが特定の色を持っています。色深度はビット数で表され、ピクセルが表示可能な色の範囲と精度を決定します。

例えば:

8ビット色深度: 通常、各ピクセルは赤、緑、青の3つの色チャンネルを持ちます。各チャンネルは8ビットで色情報を持ち、256の異なる値（0から255）を取ることができます。これにより、各ピクセルは256x256x256 = 1677万7216色の中から1色を表示することができます。

32ビット色深度: この場合もピクセルは赤、緑、青の3チャンネルを持ちますが、各チャンネルはより多くの色情報を持つことができます。更に、32ビット色深度には通常、透明度を制御するためのアルファチャンネルも含まれています。32ビットの色深度では、より豊かな色調と滑らかなグラデーションを実現し、よりリアルな画像を作り出すことができます。

色深度が高いほど、各ピクセルはより多くの情報を持ち、画像はより豊かな色調と細部を表現できます。しかし、これにはより多くのデータが必要であり、ファイルサイズが大きくなります。色深度が低いと、色数が限られるため色の階調が少なくなり、色の変化が階段状に（バンディングとして知られる）現れることがあります。これにより、画像はリアルさを欠くことがあります。

これを視覚的に示すために、低い色深度を持つ画像と高い色深度を持つ画像を比較する画像を作成します。

羽の質感

シード値

例えばあるイメージキャラクターをDALL-E 3で作成したとして、気に入ったが少々手直ししたい部分があるとか、イメージキャラクターの背景を変更したい場合に、その旨をプロンプトするとイメージキャラクターが別のものになることが多い。

一貫性と持続性がないと使えない。これに関して「シード値」というものがあり、ある程度の一貫性は考慮されるが、「すべての文脈で同一の結果が得られるとは限りません」と答える。

AIは内部で乱数を使っていて、再現性のある乱数を生成するためにシード値を使う。

ChatGPTに聞いてみた:

"AIが乱数を使うのは、すべてのケースを探索するのは無駄が多いので、乱数を使ってランダムに探索するほうが効率的である。というのは正しいですか?"

AIが乱数を使う理由として「すべてのケースを探索するのは無駄が多いため、乱数を使ってランダムに探索する方が効率的である」という説明は、ある程度正しいですが、もう少し詳細に解説すると以下のようになります：

計算効率の向上:AI、特に大規模なニューラルネットワークの学習においては、すべての可能性を網羅的に探索するのは計算コストが高すぎます。乱数を使うことで、探索空間をランダムにサンプリングし、より効率的に良い解を見つけることができます。
局所的最適解の回避: 乱数を使うことで、学習過程がある特定の解に固定されるのを避け、より広範な探索を促すことができます。これにより、局所的最適解に陥るリスクを減らし、全体としてより良い解にたどり着く可能性が高まります。
多様性の確保: 生成モデルなどでは、乱数を使うことでより多様な出力を生成できます。これにより、モデルが一方向に偏ることなく、多様なデータに対応できるようになります。

つまり、AIが乱数を使う主な理由は、計算効率の向上、局所的最適解の回避、そして出力の多様性の確保にあります。これにより、AIはより汎用的で効率的に問題を解決する能力を持つようになります。

"シード値とは何か？"

シード値について

シード値とは何か？

基本的な定義：シード値は、乱数生成器を初期化するために使用される初期数値です。乱数生成器が出力する数値シーケンスの開始点です。
決定論的出力：シード値を使用する主な特徴は、乱数生成プロセスを決定論的にすることです。つまり、同じシード値で開始する場合、常に同じ数値のシーケンス（またはAIによる画像生成の場合は画像）が得られます。
AI画像生成における応用：DALL·EのようなAI駆動型画像生成ツールでは、シード値を使用して同じバリエーションの画像を再現することができます。特定のシードで画像を生成し、後でその同じシードを再度使用すると、同じ画像が得られるか、非常に似た特性を持つ画像が得られます。

シード値の使用方法

シードの設定：画像生成タスクを開始するときに、シード値を指定できます。これは特定の数値やソフトウェアのデフォルト設定である場合があります。
結果の再現：画像を再現するには、同じシード値を再び使用します。これは、テストや比較、または一貫性を保ちながら画像のバリエーションを作成したい場合に特に便利です。
同じシードでのバリエーション：システムによっては、同じシードを使用しつつも、他のパラメーターを変更することで、わずかなバリエーションを導入することができます。これにより、テーマやスタイル周辺のバリエーションを探索することができます。

覚えておくべき重要な点

ユニークさ：それぞれのユニークなシード値は、異なる開始点を提供し、異なる数値シーケンスや画像セットにつながる可能性があります。
プラットフォーム間の一貫性：シード値による再現性は、同じアルゴリズムとバージョンを使用するプラットフォーム間で一般的に一貫しています。しかし、異なるシステムや同じシステムの異なるバージョンでは、同じシードで同一の結果が生じるとは限りません。
制限：シード値は再現性を提供しますが、AI画像生成などの複雑なシステムでは、最終的な出力に多くの要因が影響するため、すべての文脈で同一の結果が得られるとは限りません。

要約すると、シード値は乱数生成のようなプロセスにおいて、創造的で実験的なシナリオに特に有用な、予測不可能性と再現可能性のバランスを提供する強力なツールです。

シード値の使用例。
シード値は「Custom instructions」に"提示すること"を設定しておく
"日本の1970年代　地方の町　駅から麦わら帽子を被った若い女性が旅立とうとしている"
The seed value used for this image is 1234567890 (ChatGPT)

"シード値は1234567890です。女性の全身が見えるようにして。空は青空で少し雲がかかっています"
シード値は女性の姿だけでなく、画像全体の数値と思われるのでまあ60～70点の評価

感想

画像の構成もBing Image Creatorよりよくなって、かなり不自然さが解消された。

画像の品質がよくなった。アスペクト比16:9 の場合幅:1792px , 高さ 1024px になる。色深度はBing Imgae Creatorは24だったが、ChatGPTの場合は32なので鮮やかな色が表現できる。

AI技術の競争が本格化してきて、2023年の11月現在ではOpenAIのChatGPTが一歩前に出たように思う。後に出るほど良いものが出てくるのは当然。

戻る