戻る

ChatGPT Plus 体験レポート➁

2023/11/10

A cat cyborg is programming in cyberspace. There is no keyboard, the prompts are verbal, and the screen is transparent so the letters appear to stand out.

ChatGPT



概要

ChatGPTは、アメリカの企業OpenAIによって2022年11月30日に発表された。このモデルは、先行するGPT-3.5モデルをベースにしており、自然言語理解と生成の能力を備えている。発表当初、ChatGPTはその対話型の能力で注目を集め、多くの分野での応用が期待されていた。

拡張され有料のChatGPT PlusではGPT4が使える。GPT4は25000文字まで入力できるという。なによりも画像を入力として使うようにデザインされているようだ。

ChatGPTのTop画面でGPT3.5 かGPT4が選べる。「GPT-4 With DALL-E,browsing and analysis 」と表示されているので画像生成、ネット検索、分析などが統一されて使える。

Explore > Made by OpenAI で表示される十数個のなかから目ぼしいものを使ってみた。つまりこのようなものを自分用に作れるということだろう。

.....で、試しに自分用に作ってみようとした。GPTと会話しながらメニューを作っていくが、日本語で入力できても全て英語で質問されるので聞きなれない単語もあり質問の意味は分かるが答えに窮する。おおよそ分ったのである程度の目的を準備してからいずれ試すことにした。



DALL-E 3

ChatGPTにDALL-E 3について聞いた

DALL-Eの歴史は、テキストから画像を生成する技術の進化を示しています。最初のDALL-Eは2021年にOpenAIによって発表され、基本的なテキストプロンプトから画像を生成する能力を持っていました。その後、DALL-E 2が登場し、さらに高品質な画像生成と、より複雑なプロンプトに対する応答性を備えていました。

2023年9月21日には、その後継となるDALL-E 3がOpenAIから公開されました。DALL-E 3は、以前のバージョンと比較して、特に長いまたは複雑なプロンプトに対してより正確な画像を生成する能力が大幅に向上しています。DALL-E 3は、「自然」スタイルと「鮮やか」スタイルの2つの新しいスタイルを導入しました。自然スタイルは、DALL-E 2のリアリズムに近いものですが、鮮やかスタイルは、よりハイパーリアルでシネマティックな画像を生成する新しいスタイルです。

DALL-E 3は2023年10月にChatGPT PlusおよびEnterprise顧客向けにChatGPTにネイティブで組み込まれ、その後OpenAIのAPIと"Labs"プラットフォームを通じて利用可能になる予定です。また、MicrosoftはBingのイメージクリエーターツールにこのモデルを実装し、将来的にはDesignerアプリにも実装する計画です。

このようにDALL-Eは継続的な技術進化を遂げており、テキストからの画像生成の質と反応性を高めています。



Made by OpenAI 実例

Cosmic Dream : Visionary painter of digital wonder



Dall-e : Let me turn your imagination into imagery


詳しくプロンプト : "1970年代の日本 地方の小さい駅で 麦わら帽子をかぶった若い女性が電車に乗って都会へ旅だそうとしています。
満開の桜から風に乗って桜の花びらが青空にひらひらと飛んでいきます。遠くの高い山には雪が残っていて空は青い。"


"1960年代の日本の農村の景色 中央に橋があって川が手前に流れている 川の両岸は田んぼで空き地に野草の花が咲いている 子供たちが川の浅瀬で遊んでいる 遠くの山には残雪"



"A cat cyborg is programming in cyberspace. There is no keyboard, the prompts are verbal, and the screen is transparent so the letters appear to stand out."


"可愛い小鳥が木の枝に留まってこちらを見ています。背景は秋の紅葉の森です。背景をぼかしてください。アスペクト比16:9で"



"スペイン人の女性ギターリストがアルハンブラ宮殿でギターを弾いている"




色深度

"色深度についてピクセルとの関連で説明して"

色深度とは、画像内の各ピクセルに割り当てられる色情報の量を意味します。ピクセルは、デジタル画像を構成する最小の単位で、それぞれが特定の色を持っています。色深度はビット数で表され、ピクセルが表示可能な色の範囲と精度を決定します。

例えば:

8ビット色深度: 通常、各ピクセルは赤、緑、青の3つの色チャンネルを持ちます。各チャンネルは8ビットで色情報を持ち、256の異なる値(0から255)を取ることができます。これにより、各ピクセルは256x256x256 = 1677万7216色の中から1色を表示することができます。

32ビット色深度: この場合もピクセルは赤、緑、青の3チャンネルを持ちますが、各チャンネルはより多くの色情報を持つことができます。更に、32ビット色深度には通常、透明度を制御するためのアルファチャンネルも含まれています。32ビットの色深度では、より豊かな色調と滑らかなグラデーションを実現し、よりリアルな画像を作り出すことができます。

色深度が高いほど、各ピクセルはより多くの情報を持ち、画像はより豊かな色調と細部を表現できます。しかし、これにはより多くのデータが必要であり、ファイルサイズが大きくなります。色深度が低いと、色数が限られるため色の階調が少なくなり、色の変化が階段状に(バンディングとして知られる)現れることがあります。これにより、画像はリアルさを欠くことがあります。

これを視覚的に示すために、低い色深度を持つ画像と高い色深度を持つ画像を比較する画像を作成します。



シード値

例えばあるイメージキャラクターをDALL-E 3で作成したとして、気に入ったが少々手直ししたい部分があるとか、イメージキャラクターの背景を変更したい場合に、その旨をプロンプトするとイメージキャラクターが別のものになることが多い。

一貫性と持続性がないと使えない。これに関して「シード値」というものがあり、ある程度の一貫性は考慮されるが、「すべての文脈で同一の結果が得られるとは限りません」と答える。

AIは内部で乱数を使っていて、再現性のある乱数を生成するためにシード値を使う。

ChatGPTに聞いてみた:

"AIが乱数を使うのは、すべてのケースを探索するのは無駄が多いので、乱数を使ってランダムに探索するほうが効率的である。というのは正しいですか?"

AIが乱数を使う理由として「すべてのケースを探索するのは無駄が多いため、乱数を使ってランダムに探索する方が効率的である」という説明は、ある程度正しいですが、もう少し詳細に解説すると以下のようになります:

つまり、AIが乱数を使う主な理由は、計算効率の向上、局所的最適解の回避、そして出力の多様性の確保にあります。これにより、AIはより汎用的で効率的に問題を解決する能力を持つようになります。

"シード値とは何か?"

シード値について

シード値とは何か?

シード値の使用方法

覚えておくべき重要な点

要約すると、シード値は乱数生成のようなプロセスにおいて、創造的で実験的なシナリオに特に有用な、予測不可能性と再現可能性のバランスを提供する強力なツールです。



感想

画像の構成もBing Image Creatorよりよくなって、かなり不自然さが解消された。

画像の品質がよくなった。アスペクト比16:9 の場合 幅:1792px , 高さ 1024px になる。色深度はBing Imgae Creatorは24だったが、ChatGPTの場合は32なので鮮やかな色が表現できる。

AI技術の競争が本格化してきて、2023年の11月現在ではOpenAIのChatGPTが一歩前に出たように思う。後に出るほど良いものが出てくるのは当然。


戻る