Stable Diffusion Interrogate CLIP・Interrogate DeepBooru機能でプロンプト抽出を

AI で生成されたイラストを見て「これは一体どんなプロンプトから作られたのだろう」と思ったことはありませんか？また「この素晴らしいイラストを自分でも作りたいけど、どうやって再現したら良いのか分からない」と思ったことはありませんか？

そのようなお悩みを解消するために、AIイラスト生成ツール AUTOMATIC1111 版 Stable Diffusion WebUI に搭載されている Interrogate CLIP と Interrogate DeepBooru を使って、AI イラストからプロンプトを抽出する方法をご紹介します。

※アイキャッチ画像は Stable Diffusion で生成しました。

AIイラストとプロンプトの関係
Interrogate CLIPとInterrogate DeepBooruについて
Interrogate CLIPとInterrogate DeepBooruの使い方
Interrogate CLIPとInterrogate DeepBooruの比較
まとめ

AIイラストとプロンプトの関係

AI イラストは、プロンプトと呼ばれる指示に基づいて生成されます。これは、文字列で表される指示で、AI がイラストを生成するためのガイドラインとなります。たとえば、「a photograph of an astronaut riding a horse」というプロンプトからは、その文字通り、月面で馬に乗った宇宙飛行士の写真のイラストが生成されます。

しかし、問題は、多くの AI イラストが投稿サイトや SNS にアップロードされるとき、そのメタデータとして埋め込まれたプロンプトや他のデータが削除されてしまうことです。これがなければ、どのようなプロンプトからそのイラストが生成されたのかを知ることは非常に困難になります。この問題を解決する手法の一つが、Interrogate CLIP と Interrogate DeepBooru です。

Interrogate CLIPとInterrogate DeepBooruについて

Interrogate CLIP と Interrogate DeepBooruは、Stable Diffusion WebUI に組み込まれているツールで、それぞれ異なる方式でイラストからプロンプトを抽出します。
Interrogate CLIP は、生成されたイラストから「長文」のプロンプトを抽出します。これは、元のプロンプトが一体何であったのかを詳細に推測するのに役立ちます。
一方、Interrogate DeepBooru は、「単語」（トークン）を用いてプロンプトを抽出します。これは、元のプロンプトがどのようなキーワードを含んでいたのかを理解するのに役立ちます。
名前にある通り海外の画像転載サイト Danbooru のタグに基づいて、トークンを抽出してくれます。

これらのツールを使用すると、AI イラストからプロンプトを抽出し、その生成に至る過程を理解することができます。それでは、これらのツールの使い方について具体的に見てみましょう。

Interrogate CLIPとInterrogate DeepBooruの使い方

Interrogate CLIP と Interrogate DeepBooru の使い方は、基本的には同じです。これらはともに Stable Diffusion WebUI に組み込まれており、追加の拡張機能をインストールする必要はありません。
まず、Stable Diffusion WebUI の「img2img」タブに、プロンプトを抽出したいイラストをドラッグ&ドロップします。次に、Generate ボタンの左側にある Interrogate CLIP またはInterrogate DeepBooru のボタンをクリックします。少し待つと、プロンプト欄に解析結果が表示されます。

この方法は非常にシンプルですが、抽出の結果は、使用するツールにより異なります。それでは、次にこれらのツールの結果を比較してみましょう。

Interrogate CLIPとInterrogate DeepBooruの比較

Interrogate CLIP と Interrogate DeepBooru の結果を比較するため、次のプロンプトを使用してイラストを生成しました。
※プロンプト以外の値は固定してあります。

best quality, masterpiece, 1girl,absurdly long brown hair, kind smile

このイラストを、Interrogate CLIP と Interrogate DeepBooru で分析しました。

Interrogate CLIP の生成したプロンプトは以下の通り

a woman in a kimono holding a sword in front of a building with a courtyard and trees in the background, a detailed painting, Aguri Uchida, sots art, official art

このプロンプトで生成してみると、以下の画像になります。

服装や髪の色、背景などは合致するものの上半身だけとかのアングル指定がないために、遠景になっています。

Interrogate DeepBooru の生成したプロンプトは以下の通り

1girl, bangs, black hair, blue eyes, blush, building, bush, closed mouth, eyebrows visible through hair, japanese clothes, kimono, long hair, long sleeves, looking at viewer, obi, outdoors, own hands together, print kimono, red kimono, sash, sky, smile, solo, sunset, tree, upper body, wide sleeves

このプロンプトで生成してみると、以下の画像になります。

ほぼ、求められるイラストになったのではないかと思います。

結果として、 Interrogate DeepBooru は各要素、つまり、単語レベルでより詳細なプロンプトを抽出することができました。それに対して、Interrogate CLIPはより全体的な、あるいは長文の解釈で抽出しました。

結果、実際のプロンプトの再現性については、Interrogate DeepBooru がより精度が高いと言えます。各要素が個別に抽出されるため、具体的なプロンプトの再現が可能です。それに対して、Interrogate CLIP の結果はより抽象的で、全体的なイメージをつかむのに役立ちますが、具体的なプロンプトの再現には向いていません。

まとめ

AI イラストの背後にあるプロンプトを抽出するためのツール、Interrogate CLIP と Interrogate DeepBooru についてご紹介しました。これらのツールを使えば、AI がどのような指示に基づいてイラストを生成したのかを把握し、自分でも同様のイラストを生成するためのプロンプトを作り出すことが可能になります。

イラストからのプロンプト抽出は、AI イラスト生成の魅力をさらに深く理解するための素晴らしい手段です。それぞれのツールが提供する結果の特性を理解し、自分の目的に最適なツールを使ってみてください。