日本人の顔を生成するAIサイト：リアルなアバター作成の最前線

2024年9月17日

本記事は弊社サービス「バクヤスAI 記事代行」を活用して執筆しております。

近年、AIによるリアルな日本人顔の生成がビジネス界で注目され、コミュニケーションやマーケティングに画期的な変革をもたらしています。そこで今回は、最先端の技術「ChatGPT DALL-E 3」「Midjourney」及び「Stable Diffusion」を活用して、リアルなアバターを作成する方法をご紹介します。

➡︎【資料ダウンロード】ChatGPTを活用したオウンドメディア構築

1. 日本人の顔を生成するAI技術の概要

現代の技術革新において、AIによる画像生成技術は顕著な進化を遂げています。特に、人物の顔をリアルに生成するためのAI技術は、様々な分野での応用が期待されています。

対象とするAI技術は、一般的なGAN（Generative Adversarial Networks）を基にしたものや、最新の機械学習モデルを使ったものなど多岐にわたります。中には、日本人の顔の特徴を捉えて、高い精度で生成することが可能なモデルもあります。

AI顔生成のメカニズムと進化

AIによる顔生成の基本は、GAN（Generative Adversarial Networks）と呼ばれるモデルから始まります。これは、生成器と識別器という2つのネットワークが対立しながら学習を進めることで、リアルな画像を生成する手法です。これによって、写実的な人間の顔が生成されるのです。

時を経て、このGAN技術はさらに洗練され、特定の人種や特徴を持つ顔を生成する「条件付きGAN」といった進化形も出現しました。これにより、日本人の顔のような特定の特徴を有する画像生成が可能になります。

ChatGPTのDALL-Eのような最新AIは、ユーザーの入力したテキストを基にして、それに適合した顔画像を生成することができます。また、Stable Diffusionのように、よりユーザー側でカスタマイズ可能なモデルも現れ、幅広いシーンでの利用が期待されています。

日本人顔生成の特徴と課題

日本人の顔を生成するAI技術には、固有の特徴が存在します。東洋的な特徴を正確に捉え、それを元に顔を生成する必要があるため、データセットには多様性が求められます。目の形や顔の輪郭など、細かなニュアンスが重要になってきます。

しかし、これにはいくつかの課題も存在します。特に、十分な精度で日本人の顔を生成するには大量かつ高品質な日本人の顔のデータが必要です。プライバシーへの配慮も必要であり、データ収集は慎重に行われる必要があります。

ツールに依っては日本人の顔生成に必要な学習データが不足しているものもあり、実写風の画像の生成にはいま一歩至っていないものもあります。そういったツールで作成された画像は、いわゆる「不気味の谷」を超えられていない画像という印象を持たれると思います。

2. ChatGPT DALL-Eの活用（オススメ度: ★☆☆）

ChatGPT DALL-EはChatGPTの機能の延長で画像生成ができるため、手軽に画像生成をすることが可能です。一方で、2024年1月の現時点では日本人の写真の生成はあまり得意ではないと考えられます。

➡︎【資料ダウンロード】AIスタートアップでのChatGPT徹底活用＜6つの事例をご紹介＞

ChatGPT DALL-Eの特徴

ChatGPT DALL-Eは、ChatGPTの有料版で使用できる機能であり、ChatGPTの質問欄に生成したい画像を入力するとChatGPTが画像を出力してくれます。ユーザーが入力した文章を解釈し、それに応じた画像を即座に生成することが可能です。使い方は簡単であり、ChatGPTを開き右上のDALL-Eを選択し、プロンプト欄に画像の生成を依頼するだけです。

ChatGPT DALL-Eの使い方

生成したい画像の詳細なテキスト指示を入力することで、画像の生成が可能です。例えば「和服を着た笑顔の若い日本人女性」と入力すれば、その説明に基づいた画像が生成されます。

入力後、AIは指定された指示を解析し、数秒から数分で画像を生成します。その過程で、大量の画像データを参照し、指定された特徴に合致する要素を組み合わせていきます。

出来上がった画像は、プレビューとして確認が可能であり、満足できない場合には再指示または微調整を行うこともできます。これにより手軽に多様なバリエーションの画像を生成することができます。

DALL-Eの評価

日本人画像の生成という観点でDALL-Eの評価は下記となります。
手軽さ: ★★★
精度: ★☆☆
総合評価: ★☆☆

下記に生成された画像サンプルを表示します。
プロンプト: Photo of a Japanese woman in her 30s wearing casual sttire, smiling and holding a book

イラストという意味では描かれておりますが、「写真」という意味では違和感を感じる絵となりました。

下記に”Realistic”と指定し、写真のリアルさを指示した場合の生成画像も紹介いたします。
プロンプト: A realistic photo of a woman living in Tokyo, Japan

3. Midjourneyの活用（オススメ度: ★★☆）

Midjourneyは画像生成に特化したツールであり、ChatGPTよりも精度の高い画像を生成することが可能です。

Midjourneyの特徴

Midjourneyは、テキストから画像を生成することができる画像生成AIです。比較的新しいサービスですが、その高精度の画像生成能力と使いやすさから、早くも注目を集めています。

Midjourneyは、大量の画像データとテキストデータの学習によって、高精度の画像生成を実現しています。生成される画像は、現実に存在するような自然な描写から、現実にはあり得ないような幻想的な描写まで、幅広い表現が可能となっています。

Midjourneyの使い方

Midjourneyのサイト(https://www.midjourney.com/home?callbackUrl=%2Fexplore)にアクセスし、右下のSign inまたはJoin the Betaをクリックし、サインインや新規登録を行います。

Midjourneyは、アメリカのチャットサービスであるDiscord上で利用をするため、Discordへの登録も必要となります。Midjourneyに登録をするとDiscord上に「Midjourney Bot」が表示され、チャット欄にプロンプトを記載することで、画像生成が可能となります。

プロンプトは“imagine/”という文章から英語で記載されます。

Midjourneyの評価

日本人画像の生成という観点でMidjourneyの評価は下記となります。
手軽さ: ★★☆
精度: ★★☆
総合評価: ★★☆

Midjourneyは日本人になじみの薄いDiscord上で利用をしないといけない点や、/imagineから始まる形で英語で指示をしないといけない点など、初学者にはとっつきにくい部分があります。一方で、生成される画像はChatGPTに比べてリアルであり、日本人の写真の生成でも一定の精度があります。

下記に生成画像のサンプルを記載いたします。
プロンプト: /imagine detailed realistic Japanese woman working in a small start-up company, smiling, light-colored attire, beauty model vibe, Canon EOS R5, Canon EF 24-70mm f/2.8L II USM, Kodak Ektar 100

プロンプト: /imagine detailed realistic japanese office woman, Canon EOS R5, Canon EF 24-70mm f/2.8L II USM, Kodak Ektar 100

➡︎【資料ダウンロード】ChatGPTを活用したオウンドメディア構築

4. Stable Diffusionの活用（オススメ度: ★★★）

Stable Diffusionは、高い自由度と精度で画像を生成することができるtext-to-imageモデルであり、自然言語の記述から理想の画像へと変換する機能を持っています。このモデルはオープンソースで公開されており、様々な開発者によってさらに改良され続けています。

Stable Diffusionの特徴

Stable Diffusionは、特定の人種や特徴にフォーカスしたバリエーションが開発されており、例えば、アジア人の顔特徴を緻密に再現することに特化したサブセットが存在します。これにより、生成される日本人の顔のリアルさが一層向上しています。

一般的な設定から、細部にわたる個別の指定に至るまで、使用者は自在にモデルをコントロールでき、これが高品質な画像生成に寄与しています。

Stable Diffusionの使い方

Stable Diffusionを使ってリアルな日本人の顔を生成するには、適切なカスタムデータセットの入手します。CivitAIというサイトに日本人の画像生成に特化した学習セットが公開されており、そちらを使用することを推奨します。

CivitAIでの検索例: Japanese Realistic

Stable Diffusionの評価

日本人画像の生成という観点でStable Diffusionの評価は下記となります。
手軽さ: ★☆☆
精度: ★★★
総合評価: ★★★

Stable Diffusionは適切なカスタムデータセットを活用することで、Midjourney以上の精度の画像を生成することが可能となります。

下記に日本人を生成できるモデルを紹介します。

① fudoki_mix: 日本人の女性の生成が得意なモデルとなっております。
https://civitai.com/models/129830/fudukimix

② Real-X: こちらはよりリアルな画像の生成にチューニングされております。
https://civitai.com/models/76343/real-x

5. 生成AIで日本人の顔を生成する際の実践的アドバイス

AIを使った日本人の顔の生成は、多様な分野での応用が考えられています。宣伝素材からゲームキャラクター、ソーシャルメディアのアバター作成に至るまで、リアルな顔が必要とされる場面は広範囲に及びます。ここでは、その過程で役立つアドバイスを紹介します。

まず、自然な顔を生成するには、画像生成AIへの精密な指示が不可欠です。そのためにも、プロンプトの正確な記述が重要となります。また、細部にわたる指定をすることで、日本人らしさを反映した特徴を持つ顔が得られやすくなります。

最適な生成結果を得るためには、生成AIとその特性を理解しながら、試行錯誤を重ねることも必要です。成功事例を参考にしながら、自分自身の目的に最も合致した生成方法を見つけ出しましょう。

プロンプトの記述例

日本人の顔を生成する際には、プロンプトに「日本人」という国籍の指定だけでなく、年代や表情、服装など、さらに詳細な情報を加えることが望ましいです。たとえば「若い日本人女性が笑顔でカメラを見ているポートレート」などと具体的に記述することで、よりリアルな画像が期待できます。

また、生成される画像のスタイルや背景についても指示を加えることができます。例えば「伝統的な着物を着た日本人女性が桜の木の下に立つ」といったシーンの指定も可能です。こうすることで、生成AIは与えられた情報を基により詳細な画像を生み出します。

また、プロンプトは日本語ではない英語を用いた方が精度が高くなる傾向が見られます。以下にプロンプトの例を掲載いたします。

日本語のプロンプトの指示	英語のプロンプトの指示
現代の東京の街角で笑顔の日本人男性の写真を生成してください。	Create a photo of a smiling Japanese man at a street corner in modern Tokyo.
日本の伝統的な茶道を行っている女性のリアルな写真を生成してください。	Provide a realistic photo of a woman performing the traditional Japanese tea ceremony.
春の桜の下で読書をしている日本人女性の実写画像を生成してください。	Create a real-life image of a Japanese woman reading under the cherry blossoms in spring.
日本のビジネスマンが電車で通勤している様子の写真を生成してください。	Provide a photo of a Japanese businessman commuting on a train.
着物を着た日本人の老夫婦が手をつないで歩いている写真を生成してください。	Provide a photo of an elderly Japanese couple walking hand in hand in kimonos.

➡︎【資料ダウンロード】ChatGPTを活用したオウンドメディア構築

まとめ

AIを駆使した日本人の顔生成は、ビジネスパーソンに新たなアバター作成の最前線を提供します。従来、アバターは、イラストやCGなどの手作業で作成されていました。しかし、AIを活用することで、より自然でリアルなアバターを短時間で作成することが可能になりました。

これにより、ビジネスパーソンは、Web会議やオンラインイベントなど、オンライン上でのコミュニケーションにおいて、より効果的に自己表現できるようになるでしょう。また、マーケティングや広告など、新たなビジネスの可能性も開かれる可能性があります。

ChatGPT DALL-E 3やMidjourney、Stable Diffusionを用いたリアルな画像生成は、ビジュアルコンテンツの充実に役立ちます。従来、リアルな画像を作成するには、専門的なスキルや知識が必要でした。しかし、AIを活用することで、誰でも簡単に、高品質な画像を作成することが可能になりました。

これにより、ビジネスパーソンは、WebサイトやSNS、広告など、さまざまなシーンで、より魅力的なビジュアルコンテンツを活用できるようになるでしょう。

効率よく自社用のコンテンツを作りたいなら、バクヤスAIに一度ご相談ください。