【検証】文章入りの画像を生成するならChatGPTとGeminiどっちがいい？Nano-Bananaではどう？

※各種商品リンクはアフィリエイトに参加し利用しています

どうも皆さんこんにちは、あのまりーです。

近年、生成AIで画像を作成する機会が増加し、クリエイターだけでなく一般ユーザーの利用も急激に広がっています。

なかでも注目されているのがOpenAIのChatGPTとGoogleのGemini。

実際に使って比較してみると、文字の再現性や背景生成など、それぞれ得手不得手がはっきり見えてきます。

というわけで今回の記事では、文字入りの画像を生成する上で両者を比較しつつ、用途に合わせた選び方と使いこなしのポイントを解説していきます。

それでは早速、本編へ参りましょう。

ChatGPTの文字入り画像生成の実力
Geminiの文字入り画像生成の実力
用途別の比較（ChatGPT vs Gemini）
1. 文字入り画像にはChatGPTが最適
2. 背景や人物の表現はGeminiが得意
ChatGPTを使うときのおすすめワークフロー
1. 生成直後のクリーニング
2. 編集ソフトでの文字追加
まとめ

ChatGPTの文字入り画像生成の実力

まずは、ChatGPTに文字入りの画像を生成してもらったものから紹介します。

今回は、過去の記事の内容を元に生成しました。

ChatGPTの生成

このように、日本語であっても割と読める字で生成してくれます。

特に英数字はかなり精度高く書いてくれます。

ただし、一部崩れてしまう文字も確認できてしまいます。

読めなくはないものの、日本語では若干歪むことがあり、精度はまだ完璧とは言えません。

Geminiの文字入り画像生成の実力

続いて、Geminiに同じプロンプトで生成しました。

Geminiの生成

このように、Geminiの文字生成は精度面でまだ改善の余地が大きい印象でした。

実際に出力された画像を確認すると、文字が大きく崩れていて、読めないような文字も多数ありました。

単に線が歪んでいるというよりは、そもそも文字として認識しづらいほど崩れてしまうことが多いため、後処理するにも手間がかかりがちです。

Geminiの新しい画像生成機能「Nano-Banana」に期待を寄せたものの、現段階では文字生成技術に関してはまだ進化途中という感想を持ちました。

用途別の比較（ChatGPT vs Gemini）

ここで、ここまでの2つの生成AIの検証で分かったことをまとめましょう。

文字入り画像にはChatGPTが最適

まず、文字をある程度読み取れる形で残したいのであれば、現状ではChatGPTの方が良いです。

歪んだ文字が出るとはいえ、まだ文章としても意味が通るものが多く、追加編集によって比較的スムーズに修正ができます。

日本語はまだ確かに精度良く生成するのは難しいですが、特に英数字に限るならば、判読が容易なケースが多く、ユーザーが時間をかけずに実用レベルの仕上がりを得られる可能性が高いでしょう。

背景や人物の表現はGeminiが得意

一方で、Geminiではまだまだ多数の文字を出力するのは難しいですが、もちろんメリットもあります。

先ほどの２枚を見て私は思いましたが、デザインは明らかにGeminiが生成した画像の方がいいです。

ChatGPT

Gemini

ChatGPTは非常にシンプルなデザインですが、Geminiは非常におしゃれな構成となっています。

そのため、文字要素の少ないイラストや背景生成、さらには特定の人物をリアルに描き起こすなど文字を多く扱わない用途においては、Geminiが高いクオリティを発揮する傾向があると言えるでしょう。

特にGeminiの新しい画像生成モデル「Nano-Banana」で試すと、非常に細かいところまで編集のようなことが可能になっていると、かなり柔軟性を持って画像を生成することができます。

ですから、すでに生成した画像の一部のみを変化させる操作など、細部のカスタマイズにはGeminiの方が直感的かつ融通が利きやすいです。

したがって、背景や人物、イラスト主体の作業にはGemini、テキストを多用するデザインにはChatGPT、といった使い分けが個人的なおすすめといえます。

ChatGPTを使うときのおすすめワークフロー

最後に、ChatGPTで生成した文字入りの画像を、より綺麗にする方法を紹介します。

生成直後のクリーニング

ChatGPTを用いて文字入り画像を生成した後、まず行いたいのは崩れた文字のクリーニング作業です。

そこで、Apple IntellingenceやAndroidデバイスなどのクリーンアップ機能や消しゴムツールを使い、判読しにくい部分を取り除いていきましょう。

もちろん部分的に文字が読める場合は、そのまま使っても構いません。

また、AI機能が使えない場合は、以下のClipdropなど、文字を取り除くサービスを使う手もあります、無料で使えますので、こちらもチェックしてみてください。

clipdrop.co

Clipdrop - Text remover

https://clipdrop.co/text-remover

Remove text from images with AI

編集ソフトでの文字追加

ある程度ベース画像を整えたら、デザインソフト（PhotoshopやCanvaなど）やアプリで、正確に表示したい文字を追加します。

私は、以下のアプリを使うことが多いです。

Phonto 写真文字入れ

開発元:youthhr

無料

posted withアプリーチ

ChatGPTが生成した背景やレイアウトを活かしつつ、フォントや配色をきちんと調整することで、画面の統一感を損なわずに洗練されたビジュアルへ仕上げられます。

最終的に、読みやすさと見た目の美しさが両立する形を目指すと、SNSなどでの視認性も高まるでしょう。

以下の画像が、過去にXに投稿した画像です、ぜひご覧ください。

ChatGPTとPhontで制作した画像

まとめ

というわけで今回の記事では、Open AI ChatGPTとGoogle Geminiで文字入りの画像を生成してもらい、どちらが良いかを検証しました。

最終的に「文章入りの画像を作りたい」という場合、現段階ではChatGPTが有力な選択肢といえます。

文字部分の崩れはあまり多くない上に、さらに編集ソフトで補正すれば実用レベルになりやすいです。

一方、Geminiは文字は苦手でも背景や人物といった要素で非常に高いクオリティを出せるため、文字主体の用途でなければ十分に使いこなせます。

今後は両方ともアップデートが期待されていますが、現状ではChatGPTの文字生成をベースに活用して、必要に応じて加工するのが最適解といえるでしょう。

皆さんの参考になれば幸いです。

というわけで今回の記事は終了です、最後までご覧いただき、ありがとうございました！