首頁 AI 工具評測 關於我們 提交工具

AI 繪圖新手完整指南:Midjourney、GPT Image、Stable Diffusion 怎麼選

你的第一張 AI 圖,到底要用哪個工具生成?

前幾天一個設計系的朋友傳訊息給我,說她想學 AI 繪圖,結果光是「要用哪個軟體」這個問題就卡了她整整一週。她看了十幾篇文章,每篇都說自家推薦的工具最好,最後她跟我說:「Jay,我現在連一張圖都還沒生成,就已經想放棄了。」

這個問題我聽過不只一次。AI 繪圖工具的選擇焦慮,是很多新手第一道關卡。Midjourney 要付費訂閱、GPT Image 綁在 ChatGPT 裡、Stable Diffusion 又需要一點技術門檻——光是這三個工具的入門方式就完全不同,難怪新手容易迷失。

這篇文章的目標很簡單:讓你看完之後,30 分鐘內能生成第一張圖,然後清楚知道接下來 30 天要怎麼練習。我不會跟你講太多理論,直接說哪個工具適合你、怎麼開始、常見錯誤是什麼。

三個工具的核心差異,先搞清楚再選邊站

補充:除了這三款,Flux(開源、寫實強)與 Ideogram(文字渲染強)也是 2026 年值得認識的現役選項;本文先聚焦最適合新手入門的三款。

Midjourney、<a href=GPT Image、Stable Diffusion 三大 AI 繪圖工具費用、介面、客製化程度核心比較表"/>

很多人把這三個工具當成「同類產品的不同品牌」,但其實它們的定位、技術架構、適用場景差得很遠。用一句話來定位的話:Midjourney 是美感導向的商業工具、GPT Image 是最容易上手的入門選擇、Stable Diffusion 是給想要完全掌控的進階玩家。

Midjourney 是目前生成圖片品質最穩定、美感最一致的工具。它的特色是不管你的提示詞寫得好不好,輸出的圖片都有一定水準,很少出現「完全崩潰」的結果。但它的缺點也很明顯:目前沒有免費方案,最低方案是每月 10 美元,而且操作介面是透過 Discord,第一次進去的人通常會有點懵。

GPT Image 現在整合在 ChatGPT 裡,如果你已經有 ChatGPT Plus 訂閱(每月 20 美元),GPT Image 就直接可以用。最大的優勢是它對中文提示詞的理解能力很強,你可以直接用白話文描述你要什麼,它能理解得很好。如果你是 ChatGPT 免費用戶,現在有限量次數可以使用 GPT Image,但數量不多。

Stable Diffusion 是這三個裡唯一完全開源的工具。你可以在自己的電腦上跑,不需要付任何費用,也沒有圖片數量限制。代價是你需要一台有一定規格的電腦(建議 NVIDIA GPU,顯卡記憶體 8GB 以上),而且光是安裝和設定就需要花幾個小時。不過一旦架好,上面有數千個社群訓練的模型可以免費下載,可以客製化的程度是另外兩個工具完全無法比的。

免費開始的方式:零預算也能跑出第一張圖

AI 繪圖零預算免費入門方案:Stable Diffusion 本機、Google Colab、ChatGPT GPT Image、<a href=Adobe Firefly 優缺點對照"/>

如果你現在一毛錢都不想花,Stable Diffusion 是唯一可以「真正免費、無限量使用」的選項——但前提是你的電腦要夠力。如果你的電腦沒有獨立顯卡,或者你不想搞那麼複雜,可以考慮幾個線上免費替代方案:

  • Google Colab + Stable Diffusion:Google 提供免費 GPU 運算時間,可以在不安裝任何東西的情況下跑 Stable Diffusion。網路上有現成的 Colab Notebook 可以直接使用,學習門檻稍微低一點。
  • ChatGPT 免費帳號 + GPT Image:目前 ChatGPT 免費版已開放有限次數的 GPT Image 使用,雖然每天數量不多,但拿來練習提示詞很夠用。
  • Adobe Firefly:這個我知道不在今天的主題裡,但值得一提,有免費額度,而且對商業用途的授權最清楚。

Midjourney 目前沒有免費試用,舊的免費方案在 2023 年初就停掉了。如果你看到文章說「Midjourney 有免費試用」,那是舊資訊,別上當。

想從零開始了解 AI 工具的基本觀念,可以先看看AI 工具推薦,有更完整的工具地圖。

提示詞基礎:為什麼你的圖和想像的差很多

AI 繪圖提示詞風格關鍵字分類速查:照片感、插畫感、藝術感、商業感對應英文詞彙

這是新手最大的痛點。你心裡有一幅很清晰的畫面,打了幾個字,出來的圖讓你覺得「這什麼鬼」。這不是工具的問題,是提示詞的問題。

AI 繪圖的提示詞,有一個基本結構值得記下來:主體 + 風格 + 氛圍/光線 + 技術參數。舉個例子,你想生成一張「咖啡館裡的貓」:

  • ❌ 新手寫法:a cat in a coffee shop
  • ✅ 較好的寫法:a fluffy orange cat sitting on a wooden table in a cozy coffee shop, warm afternoon light, bokeh background, photorealistic, 4K

差異在哪裡?第一個只說了「什麼」,第二個還說了「什麼樣的」、「在什麼光線下」、「以什麼風格呈現」。AI 模型看到的是文字,它需要足夠多的描述才能縮小可能性的範圍。

幾個常用的風格關鍵字:

  • 照片感:photorealistic、cinematic、shot on Canon 5D、film grain
  • 插畫感:illustration、flat design、vector art、Studio Ghibli style
  • 藝術感:oil painting、watercolor、charcoal sketch、impressionist
  • 商業感:product photography、clean background、brand photography

Midjourney 的參數說明(常用的幾個):

  • --ar 16:9:設定圖片比例,也可以用 1:1(正方形)、9:16(手機直向)
  • --v 6:指定模型版本,目前 v6 是主流
  • --style raw:關掉 Midjourney 的自動美化,保留更原始的風格
  • --no text:不要在圖片裡出現文字(AI 寫字通常很難看)
  • --chaos 50:數字越高,四張預覽圖的變化越大,適合探索階段

老實說,提示詞是一個要花時間練習的技能。如果你想系統性地了解為什麼 AI 工具的輸出常常不如預期,這篇為什麼大多數人用 AI 工具的效果很差:問題出在提示詞品質說得很透徹,值得認真讀一遍。

常見新手錯誤清單

我看過太多人生成的第一張圖,然後說「AI 繪圖沒什麼了不起」,但問題幾乎都出在同樣幾個地方:

錯誤一:提示詞太短、太模糊
「幫我畫一個女生」這種等級的提示詞,AI 只能亂猜。你需要說清楚:什麼膚色、什麼髮型、穿什麼、在哪裡、是什麼情緒、什麼光線。細節越多,結果越接近你的想像。

錯誤二:對圖片裡的文字有期待
截至目前,幾乎所有 AI 繪圖工具對「在圖片上寫特定文字」都還是弱項。GPT Image 進步最多,但偶爾還是會出現拼錯字、字型扭曲的問題。需要圖上有文字的設計,最好生成完之後再用 Canva 或 Photoshop 後製加上去。

錯誤三:期望第一次就完美
專業的 AI 繪圖工作者通常會生成多張圖來選擇最佳方案,從裡面挑選最接近的,再進一步細化。如果你生成了 4 張不滿意就放棄,那是正常的起點,不是失敗。

錯誤四:忽略負面提示詞(Negative Prompt)
這個功能在 Stable Diffusion 和某些其他工具裡都有。你不只能告訴 AI 你要什麼,也能告訴它你不要什麼。例如 negative: blurry, ugly, extra fingers, watermark 可以有效避免常見的畫面缺陷。

錯誤五:用中文提示詞跑 Midjourney
Midjourney 是用英文訓練的,用中文提示詞的輸出品質明顯比英文差。如果你不想寫英文,可以先把中文想法貼給 ChatGPT 請它翻譯成 AI 繪圖提示詞格式,再貼進去用。

不同需求的工具推薦

AI 繪圖工具依需求推薦:商業用途選 Midjourney、個人創作選 Stable Diffusion、新手學習選 GPT Image

商業用途(品牌素材、電商圖片、社群貼文)
首選 Midjourney。它的輸出品質穩定,審美水準高,生成的圖片拿去做行銷素材不會顯得廉價。付費方案的商業授權也很清楚,不用擔心版權問題。如果你是行銷人員,搭配 AI 文案工具一起用效果更好,可以參考行銷人員的 AI 工具完整工作流:從內容策略到文案生成的實戰指南

個人創作(插畫、角色設計、個人作品集)
Stable Diffusion 是最值得投資時間學的工具。它可以載入特定的繪圖模型(例如動漫風格的 NovelAI 系列模型、寫實風格的 Realistic Vision),用 LoRA 微調特定角色或風格,客製化程度遠超另外兩個工具。雖然前期設定麻煩,但一旦上手,你可以做到其他工具完全做不到的事。

學習練習(探索 AI 繪圖、快速實驗想法)
從 GPT Image 開始。它支援中文、不需要學特殊語法、透過 ChatGPT 介面操作,幾乎沒有學習曲線。你可以直接說「幫我畫一張賽博龐克風格的台北 101,有霓虹燈反光在濕地上」,它就能理解。等你對 AI 繪圖有基本感覺之後,再去學 Midjourney 的參數或 Stable Diffusion 的進階設定。

30 天學習路徑:從第一張圖到進階技巧

AI 繪圖 30 天學習路徑四階段里程碑:基礎感覺、專注工具、主題練習、後製整合

這個路徑是我自己摸索過來的,也推薦給幾個朋友試過,基本上照著走不會迷路。

第 1~7 天:建立基礎感覺
用 GPT Image 或 Midjourney 每天生成 10~20 張圖,主題自由,重點是觀察提示詞和輸出結果的關係。不要在乎品質,在乎「我改了什麼字、結果怎麼變」。這週的目標是對提示詞的影響力有直覺。

第 8~14 天:專注一個工具
根據你的需求選定一個工具,開始認真學它的參數和技巧。如果選 Midjourney,這週把常用參數都試過一遍;如果選 Stable Diffusion,這週把安裝和基本 WebUI 操作搞定。不要同時學三個工具,你會什麼都學一點、什麼都做不好。

第 15~21 天:主題式練習
給自己一個具體的創作目標,例如「生成一系列台灣夜市的賽博龐克風格插圖」或「幫虛構品牌做五張產品圖」。有目標的練習進步速度比隨機亂試快很多。

第 22~30 天:後製與整合
學習把 AI 生成的圖和後製工具結合。Photoshop 的生成填充(Generative Fill)、Canva 的背景去除、ControlNet(Stable Diffusion 的插件,可以控制構圖和姿勢)——這些工具讓你從「AI 出什麼我就接受什麼」變成「我主導,AI 協助執行」。

AI 繪圖的官方資源也值得收藏:Midjourney 官方文件和Stable Diffusion WebUI GitHub都有詳細的參數說明,是卡關時最可靠的參考來源。

我的結論:別想著「選最好的」,先選「能讓你開始的」

AI 繪圖工具選擇最終建議:新手應先用 GPT Image 上手再依需求深入其他工具

說真的,在 AI 繪圖這個領域,工具選擇沒有「終極答案」。Midjourney 每隔幾個月出新版、Stable Diffusion 的社群模型天天都有更新、DALL-E 也在持續進化。你今天學到的東西,明年可能有一半要重新學。

但提示詞的思維方式不會變。「怎麼描述你想要的畫面」這個能力是跨工具的,學好了在哪個工具都能用。所以我給新手的建議是:先用最容易上手的工具(GPT Image)讓自己的第一張圖在今天生出來,然後花兩週真正搞懂提示詞的邏輯,之後再決定要不要往 Midjourney 或 Stable Diffusion 深入。

開始比選擇更重要。你的第一張圖,今天就能生成。

常見問題

Midjourney 現在真的沒有免費試用嗎?

是的,目前最低方案是每月 10 美元的基本訂閱,提供一定額度的生成次數(詳情請參考官方網站)。如果你在網路上看到說「Midjourney 有免費試用」的文章,那大概是 2023 年以前的舊資訊。建議在決定訂閱前,先用 GPT Image 或免費的 Stable Diffusion 熟悉 AI 繪圖的基本概念,確認自己真的有需求再付費。Midjourney 的付費訂閱頁面可以在其官網直接查看最新方案。

Stable Diffusion 一定要有強力顯卡嗎?沒有 NVIDIA 的人怎麼辦?

本機安裝的 Stable Diffusion 效果最好是有 NVIDIA 顯卡(建議 8GB 以上 VRAM),但不是唯一選擇。如果你是 Mac 用戶,新版 Stable Diffusion WebUI 已支援 Apple Silicon(M1/M2/M3 晶片)的 Metal 加速,速度雖然比 NVIDIA GPU 慢一些,但完全可以跑。另外,如果你完全沒有適合的硬體,可以使用 Google Colab 提供的免費雲端 GPU,或者考慮付費雲端 GPU 服務。也有一些基於 Stable Diffusion 的線上服務,例如 Stability AI 官方的 DreamStudio,提供有限免費額度,適合不想自己架環境的使用者。

提示詞一定要用英文嗎?

不一定,但用英文效果通常更好,特別是 Midjourney。這是因為這些模型大多用英文資料訓練,英文提示詞和訓練資料的語言一致,模型理解起來更精確。GPT Image 是例外,它透過 GPT-4 處理多語言輸入,中文效果相當好,可以直接用中文白話文描述。Stable Diffusion 則依你使用的模型而定。如果你不擅長英文,最簡單的做法是把中文描述貼給 ChatGPT,請它幫你轉換成 AI 繪圖提示詞格式(包含風格詞、技術參數),這樣兩頭都照顧到了。

AI 生成的圖可以拿去商用嗎?版權怎麼算?

這要分工具來看。Midjourney 付費方案的條款允許商業使用,但有條件(免費方案不行,且需注意方案層級)。GPT Image 根據 OpenAI 的使用政策,使用者對生成的圖片擁有使用權,包含商業用途。Stable Diffusion 因為是開源工具,本身沒有版權限制,但你使用的特定模型可能有自己的授權條款,需要個別確認。整體來說,AI 生成圖片的版權問題目前各國法律還在發展中,台灣也尚未有明確判例,商業使用前建議詳讀各工具的最新服務條款。

為什麼 AI 畫的手指和臉總是很奇怪?

這是 AI 繪圖目前最知名的弱點,特別是手部——六根手指、手指融合、比例怪異是常見現象。原因在於這些模型是從大量圖片學習統計規律,而「手」的姿勢和角度變化極度複雜,模型很難精確重建。解決方式有幾個:在提示詞加上 perfect hands, detailed fingers;使用 Stable Diffusion 的 ControlNet 功能控制手部姿勢;或者在後製階段用 Photoshop 手動修正。Midjourney v6 在手部表現上已比舊版好很多,但偶爾還是會出錯。臉部變形則可以用「人臉修復」功能(Face Restore)來改善。

我可以用 AI 繪圖工具重現特定藝術家的風格嗎?這樣合法嗎?

技術上,在提示詞裡加入 in the style of [藝術家名字] 確實會讓 AI 模仿該藝術家的畫風,這個功能幾乎所有工具都有,效果也很明顯。但法律和倫理層面就複雜了。很多藝術家明確反對這種做法,認為 AI 未經授權學習他們的作品再用來商業生產是侵權行為。目前各國法院對此案例的判決不一,台灣也尚無明確案例。我的建議是:拿來學習和探索風格可以,但如果要商業使用,避免直接指名在世藝術家的風格,改用風格描述詞(如 impressionist style)會更安全。

Midjourney、GPT Image、Stable Diffusion 哪個生成速度最快?

GPT Image 透過 ChatGPT 介面使用時,生成一張圖約需 10~20 秒,速度中等。Midjourney 一次生成 4 張預覽圖,約需 30~60 秒,速度穩定但跟伺服器負載有關,尖峰時間可能更慢。Stable Diffusion 的速度則完全取決於你的硬體,高端 NVIDIA GPU(如 RTX 4090)可以在 5~10 秒生成一張圖,低端硬體可能要幾分鐘。如果是雲端版本的 Stable Diffusion(如 Google Colab),速度介於上面幾者之間。整體而言,如果你追求速度,本機跑 Stable Diffusion 搭配好的 GPU 是最快的,但需要投入硬體成本。

30 天真的夠學好 AI 繪圖嗎?

「學好」要看你對「好」的定義。30 天足夠讓你從完全不會,到能穩定生成符合需求的圖片,並且掌握提示詞的基本技巧。但如果你的目標是精通 Stable Diffusion 的所有進階功能(ControlNet、LoRA 訓練、Inpainting 等),30 天只是剛入門。AI 繪圖的技術更新很快,新模型、新功能幾乎每個月都有,這個領域很難說「學完了」。比較實際的心態是:30 天建立足夠的基礎和手感,之後保持每週定期練習和跟進新發展。學習曲線在前兩週最陡,一旦過了那段,後面的進步會快很多。

使用情境

AI 繪圖台灣在地使用情境:接案設計師用 Midjourney、電商賣家用 GPT Image、Coser 同人創作者用 Stable Diffusion

場景一:接案設計師需要快速產出提案視覺

台灣有很多自由接案的平面設計師,常常遇到客戶說「我想要一個有質感的封面設計,明天要開會用」。這種時候,Midjourney 是最適合的選擇。你只需要在 Discord 輸入英文提示詞,例如描述品牌調性、色系和風格,幾秒內就能產出四張具有一致美感的候選圖。拿去當提案的視覺參考或情緒板(Mood Board),客戶很容易買單。而且 Midjourney 的輸出品質非常穩定,幾乎不會出現比例崩壞或構圖奇怪的問題,可以直接給客戶看,不需要花大量時間篩選。對於接案設計師來說,每月 10 美元的訂閱費用遠低於省下來的時間成本。

場景二:小型電商賣家需要產品情境圖

台灣有大量在蝦皮、Pinkoi 或自架網站上販售手作商品的小賣家,他們通常沒有攝影棚,也請不起專業攝影師,但又需要質感好的商品情境圖來提升轉換率。這種情況下,GPT Image 是最容易上手的工具。賣家可以直接用中文描述,例如「一個木質桌面上放著一個白色陶瓷馬克杯,旁邊有幾顆咖啡豆和一本翻開的書,自然光從左側照入,溫暖的氛圍」,ChatGPT 會幫你把描述轉換成高品質提示詞並生成圖片。就算完全不懂 AI 繪圖的專業術語,也能輕鬆做出比手機隨意拍攝更有質感的情境參考圖,大幅降低開店的前期成本。

場景三:Coser 與同人創作者想產出特定風格角色圖

台灣的 Coser 社群和同人創作圈相當活躍,很多人希望能生成特定動漫風格的角色圖,或是在活動前預覽自己的 Cosplay 造型效果。這種需求最適合使用 Stable Diffusion,因為社群上有大量針對各種動漫風格訓練的模型,例如二次元插畫風、寫實風、特定作品畫風等,都可以免費下載使用。更進階的玩家還可以透過 LoRA(Low-Rank Adaptation)技術,上傳少量自己的照片訓練專屬模型,讓生成的角色更接近自己的臉部特徵。雖然初期設定需要一點時間和技術門檻,但一旦架設完成,就能無限量產出專屬風格的圖片,對於需要大量創作素材的同人創作者來說,長期下來是最划算、最自由的選擇。

最後更新:2025 年

發佈留言

電子郵件地址不會被公開。 必填欄位標示為 *

返回頂端