首頁 AI 工具庫 關於我們 提交工具

AI 繪圖新手完整指南:Midjourney、DALL-E 3、Stable Diffusion 怎麼選

你的第一張 AI 圖,到底要用哪個工具生成?

前幾天一個設計系的朋友傳訊息給我,說她想學 AI 繪圖,結果光是「要用哪個軟體」這個問題就卡了她整整一週。她看了十幾篇文章,每篇都說自家推薦的工具最好,最後她跟我說:「Jay,我現在連一張圖都還沒生成,就已經想放棄了。」

這個問題我聽過不只一次。AI 繪圖工具的選擇焦慮,是很多新手第一道關卡。Midjourney 要付費訂閱、DALL-E 3 綁在 ChatGPT 裡、Stable Diffusion 又需要一點技術門檻——光是這三個工具的入門方式就完全不同,難怪新手容易迷失。

這篇文章的目標很簡單:讓你看完之後,30 分鐘內能生成第一張圖,然後清楚知道接下來 30 天要怎麼練習。我不會跟你講太多理論,直接說哪個工具適合你、怎麼開始、常見錯誤是什麼。

三個工具的核心差異,先搞清楚再選邊站

Midjourney / DALL-E 3 操作步驟圖

很多人把這三個工具當成「同類產品的不同品牌」,但其實它們的定位、技術架構、適用場景差得很遠。用一句話來定位的話:Midjourney 是美感導向的商業工具、DALL-E 3 是最容易上手的入門選擇、Stable Diffusion 是給想要完全掌控的進階玩家。

Midjourney 是目前生成圖片品質最穩定、美感最一致的工具。它的特色是不管你的提示詞寫得好不好,輸出的圖片都有一定水準,很少出現「完全崩潰」的結果。但它的缺點也很明顯:目前沒有免費方案,最低方案是每月 10 美元,而且操作介面是透過 Discord,第一次進去的人通常會有點懵。

DALL-E 3 現在整合在 ChatGPT 裡,如果你已經有 ChatGPT Plus 訂閱(每月 20 美元),DALL-E 3 就直接可以用。最大的優勢是它對中文提示詞的理解能力很強,你可以直接用白話文描述你要什麼,它能理解得很好。如果你是 ChatGPT 免費用戶,現在有限量次數可以使用 DALL-E 3,但數量不多。

Stable Diffusion 是這三個裡唯一完全開源的工具。你可以在自己的電腦上跑,不需要付任何費用,也沒有圖片數量限制。代價是你需要一台有一定規格的電腦(建議 NVIDIA GPU,顯卡記憶體 8GB 以上),而且光是安裝和設定就需要花幾個小時。不過一旦架好,上面有數千個社群訓練的模型可以免費下載,可以客製化的程度是另外兩個工具完全無法比的。

比較維度 Midjourney DALL-E 3 Stable Diffusion
免費方案 ❌ 無免費方案 ✅ ChatGPT 免費版有限量使用 ✅ 本機安裝完全免費
圖片品質穩定性 ★★★★★ ★★★★ ★★★(依模型和設定而異)
新手上手難度 中(需學 Discord 操作) 低(直接對話) 高(需要技術基礎)
提示詞彈性 高(英文效果更佳) 很高(支援中文) 極高(可用 LoRA 等擴充)
商業授權 付費方案可商用 可商用 依模型授權各異
適合使用者 設計師、品牌創作者 AI 新手、文字工作者 技術玩家、進階創作者

免費開始的方式:零預算也能跑出第一張圖

如果你現在一毛錢都不想花,Stable Diffusion 是唯一可以「真正免費、無限量使用」的選項——但前提是你的電腦要夠力。如果你的電腦沒有獨立顯卡,或者你不想搞那麼複雜,可以考慮幾個線上免費替代方案:

  • Google Colab + Stable Diffusion:Google 提供免費 GPU 運算時間,可以在不安裝任何東西的情況下跑 Stable Diffusion。網路上有現成的 Colab Notebook 可以直接使用,學習門檻稍微低一點。
  • ChatGPT 免費帳號 + DALL-E 3:目前 ChatGPT 免費版已開放有限次數的 DALL-E 3 使用,雖然每天數量不多,但拿來練習提示詞很夠用。
  • Adobe Firefly:這個我知道不在今天的主題裡,但值得一提,有免費額度,而且對商業用途的授權最清楚。

Midjourney 目前沒有免費試用,舊的免費方案在 2023 年初就停掉了。如果你看到文章說「Midjourney 有免費試用」,那是舊資訊,別上當。

想從零開始了解 AI 工具的基本觀念,可以先看看AI 工具完全入門指南:2025年新手必學的五個最強工具,有更完整的工具地圖。

提示詞基礎:為什麼你的圖和想像的差很多

Midjourney / DALL-E 3 工作流程圖

這是新手最大的痛點。你心裡有一幅很清晰的畫面,打了幾個字,出來的圖讓你覺得「這什麼鬼」。這不是工具的問題,是提示詞的問題。

AI 繪圖的提示詞,有一個基本結構值得記下來:主體 + 風格 + 氛圍/光線 + 技術參數。舉個例子,你想生成一張「咖啡館裡的貓」:

  • ❌ 新手寫法:a cat in a coffee shop
  • ✅ 較好的寫法:a fluffy orange cat sitting on a wooden table in a cozy coffee shop, warm afternoon light, bokeh background, photorealistic, 4K

差異在哪裡?第一個只說了「什麼」,第二個還說了「什麼樣的」、「在什麼光線下」、「以什麼風格呈現」。AI 模型看到的是文字,它需要足夠多的描述才能縮小可能性的範圍。

幾個常用的風格關鍵字:

  • 照片感:photorealistic、cinematic、shot on Canon 5D、film grain
  • 插畫感:illustration、flat design、vector art、Studio Ghibli style
  • 藝術感:oil painting、watercolor、charcoal sketch、impressionist
  • 商業感:product photography、clean background、brand photography

Midjourney 的參數說明(常用的幾個):

  • --ar 16:9:設定圖片比例,也可以用 1:1(正方形)、9:16(手機直向)
  • --v 6:指定模型版本,目前 v6 是主流
  • --style raw:關掉 Midjourney 的自動美化,保留更原始的風格
  • --no text:不要在圖片裡出現文字(AI 寫字通常很難看)
  • --chaos 50:數字越高,四張預覽圖的變化越大,適合探索階段

老實說,提示詞是一個要花時間練習的技能。如果你想系統性地了解為什麼 AI 工具的輸出常常不如預期,這篇為什麼大多數人用 AI 工具的效果很差:問題出在提示詞品質說得很透徹,值得認真讀一遍。

常見新手錯誤清單

我看過太多人生成的第一張圖,然後說「AI 繪圖沒什麼了不起」,但問題幾乎都出在同樣幾個地方:

錯誤一:提示詞太短、太模糊
「幫我畫一個女生」這種等級的提示詞,AI 只能亂猜。你需要說清楚:什麼膚色、什麼髮型、穿什麼、在哪裡、是什麼情緒、什麼光線。細節越多,結果越接近你的想像。

錯誤二:對圖片裡的文字有期待
截至目前,幾乎所有 AI 繪圖工具對「在圖片上寫特定文字」都還是弱項。DALL-E 3 進步最多,但偶爾還是會出現拼錯字、字型扭曲的問題。需要圖上有文字的設計,最好生成完之後再用 Canva 或 Photoshop 後製加上去。

錯誤三:期望第一次就完美
專業的 AI 繪圖工作者,一個概念通常會生成 20~50 張圖,從裡面挑選最接近的,再進一步細化。如果你生成了 4 張不滿意就放棄,那是正常的起點,不是失敗。

錯誤四:忽略負面提示詞(Negative Prompt)
這個功能在 Stable Diffusion 和某些其他工具裡都有。你不只能告訴 AI 你要什麼,也能告訴它你不要什麼。例如 negative: blurry, ugly, extra fingers, watermark 可以有效避免常見的畫面缺陷。

錯誤五:用中文提示詞跑 Midjourney
Midjourney 是用英文訓練的,用中文提示詞的輸出品質明顯比英文差。如果你不想寫英文,可以先把中文想法貼給 ChatGPT 請它翻譯成 AI 繪圖提示詞格式,再貼進去用。

不同需求的工具推薦

Midjourney / DALL-E 3 成果範例圖

商業用途(品牌素材、電商圖片、社群貼文)
首選 Midjourney。它的輸出品質穩定,審美水準高,生成的圖片拿去做行銷素材不會顯得廉價。付費方案的商業授權也很清楚,不用擔心版權問題。如果你是行銷人員,搭配 AI 文案工具一起用效果更好,可以參考行銷人員的 AI 工具完整工作流:從內容策略到文案生成的實戰指南

個人創作(插畫、角色設計、個人作品集)
Stable Diffusion 是最值得投資時間學的工具。它可以載入特定的繪圖模型(例如動漫風格的 NovelAI 系列模型、寫實風格的 Realistic Vision),用 LoRA 微調特定角色或風格,客製化程度遠超另外兩個工具。雖然前期設定麻煩,但一旦上手,你可以做到其他工具完全做不到的事。

學習練習(探索 AI 繪圖、快速實驗想法)
從 DALL-E 3 開始。它支援中文、不需要學特殊語法、透過 ChatGPT 介面操作,幾乎沒有學習曲線。你可以直接說「幫我畫一張賽博龐克風格的台北 101,有霓虹燈反光在濕地上」,它就能理解。等你對 AI 繪圖有基本感覺之後,再去學 Midjourney 的參數或 Stable Diffusion 的進階設定。

30 天學習路徑:從第一張圖到進階技巧

這個路徑是我自己摸索過來的,也推薦給幾個朋友試過,基本上照著走不會迷路。

第 1~7 天:建立基礎感覺
用 DALL-E 3 或 Midjourney 每天生成 10~20 張圖,主題自由,重點是觀察提示詞和輸出結果的關係。不要在乎品質,在乎「我改了什麼字、結果怎麼變」。這週的目標是對提示詞的影響力有直覺。

第 8~14 天:專注一個工具
根據你的需求選定一個工具,開始認真學它的參數和技巧。如果選 Midjourney,這週把常用參數都試過一遍;如果選 Stable Diffusion,這週把安裝和基本 WebUI 操作搞定。不要同時學三個工具,你會什麼都學一點、什麼都做不好。

第 15~21 天:主題式練習
給自己一個具體的創作目標,例如「生成一系列台灣夜市的賽博龐克風格插圖」或「幫虛構品牌做五張產品圖」。有目標的練習進步速度比隨機亂試快很多。

第 22~30 天:後製與整合
學習把 AI 生成的圖和後製工具結合。Photoshop 的生成填充(Generative Fill)、Canva 的背景去除、ControlNet(Stable Diffusion 的插件,可以控制構圖和姿勢)——這些工具讓你從「AI 出什麼我就接受什麼」變成「我主導,AI 協助執行」。

AI 繪圖的官方資源也值得收藏:Midjourney 官方文件Stable Diffusion WebUI GitHub都有詳細的參數說明,是卡關時最可靠的參考來源。

我的結論:別想著「選最好的」,先選「能讓你開始的」

說真的,在 AI 繪圖這個領域,工具選擇沒有「終極答案」。Midjourney 每隔幾個月出新版、Stable Diffusion 的社群模型天天都有更新、DALL-E 也在持續進化。你今天學到的東西,明年可能有一半要重新學。

但提示詞的思維方式不會變。「怎麼描述你想要的畫面」這個能力是跨工具的,學好了在哪個工具都能用。所以我給新手的建議是:先用最容易上手的工具(DALL-E 3)讓自己的第一張圖在今天生出來,然後花兩週真正搞懂提示詞的邏輯,之後再決定要不要往 Midjourney 或 Stable Diffusion 深入。

開始比選擇更重要。你的第一張圖,今天就能生成。

常見問題

Midjourney 現在真的沒有免費試用嗎?

是的,Midjourney 在 2023 年 3 月就停止了免費試用方案,目前最低方案是每月 10 美元的基本訂閱,提供約 200 張圖的生成額度。如果你在網路上看到說「Midjourney 有免費試用」的文章,那大概是 2023 年以前的舊資訊。建議在決定訂閱前,先用 DALL-E 3 或免費的 Stable Diffusion 熟悉 AI 繪圖的基本概念,確認自己真的有需求再付費。Midjourney 的付費訂閱頁面可以在其官網直接查看最新方案。

Stable Diffusion 一定要有強力顯卡嗎?沒有 NVIDIA 的人怎麼辦?

本機安裝的 Stable Diffusion 效果最好是有 NVIDIA 顯卡(建議 8GB 以上 VRAM),但不是唯一選擇。如果你是 Mac 用戶,新版 Stable Diffusion WebUI 已支援 Apple Silicon(M1/M2/M3 晶片)的 Metal 加速,速度雖然比 NVIDIA GPU 慢一些,但完全可以跑。另外,如果你完全沒有適合的硬體,可以使用 Google Colab 提供的免費雲端 GPU,或者考慮付費雲端 GPU 服務。也有一些基於 Stable Diffusion 的線上服務,例如 Stability AI 官方的 DreamStudio,提供有限免費額度,適合不想自己架環境的使用者。

提示詞一定要用英文嗎?

不一定,但用英文效果通常更好,特別是 Midjourney。這是因為這些模型大多用英文資料訓練,英文提示詞和訓練資料的語言一致,模型理解起來更精確。DALL-E 3 是例外,它透過 GPT-4 處理多語言輸入,中文效果相當好,可以直接用中文白話文描述。Stable Diffusion 則依你使用的模型而定。如果你不擅長英文,最簡單的做法是把中文描述貼給 ChatGPT,請它幫你轉換成 AI 繪圖提示詞格式(包含風格詞、技術參數),這樣兩頭都照顧到了。

AI 生成的圖可以拿去商用嗎?版權怎麼算?

這要分工具來看。Midjourney 付費方案的條款允許商業使用,但有條件(免費方案不行,且需注意方案層級)。DALL-E 3 根據 OpenAI 的使用政策,使用者對生成的圖片擁有使用權,包含商業用途。Stable Diffusion 因為是開源工具,本身沒有版權限制,但你使用的特定模型可能有自己的授權條款,需要個別確認。整體來說,AI 生成圖片的版權問題目前各國法律還在發展中,台灣也尚未有明確判例,商業使用前建議詳讀各工具的最新服務條款。

為什麼 AI 畫的手指和臉總是很奇怪?

這是 AI 繪圖目前最知名的弱點,特別是手部——六根手指、手指融合、比例怪異是常見現象。原因在於這些模型是從大量圖片學習統計規律,而「手」的姿勢和角度變化極度複雜,模型很難精確重建。解決方式有幾個:在提示詞加上 perfect hands, detailed fingers;使用 Stable Diffusion 的 ControlNet 功能控制手部姿勢;或者在後製階段用 Photoshop 手動修正。Midjourney v6 在手部表現上已比舊版好很多,但偶爾還是會出錯。臉部變形則可以用「人臉修復」功能(Face Restore)來改善。

我可以用 AI 繪圖工具重現特定藝術家的風格嗎?這樣合法嗎?

技術上,在提示詞裡加入 in the style of [藝術家名字] 確實會讓 AI 模仿該藝術家的畫風,這個功能幾乎所有工具都有,效果也很明顯。但法律和倫理層面就複雜了。很多藝術家明確反對這種做法,認為 AI 未經授權學習他們的作品再用來商業生產是侵權行為。目前各國法院對此案例的判決不一,台灣也尚無明確案例。我的建議是:拿來學習和探索風格可以,但如果要商業使用,避免直接指名在世藝術家的風格,改用風格描述詞(如 impressionist style)會更安全。

Midjourney、DALL-E 3、Stable Diffusion 哪個生成速度最快?

DALL-E 3 透過 ChatGPT 介面使用時,生成一張圖約需 10~20 秒,速度中等。Midjourney 一次生成 4 張預覽圖,約需 30~60 秒,速度穩定但跟伺服器負載有關,尖峰時間可能更慢。Stable Diffusion 的速度則完全取決於你的硬體,高端 NVIDIA GPU(如 RTX 4090)可以在 5~10 秒生成一張圖,低端硬體可能要幾分鐘。如果是雲端版本的 Stable Diffusion(如 Google Colab),速度介於上面幾者之間。整體而言,如果你追求速度,本機跑 Stable Diffusion 搭配好的 GPU 是最快的,但需要投入硬體成本。

30 天真的夠學好 AI 繪圖嗎?

「學好」要看你對「好」的定義。30 天足夠讓你從完全不會,到能穩定生成符合需求的圖片,並且掌握提示詞的基本技巧。但如果你的目標是精通 Stable Diffusion 的所有進階功能(ControlNet、LoRA 訓練、Inpainting 等),30 天只是剛入門。AI 繪圖的技術更新很快,新模型、新功能幾乎每個月都有,這個領域很難說「學完了」。比較實際的心態是:30 天建立足夠的基礎和手感,之後保持每週定期練習和跟進新發展。學習曲線在前兩週最陡,一旦過了那段,後面的進步會快很多。

本文部分連結為聯盟行銷連結,不影響評測立場。

最後更新:2025 年

返回頂端