AI繪圖新手指南｜Midjourney、DALL-E 3、Stable Diffusion選擇

你的第一張 AI 圖，到底要用哪個工具生成？

前幾天一個設計系的朋友傳訊息給我，說她想學 AI 繪圖，結果光是「要用哪個軟體」這個問題就卡了她整整一週。她看了十幾篇文章，每篇都說自家推薦的工具最好，最後她跟我說：「Jay，我現在連一張圖都還沒生成，就已經想放棄了。」

這個問題我聽過不只一次。AI 繪圖工具的選擇焦慮，是很多新手第一道關卡。Midjourney 要付費訂閱、DALL-E 3 綁在 ChatGPT 裡、Stable Diffusion 又需要一點技術門檻——光是這三個工具的入門方式就完全不同，難怪新手容易迷失。

這篇文章的目標很簡單：讓你看完之後，30 分鐘內能生成第一張圖，然後清楚知道接下來 30 天要怎麼練習。我不會跟你講太多理論，直接說哪個工具適合你、怎麼開始、常見錯誤是什麼。

三個工具的核心差異，先搞清楚再選邊站

很多人把這三個工具當成「同類產品的不同品牌」，但其實它們的定位、技術架構、適用場景差得很遠。用一句話來定位的話：Midjourney 是美感導向的商業工具、DALL-E 3 是最容易上手的入門選擇、Stable Diffusion 是給想要完全掌控的進階玩家。

Midjourney 是目前生成圖片品質最穩定、美感最一致的工具。它的特色是不管你的提示詞寫得好不好，輸出的圖片都有一定水準，很少出現「完全崩潰」的結果。但它的缺點也很明顯：目前沒有免費方案，最低方案是每月 10 美元，而且操作介面是透過 Discord，第一次進去的人通常會有點懵。

DALL-E 3 現在整合在 ChatGPT 裡，如果你已經有 ChatGPT Plus 訂閱（每月 20 美元），DALL-E 3 就直接可以用。最大的優勢是它對中文提示詞的理解能力很強，你可以直接用白話文描述你要什麼，它能理解得很好。如果你是 ChatGPT 免費用戶，現在有限量次數可以使用 DALL-E 3，但數量不多。

Stable Diffusion 是這三個裡唯一完全開源的工具。你可以在自己的電腦上跑，不需要付任何費用，也沒有圖片數量限制。代價是你需要一台有一定規格的電腦（建議 NVIDIA GPU，顯卡記憶體 8GB 以上），而且光是安裝和設定就需要花幾個小時。不過一旦架好，上面有數千個社群訓練的模型可以免費下載，可以客製化的程度是另外兩個工具完全無法比的。

比較維度	Midjourney	DALL-E 3	Stable Diffusion
免費方案	❌ 無免費方案	✅ ChatGPT 免費版有限量使用	✅ 本機安裝完全免費
圖片品質穩定性	★★★★★	★★★★	★★★（依模型和設定而異）
新手上手難度	中（需學 Discord 操作）	低（直接對話）	高（需要技術基礎）
提示詞彈性	高（英文效果更佳）	很高（支援中文）	極高（可用 LoRA 等擴充）
商業授權	付費方案可商用	可商用	依模型授權各異
適合使用者	設計師、品牌創作者	AI 新手、文字工作者	技術玩家、進階創作者

免費開始的方式：零預算也能跑出第一張圖

如果你現在一毛錢都不想花，Stable Diffusion 是唯一可以「真正免費、無限量使用」的選項——但前提是你的電腦要夠力。如果你的電腦沒有獨立顯卡，或者你不想搞那麼複雜，可以考慮幾個線上免費替代方案：

Google Colab + Stable Diffusion：Google 提供免費 GPU 運算時間，可以在不安裝任何東西的情況下跑 Stable Diffusion。網路上有現成的 Colab Notebook 可以直接使用，學習門檻稍微低一點。
ChatGPT 免費帳號 + DALL-E 3：目前 ChatGPT 免費版已開放有限次數的 DALL-E 3 使用，雖然每天數量不多，但拿來練習提示詞很夠用。
Adobe Firefly：這個我知道不在今天的主題裡，但值得一提，有免費額度，而且對商業用途的授權最清楚。

Midjourney 目前沒有免費試用，舊的免費方案在 2023 年初就停掉了。如果你看到文章說「Midjourney 有免費試用」，那是舊資訊，別上當。

想從零開始了解 AI 工具的基本觀念，可以先看看AI 工具完全入門指南：2025年新手必學的五個最強工具，有更完整的工具地圖。

提示詞基礎：為什麼你的圖和想像的差很多

這是新手最大的痛點。你心裡有一幅很清晰的畫面，打了幾個字，出來的圖讓你覺得「這什麼鬼」。這不是工具的問題，是提示詞的問題。

AI 繪圖的提示詞，有一個基本結構值得記下來：主體 + 風格 + 氛圍/光線 + 技術參數。舉個例子，你想生成一張「咖啡館裡的貓」：

❌ 新手寫法：a cat in a coffee shop
✅ 較好的寫法：a fluffy orange cat sitting on a wooden table in a cozy coffee shop, warm afternoon light, bokeh background, photorealistic, 4K

差異在哪裡？第一個只說了「什麼」，第二個還說了「什麼樣的」、「在什麼光線下」、「以什麼風格呈現」。AI 模型看到的是文字，它需要足夠多的描述才能縮小可能性的範圍。

幾個常用的風格關鍵字：

照片感：photorealistic、cinematic、shot on Canon 5D、film grain
插畫感：illustration、flat design、vector art、Studio Ghibli style
藝術感：oil painting、watercolor、charcoal sketch、impressionist
商業感：product photography、clean background、brand photography

Midjourney 的參數說明（常用的幾個）：

--ar 16:9：設定圖片比例，也可以用 1:1（正方形）、9:16（手機直向）
--v 6：指定模型版本，目前 v6 是主流
--style raw：關掉 Midjourney 的自動美化，保留更原始的風格
--no text：不要在圖片裡出現文字（AI 寫字通常很難看）
--chaos 50：數字越高，四張預覽圖的變化越大，適合探索階段

老實說，提示詞是一個要花時間練習的技能。如果你想系統性地了解為什麼 AI 工具的輸出常常不如預期，這篇為什麼大多數人用 AI 工具的效果很差：問題出在提示詞品質說得很透徹，值得認真讀一遍。

常見新手錯誤清單

我看過太多人生成的第一張圖，然後說「AI 繪圖沒什麼了不起」，但問題幾乎都出在同樣幾個地方：

錯誤一：提示詞太短、太模糊
「幫我畫一個女生」這種等級的提示詞，AI 只能亂猜。你需要說清楚：什麼膚色、什麼髮型、穿什麼、在哪裡、是什麼情緒、什麼光線。細節越多，結果越接近你的想像。

錯誤二：對圖片裡的文字有期待
截至目前，幾乎所有 AI 繪圖工具對「在圖片上寫特定文字」都還是弱項。DALL-E 3 進步最多，但偶爾還是會出現拼錯字、字型扭曲的問題。需要圖上有文字的設計，最好生成完之後再用 Canva 或 Photoshop 後製加上去。

錯誤三：期望第一次就完美
專業的 AI 繪圖工作者，一個概念通常會生成 20～50 張圖，從裡面挑選最接近的，再進一步細化。如果你生成了 4 張不滿意就放棄，那是正常的起點，不是失敗。

錯誤四：忽略負面提示詞（Negative Prompt）
這個功能在 Stable Diffusion 和某些其他工具裡都有。你不只能告訴 AI 你要什麼，也能告訴它你不要什麼。例如 negative: blurry, ugly, extra fingers, watermark 可以有效避免常見的畫面缺陷。

錯誤五：用中文提示詞跑 Midjourney
Midjourney 是用英文訓練的，用中文提示詞的輸出品質明顯比英文差。如果你不想寫英文，可以先把中文想法貼給 ChatGPT 請它翻譯成 AI 繪圖提示詞格式，再貼進去用。

不同需求的工具推薦

商業用途（品牌素材、電商圖片、社群貼文）
首選 Midjourney。它的輸出品質穩定，審美水準高，生成的圖片拿去做行銷素材不會顯得廉價。付費方案的商業授權也很清楚，不用擔心版權問題。如果你是行銷人員，搭配 AI 文案工具一起用效果更好，可以參考行銷人員的 AI 工具完整工作流：從內容策略到文案生成的實戰指南。

個人創作（插畫、角色設計、個人作品集）
Stable Diffusion 是最值得投資時間學的工具。它可以載入特定的繪圖模型（例如動漫風格的 NovelAI 系列模型、寫實風格的 Realistic Vision），用 LoRA 微調特定角色或風格，客製化程度遠超另外兩個工具。雖然前期設定麻煩，但一旦上手，你可以做到其他工具完全做不到的事。

學習練習（探索 AI 繪圖、快速實驗想法）
從 DALL-E 3 開始。它支援中文、不需要學特殊語法、透過 ChatGPT 介面操作，幾乎沒有學習曲線。你可以直接說「幫我畫一張賽博龐克風格的台北 101，有霓虹燈反光在濕地上」，它就能理解。等你對 AI 繪圖有基本感覺之後，再去學 Midjourney 的參數或 Stable Diffusion 的進階設定。

30 天學習路徑：從第一張圖到進階技巧

這個路徑是我自己摸索過來的，也推薦給幾個朋友試過，基本上照著走不會迷路。

第 1～7 天：建立基礎感覺
用 DALL-E 3 或 Midjourney 每天生成 10～20 張圖，主題自由，重點是觀察提示詞和輸出結果的關係。不要在乎品質，在乎「我改了什麼字、結果怎麼變」。這週的目標是對提示詞的影響力有直覺。

第 8～14 天：專注一個工具
根據你的需求選定一個工具，開始認真學它的參數和技巧。如果選 Midjourney，這週把常用參數都試過一遍；如果選 Stable Diffusion，這週把安裝和基本 WebUI 操作搞定。不要同時學三個工具，你會什麼都學一點、什麼都做不好。

第 15～21 天：主題式練習
給自己一個具體的創作目標，例如「生成一系列台灣夜市的賽博龐克風格插圖」或「幫虛構品牌做五張產品圖」。有目標的練習進步速度比隨機亂試快很多。

第 22～30 天：後製與整合
學習把 AI 生成的圖和後製工具結合。Photoshop 的生成填充（Generative Fill）、Canva 的背景去除、ControlNet（Stable Diffusion 的插件，可以控制構圖和姿勢）——這些工具讓你從「AI 出什麼我就接受什麼」變成「我主導，AI 協助執行」。

AI 繪圖的官方資源也值得收藏：Midjourney 官方文件和Stable Diffusion WebUI GitHub都有詳細的參數說明，是卡關時最可靠的參考來源。

我的結論：別想著「選最好的」，先選「能讓你開始的」

說真的，在 AI 繪圖這個領域，工具選擇沒有「終極答案」。Midjourney 每隔幾個月出新版、Stable Diffusion 的社群模型天天都有更新、DALL-E 也在持續進化。你今天學到的東西，明年可能有一半要重新學。

但提示詞的思維方式不會變。「怎麼描述你想要的畫面」這個能力是跨工具的，學好了在哪個工具都能用。所以我給新手的建議是：先用最容易上手的工具（DALL-E 3）讓自己的第一張圖在今天生出來，然後花兩週真正搞懂提示詞的邏輯，之後再決定要不要往 Midjourney 或 Stable Diffusion 深入。

開始比選擇更重要。你的第一張圖，今天就能生成。

常見問題

Midjourney 現在真的沒有免費試用嗎？

是的，Midjourney 在 2023 年 3 月就停止了免費試用方案，目前最低方案是每月 10 美元的基本訂閱，提供約 200 張圖的生成額度。如果你在網路上看到說「Midjourney 有免費試用」的文章，那大概是 2023 年以前的舊資訊。建議在決定訂閱前，先用 DALL-E 3 或免費的 Stable Diffusion 熟悉 AI 繪圖的基本概念，確認自己真的有需求再付費。Midjourney 的付費訂閱頁面可以在其官網直接查看最新方案。

Stable Diffusion 一定要有強力顯卡嗎？沒有 NVIDIA 的人怎麼辦？

本機安裝的 Stable Diffusion 效果最好是有 NVIDIA 顯卡（建議 8GB 以上 VRAM），但不是唯一選擇。如果你是 Mac 用戶，新版 Stable Diffusion WebUI 已支援 Apple Silicon（M1/M2/M3 晶片）的 Metal 加速，速度雖然比 NVIDIA GPU 慢一些，但完全可以跑。另外，如果你完全沒有適合的硬體，可以使用 Google Colab 提供的免費雲端 GPU，或者考慮付費雲端 GPU 服務。也有一些基於 Stable Diffusion 的線上服務，例如 Stability AI 官方的 DreamStudio，提供有限免費額度，適合不想自己架環境的使用者。

提示詞一定要用英文嗎？

不一定，但用英文效果通常更好，特別是 Midjourney。這是因為這些模型大多用英文資料訓練，英文提示詞和訓練資料的語言一致，模型理解起來更精確。DALL-E 3 是例外，它透過 GPT-4 處理多語言輸入，中文效果相當好，可以直接用中文白話文描述。Stable Diffusion 則依你使用的模型而定。如果你不擅長英文，最簡單的做法是把中文描述貼給 ChatGPT，請它幫你轉換成 AI 繪圖提示詞格式（包含風格詞、技術參數），這樣兩頭都照顧到了。

AI 生成的圖可以拿去商用嗎？版權怎麼算？

這要分工具來看。Midjourney 付費方案的條款允許商業使用，但有條件（免費方案不行，且需注意方案層級）。DALL-E 3 根據 OpenAI 的使用政策，使用者對生成的圖片擁有使用權，包含商業用途。Stable Diffusion 因為是開源工具，本身沒有版權限制，但你使用的特定模型可能有自己的授權條款，需要個別確認。整體來說，AI 生成圖片的版權問題目前各國法律還在發展中，台灣也尚未有明確判例，商業使用前建議詳讀各工具的最新服務條款。

為什麼 AI 畫的手指和臉總是很奇怪？

這是 AI 繪圖目前最知名的弱點，特別是手部——六根手指、手指融合、比例怪異是常見現象。原因在於這些模型是從大量圖片學習統計規律，而「手」的姿勢和角度變化極度複雜，模型很難精確重建。解決方式有幾個：在提示詞加上 perfect hands, detailed fingers；使用 Stable Diffusion 的 ControlNet 功能控制手部姿勢；或者在後製階段用 Photoshop 手動修正。Midjourney v6 在手部表現上已比舊版好很多，但偶爾還是會出錯。臉部變形則可以用「人臉修復」功能（Face Restore）來改善。

我可以用 AI 繪圖工具重現特定藝術家的風格嗎？這樣合法嗎？

技術上，在提示詞裡加入 in the style of [藝術家名字] 確實會讓 AI 模仿該藝術家的畫風，這個功能幾乎所有工具都有，效果也很明顯。但法律和倫理層面就複雜了。很多藝術家明確反對這種做法，認為 AI 未經授權學習他們的作品再用來商業生產是侵權行為。目前各國法院對此案例的判決不一，台灣也尚無明確案例。我的建議是：拿來學習和探索風格可以，但如果要商業使用，避免直接指名在世藝術家的風格，改用風格描述詞（如 impressionist style）會更安全。

Midjourney、DALL-E 3、Stable Diffusion 哪個生成速度最快？

DALL-E 3 透過 ChatGPT 介面使用時，生成一張圖約需 10～20 秒，速度中等。Midjourney 一次生成 4 張預覽圖，約需 30～60 秒，速度穩定但跟伺服器負載有關，尖峰時間可能更慢。Stable Diffusion 的速度則完全取決於你的硬體，高端 NVIDIA GPU（如 RTX 4090）可以在 5～10 秒生成一張圖，低端硬體可能要幾分鐘。如果是雲端版本的 Stable Diffusion（如 Google Colab），速度介於上面幾者之間。整體而言，如果你追求速度，本機跑 Stable Diffusion 搭配好的 GPU 是最快的，但需要投入硬體成本。

30 天真的夠學好 AI 繪圖嗎？

「學好」要看你對「好」的定義。30 天足夠讓你從完全不會，到能穩定生成符合需求的圖片，並且掌握提示詞的基本技巧。但如果你的目標是精通 Stable Diffusion 的所有進階功能（ControlNet、LoRA 訓練、Inpainting 等），30 天只是剛入門。AI 繪圖的技術更新很快，新模型、新功能幾乎每個月都有，這個領域很難說「學完了」。比較實際的心態是：30 天建立足夠的基礎和手感，之後保持每週定期練習和跟進新發展。學習曲線在前兩週最陡，一旦過了那段，後面的進步會快很多。

本文部分連結為聯盟行銷連結，不影響評測立場。

最後更新：2025 年