Load Checkpoint

CLIP Text Encode

KSampler

VAE Decode

ComfyUI 101 · บทที่ 1

ComfyUI คืออะไร
และทำไมต้องคิดแบบ “Node”

เข้าใจ “วิธีคิด” ของ ComfyUI ให้ได้ก่อน — เพราะถ้าเข้าใจตรงนี้ บทอื่นจะง่ายหมด

เลื่อนลงเพื่อเริ่ม↓

1.1

ComfyUI คืออะไร

โปรแกรม open-source (ฟรี) สำหรับสร้างภาพ/วิดีโอด้วย AI แบบ node-based — แทนที่จะมีฟอร์มเต็มไปด้วยปุ่ม เราจะ “ต่อกล่อง (node) เข้าด้วยกันด้วยเส้น” เพื่อประกอบเป็น workflow

นึกภาพง่าย ๆ ว่ามันคือ “โปรแกรมต่อท่อ” สำหรับ AI

แต่ละ node = อุปกรณ์ 1 ชิ้นทำงานอย่างเดียว · แต่ละเส้น = ท่อส่งข้อมูล · ทั้งหมดต่อกันเป็นกราฟ = workflow ของเรา · ComfyUI ไม่ “ซ่อน” ขั้นตอน แต่เปิดให้เห็นทุกขั้นของ diffusion จึงปรับแต่งได้ลึกกว่า

🔍 แล้วหน้าตาของ “1 node” เป็นแบบนี้:

1KSampler

model2

positive

latent

3LATENT

1
หัว Node
ชื่อ + สีบอกหมวดของ node (เช่น สีม่วง = กลุ่มโมเดล)
2
ช่องเสียบเข้า (input)
อยู่ทางซ้าย — รับข้อมูลเข้ามาประมวลผล
3
ช่องส่งออก (output)
อยู่ทางขวา — ส่งผลลัพธ์ออกไปให้ node อื่น
4
เส้น (wire)
ท่อส่งข้อมูล ลากจาก output → input · สีบอกชนิดข้อมูล

1.4

สร้างภาพ AI = สายการผลิตในโรงงาน

การสร้างภาพ 1 ใบมีขั้นตอนเหมือนสายพาน — ในเครื่องมืออื่นขั้นตอนพวกนี้ “ซ่อน” หลังปุ่ม Generate ปุ่มเดียว แต่ใน ComfyUI แต่ละขั้น = 1 node ที่เราเห็นและแก้ได้

📦01

โหลดโมเดล

เปิดไฟล์โมเดล แตกออกเป็นสมอง + ล่าม + นักแปลภาพ

💬02

แปลง prompt

เปลี่ยนข้อความที่เราพิมพ์ ให้เป็นภาษาที่ AI เข้าใจ

🌫️03

สุ่ม noise

เตรียม 'ผ้าใบเปล่า' ที่เต็มไปด้วยจุดสัญญาณรบกวน

🪄04

ค่อย ๆ ลบ noise

Sampling — เคาะ noise ออกทีละนิดจนกลายเป็นภาพ ตาม prompt

🖼️05

แปลงเป็นภาพจริง

VAE Decode — เปลี่ยนภาพร่าง (latent) ให้เป็น pixel จริง

💾06

บันทึก

เซฟไฟล์ออกมา — พร้อม workflow ฝังอยู่ในภาพ

🪄 ขั้น “ค่อย ๆ ลบ noise” หน้าตาเป็นยังไง — ลากดูได้:

กำลังก่อตัวเป็นภาพ · 30%

🌫️ จุดสุ่มล้วน (noise)ลากดูการ “ก่อตัวเป็นภาพ”🖼️ ภาพถ่ายชัด

diffusion เริ่มจาก จุด noise สุ่มทั้งจอ (ขาว-ดำ-สี ที่ยังไม่เป็นภาพ) แล้ว KSampler ค่อย ๆ จัดระเบียบมันทีละรอบ (steps) ตาม prompt จนกลายเป็นภาพ · รายละเอียดอยู่ใน บทที่ 4

1.2

ทำไมต้องเป็น ComfyUI

ข้อดีที่ทำให้ power user ย้ายมาใช้ — และความท้าทายที่ต้องรับมือ

✅ ข้อดี

→ควบคุมได้ละเอียด — เห็นและแก้ได้ทุกขั้นตอน
→Workflow = ไฟล์ JSON เล็ก ๆ แชร์/เก็บเวอร์ชันง่าย
→ฝังใน metadata ของภาพ — ลากภาพกลับมาได้ workflow คืน
→รองรับโมเดลใหม่เร็ว (Flux, Wan, Qwen ฯลฯ)
→เป็น API ในตัว — ทำ automation / batch ได้
→ประหยัดทรัพยากร — รันเฉพาะ node ที่จำเป็น
→ฟรี และรันในเครื่องตัวเอง ข้อมูลไม่ออกนอกองค์กร

⚠️ ความท้าทาย

→ชันกว่าตอนเริ่ม — หน้าจอ node ดูน่ากลัวตอนแรก
→ต้องมีเครื่องแรง (GPU / VRAM เยอะ ๆ)
→เจอ “missing node” บ่อย — แก้ด้วย ComfyUI Manager
→ต้องดูแลโมเดล/ไฟล์เอง — จัดระเบียบโฟลเดอร์ให้ดี

1.3

เทียบกับเครื่องมือที่ทีมอาจเคยใช้

Midjourney เหมาะกับหาไอเดียเร็ว ๆ — แต่พอต้องทำงานซ้ำ ๆ จำนวนมาก คุมผลให้คงที่ หรือเชื่อมเข้าระบบ ComfyUI คือคำตอบ (กดสลับแท็บเพื่อเทียบ)

ComfyUI

ต่อ node เป็นกราฟ

ความง่าย

2/5

ควบคุมรายละเอียด

5/5

รันในเครื่องตัวเอง

5/5

ทำ Automation / API

5/5

ทำซ้ำ / แชร์ pipeline

5/5

เหมาะกับงานโปร / production / automation

ลองเล่น

ต่อ Node ด้วยตัวเอง

นี่คือโครง text-to-image มาตรฐาน ลากเส้นจากช่องส่งออก (ขวา) ไปช่องเข้า (ซ้าย) ให้สีตรงกัน — ถ้าต่อครบจะได้ workflow ที่สร้างภาพได้จริง

LATENT

latent

✓ ต่อติด

IMAGE

latent

✕ ต่อไม่ได้ (สีไม่ตรง)

ช่องแต่ละช่องมี “ชนิดข้อมูล” (สี) — ต่อได้เฉพาะ สีเดียวกัน เหมือนปลั๊กที่เสียบได้เฉพาะรูที่ตรงกัน ถ้าชนิดไม่ตรง ComfyUI จะไม่ให้ต่อ · จำกฎนี้ได้ = เข้าใจ ComfyUI ไป 80%

ลากจากจุดสี ขวา ไป ซ้าย — ต่อได้เฉพาะ สีตรงกัน เท่านั้น

Load Checkpoint

MODEL

CLIP

VAE

CLIP Text Encode

clip

COND

Empty Latent

LATENT

KSampler

model

positive

latent

LATENT

VAE Decode

samples

vae

IMAGE

Save Image

images

หัวใจ

วิธีคิดแบบ Node — 3 แนวคิดที่ต้องจำ

ถ้าจำได้ว่า “ต่อสีให้ตรงกัน = ส่งข้อมูลถูกชนิด” คุณเข้าใจ 80% ของ ComfyUI แล้ว

Node (กล่อง)

ทำงานอย่างเดียว มีช่องเสียบเข้า (input) ทางซ้าย และช่องส่งออก (output) ทางขวา

Wire (เส้น)

ลากเชื่อม output ของ node หนึ่ง ไป input ของอีก node — คือการ “ส่งข้อมูล”

Type (สี/ชนิด)

แต่ละช่องมีชนิดข้อมูล ต่อได้เฉพาะชนิดเดียวกัน เหมือนปลั๊กที่เสียบได้เฉพาะรูที่ตรงกัน

สีของช่องเสียบ = ชนิดข้อมูล (ต่อได้เฉพาะสีเดียวกัน)

MODELสมองโมเดล (ตัวทำนาย noise)

CLIPล่ามแปลง prompt เป็นตัวเลข

VAEแปลงภาพจริง ↔ latent

CONDITIONINGเงื่อนไขที่ได้จาก prompt

LATENTภาพในพื้นที่บีบอัด

IMAGEภาพ pixel จริงที่เรามองเห็น

1.5

App Mode (ของใหม่ปี 2025–2026)

เปลี่ยน workflow ซับซ้อนให้กลายเป็นหน้าจอง่าย ๆ ที่มีเฉพาะช่องกรอกที่จำเป็น แล้วแชร์เป็นลิงก์ให้คนอื่นใช้

ทำไมสำคัญกับทีม

คนที่สร้าง workflow (เซียน) สร้างครั้งเดียว แล้วทำเป็น App ให้คนอื่น “แค่กรอกแล้วกด” — ได้ทั้งความยืดหยุ่นของ ComfyUI และความง่ายของ Midjourney ในเวลาเดียวกัน

✅ สรุปบทที่ 1

• ComfyUI = เครื่องมือสร้างภาพ/วิดีโอ AI แบบ ต่อ node เป็นกราฟ
• จุดเด่น: ควบคุมลึก · workflow เป็น JSON แชร์ง่าย · เป็น API ได้ · รองรับโมเดลใหม่เร็ว · ฟรี+รันในเครื่อง
• หัวใจคือ mental model: สร้างภาพ = สายการผลิต แต่ละขั้น = node, ต่อเส้นให้ชนิดข้อมูล (สี) ตรงกัน

ถัดไป → บทที่ 2: การติดตั้ง

ComfyUI คืออะไรและทำไมต้องคิดแบบ “Node”

ComfyUI คืออะไร

สร้างภาพ AI = สายการผลิตในโรงงาน

โหลดโมเดล

แปลง prompt

สุ่ม noise

ค่อย ๆ ลบ noise

แปลงเป็นภาพจริง

บันทึก

ทำไมต้องเป็น ComfyUI

เทียบกับเครื่องมือที่ทีมอาจเคยใช้

ComfyUI

ต่อ Node ด้วยตัวเอง

วิธีคิดแบบ Node — 3 แนวคิดที่ต้องจำ

App Mode (ของใหม่ปี 2025–2026)

✅ สรุปบทที่ 1

ComfyUI คืออะไร
และทำไมต้องคิดแบบ “Node”