Z.ai เปิดตัว GLM-Image โมเดล AI สร้างภาพม้ามืดจากจีน ท้าชนค่ายใหญ่ด้วยระบบ Cognitive Generation

ถ้าถามนักการตลาดหรือคนทำคอนเทนต์ในนาทีนี้ว่า AI ตัวไหนสร้างภาพแล้วเขียนตัวหนังสือได้แม่นยำที่สุด คำตอบคงหนีไม่พ้น Nano Banana Pro ที่ครองตำแหน่งเบอร์หนึ่ง ณ เวลานี้ เพราะต้องยอมรับครับว่ามันสามารถสร้างภาพที่มีตัวอักษรได้ค่อนข้างแม่นยำ และกลายเป็นมาตรฐานที่โมเดลหลายๆ ตัวอยากแตะบาร์ไปถึงตรงนั้น แต่ในปีนี้ เกมอาจเปลี่ยนไปครับ เพราะ Z.ai จากจีนเปิดตัว GLM-Image ซึ่งเป็น AI สร้างภาพแบบ Open Source ลงสนามมาท้าชนรุ่นพี่หลายๆ ค่ายโดยตรง ที่ไม่ใช่แค่การเปิดตัวโมเดลใหม่ธรรมดา แต่มันคือการนำเสนอวิธีคิดใหม่ทางเทคโนโลยีที่กล้าบอกว่า วิธีการสร้างภาพที่ดีที่สุดอาจไม่ใช่แค่วิธีเดิมๆ ที่เราคุ้นเคยอีกต่อไป และสงครามครั้งนี้ไม่ได้วัดกันที่ใครวาดสวยกว่า แต่กำลังวัดกันที่ว่า AI ของใครฉลาดและเข้าใจภาษามนุษย์ได้ลึกซึ้งกว่ากันครับ

GLM-Image คืออะไร

โมเดล AI สร้างภาพตัวล่าสุดจาก Z.ai สตาร์ตอัปยูนิคอร์นของจีนที่โตมาจากรั้วมหาวิทยาลัยชิงหัว ซึ่งถือว่าเป็นแหล่งรวมหัวกระทิของสายเทคครับ ความพิเศษของมันไม่ใช่แค่การวาดภาพสวยเหมือนโมเดลทั่วไป แต่คือการถูกสร้างขึ้นมาเพื่อลบจุดอ่อนเรื่องภาษาเอเลี่ยนของ AI รุ่นเก่าๆ โดยเฉพาะงานที่ต้องมีข้อความบนโปสเตอร์ ป้ายโปรโมชัน หรือ Infographic ครับ

สิ่งที่ทำให้มันแตกต่างจากโมเดล AI ตัวอื่นๆ อย่างสิ้นเชิงคือ แนวคิดที่เรียกว่า “Cognitive Generation” หรือการสร้างภาพที่เริ่มต้นจากกระบวนการคิดและทำความเข้าใจก่อนเหมือนของ Nano Banana Pro ซึ่งต่างจากวิธีเดิมๆ ที่เน้นการสุ่มเดาจากลวดลายครับ และภายใต้ความเก่งนี้ยังซ่อนความได้เปรียบทางยุทธศาสตร์เอาไว้ด้วยครับ เพราะรันอยู่บนชิป Huawei Ascend ซึ่งเป็นฮาร์ดแวร์ที่จีนผลิตเองได้ 100% ทำให้ต้นทุนโครงสร้างพื้นฐานต่ำกว่าคู่แข่งฝั่งตะวันตกที่ใช้ชิปราคาแพงอย่างมหาศาล และนั่นคืออาวุธลับที่ทำให้มันทำราคาได้ถูกจนน่าตกใจ และอาจเปิดโอกาสให้คนทั่วไปเข้าถึงโมเดลระดับสูงได้ง่ายขึ้นในอนาคตด้วยครับ

หลักการทำงานของ GLM-Image

เพื่อให้เห็นภาพว่าทำไม GLM-Image ถึงท้าชนรุ่นพี่อย่าง Google ได้หมัดต่อหมัด ผมขอเปรียบเทียบหลักการทำงานง่ายๆ ครับ ถ้าเป็น AI ทั่วไป มันจะเหมือนศิลปินที่อารมณ์ศิลป์ สะบัดแปรงลงสีไปเรื่อยๆ จนออกมาเป็นรูป ซึ่งบางครั้งก็สวยแต่โครงสร้างผิดเพี้ยนบ้าง แต่สำหรับโมเดลตัวนี้ ทำงานด้วยระบบทีมเวิร์กที่แบ่งหน้าที่กันชัดเจนระหว่างสถาปนิก กับศิลปินเพื่อให้ผลลัพธ์ออกมาสมบูรณ์แบบที่สุดครับ

ภาพจาก: Z.ai

ส่วนแรกคือ Autoregressive Generator ที่มีขนาด 9 พันล้านพารามิเตอร์ ทำหน้าที่เปรียบเสมือนเป็นสถาปนิก ซึ่งโมเดลส่วนนี้ถูกต่อยอดมาจากโมเดลภาษา GLM-4 ทำให้มีความเข้าใจในตรรกะและภาษาเป็นอย่างดี เมื่อเราป้อนคำสั่ง มันจะวางแผนองค์ประกอบของภาพก่อน โดยแปลงคำสั่งเป็นรหัสภาพและกำหนดโครงร่างว่าข้อความต้องเขียนว่าอะไร และต้องวางเรียงอย่างไรให้ถูกต้องตามหลักภาษา มันทำงานเป็นลำดับขั้นตอนเหมือนมนุษย์เขียนหนังสือ ทำให้โครงสร้างภาพมีความแม่นยำสูงครับ

จากนั้นจึงส่งไม้ต่อให้ส่วนที่สองคือ Diffusion Decoder ที่มีขนาด 7 พันล้านพารามิเตอร์ ซึ่งรับบทเป็นศิลปิน ทำหน้าที่วาดแล้วลงสีให้สวยงาม ความน่าสนใจคือคือ Glyph Encoder หรือการถอดรหัสอักขระ ที่ทำให้ AI มองเห็นตัวอักษร ผสานกับระบบ Reward System ผ่าน OCR ทำให้สามารถเขียนตัวหนังสือลงในภาพได้ชัดเจน ซึ่งเป็นหัวใจสำคัญที่ทำให้เทียบชั้นกับ Nano Banana Pro ครับ

จุดเด่นและข้อจำกัดของ GLM-Image

สิ่งที่ทำให้โมเดลตัวนี้กลายเป็นผู้ท้าชิงที่น่ากลัวที่สุด ไม่ใช่แค่เรื่องความเก่งทางเทคนิค แต่เป็นเรื่องของ Open Source ครับ เพราะโมเดลที่เรารู้จักกันในหลายๆ เจ้า มักจะเป็น Closed Source ที่เราใช้งานได้แต่ไม่รู้ว่าข้างในทำงานยังไง และต้องส่งข้อมูลไปประมวลผลบนเซิร์ฟเวอร์เจ้าของโมเดลเท่านั้นนั้น ซึ่งอาจเป็นข้อจำกัดสำหรับองค์กรที่มีข้อกังวัลเรื่องของความลับข้อมูลครับ

ภาพจาก: Z.ai

แต่ Z.ai เลือกที่จะเดินเกมต่างออกไปด้วยการเปิดแบบ Open Source ที่อนุญาตให้นักพัฒนาทั่วโลกสามารถดาวน์โหลดไปใช้งานได้ฟรีๆ หรือจะนำไปปรับปรุงต่อก็ได้ ซึ่งสร้างความได้เปรียบอยู่ 3 ข้อครับ

  1. Transparency & Security: องค์กรหรือบริษัทสามารถนำโมเดลไปรันบนเซิร์ฟเวอร์ของตัวเอง ได้เลย ไม่ต้องกลัวข้อมูลรั่วไหล
  2. Flexibility & Customizability: นักพัฒนาสามารถปรับแต่งโมเดลให้เก่งเฉพาะทางได้ เช่น สอนให้มันรู้จักสินค้าหรือโลโก้แบรนด์ของเราเป็นพิเศษ
  3. Community & Ecosystem: เมื่อคนเก่งๆ ทั่วโลกช่วยกันพัฒนา โมเดลก็จะยิ่งเก่งเร็วขึ้น แก้บั๊กไวขึ้น กลายเป็น Ecosystem ที่แข็งแกร่ง

ในส่วนของข้อจำกัด ณ เวลานี้คือเรื่องภาษา ที่รองรับการสร้างภาพแค่ภาษาอังกฤษ และภาษาจีนเท่านั้น และถ้าเรา Prompt ไม่ละเอียด AI ก็จะสร้างภาพออกมาเป็นภาษาจีนแบบ Default ฉะนั้นต้องระบุใน Prompt ให้ละเอียดครับ เช่น ระบุว่าต้องการให้ทำภาพที่เป็นเนื้อหาภาษาอังกฤษ เป็นต้น (แต่ต้องอธิบายเป็นภาษาอังกฤษนะครับ ตอนนี้ยังไม่รองรับภาษาไทย)

สรุป GLM-Image AI สร้างภาพม้ามืดจากจีน ท้าชนค่ายใหญ่ด้วยระบบ Cognitive Generation

สรุปแล้ว การมาของโมเดลตัวนี้ไม่ได้มาเพื่อเป็นแค่คู่แข่งของโมเดลหลายๆ ค่ายอย่างเดียวครับ แต่มาเพื่อปฏิวัติวงการด้วยการบอกว่า เทคโนโลยีที่ดีควรเข้าถึงได้และตรวจสอบได้ และการผสมผสานระหว่าง Coginitive Architecture กับOpen Source คืออาวุธหนักที่ Z.ai ใช้ดันบาร์ของวงการ AI และไม่ว่าผลจะเป็นอย่างไร ผู้ที่ชนะตัวจริงคือพวกเราผู้ใช้งานนี่แหละครับ ที่มีโอกาสได้ใช้เทคโนโลยีระดับโลกในรูปแบบที่อิสระและคุ้มค่ากว่าเดิมครับ

AI Generated by Nano Banana Pro

Admin