การทดสอบครั้งนี้สะท้อนให้เห็นว่า ChatGPT Images 2.0 คือผู้ชนะที่แท้จริงในสนามสร้างภาพด้วย AI ไม่เพียงแต่ทำคะแนนสูงกว่า แต่ยังแสดงถึงความเข้าใจในบริบท ความสามารถในการจัดการข้อความ และการเคารพข้อจำกัดด้านลิขสิทธิ์
ในขณะที่ Nano Banana แม้จะยังคงมีจุดเด่นด้านความสวยงาม แต่กลับสะดุดในเรื่องความแม่นยำและความปลอดภัยของข้อมูล
เมื่อโลกของปัญญาประดิษฐ์ก้าวเข้าสู่ยุคใหม่ การสร้างภาพด้วย AI ไม่ได้เป็นเพียงการทดลองเชิงศิลป์อีกต่อไป แต่กลายเป็นเครื่องมือที่สามารถสะท้อนความสามารถของโมเดลได้อย่างแท้จริง บทความนี้เล่าถึงการทดสอบเชิงลึกระหว่าง ChatGPT Images 2.0 ของ OpenAI และ Gemini Nano Banana ของ Google ซึ่งถูกนำมาทดสอบในสถานการณ์จริง 9 รูปแบบ เพื่อดูว่าใครคือผู้ชนะในสนามสร้างภาพที่ซับซ้อนและท้าทายที่สุด
การทดสอบเริ่มต้นจากโจทย์ที่ดูเรียบง่าย เช่น การใส่ชุดเครื่องแบบทหารเรือให้กับบุคคลในภาพ ไปจนถึงการสร้างโปสเตอร์ภาพยนตร์ที่ไม่เคยมีอยู่จริงอย่าง Back to the Future ภาค 4 แต่ละโจทย์ถูกออกแบบมาเพื่อวัดความสามารถของ AI ในการรักษารายละเอียด ความสมจริง และการตีความตามบริบทที่ซับซ้อน
... คลิกเพื่ออ่านต่อ
ผลลัพธ์ที่ได้ชี้ชัดว่า ChatGPT Images 2.0 ก้าวกระโดดจากเวอร์ชันก่อนหน้าอย่างมหาศาล หากย้อนกลับไปในปี 2025 Nano Banana เคยทำคะแนนสูงถึง 93% ขณะที่ ChatGPT รุ่นก่อนหน้าทำได้เพียง 74% เนื่องจากข้อจำกัดในการสร้างภาพที่เกี่ยวข้องกับวัฒนธรรมสมัยนิยม แต่ในการทดสอบล่าสุด ChatGPT Images 2.0 ทำคะแนนรวมได้ถึง 97% ขณะที่ Nano Banana ลดลงเหลือ 85%
สิ่งที่น่าสนใจคือความแตกต่างในรายละเอียดของแต่ละโจทย์ ตัวอย่างเช่น ในการฟื้นฟูภาพถ่ายขาวดำ ChatGPT สามารถรักษารายละเอียดและเพิ่มความคมชัดได้อย่างเป็นธรรมชาติ ขณะที่ Nano Banana แม้จะทำได้ดี แต่กลับมีปัญหาในการตีความสีและข้อความที่ปรากฏบนภาพ
อีกกรณีหนึ่งคือการสร้างภาพบุคคลในสไตล์ Tim Burton ซึ่งทั้งสองโมเดลทำได้ดี แต่ Nano Banana กลับใส่รายละเอียดส่วนตัวของผู้ทดสอบลงไปในภาพโดยไม่ได้รับการร้องขอ นำไปสู่คำถามใหญ่เกี่ยวกับ ความเป็นส่วนตัวและการใช้ข้อมูลของผู้ใช้
การทดสอบยังเผยให้เห็นความสามารถใหม่ของ ChatGPT ในการจัดการกับข้อความบนภาพ ซึ่งเคยเป็นจุดอ่อนสำคัญในอดีต แต่ครั้งนี้สามารถสร้างข้อความที่อ่านได้ชัดเจนและสอดคล้องกับบริบท เช่น โปสเตอร์ภาพยนตร์ที่มีการออกแบบตัวอักษรอย่างสมจริง ขณะที่ Nano Banana มีปัญหาซ้ำซากกับการสร้างข้อความที่ซ้อนหรือผิดเพี้ยน
แม้ว่า Nano Banana จะยังคงมีจุดแข็งในด้านความสว่างและความสวยงามของภาพ แต่ความผิดพลาดในการตีความรายละเอียดและการดึงข้อมูลส่วนตัวโดยไม่ตั้งใจ ทำให้คะแนนรวมลดลงอย่างเห็นได้ชัด
ในทางกลับกัน ChatGPT Images 2.0 ไม่เพียงแต่พัฒนาความสามารถด้านเทคนิค แต่ยังแสดงให้เห็นถึงการจัดการข้อจำกัดทางกฎหมายและลิขสิทธิ์ด้วยการสร้างภาพที่เป็น “สไตล์ใหม่” แทนการลอกเลียนแบบโดยตรง
Key Takeaways
ChatGPT Images 2.0 ทำคะแนนรวมได้ 97% แสดงถึงการพัฒนาที่ก้าวกระโดดจากรุ่นก่อนหน้า
Gemini Nano Banana ลดลงเหลือ 85% สะท้อนถึงปัญหาในการตีความรายละเอียดและการจัดการข้อความ
ความเป็นส่วนตัวคือประเด็นสำคัญ เมื่อ Nano Banana ดึงข้อมูลส่วนตัวมาใช้โดยไม่ได้รับอนุญาต
ChatGPT Images 2.0 แก้จุดอ่อนเรื่องข้อความบนภาพได้สำเร็จ และสามารถสร้างงานที่สมจริงและใช้งานได้จริง
การทดสอบในโลกจริงสำคัญกว่าคะแนน Benchmark เพราะเผยให้เห็นพฤติกรรมที่ไม่คาดคิดของโมเดล AI
…..
เรียบเรียงโดย AiNextopia
อ้างอิง : I tested ChatGPT Images 2.0 vs. Gemini Nano Banana to see which is better – this model wins | ZDNET
Post navigation
Suggested Posts
การเดินทางของเทคโนโลยี AI ในที่ทำงานเคยถูกมองว่าเป็น “พระเอก” ที่จะเข้ามาช่วยยกระดับประสิทธิภาพ ลดภาระงาน และเปิดประตูสู่ยุคใหม่ของการทำงานที่ฉลาดขึ้น แต่เมื่อเวลาผ่านไป ความสัมพันธ์ระหว่างแรงงานกับ AI กลับซับซ้อนขึ้นกว่าที่หลายคนคาดไว้มาก
ในเช้าวันหนึ่งที่ดูเหมือนจะเป็นวันทำงานปกติ Gina ผู้เชี่ยวชาญด้านการสื่อสารในบริษัทขนาดใหญ่ เปิดอีเมลฉบับใหม่จากเพื่อนร่วมงาน เธอคาดหวังว่าจะได้อ่านร่างข้อความที่ต้องช่วยปรับแต่งเหมือนทุกครั้ง แต่สิ่งที่ปรากฏบนหน้าจอกลับเป็นประโยคเรียบลื่นไร้ที่ติ ทว่าขาดความเป็นมนุษย์อย่างประหลาด ราวกับถูกผลิตจากสายพานอัตโนมัติของโรงงานถ้อยคำ
โมเดล AI รุ่นใหม่จาก Xiaomi อย่าง MiMo-V2.5 และ MiMo-V2.5-Pro กำลังกลายเป็นตัวแปรสำคัญที่ท้าทายสมดุลของอุตสาหกรรม AI ทั่วโลก บทความนี้จะชี้ให้เห็นว่า โมเดลทั้งสองไม่เพียงทรงพลัง แต่ยัง “มีประสิทธิภาพและต้นทุนต่ำอย่างน่าประหลาด” สำหรับงานที่เรียกว่า agentic “claw” tasks งานที่ AI ต้องคิด วางแผน และลงมือทำหลายขั้นตอนอย่างอัตโนมัติ
ในโลกที่ข้อมูลไหลบ่าเหมือนสายน้ำ เรามักจมอยู่ในมหาสมุทรแห่งเอกสาร บทความ วิดีโอ และเสียงบันทึกที่ไม่รู้จบ การค้นหาความหมายจากกองข้อมูลเหล่านี้ไม่ต่างอะไรกับการพยายามหาดาวเคราะห์ใหม่ในจักรวาลอันกว้างใหญ่ แต่ Google ได้เสนอเครื่องมือที่อาจเปลี่ยนวิธีที่เราสำรวจความรู้ไปตลอดกาล และนั่นคือ NotebookLM
ในปี 2024 ไมโครซอฟท์ประกาศเปิดตัว Copilot + PCs พร้อมชูจุดเด่นของ NPU ที่กำลังจะเปลี่ยนภูมิทัศน์คอมพิวเตอร์ไปตลอดกาล Neural Processing Unit (NPU) หน่วยประมวลผลที่ออกแบบมาเพื่อรองรับงานปัญญาประดิษฐ์โดยเฉพาะ ไม่ใช่เพียงเพื่อความเร็ว แต่เพื่อให้คอมพิวเตอร์ “คิด” ได้อย่างมีประสิทธิภาพโดยไม่ต้องพึ่งพาข้อมูลบนคลาวด์ (Cloud) ตลอดเวลา
ในยุคที่ความรู้ไม่ได้ถูกจำกัดอยู่ในห้องเรียนอีกต่อไป เรื่องราวของ Gabriel Petersson คือหนึ่งในตัวอย่างที่สะท้อนให้เห็นว่าเส้นทางสู่ความสำเร็จสามารถสร้างขึ้นเองได้ หากมีความมุ่งมั่นและเครื่องมือที่เหมาะสม
โมเดลใหม่ Gemini 3.1 Flash Live ถูกออกแบบมาเพื่อให้การสนทนากับ AI เป็นธรรมชาติยิ่งขึ้น เสียงตอบกลับไม่ใช่เพียงการอ่านข้อมูล แต่เป็นการพูดคุยที่มีน้ำหนักเหมือนมนุษย์จริง ๆ และที่สำคัญคือมันเป็นโมเดลที่รองรับหลายภาษาโดยกำเนิด ทำให้ผู้ใช้จากทุกมุมโลกสามารถใช้ภาษาของตนเองในการถามและรับคำตอบได้ทันที
ในเดือนกุมภาพันธ์ปี 2024 โลกได้เห็นการเปิดตัวของ Sora โมเดลสร้างวิดีโอด้วย AI ที่ OpenAI ภูมิใจนำเสนอ มันถูกยกย่องว่าเป็นก้าวกระโดดครั้งใหญ่ของการเล่าเรื่องดิจิทัล ผู้ใช้สามารถพิมพ์ข้อความสั้น ๆ แล้วได้วิดีโอที่สมจริงราวกับภาพยนตร์สั้น ความฝันของการสร้างภาพยนตร์โดยไม่ต้องใช้กล้องหรือทีมงานดูเหมือนใกล้จะเป็นจริง แต่ความฝันนั้นอยู่ได้ไม่นาน ภายในเวลาไม่ถึงหนึ่งปี OpenAI ประกาศปิดตัว Sora ทั้งแอปและ API ที่นักพัฒนานำไปใช้ เหตุผลที่แท้จริงมีหลายชั้น ทั้งด้านเศรษฐกิจ จริยธรรม และกลยุทธ์องค์กร
ในช่วงเวลากว่าสองทศวรรษที่ผ่านมา โลกของ SEO หรือ Search Engine Optimization เคยเป็นงานของมนุษย์ล้วน ๆ ผู้คนต้องนั่งค้นหาคีย์เวิร์ดทีละคำ ไล่ตรวจลิงก์เสียทีละหน้า วิเคราะห์อันดับเว็บไซต์ด้วยสายตา และเขียนรายงานยาวหลายสิบหน้าเพื่อนำเสนอว่าทำไมเว็บไซต์หนึ่งจึงขึ้นอันดับเหนืออีกเว็บไซต์หนึ่ง แต่ในปี 2026 สิ่งเหล่านั้นกำลังเปลี่ยนไปอย่างรวดเร็ว ราวกับการเปลี่ยนผ่านจากช่างฝีมือสู่โรงงานอัตโนมัติในยุคปฏิวัติอุตสาหกรรม
ในอดีต การตรวจจับข้อความจาก AI อาจอาศัยการสังเกตภาษาที่แข็งทื่อหรือผิดธรรมชาติ แต่ในปี 2026 เกมนี้ซับซ้อนกว่ามาก เครื่องมือสมัยใหม่วิเคราะห์จังหวะการเขียน ความคาดเดาได้ และโครงสร้างที่ซ่อนอยู่ในข้อความ เพื่อบอกว่า “นี่คือเสียงของมนุษย์จริงหรือไม่”