Sunday

1 March 2026

Sora AI จินตนาการคือข้อจำกัดเพียงอย่างเดียว

Sora AI คือประจักษ์พยานของสติปัญญามนุษย์ที่พยายามเลียนแบบธรรมชาติ แม้มันจะยังมีข้อผิดพลาดบ้าง เช่น แก้วน้ำที่อาจจะทะลุผ่านมือ หรือลำดับเวลาที่ผิดเพี้ยนไปในบางเฟรม แต่นั่นเป็นเพียงจุดเริ่มต้นของเด็กทารกที่กำลังเรียนรู้โลก

​ในอนาคตอันใกล้ วิดีโออาจจะไม่ใช่สิ่งที่ “บันทึก” ความจริงอีกต่อไป แต่มันคือสิ่งที่ “ถอดรหัส” จินตนาการออกมาให้โลกเห็น Sora ไม่ได้มาเพื่อแทนที่มนุษย์ แต่มาเพื่อเป็นผืนผ้าใบผืนใหม่ที่ไร้ขอบเขต และเมื่อนั้น “ความจริง” จะกลายเป็นสิ่งที่ขึ้นอยู่กับว่าเราเลือกที่จะสร้างมันขึ้นมาอย่างไร

​ในโลกที่แสงและเงาถูกกักขังไว้ในแผ่นฟิล์มมานานกว่าศตวรรษ มนุษย์เราเฝ้าฝันถึงการสร้าง “ความจริงจำลอง” ที่สมบูรณ์แบบ จากภาพวาดถ้ำสู่กล้องออบสคูรา จนถึงยุคคอมพิวเตอร์กราฟิกที่ต้องใช้ฟาร์มเซิร์ฟเวอร์ขนาดมหึมาประมวลผล แต่ในวันนี้ พรมแดนระหว่างจินตนาการและโลกแห่งความจริงกำลังถูกลบเลือนด้วยรหัสคอมพิวเตอร์ชุดใหม่ที่ชื่อว่า “Sora”

​Sora ไม่ใช่แค่เครื่องมือตัดต่อวิดีโอตัวใหม่ และไม่ใช่เพียงฟิลเตอร์สวยงามบนโซเชียลมีเดีย แต่มันคือปรากฏการณ์ทางวิทยาศาสตร์คอมพิวเตอร์จากค่าย OpenAI ที่กำลังประกาศก้องว่า “ยุคสมัยแห่งการสร้างสรรค์ด้วยปลายนิ้ว” ได้มาถึงอย่างเป็นทางการแล้ว

​หากเราย้อนกลับไปดูพัฒนาการของ AI ในช่วง 2-3 ปีที่ผ่านมา เราจะเห็นการเติบโตของโมเดลภาษา (LLMs) อย่าง ChatGPT ที่เข้าใจบริบทของคำพูดอย่างลึกซึ้ง และโมเดลสร้างภาพนิ่งอย่าง DALL-E หรือ Midjourney ที่เสกภาพวาดวิจิตรบรรจงได้ในพริบตา แต่ “วิดีโอ” คือกำแพงเหล็กที่ท้าทายที่สุด

​ทำไมการสร้างวิดีโอถึงยากนัก? คำตอบอยู่ที่ “ความต่อเนื่อง” (Consistency) และ “กฎทางฟิสิกส์” ในวิดีโอหนึ่งวินาทีประกอบด้วยภาพนิ่ง 24-60 เฟรม หาก AI ไม่เข้าใจว่าวัตถุมีมิติอย่างไร แสงตกกระทบมุมไหน หรือแรงโน้มถ่วงทำงานอย่างไร ภาพที่ได้จะเกิดอาการ “หลอน” (Hallucination) เช่น ขาที่งอกออกมาเกิน หรือตึกที่ละลายกลายเป็นน้ำ

​Sora ก้าวข้ามขีดจำกัดนี้ด้วยสถาปัตยกรรมที่เรียกว่า Diffusion Transformer มันไม่ได้จำคำสั่งแล้วไปค้นหาคลิปวิดีโอเก่าๆ มาตัดแปะ แต่มันเริ่มจากการสร้าง “สัญญาณรบกวน” (Static noise) ที่ดูไม่รู้เรื่อง แล้วค่อยๆ ขัดเกลาพิกเซลเหล่านั้นให้กลายเป็นรูปร่างตามคำสั่ง (Prompt) โดยอาศัยพื้นฐานความเข้าใจในโลกทางกายภาพ มันรู้ว่าเมื่อสุนัขวิ่งผ่านหิมะ หิมะต้องกระจายออก และรอยเท้าต้องปรากฏอยู่เบื้องหลัง นี่คือการ “จำลองโลก” (World Simulator) มากกว่าการแค่สร้างภาพวิดีโอ

​ลองจินตนาการถึงฉากหนึ่งในโตเกียว ที่มีหญิงสาวสวมแจ็กเก็ตหนังสีดำเดินเฉิดฉายท่ามกลางแสงนีออนที่สะท้อนบนพื้นถนนที่เปียกปอนจากสายฝน ใบหน้าของเธอมีรอยยิ้มจาง ๆ ผิวหนังมีรูขุมขนที่มองเห็นได้ชัดเจน แม้กระทั่งเงาสะท้อนในดวงตาของเธอก็ยังเปลี่ยนไปตามป้ายไฟที่เธอเดินผ่าน

​ในอดีต ฉากแบบนี้ต้องใช้ทุนสร้างมหาศาล ทั้งค่าสถานที่ ทีมนักแสดง ช่างภาพ และฝ่ายเทคนิคพิเศษที่ต้องใช้เวลาทำ Post-production หลายสัปดาห์ แต่ Sora สร้างมันขึ้นมาได้จากข้อความเพียงไม่กี่บรรทัด ความน่าสะพรึงและความน่าทึ่งอยู่ที่ความละเอียดระดับ 1080p ที่สมบูรณ์แบบจนตาของมนุษย์ยากจะแยกออกว่านี่คือฟิล์มจริงหรือรหัส 0 กับ 1

นักวิทยาศาสตร์ข้อมูลเรียกสิ่งนี้ว่าการก้าวกระโดดแบบ “Emergent Abilities” เมื่อโมเดลมีขนาดใหญ่พอและฝึกฝนด้วยข้อมูลที่มากพอ มันจะเริ่ม “เข้าใจ” กฎเกณฑ์ที่ไม่ได้ถูกสอนโดยตรง เช่น ความลึกของภาพ (Depth) และความคงตัวของวัตถุ (Object Permanence) แม้ตัวละครจะเดินลับมุมตึกไป เมื่อเธอกลับมาใหม่ เธอก็ยังเป็นคนเดิม ใส่ชุดเดิม นี่คือหัวใจสำคัญที่ทำให้ Sora เหนือกว่า AI ตัวอื่นในตลาด

...

Admin