ในช่วงไม่กี่ปีที่ผ่านมา โลกของปัญญาประดิษฐ์ได้ก้าวกระโดดอย่างรวดเร็ว จากการสร้างภาพนิ่งที่สมจริงไปจนถึงการสร้างเสียงและดนตรีที่เลียนแบบมนุษย์ได้อย่างแนบเนียน
แต่สิ่งที่หลายคนจับตามองมากที่สุดคือการสร้างวิดีโอจากข้อความ หรือที่เรียกว่า text-to-video. เทคโนโลยีนี้ไม่เพียงเป็นการทดลองเชิงวิชาการอีกต่อไป หากแต่กำลังกลายเป็นเครื่องมือที่อาจเปลี่ยนโฉมอุตสาหกรรมสื่อบันเทิง การโฆษณา
ล่าสุด Runway บริษัทสตาร์ทอัพที่เป็นหนึ่งในผู้บุกเบิกด้านนี้ ได้เปิดตัวโมเดลใหม่ชื่อว่า Gen-4.5 ซึ่งพวกเขาอ้างว่าเป็นการก้าวกระโดดครั้งสำคัญในความแม่นยำและความสมจริงของวิดีโอที่สร้างขึ้นด้วย AI
Runway เริ่มต้นจากการเป็นแพลตฟอร์มที่ช่วยให้ผู้สร้างสรรค์สามารถเข้าถึงเครื่องมือ AI ได้ง่ายขึ้น ไม่ว่าจะเป็นการตัดต่อภาพ การสร้างเอฟเฟกต์ หรือการทดลองสร้างวิดีโอจากข้อความสั้น ๆ
แต่เมื่อพวกเขาเปิดตัวโมเดล Gen-4.5 เสียงสะท้อนจากทั้งนักสร้างสรรค์และนักวิจัยต่างบอกตรงกันว่า นี่คือการยกระดับที่ทำให้เส้นแบ่งระหว่างโลกจริงกับโลกที่สร้างโดย AI เริ่มเลือนรางลงไปอีกขั้น
สิ่งที่ Runway เน้นย้ำคือความสามารถของ Gen-4.5 ในการสร้างภาพเคลื่อนไหวที่มีความสมจริงทางฟิสิกส์มากขึ้น วัตถุที่ปรากฏในวิดีโอไม่ได้เพียงแค่เคลื่อนไหวตามคำสั่ง แต่ยังมีน้ำหนัก มีแรง และมีพลศาสตร์ที่ใกล้เคียงกับโลกจริง
ตัวอย่างเช่น หากสั่งให้สร้างฉากที่มีหิมะละลายบนถนน โมเดลสามารถทำให้ละอองน้ำแข็งแตกตัวและไหลไปตามพื้นผิวได้อย่างเป็นธรรมชาติ
หรือหากสั่งให้สร้างฉากที่มีคนเปิดประตู การเคลื่อนไหวของมือและแรงที่ส่งไปยังลูกบิดจะสัมพันธ์กับการเปิดประตูจริง ๆ ไม่ใช่เพียงภาพที่ดูเหมือนแต่ไม่สอดคล้องกับเหตุและผล
อย่างไรก็ตาม Runway ก็ยอมรับว่ามีข้อจำกัดบางประการที่ยังแก้ไขไม่ได้ทั้งหมด เช่น ปัญหาเรื่อง object permanence ที่บางครั้งวัตถุอาจหายไปจากฉากโดยไม่มีเหตุผล
หรือปัญหา causal reasoning ที่ทำให้บางเหตุการณ์เกิดขึ้นก่อนสาเหตุ เช่น ประตูเปิดก่อนที่คนจะจับลูกบิด
สิ่งเหล่านี้สะท้อนให้เห็นว่า แม้ AI จะก้าวหน้าไปมาก แต่ก็ยังมีเส้นทางอีกยาวไกลก่อนที่จะสามารถเลียนแบบโลกจริงได้สมบูรณ์แบบ
สิ่งที่น่าสนใจอีกประการคือความสามารถในการรองรับสไตล์ภาพที่หลากหลาย Gen-4.5 ไม่ได้จำกัดตัวเองอยู่ที่การสร้างภาพสมจริงเพียงอย่างเดียว แต่ยังสามารถสร้างภาพในแนว stylized หรือ cinematic ได้อย่างสม่ำเสมอและมีคุณภาพสูง
ซึ่งหมายความว่าผู้สร้างสรรค์สามารถเลือกได้ว่าจะให้วิดีโอออกมาเหมือนภาพยนตร์ฮอลลีวูด ภาพวาดเชิงศิลป์ หรือแม้กระทั่งภาพถ่ายที่ดูเหมือนจริงจนยากจะแยกออกจากฟุตเทจที่ถ่ายด้วยกล้องจริง
การแข่งขันในตลาด AI วิดีโอก็ร้อนแรงขึ้นเรื่อย ๆ เมื่อ OpenAI เปิดตัวโมเดล Sora 2 ที่เน้นการจำลองฟิสิกส์อย่างแม่นยำเช่นกัน
โดย Bill Peebles หัวหน้าทีมของ Sora ได้ยกตัวอย่างว่าโมเดลสามารถสร้างฉากที่มีคนทำ backflip บน paddleboard โดยที่แรงลอยตัวและพลศาสตร์ของน้ำถูกจำลองอย่างถูกต้อง
สิ่งนี้ทำให้เห็นว่าการแข่งขันไม่ได้อยู่ที่การสร้างภาพที่สวยงามเท่านั้น แต่ยังอยู่ที่การทำให้ภาพเคลื่อนไหวมีความสมจริงในระดับที่สามารถหลอกตาได้ว่าเป็นวิดีโอจริง
หากมองในเชิงอุตสาหกรรม การมาถึงของ Gen-4.5 อาจส่งผลกระทบอย่างลึกซึ้งต่อหลายภาคส่วน
วงการภาพยนตร์อาจใช้ AI เพื่อสร้างฉากที่ซับซ้อนโดยไม่ต้องลงทุนมหาศาลในการถ่ายทำจริง วงการโฆษณาอาจสร้างวิดีโอโปรโมชันที่ปรับแต่งได้ตามกลุ่มเป้าหมายโดยใช้เวลาเพียงไม่กี่นาที และวงการการศึกษาอาจใช้วิดีโอที่สร้างด้วย AI เพื่ออธิบายแนวคิดที่ซับซ้อน เช่น การจำลองปรากฏการณ์ทางวิทยาศาสตร์หรือประวัติศาสตร์ โดยไม่ต้องพึ่งพาการถ่ายทำที่ยุ่งยาก
แต่ในอีกด้านหนึ่ง การพัฒนาเช่นนี้ก็นำมาซึ่งคำถามด้านจริยธรรมและสังคม เมื่อวิดีโอที่สร้างด้วย AI สมจริงจนยากจะแยกออกจากฟุตเทจจริง ความเสี่ยงในการนำไปใช้ผิดวัตถุประสงค์ เช่น การสร้างข่าวปลอม หรือการบิดเบือนข้อเท็จจริง ก็เพิ่มขึ้นตามไปด้วย
นักวิจัยหลายคนจึงเรียกร้องให้มีการกำหนดมาตรฐานและระบบตรวจสอบที่ชัดเจน เพื่อให้สังคมสามารถแยกแยะได้ว่าอะไรคือวิดีโอจริง และอะไรคือวิดีโอที่สร้างขึ้นโดย AI
ในเชิงเทคนิค การพัฒนาโมเดล Gen-4.5 สะท้อนให้เห็นถึงความก้าวหน้าของการประมวลผลเชิงลึกที่สามารถเชื่อมโยงการเคลื่อนไหวกับกฎฟิสิกส์ได้ดีกว่าเดิม แม้จะยังไม่สมบูรณ์ แต่ก็เป็นสัญญาณว่าการวิจัยด้านนี้กำลังเข้าใกล้เป้าหมายที่จะทำให้ AI สามารถสร้างโลกเสมือนที่มีความสมจริงในระดับที่ใช้แทนโลกจริงได้ในบางบริบท
หากย้อนมองไปเพียงไม่กี่ปีที่ผ่านมา การสร้างวิดีโอจากข้อความยังเป็นเพียงการทดลองที่ให้ผลลัพธ์ตลก ๆ หรือไม่สมจริง แต่วันนี้มันกำลังกลายเป็นเครื่องมือที่สามารถใช้ได้จริงในงานระดับมืออาชีพ
สิ่งที่ทำให้บทสนทนาเกี่ยวกับ Runway Gen-4.5 น่าสนใจคือการที่มันไม่ใช่เพียงการอัปเกรดทางเทคนิค แต่เป็นการเปิดประตูสู่คำถามใหม่ ๆ เกี่ยวกับอนาคตของการเล่าเรื่อง
เมื่อใครก็ตามสามารถพิมพ์ข้อความสั้น ๆ แล้วได้วิดีโอที่สมจริงกลับมา การสร้างสรรค์จะไม่ถูกจำกัดด้วยงบประมาณหรือทรัพยากรอีกต่อไป โลกของการผลิตสื่ออาจเข้าสู่ยุคที่ทุกคนเป็นผู้สร้างได้จริง ๆ
ในท้ายที่สุด การเปิดตัว Gen-4.5 ของ Runway จึงไม่ใช่เพียงการประกาศผลิตภัณฑ์ใหม่ แต่เป็นการประกาศวิสัยทัศน์ว่าการสร้างวิดีโอด้วย AI กำลังเข้าสู่ช่วงที่มีความสมจริงและความแม่นยำสูงพอที่จะเปลี่ยนวิธีคิดของเราเกี่ยวกับภาพเคลื่อนไหว
หากเปรียบเทียบกับการมาถึงของกล้องถ่ายภาพในศตวรรษที่ 19 หรือการมาถึงของภาพยนตร์เสียงในศตวรรษที่ 20 นี่อาจเป็นอีกหนึ่งจุดเปลี่ยนที่ทำให้โลกการเล่าเรื่องไม่เหมือนเดิมอีกต่อไป
…..
เรียบเรียงโดย AiNextopia