Glance พัฒนาโซลูชัน AI ที่สามารถแปลงวิดีโอยาวหลายชั่วโมงให้เป็นคลิปแนวตั้งสั้น ๆ พร้อมเผยแพร่ โดยใช้เทคโนโลยีจาก Google Cloud เช่น Speech-to-Text, Vision API และโมเดล Gemini
ระบบประกอบด้วย 3 โมดูลหลัก การตัดคลิปจากถอดความ การจัดเฟรมอัจฉริยะ และการตกแต่งคลิปด้วยคำบรรยายและแบรนด์
ผลลัพธ์คือสายพานการผลิตวิดีโอที่ทำงานได้ในระดับอุตสาหกรรม ช่วยให้การสร้างคอนเทนต์มือถือมีคุณภาพและประสิทธิภาพสูงขึ้นอย่างมาก
ในแต่ละวัน โลกออนไลน์ผลิตวิดีโอใหม่จำนวนมหาศาล ตั้งแต่พอดแคสต์ยาวเป็นชั่วโมง รายงานข่าว รายการสัมภาษณ์ ไปจนถึงซีรีส์ออนไลน์ที่แทบไม่มีวันดูจบ หากคุณลองจินตนาการถึงคลังวิดีโอเหล่านี้เป็นมหาสมุทรข้อมูล ก็ไม่เกินจริงนักที่จะบอกว่าเรากำลังว่ายน้ำอยู่ในทะเลของเนื้อหาที่มากเกินกว่าจะบริโภคได้หมดไม่ว่าจะใช้เวลานานเท่าไหร่
แต่ในขณะที่วิดีโอส่วนใหญ่ยังคงอยู่ในรูปแบบแนวนอนแบบดั้งเดิม ผู้ชมกลับใช้เวลามากขึ้นกับหน้าจอมือถือในแนวตั้ง เลื่อนดูคลิปสั้น ๆ บนหน้าจอล็อกสกรีนภายในไม่กี่วินาที
...Glance แพลตฟอร์มคอนเทนต์บนมือถือ จึงต้องเผชิญโจทย์ใหญ่ จะทำอย่างไรให้วิดีโอยาวหลายชั่วโมงกลายเป็นคลิปแนวตั้ง 30–180 วินาทีที่ดึงดูดสายตาได้ทันที
คำตอบคือระบบ AI ที่ทำงานแทนทีมตัดต่อทั้งแผนก และทำได้ในระดับที่มนุษย์ตามไม่ทัน
**Glance คือแพลตฟอร์มคอนเทนต์บนมือถือที่ใช้ AI เพื่อแสดงข่าวสาร บันเทิง เกม และช้อปปิ้งโดยตรงบนหน้าจอล็อก (lock screen) ของสมาร์ทโฟน ก่อตั้งขึ้นในปี 2019 ที่เมืองบังกาลอร์ ประเทศอินเดีย และปัจจุบันมีผู้ใช้งานมากกว่า 300 ล้านคนต่อเดือนทั่วโลก
Glance ต้องการสร้างสายพานการผลิตวิดีโอที่รับไฟล์แนวนอนแบบ 16:9 แล้วแปลงให้เป็นคลิปแนวตั้ง 9:16 ที่พร้อมเผยแพร่ทันที ความท้าทายไม่ได้มีเพียงการ “ครอปภาพ” ให้พอดี แต่ต้องรักษาบริบทของบทสนทนา จับผู้พูดหลักให้ถูกคน และยังต้องรู้ด้วยว่าเมื่อไรควรแบ่งหน้าจอเป็นสองส่วนเพื่อเก็บภาพผู้สนทนาทั้งคู่
ระบบที่พวกเขาสร้างขึ้นจึงต้องมีความสามารถหลายด้าน ตั้งแต่การค้นหาช่วงเวลาสำคัญ การตรวจจับผู้พูด การวิเคราะห์ฉาก ไปจนถึงการสร้างคำบรรยายแบบไฮไลต์คำต่อคำ
โมดูลที่ 1: เมื่อ AI กลายเป็นนักฟังที่แม่นยำกว่ามนุษย์
ขั้นตอนแรกของระบบคือการ “ฟัง” วิดีโอทั้งหมดอย่างละเอียด AI จะดึงเสียงออกมา แปลงเป็นข้อความด้วย Speech-to-Text รุ่นใหม่ของ Google Cloud และสร้าง timestamp ระดับคำ เพื่อให้รู้ว่าคำใดถูกพูดเมื่อไรอย่างแม่นยำ
จากนั้นโมเดล Gemini จะอ่านและถอดความทั้งหมดเหมือนนักวิเคราะห์บทสนทนา แล้วเลือกช่วงเวลาที่น่าสนใจที่สุด อาจเป็นประโยคเด็ด ช่วงอารมณ์พุ่งสูง หรือจังหวะที่ผู้พูดสื่อสารได้ดีที่สุด
ผลลัพธ์คือคลิปสั้นหลายชุดที่ถูกตัดอย่างพอดีเป๊ะ ไม่ขาดคำ ไม่เกินประโยค และพร้อมเข้าสู่ขั้นตอนการจัดเฟรม
โมดูลที่ 2: ศิลปะของการจัดเฟรมใหม่ AI ในบทบาทผู้กำกับภาพ
การแปลงวิดีโอแนวนอนให้เป็นแนวตั้งไม่ใช่เรื่องง่าย หากครอปตรงกลางแบบอัตโนมัติ คุณอาจตัดผู้พูดออกจากเฟรม หรือทำให้ฉากสนทนาดูผิดธรรมชาติ Glance จึงสร้าง “Intelligent Reframing Engine” ที่ทำงานเหมือนผู้กำกับภาพที่คอยจับตาทุกเฟรม
การหาผู้พูดตัวจริงในฉาก
ระบบใช้ Vision API ตรวจจับใบหน้าในทุกเฟรม แล้ววิเคราะห์การเคลื่อนไหวของปาก การขยับศีรษะ และอารมณ์บนใบหน้า เพื่อแยกแยะว่าใครคือ “คนจริง” ไม่ใช่ภาพนิ่งหรือกราฟิกที่อยู่ด้านหลัง
จากนั้นระบบจะคำนวณคะแนนความเคลื่อนไหวเพื่อหาผู้พูดหลัก คนที่มีการเคลื่อนไหวสม่ำเสมอที่สุดตลอดช่วงเวลา
การตรวจจับฉากแบบแบ่งหน้าจอ
ในรายการข่าวหรือสัมภาษณ์ ผู้พูดมักอยู่คนละฝั่งของหน้าจอ ระบบจึงต้องรู้ว่าเมื่อไรควร “แบ่งครึ่ง” เฟรมแล้วนำสองส่วนมาเรียงในแนวตั้ง
AI ใช้ทั้งการติดตามใบหน้าด้วยเครื่องมือโอเพ่นซอร์สอย่าง Samurai และการวิเคราะห์ภาพด้วย Vision API เพื่อหาขอบเขตของหน้าจอที่แบ่งเป็นสองฝั่ง รวมถึงตรวจสอบความต่างของพื้นหลังเพื่อยืนยันว่าเป็นฟีดวิดีโอคนละแหล่งจริง
การจัดเฟรมแบบอัตโนมัติ
เมื่อรู้แล้วว่าฉากเป็นแบบไหน ระบบจะเลือกวิธีจัดเฟรมที่เหมาะสม เช่น
- โฟกัสผู้พูดหลักให้อยู่กลางเฟรม
- แบ่งหน้าจอแล้ววางผู้พูดสองคนในแนวตั้ง
- เลือกผู้พูดที่เด่นที่สุดในฉากหลายคน
- หรือใช้การครอปแบบมาตรฐานเมื่อไม่มีใบหน้าเลย เช่น กราฟิกหรือช็อตกว้าง
เพื่อให้ภาพลื่นไหล ระบบยังใช้เทคนิค “virtual camera” ทำให้การเปลี่ยนเฟรมดูเหมือนการแพนกล้องจริง ไม่ใช่การตัดแบบกระตุก
โมดูลที่ 3: การแต่งหน้าให้คลิป คำบรรยาย โลโก้ และความเป็นแบรนด์
เมื่อได้เฟรมที่สวยงามแล้ว ขั้นตอนสุดท้ายคือการทำให้คลิปพร้อมเผยแพร่ทันที
คำบรรยายแบบไฮไลต์คำต่อคำ
ด้วย timestamp ระดับคำ ระบบสามารถสร้างคำบรรยายที่ไฮไลต์คำที่กำลังพูดแบบ “คาราโอเกะ” ซึ่งช่วยให้ผู้ชมเข้าใจเนื้อหาแม้จะปิดเสียง พฤติกรรมที่พบมากในผู้ใช้มือถือ
การวางโลโก้และกรอบภาพ
ระบบยังสามารถวางโลโก้ มาสก์ และกราฟิกต่าง ๆ ได้อย่างสม่ำเสมอในทุกคลิป เพื่อให้แบรนด์มีเอกลักษณ์และดูเป็นมืออาชีพ
เมื่อ AI ทำงานแทนทีมตัดต่อทั้งแผนก
สิ่งที่ Glance สร้างขึ้นไม่ใช่แค่ระบบตัดต่ออัตโนมัติ แต่เป็นสายพานการผลิตคอนเทนต์ที่สามารถแปลงวิดีโอหลายพันชั่วโมงให้กลายเป็นคลิปแนวตั้งที่พร้อมใช้งานในระดับอุตสาหกรรม
ในยุคที่ผู้ชมต้องการเนื้อหาที่เร็ว กระชับ และเหมาะกับมือถือ ระบบเช่นนี้กำลังกลายเป็นเครื่องมือสำคัญของสื่อทุกประเภท ตั้งแต่สำนักข่าวไปจนถึงผู้ผลิตคอนเทนต์รายย่อย
และที่สำคัญที่สุด มันแสดงให้เห็นว่า AI ไม่ได้มาแทนที่ความคิดสร้างสรรค์ของมนุษย์ แต่ช่วยให้มนุษย์มีเวลามากขึ้นในการเล่าเรื่องที่มีความหมาย
Glance พัฒนาโซลูชัน AI ที่สามารถแปลงวิดีโอยาวหลายชั่วโมงให้เป็นคลิปแนวตั้งสั้น ๆ พร้อมเผยแพร่ โดยใช้เทคโนโลยีจาก Google Cloud เช่น Speech-to-Text, Vision API และโมเดล Gemini
ระบบประกอบด้วย 3 โมดูลหลัก การตัดคลิปจากถอดความ การจัดเฟรมอัจฉริยะ และการตกแต่งคลิปด้วยคำบรรยายและแบรนด์
ผลลัพธ์คือสายพานการผลิตวิดีโอที่ทำงานได้ในระดับอุตสาหกรรม ช่วยให้การสร้างคอนเทนต์มือถือมีคุณภาพและประสิทธิภาพสูงขึ้นอย่างมาก
Key Takeaways
- AI สามารถวิเคราะห์วิดีโอยาวหลายชั่วโมงและเลือกช่วงเวลาที่น่าสนใจที่สุดได้อย่างแม่นยำ
- ระบบจัดเฟรมอัจฉริยะช่วยให้คลิปแนวตั้งยังคงบริบทของบทสนทนาและผู้พูด
- คำบรรยายแบบไฮไลต์คำต่อคำช่วยเพิ่มการมีส่วนร่วมบนมือถือที่มักปิดเสียง
- การวางโลโก้และมาสก์แบบอัตโนมัติทำให้แบรนด์มีความสม่ำเสมอในทุกคลิป
- โซลูชันนี้เป็นต้นแบบของการใช้ AI เพื่อแปลงคลังวิดีโอขนาดใหญ่ให้เป็นคอนเทนต์ที่เหมาะกับยุคมือถือ
…..
เรียบเรียงโดย AiNextopia
อ้างอิง : How Glance turns hours of video into mobile-ready clips with AI.