ลองนึกภาพเด็กทารกอายุเพียงไม่กี่เดือนที่กำลังเรียนรู้โลกจากสิ่งรอบตัว หากคุณวางแก้วน้ำไว้บนโต๊ะแล้วใช้แผ่นไม้บัง จากนั้นเลื่อนแผ่นไม้ไปข้างหน้า เด็กเล็กจะรู้สึกประหลาดใจทันทีหากแผ่นไม้เคลื่อนผ่านแก้วโดยไม่ชน เพราะพวกเขามีสัญชาตญาณว่า “วัตถุไม่สามารถทะลุผ่านกันได้”
ความเข้าใจพื้นฐานนี้คือสิ่งที่นักวิทยาศาสตร์เรียกว่า “ความคงทนของวัตถุ” และถือเป็นจุดเริ่มต้นของการรับรู้โลกทางกายภาพอย่างแท้จริง
สิ่งที่น่าทึ่งคือปัจจุบันปัญญาประดิษฐ์บางระบบก็เริ่มแสดงพฤติกรรมคล้ายกัน หนึ่งในนั้นคือ Video Joint Embedding Predictive Architecture (V-JEPA) ที่พัฒนาโดย Meta ระบบนี้เรียนรู้จากวิดีโอและสามารถสร้างความเข้าใจเกี่ยวกับกฎฟิสิกส์ของโลกได้ในระดับที่ไม่เคยมีมาก่อน
มันไม่เพียงแค่จำแนกภาพหรือทำนายสิ่งที่เกิดขึ้น แต่ยังสามารถ “ประหลาดใจ” เมื่อพบสิ่งที่ผิดไปจากความคาดหมาย คล้ายกับปฏิกิริยาของมนุษย์
จากพิกเซลสู่การเข้าใจเชิงนามธรรม
AI ส่วนใหญ่ที่ใช้วิเคราะห์วิดีโอในอดีตทำงานในสิ่งที่เรียกว่า “pixel space” กล่าวคือ มองทุกพิกเซลในภาพอย่างเท่าเทียมกัน วิธีนี้มีข้อจำกัดอย่างมาก เพราะมันอาจให้ความสำคัญกับรายละเอียดที่ไม่จำเป็น เช่น การเคลื่อนไหวของใบไม้ มากกว่าสัญญาณสำคัญอย่างไฟจราจรหรือรถที่กำลังเคลื่อนที่อยู่ ผลลัพธ์คือ AI ไม่สามารถตีความสถานการณ์ได้อย่างแม่นยำ
V-JEPA ถูกออกแบบมาเพื่อแก้ปัญหานี้ โดยใช้สิ่งที่เรียกว่า “latent representation” หรือการสกัดคุณลักษณะสำคัญออกจากข้อมูลภาพ
แทนที่จะทำนายค่าพิกเซลที่หายไป มันจะสร้างตัวแทนเชิงนามธรรมที่บ่งบอกถึงคุณสมบัติหลัก เช่น รูปร่าง ตำแหน่ง หรือการเคลื่อนไหวของวัตถุ
วิธีนี้ช่วยให้ระบบสามารถมองเห็นสิ่งที่สำคัญและละทิ้งสิ่งที่ไม่จำเป็นได้อย่างมีประสิทธิภาพ
สถาปัตยกรรมของ V-JEPA แบ่งออกเป็นสามส่วนหลัก ได้แก่ encoder 1, encoder 2 และ predictor
โดย encoder 1 จะรับข้อมูลจากเฟรมวิดีโอที่ถูกปิดบังบางส่วนและแปลงเป็น latent representation
ขณะที่ encoder 2 รับเฟรมที่ไม่ถูกปิดบังเพื่อสร้าง latent representation อีกชุดหนึ่ง
จากนั้น predictor จะพยายามทำนายผลลัพธ์ของ encoder 2 โดยใช้ข้อมูลจาก encoder 1 กระบวนการนี้ทำให้ระบบเรียนรู้ที่จะจับประเด็นสำคัญของวิดีโอ โดยไม่ต้องสนใจรายละเอียดเล็กน้อยที่ไม่จำเป็น
การเลียนแบบสัญชาตญาณมนุษย์
สิ่งที่ทำให้ V-JEPA น่าสนใจคือความสามารถในการเลียนแบบสัญชาตญาณของมนุษย์เกี่ยวกับโลกทางกายภาพ ทีมวิจัยได้ทดสอบระบบด้วยชุดการทดลองที่เรียกว่า IntPhys ซึ่งออกแบบมาเพื่อวัดว่า AI สามารถแยกแยะเหตุการณ์ที่เป็นไปได้หรือเป็นไปไม่ได้ตามกฎฟิสิกส์หรือไม่
ผลลัพธ์น่าทึ่งมาก เพราะ V-JEPA สามารถทำได้ถูกต้องถึงเกือบ 98% ในขณะที่โมเดลที่ทำงานใน pixel space ทำได้เพียงเล็กน้อยเหนือกว่าการเดาสุ่ม
นอกจากนี้ ทีมวิจัยยังวัด “ความประหลาดใจ” ของระบบเมื่อผลลัพธ์ไม่ตรงกับที่คาดการณ์ไว้ ตัวอย่างเช่น หากลูกบอลกลิ้งไปหลังวัตถุหนึ่งแล้วไม่ปรากฏออกมาอีก ระบบจะแสดงค่าความผิดพลาดสูงขึ้นทันที
ซึ่งสะท้อนถึงการรับรู้ว่ามีบางสิ่งผิดปกติ คล้ายกับปฏิกิริยาของทารกเมื่อพบสิ่งที่ขัดกับความเข้าใจพื้นฐานของโลก
ความท้าทายและข้อจำกัด
แม้ผลลัพธ์จะน่าตื่นเต้น แต่นักวิทยาศาสตร์บางคนก็ชี้ให้เห็นข้อจำกัดที่ยังคงอยู่ Karl Friston นักประสาทวิทยาคอมพิวเตอร์จาก University College London ระบุว่า V-JEPA ยังไม่สามารถจัดการกับ “ความไม่แน่นอน” ได้อย่างเหมาะสม
หากข้อมูลในอดีตไม่เพียงพอที่จะทำนายอนาคต ระบบก็ไม่สามารถบอกได้ว่าการทำนายนั้นมีความเสี่ยงหรือไม่ แต่เป็นสิ่งปกติที่มนุษย์ทำได้โดยธรรมชาติ
เพื่อแก้ปัญหานี้ ทีมวิจัยได้พัฒนา V-JEPA 2 ซึ่งมีขนาดใหญ่ขึ้นถึง 1.2 พันล้านพารามิเตอร์ และผ่านการฝึกด้วยวิดีโอกว่า 22 ล้านคลิป พวกเขายังทดลองนำไปใช้กับหุ่นยนต์ โดยใช้ข้อมูลเพียง 60 ชั่วโมงในการปรับแต่งโมเดลให้สามารถวางแผนการเคลื่อนไหวและทำงานพื้นฐานได้ เช่น การจัดการวัตถุในสภาพแวดล้อมจริง
อย่างไรก็ตาม เมื่อทดสอบกับชุดข้อมูลที่ซับซ้อนกว่าอย่าง IntPhys 2 ผลลัพธ์กลับไม่โดดเด่นนัก เนื่องจากระบบยังจำกัดการประมวลผลเพียงไม่กี่วินาทีของวิดีโอ ทำให้ไม่สามารถเข้าใจเหตุการณ์ที่ยาวนานได้ดีนัก ทีมวิจัยเปรียบเทียบว่า “ความจำ” ของระบบยังคล้ายกับปลาทองที่จำได้เพียงช่วงสั้นๆ เท่านั้น
ความหมายต่ออนาคตของ AI
การที่ AI เริ่มมีความเข้าใจเชิงสัญชาตญาณเกี่ยวกับโลกถือเป็นก้าวสำคัญ เพราะมันเปิดประตูสู่การใช้งานที่หลากหลาย ตั้งแต่การพัฒนารถยนต์ไร้คนขับที่สามารถตีความสถานการณ์บนท้องถนนได้อย่างแม่นยำ ไปจนถึงหุ่นยนต์ที่สามารถทำงานในบ้านหรือโรงงานโดยไม่ต้องอาศัยการเขียนโปรแกรมที่ละเอียดทุกขั้นตอน
หากระบบสามารถเรียนรู้กฎฟิสิกส์จากการสังเกตได้เอง มันก็จะปรับตัวเข้ากับสถานการณ์ใหม่ๆ ได้ดีกว่าที่เคย
อย่างไรก็ตาม ความท้าทายยังคงอยู่ที่การทำให้ระบบสามารถจัดการกับความไม่แน่นอนและเหตุการณ์ที่ซับซ้อนยาวนานได้เหมือนมนุษย์
การพัฒนาในอนาคตอาจต้องผสมผสานระหว่างการเรียนรู้เชิงสถิติและการสร้างแบบจำลองที่เข้าใจความเสี่ยง เพื่อให้ AI สามารถตัดสินใจได้อย่างรอบคอบมากขึ้น
บทสรุป
V-JEPA และรุ่นต่อยอด V-JEPA 2 แสดงให้เห็นว่า AI กำลังเข้าใกล้ความสามารถในการเข้าใจโลกเหมือนมนุษย์มากขึ้นเรื่อย ๆ แม้จะยังมีข้อจำกัด แต่การที่ระบบสามารถแสดงปฏิกิริยา “ประหลาดใจ” ต่อเหตุการณ์ที่ผิดกฎฟิสิกส์ถือเป็นสัญญาณที่น่าตื่นเต้น
เพราะมันสะท้อนถึงการก้าวข้ามจากการเป็นเครื่องมือเชิงคำนวณไปสู่การเป็นระบบที่มี “สัญชาตญาณ” ในการรับรู้โลก
หากการพัฒนาดำเนินต่อไปอย่างต่อเนื่อง เราอาจได้เห็นหุ่นยนต์และระบบอัตโนมัติที่สามารถทำงานร่วมกับมนุษย์ได้อย่างเป็นธรรมชาติและปลอดภัยมากขึ้นในอนาคต
…..
เรียบเรียงโดย AiNextopia
…..
source : wired.com