เมื่อ AI เริ่มเข้าใจโลกเหมือนมนุษย์

ลองนึกภาพเด็กทารกอายุเพียงไม่กี่เดือนที่กำลังเรียนรู้โลกจากสิ่งรอบตัว หากคุณวางแก้วน้ำไว้บนโต๊ะแล้วใช้แผ่นไม้บัง จากนั้นเลื่อนแผ่นไม้ไปข้างหน้า เด็กเล็กจะรู้สึกประหลาดใจทันทีหากแผ่นไม้เคลื่อนผ่านแก้วโดยไม่ชน เพราะพวกเขามีสัญชาตญาณว่า “วัตถุไม่สามารถทะลุผ่านกันได้”

ความเข้าใจพื้นฐานนี้คือสิ่งที่นักวิทยาศาสตร์เรียกว่า “ความคงทนของวัตถุ” และถือเป็นจุดเริ่มต้นของการรับรู้โลกทางกายภาพอย่างแท้จริง

สิ่งที่น่าทึ่งคือปัจจุบันปัญญาประดิษฐ์บางระบบก็เริ่มแสดงพฤติกรรมคล้ายกัน หนึ่งในนั้นคือ Video Joint Embedding Predictive Architecture (V-JEPA) ที่พัฒนาโดย Meta ระบบนี้เรียนรู้จากวิดีโอและสามารถสร้างความเข้าใจเกี่ยวกับกฎฟิสิกส์ของโลกได้ในระดับที่ไม่เคยมีมาก่อน

มันไม่เพียงแค่จำแนกภาพหรือทำนายสิ่งที่เกิดขึ้น แต่ยังสามารถ “ประหลาดใจ” เมื่อพบสิ่งที่ผิดไปจากความคาดหมาย คล้ายกับปฏิกิริยาของมนุษย์

จากพิกเซลสู่การเข้าใจเชิงนามธรรม

AI ส่วนใหญ่ที่ใช้วิเคราะห์วิดีโอในอดีตทำงานในสิ่งที่เรียกว่า “pixel space” กล่าวคือ มองทุกพิกเซลในภาพอย่างเท่าเทียมกัน วิธีนี้มีข้อจำกัดอย่างมาก เพราะมันอาจให้ความสำคัญกับรายละเอียดที่ไม่จำเป็น เช่น การเคลื่อนไหวของใบไม้ มากกว่าสัญญาณสำคัญอย่างไฟจราจรหรือรถที่กำลังเคลื่อนที่อยู่ ผลลัพธ์คือ AI ไม่สามารถตีความสถานการณ์ได้อย่างแม่นยำ

V-JEPA ถูกออกแบบมาเพื่อแก้ปัญหานี้ โดยใช้สิ่งที่เรียกว่า “latent representation” หรือการสกัดคุณลักษณะสำคัญออกจากข้อมูลภาพ

แทนที่จะทำนายค่าพิกเซลที่หายไป มันจะสร้างตัวแทนเชิงนามธรรมที่บ่งบอกถึงคุณสมบัติหลัก เช่น รูปร่าง ตำแหน่ง หรือการเคลื่อนไหวของวัตถุ

วิธีนี้ช่วยให้ระบบสามารถมองเห็นสิ่งที่สำคัญและละทิ้งสิ่งที่ไม่จำเป็นได้อย่างมีประสิทธิภาพ

สถาปัตยกรรมของ V-JEPA แบ่งออกเป็นสามส่วนหลัก ได้แก่ encoder 1, encoder 2 และ predictor

โดย encoder 1 จะรับข้อมูลจากเฟรมวิดีโอที่ถูกปิดบังบางส่วนและแปลงเป็น latent representation

ขณะที่ encoder 2 รับเฟรมที่ไม่ถูกปิดบังเพื่อสร้าง latent representation อีกชุดหนึ่ง

จากนั้น predictor จะพยายามทำนายผลลัพธ์ของ encoder 2 โดยใช้ข้อมูลจาก encoder 1 กระบวนการนี้ทำให้ระบบเรียนรู้ที่จะจับประเด็นสำคัญของวิดีโอ โดยไม่ต้องสนใจรายละเอียดเล็กน้อยที่ไม่จำเป็น

การเลียนแบบสัญชาตญาณมนุษย์

สิ่งที่ทำให้ V-JEPA น่าสนใจคือความสามารถในการเลียนแบบสัญชาตญาณของมนุษย์เกี่ยวกับโลกทางกายภาพ ทีมวิจัยได้ทดสอบระบบด้วยชุดการทดลองที่เรียกว่า IntPhys ซึ่งออกแบบมาเพื่อวัดว่า AI สามารถแยกแยะเหตุการณ์ที่เป็นไปได้หรือเป็นไปไม่ได้ตามกฎฟิสิกส์หรือไม่

ผลลัพธ์น่าทึ่งมาก เพราะ V-JEPA สามารถทำได้ถูกต้องถึงเกือบ 98% ในขณะที่โมเดลที่ทำงานใน pixel space ทำได้เพียงเล็กน้อยเหนือกว่าการเดาสุ่ม

นอกจากนี้ ทีมวิจัยยังวัด “ความประหลาดใจ” ของระบบเมื่อผลลัพธ์ไม่ตรงกับที่คาดการณ์ไว้ ตัวอย่างเช่น หากลูกบอลกลิ้งไปหลังวัตถุหนึ่งแล้วไม่ปรากฏออกมาอีก ระบบจะแสดงค่าความผิดพลาดสูงขึ้นทันที

ซึ่งสะท้อนถึงการรับรู้ว่ามีบางสิ่งผิดปกติ คล้ายกับปฏิกิริยาของทารกเมื่อพบสิ่งที่ขัดกับความเข้าใจพื้นฐานของโลก

ความท้าทายและข้อจำกัด

แม้ผลลัพธ์จะน่าตื่นเต้น แต่นักวิทยาศาสตร์บางคนก็ชี้ให้เห็นข้อจำกัดที่ยังคงอยู่ Karl Friston นักประสาทวิทยาคอมพิวเตอร์จาก University College London ระบุว่า V-JEPA ยังไม่สามารถจัดการกับ “ความไม่แน่นอน” ได้อย่างเหมาะสม

หากข้อมูลในอดีตไม่เพียงพอที่จะทำนายอนาคต ระบบก็ไม่สามารถบอกได้ว่าการทำนายนั้นมีความเสี่ยงหรือไม่ แต่เป็นสิ่งปกติที่มนุษย์ทำได้โดยธรรมชาติ

เพื่อแก้ปัญหานี้ ทีมวิจัยได้พัฒนา V-JEPA 2 ซึ่งมีขนาดใหญ่ขึ้นถึง 1.2 พันล้านพารามิเตอร์ และผ่านการฝึกด้วยวิดีโอกว่า 22 ล้านคลิป พวกเขายังทดลองนำไปใช้กับหุ่นยนต์ โดยใช้ข้อมูลเพียง 60 ชั่วโมงในการปรับแต่งโมเดลให้สามารถวางแผนการเคลื่อนไหวและทำงานพื้นฐานได้ เช่น การจัดการวัตถุในสภาพแวดล้อมจริง

อย่างไรก็ตาม เมื่อทดสอบกับชุดข้อมูลที่ซับซ้อนกว่าอย่าง IntPhys 2 ผลลัพธ์กลับไม่โดดเด่นนัก เนื่องจากระบบยังจำกัดการประมวลผลเพียงไม่กี่วินาทีของวิดีโอ ทำให้ไม่สามารถเข้าใจเหตุการณ์ที่ยาวนานได้ดีนัก ทีมวิจัยเปรียบเทียบว่า “ความจำ” ของระบบยังคล้ายกับปลาทองที่จำได้เพียงช่วงสั้นๆ เท่านั้น

ความหมายต่ออนาคตของ AI

การที่ AI เริ่มมีความเข้าใจเชิงสัญชาตญาณเกี่ยวกับโลกถือเป็นก้าวสำคัญ เพราะมันเปิดประตูสู่การใช้งานที่หลากหลาย ตั้งแต่การพัฒนารถยนต์ไร้คนขับที่สามารถตีความสถานการณ์บนท้องถนนได้อย่างแม่นยำ ไปจนถึงหุ่นยนต์ที่สามารถทำงานในบ้านหรือโรงงานโดยไม่ต้องอาศัยการเขียนโปรแกรมที่ละเอียดทุกขั้นตอน

หากระบบสามารถเรียนรู้กฎฟิสิกส์จากการสังเกตได้เอง มันก็จะปรับตัวเข้ากับสถานการณ์ใหม่ๆ ได้ดีกว่าที่เคย

อย่างไรก็ตาม ความท้าทายยังคงอยู่ที่การทำให้ระบบสามารถจัดการกับความไม่แน่นอนและเหตุการณ์ที่ซับซ้อนยาวนานได้เหมือนมนุษย์

การพัฒนาในอนาคตอาจต้องผสมผสานระหว่างการเรียนรู้เชิงสถิติและการสร้างแบบจำลองที่เข้าใจความเสี่ยง เพื่อให้ AI สามารถตัดสินใจได้อย่างรอบคอบมากขึ้น

บทสรุป

V-JEPA และรุ่นต่อยอด V-JEPA 2 แสดงให้เห็นว่า AI กำลังเข้าใกล้ความสามารถในการเข้าใจโลกเหมือนมนุษย์มากขึ้นเรื่อย ๆ แม้จะยังมีข้อจำกัด แต่การที่ระบบสามารถแสดงปฏิกิริยา “ประหลาดใจ” ต่อเหตุการณ์ที่ผิดกฎฟิสิกส์ถือเป็นสัญญาณที่น่าตื่นเต้น

เพราะมันสะท้อนถึงการก้าวข้ามจากการเป็นเครื่องมือเชิงคำนวณไปสู่การเป็นระบบที่มี “สัญชาตญาณ” ในการรับรู้โลก

หากการพัฒนาดำเนินต่อไปอย่างต่อเนื่อง เราอาจได้เห็นหุ่นยนต์และระบบอัตโนมัติที่สามารถทำงานร่วมกับมนุษย์ได้อย่างเป็นธรรมชาติและปลอดภัยมากขึ้นในอนาคต

…..

เรียบเรียงโดย AiNextopia

…..

source : wired.com

Admin