AI experts ready 'Humanity's Last Exam' to stump powerful tech
ผู้เชี่ยวชาญ AI เตรียมพร้อม 'การสอบครั้งสุดท้ายของมนุษยชาติ' เพื่อเอาชนะเทคโนโลยีอันทรงพลัง
การประกาศดังกล่าวเกิดขึ้นไม่กี่วันหลังจากที่ผู้สร้าง ChatGPT เปิดเผยตัวอย่างโมเดลใหม่ที่เรียกว่า OpenAI o1 ซึ่ง "ทำลายมาตรฐานการใช้เหตุผลที่ได้รับความนิยมมากที่สุดได้
ทีมผู้เชี่ยวชาญด้านเทคโนโลยีได้ออกประกาศเชิญชวนทั่วโลก เพื่อขอคำถามที่ยากที่สุดในการทดสอบระบบปัญญาประดิษฐ์ ซึ่งปัญญาประดิษฐ์ ซึ่งได้ผ่านการทดสอบมาตรฐานที่นิยมใช้กันอย่างง่ายดาย
โครงการนี้มีชื่อว่า "การสอบครั้งสุดท้ายของมนุษยชาติ" โดยมุ่งหวังที่เพื่อพิจารณาว่าเมื่อไหร่ที่ AI ระดับผู้เชี่ยวชาญจะมาถึง โดยมีเป้าหมายเพื่อให้ยังคงความเกี่ยวข้องแม้ว่าความสามารถของมันจะพัฒนาขึ้นในปีต่อๆ ไปก็ตาม ตามคำกล่าวของผู้จัดงาน ซึ่งเป็นองค์กรไม่แสวงหากำไรที่ชื่อว่า Center for AI Safety (CAIS) และบริษัทสตาร์ทอัพ Scale AI
การประกาศเชิญชวนดังกล่าวเกิดขึ้นไม่กี่วันหลังจากที่ผู้สร้าง ChatGPT ได้เปิดตัวโมเดลใหม่ที่เรียกว่า OpenAI o1 ซึ่ง "ทำลายมาตรฐานการใช้เหตุผลยอดนิยม" Dan Hendrycks กรรมการบริหารของ CAIS และที่ปรึกษาของบริษัทสตาร์ทอัพ xAI ของ Elon Musk กล่าว
Hendrycks เป็นผู้ร่วมเขียนบทความในปี 2021 จำนวน 2 บทความ ซึ่งเสนอการทดสอบระบบ AI ที่ใช้กันอย่างแพร่หลายในปัจจุบัน โดยบทความหนึ่งเป็นการทดสอบความรู้ระดับปริญญาตรีเกี่ยวกับหัวข้อต่างๆ เช่น ประวัติศาสตร์สหรัฐอเมริกา และอีกบทความหนึ่งเป็นการทดสอบความสามารถของโมเดลในการคิดวิเคราะห์ผ่านการแข่งขันคณิตศาสตร์ระดับสูง การทดสอบแบบระดับปริญญาตรีมียอดดาวน์โหลดจาก Hugging Face ซึ่งเป็นฮับ AI ออนไลน์มากกว่าชุดข้อมูลใดๆที่เกี่ยวข้อง
ในช่วงเวลาที่มีการเขียนบทความเหล่านั้น ระบบ AI ให้คำตอบที่ดูเหมือนจะสุ่มสี่สุ่มห้าต่อคำถามในข้อสอบ "ตอนนี้พวกมันถูกทำลายแล้ว" Hendrycks กล่าว
ตัวอย่างเช่น โมเดลของ Claude จากห้องแล็บ AI ชื่อ Anthropic ได้ทำคะแนนจากการทดสอบระดับนักศึกษาปริญญาตรีได้ประมาณ 77% ในปี 2023 และเพิ่มขึ้นเกือบ 89% ในปีถัดไป ตามตารางคะแนนความสามารถที่โดดเด่น
เนื่องจากผลลัพธ์เหล่านี้ ทำให้การทดสอบมาตรฐานทั่วไปมีความหมายน้อยลง
ตามรายงานดัชนี AI ของมหาวิทยาลัยสแตนฟอร์ดเมื่อเดือนเมษายน พบว่า AI มีผลการทดสอบที่ไม่ดีในการทดสอบที่ใช้น้อยกว่า เช่น การจัดแผนการและปริศนาการจดจำรูปแบบทางภาพ ตัวอย่างเช่น ในการทดสอบการจดจำรูปแบบ ARC-AGI หนึ่งเวอร์ชัน OpenAI o1 ได้คะแนนประมาณ 21% ตามที่ผู้จัดการแข่งขัน ARC กล่าว
นักวิจัย AI บางคนโต้แย้งว่าผลลัพธ์เช่นนี้แสดงให้เห็นการวางแผนและการใช้เหตุผลเชิงนามธรรมเป็นการวัดสติปัญญาที่ดีกว่า แม้ว่า Hendrycks จะกล่าวว่าลักษณะภาพของ ARC ทำให้ไม่เหมาะกับการประเมินโมเดลภาษา "การสอบครั้งสุดท้ายของมนุษยชาติ" จะต้องมีการใช้เหตุผลเชิงนามธรรม เขากล่าว
ผู้สังเกตการณ์ในอุตสาหกรรมกล่าวว่าคำตอบจากเกณฑ์มาตรฐานทั่วไปอาจลงเอยในข้อมูลที่ใช้ในการฝึกฝนระบบ AI Hendrycks กล่าวว่าคำถามบางข้อใน "การสอบครั้งสุดท้ายของมนุษยชาติ" จะถูกเก็บเป็นความลับเพื่อให้แน่ใจว่าคำตอบของระบบ AI ไม่ได้มาจากการท่องจำเท่านั้น
การสอบจะมีคำถามจากแหล่งข้อมูลสาธารณะอย่างน้อย 1,000 ข้อ กำหนดส่งในวันที่ 1 พฤศจิกายน ซึ่งผู้ที่ไม่ใช่ผู้เชี่ยวชาญตอบได้ยาก ผลงานที่ส่งเข้าประกวดจะได้รับการตรวจสอบโดยผู้เชี่ยวชาญ โดยผลงานที่ได้รับรางวัลจะได้รับสิทธิ์เป็นผู้เขียนร่วม และรางวัลมูลค่าสูงสุด 5,000 ดอลลาร์ ซึ่งสนับสนุนโดย Scale AI
Alexand Wang ซีอีโอของ Scale กล่าวว่า "เราต้องการการทดสอบที่ยากขึ้นสำหรับโมเดลระดับผู้เชี่ยวชาญ เพื่อวัดความก้าวหน้าอย่างรวดเร็วของ AI"
แต่มีข้อจำกัดหนึ่งคือ ผู้จัดงานไม่ต้องการคำถามเกี่ยวกับอาวุธ เนื่องจากบางคนกล่าวว่าจะเป็นอันตรายเกินไปหากระบบ AI ศึกษาเรื่องนี้.
ที่มา
Economic Times | AI experts ready 'Humanity's Last Exam' to stump powerful tech