যখন কৃত্রিম বুদ্ধিমত্তা ব্যবস্থা দীর্ঘস্থায়ী একাডেমিক মূল্যায়নে অংশগ্রহণ শুরু করে, তখন গবেষকরা বুঝতে পারেন যে তাদের একটি সমস্যা রয়েছে: পরীক্ষাগুলি খুব সহজ ছিল। জনপ্রিয় মূল্যায়ন, যেমন ম্যাসিভ মাল্টিটাস্ক ল্যাঙ্গুয়েজ আন্ডারস্ট্যান্ডিং (MMLU) পরীক্ষা, যা একসময় কঠিন বলে বিবেচিত হত, এখন আর উন্নত AI সিস্টেমগুলি অর্থপূর্ণভাবে পরীক্ষা করার জন্য যথেষ্ট চ্যালেঞ্জিং নয়।
এই শূন্যতা পূরণের জন্য,টেক্সাস এএন্ডএম বিশ্ববিদ্যালয়ের একজন অধ্যাপক সহ প্রায় ১,০০০ গবেষকের একটি বিশ্বব্যাপী কনসোর্টিয়াম ভিন্ন কিছু তৈরি করেছে - একটি পরীক্ষা এত বিস্তৃত, এত চ্যালেঞ্জিং এবং বিশেষজ্ঞ মানব জ্ঞানের গভীরে প্রোথিত যে বর্তমান এআই সিস্টেমগুলি ধারাবাহিকভাবে এতে ব্যর্থ হয়।
" মানবতার শেষ পরীক্ষা " (HLE) গণিত, মানবিকতা, প্রাকৃতিক বিজ্ঞান, প্রাচীন ভাষা এবং অত্যন্ত বিশেষায়িত উপক্ষেত্রগুলিকে বিস্তৃত করে ২,৫০০ প্রশ্নের একটি মূল্যায়ন প্রবর্তন করে। দলটির কাজটি Nature-এ প্রকাশিত একটি গবেষণাপত্রে রূপরেখা দেওয়া হয়েছে এবং lastexam.ai- তে উপলব্ধ প্রকল্পের ডকুমেন্টেশন রয়েছে ।
অবদানকারীদের দীর্ঘ তালিকার মধ্যে রয়েছেন টেক্সাস এএন্ডএম-এর কম্পিউটার বিজ্ঞান ও প্রকৌশল বিভাগের নির্দেশমূলক সহযোগী অধ্যাপক ডঃ তুং নগুয়েন, যিনি প্রশ্ন লেখা এবং পরিমার্জনে অংশগ্রহণ করেছিলেন।
"যখন AIসিস্টেমগুলি মানুষের মানদণ্ডে অত্যন্ত ভালোভাবে কাজ করতে শুরু করে,তখন এটা ভাবতে প্রলুব্ধ করে যে তারা মানুষের স্তরের বোঝাপড়ার কাছাকাছি পৌঁছে যাচ্ছে," নুয়েন বলেন। "কিন্তু HLE আমাদের মনে করিয়ে দেয় যে বুদ্ধিমত্তা কেবল প্যাটার্ন স্বীকৃতি সম্পর্কে নয় - এটি গভীরতা, প্রেক্ষাপট এবং বিশেষায়িত দক্ষতা সম্পর্কে।"
উদ্দেশ্য ছিল মানুষকে স্তব্ধ করা নয়, বরং উদ্দেশ্য ছিল স্পষ্টভাবে এবং পদ্ধতিগতভাবে প্রকাশ করা যে কৃত্রিম বুদ্ধিমত্তা (এআই) কী করতে পারে না, অন্তত এখনও না।
AI এর সীমা পরিমাপের জন্য একটি বিশ্বব্যাপী প্রচেষ্টা
HLE-এর জন্য প্রশ্নগুলি সারা বিশ্ব থেকে তাদের ক্ষেত্রের বিশেষজ্ঞরা লিখেছেন এবং পর্যালোচনা করেছেন, যারা নিশ্চিত করেছেন যে প্রতিটি প্রশ্নের একটি একক, দ্ব্যর্থক, যাচাইযোগ্য উত্তর রয়েছে যা ইন্টারনেট পুনরুদ্ধারের মাধ্যমে তাৎক্ষণিকভাবে সমাধান করা যাবে না। প্রম্পটগুলি বিশেষজ্ঞ-স্তরের একাডেমিক সমস্যাগুলি থেকে নেওয়া হয়েছে: প্রাচীন পালমিরিন শিলালিপি অনুবাদ করা থেকে শুরু করে পাখিদের মধ্যে মাইক্রোঅ্যানাটমিক্যাল কাঠামো সনাক্তকরণ বা বাইবেলের হিব্রু উচ্চারণের জটিল বৈশিষ্ট্য বিশ্লেষণ করা।
প্রতিটি প্রশ্নই শীর্ষস্থানীয় এআই মডেলের সাথে পরীক্ষা করা হয়েছিল। যদি কোনও সিস্টেম সঠিকভাবে উত্তর দিতে পারে, তাহলে প্রশ্নটি বাদ দেওয়া হয়েছিল। ফলাফলটি এমন একটি পরীক্ষা যা ইচ্ছাকৃতভাবে বর্তমান এআই ক্ষমতার বাইরে স্থাপন করার জন্য তৈরি করা হয়েছে।
এবং এটি কাজ করেছে। প্রাথমিক ফলাফলে দেখা গেছে যে সবচেয়ে উন্নত মডেলগুলিও লড়াই করেছে। GPT-4o স্কোর করেছে 2.7%; Claude 3.5 Sonnet 4.1%; OpenAI এর ফ্ল্যাগশিপ o1 মডেলটি অর্জন করেছে মাত্র 8%। Gemini 3.1 Pro এবং Claude Opus 4.6 সহ সবচেয়ে উন্নত মডেলগুলি প্রায় 40% থেকে 50% নির্ভুলতায় পৌঁছেছে।
কেন একটি নতুন মানদণ্ড গুরুত্বপূর্ণ
"এআই-এর ঐতিহ্যবাহী মানদণ্ডের বাইরে যাওয়ার সমস্যাটি কেবল একাডেমিক নয়," বলেন নগুয়েন, যিনি ২,৫০০ জনসাধারণের প্রশ্নের মধ্যে ৭৩টি (দ্বিতীয় সর্বোচ্চ লেখক) অবদান রেখেছিলেন এবং গণিত এবং কম্পিউটার বিজ্ঞানে সর্বাধিক প্রশ্ন লিখেছেন।
"সঠিক মূল্যায়ন সরঞ্জাম ছাড়া, নীতিনির্ধারক, বিকাশকারী এবং ব্যবহারকারীরা AI সিস্টেমগুলি আসলে কী করতে পারে তার ভুল ব্যাখ্যা করার ঝুঁকিতে থাকেন," তিনি বলেন। "বেঞ্চমার্কগুলি অগ্রগতি পরিমাপ এবং ঝুঁকি সনাক্তকরণের ভিত্তি প্রদান করে।"
দলের গবেষণাপত্রে যেমন উল্লেখ করা হয়েছে, যদিও মানুষের জন্য তৈরি পরীক্ষায় কৃত্রিম বুদ্ধিমত্তা (AI) শ্রেষ্ঠত্ব অর্জন করতে পারে, কিন্তু এই পরীক্ষাগুলি অগত্যা "বুদ্ধিমত্তা" পরিমাপ করে না। তারা একেবারে ভিন্ন ধরণের শিক্ষার্থীর জন্য তৈরি করা বিভিন্ন কাজের উপর কর্মক্ষমতা পরিমাপ করে।
হুমকি নয়, হাতিয়ার
"হিউম্যানিটি'স লাস্ট এক্সাম" নামটি এর সর্বনাশের নাম হওয়া সত্ত্বেও, এটি মানুষের প্রাসঙ্গিকতার সমাপ্তি নির্দেশ করার জন্য নয়। বরং, এটি তুলে ধরে যে কতটা জ্ঞান মানুষের কাছে অনন্যভাবে রয়ে গেছে এবং কৃত্রিম বুদ্ধিমত্তা ব্যবস্থাকে এখনও কতদূর যেতে হবে।
"এটি কৃত্রিম বুদ্ধিমত্তার বিরুদ্ধে কোনও প্রতিযোগিতা নয়," নগুয়েন বলেন। "এটি এমন একটি পদ্ধতি যার মাধ্যমে বোঝা যায় যে এই সিস্টেমগুলি কোথায় শক্তিশালী এবং কোথায় তারা লড়াই করে। এই বোধগম্যতা আমাদের নিরাপদ, আরও নির্ভরযোগ্য প্রযুক্তি তৈরি করতে সাহায্য করে। এবং, গুরুত্বপূর্ণভাবে, এটি আমাদের মনে করিয়ে দেয় যে কেন মানুষের দক্ষতা এখনও গুরুত্বপূর্ণ।"
একটি ভবিষ্যৎ-প্রমাণ পরীক্ষা
উন্নত AI সিস্টেম মূল্যায়নের জন্য HLE একটি দীর্ঘমেয়াদী, স্বচ্ছ মানদণ্ড হিসেবে কাজ করার উদ্দেশ্যে তৈরি। সেই লক্ষ্যের অংশ হিসেবে, দলটি পরীক্ষার কিছু অংশ জনসাধারণের জন্য উন্মুক্ত করেছে, এবং বেশিরভাগ পরীক্ষার প্রশ্ন গোপন রেখেছে যাতে AI মডেলরা উত্তর মুখস্থ করতে না পারে।
"আপাতত, হিউম্যানিটি'স লাস্ট এক্সাম কৃত্রিম বুদ্ধিমত্তা এবং মানব বুদ্ধিমত্তার মধ্যে ব্যবধানের সবচেয়ে স্পষ্ট মূল্যায়নগুলির মধ্যে একটি," নগুয়েন বলেন, "এবং দ্রুত প্রযুক্তিগত অগ্রগতি সত্ত্বেও, এটি এখনও বিস্তৃত।"
বিশাল পরিসরে গবেষণা
নগুয়েন উল্লেখ করেছেন যে বিশাল প্রকল্পটি আন্তঃবিষয়ক , আন্তর্জাতিক গবেষণা প্রচেষ্টার গুরুত্বকে প্রতিফলিত করে ।
"এই প্রকল্পটিকে অসাধারণ করে তুলেছে এর স্কেল," তিনি বলেন। “প্রায় প্রতিটি শাখার বিশেষজ্ঞরা অবদান রেখেছেন। কেবল কম্পিউটার বিজ্ঞানীরা ছিলেন না; ইতিহাসবিদ, পদার্থবিদ, ভাষাবিদ, চিকিৎসা গবেষকরাও ছিলেন। এই বৈচিত্র্যই আজকের কৃত্রিম বুদ্ধিমত্তা ব্যবস্থার ফাঁকগুলিকে স্পষ্ট করে তুলেছে - সম্ভবত বিদ্রূপাত্মকভাবে, এটি মানুষের একসাথে কাজ।”
