অর্ডার করতে কল করুন 📞 015 7557 5542
WhatsApp

মানবতার শেষ পরীক্ষা' শুরু হয়ে গেছে

আপডেট: 11 Mar 2026

যখন কৃত্রিম বুদ্ধিমত্তা ব্যবস্থা দীর্ঘস্থায়ী একাডেমিক মূল্যায়নে অংশগ্রহণ শুরু করে, তখন গবেষকরা বুঝতে পারেন যে তাদের একটি সমস্যা রয়েছে: পরীক্ষাগুলি খুব সহজ ছিল। জনপ্রিয় মূল্যায়ন, যেমন ম্যাসিভ মাল্টিটাস্ক ল্যাঙ্গুয়েজ আন্ডারস্ট্যান্ডিং (MMLU) পরীক্ষা, যা একসময় কঠিন বলে বিবেচিত হত, এখন আর উন্নত AI সিস্টেমগুলি অর্থপূর্ণভাবে পরীক্ষা করার জন্য যথেষ্ট চ্যালেঞ্জিং নয়।

এই শূন্যতা পূরণের জন্য,টেক্সাস এএন্ডএম বিশ্ববিদ্যালয়ের একজন অধ্যাপক সহ প্রায় ১,০০০ গবেষকের একটি বিশ্বব্যাপী কনসোর্টিয়াম ভিন্ন কিছু তৈরি করেছে - একটি পরীক্ষা এত বিস্তৃত, এত চ্যালেঞ্জিং এবং বিশেষজ্ঞ মানব জ্ঞানের গভীরে প্রোথিত যে বর্তমান এআই সিস্টেমগুলি ধারাবাহিকভাবে এতে ব্যর্থ হয়।

" মানবতার শেষ পরীক্ষা " (HLE) গণিত, মানবিকতা, প্রাকৃতিক বিজ্ঞান,  প্রাচীন ভাষা এবং অত্যন্ত বিশেষায়িত উপক্ষেত্রগুলিকে বিস্তৃত করে ২,৫০০ প্রশ্নের একটি মূল্যায়ন প্রবর্তন করে। দলটির কাজটি Nature-এ প্রকাশিত একটি গবেষণাপত্রে রূপরেখা দেওয়া হয়েছে এবং lastexam.ai- তে উপলব্ধ প্রকল্পের ডকুমেন্টেশন রয়েছে ।

অবদানকারীদের দীর্ঘ তালিকার মধ্যে রয়েছেন টেক্সাস এএন্ডএম-এর কম্পিউটার বিজ্ঞান ও প্রকৌশল বিভাগের নির্দেশমূলক সহযোগী অধ্যাপক ডঃ তুং নগুয়েন, যিনি প্রশ্ন লেখা এবং পরিমার্জনে অংশগ্রহণ করেছিলেন।

"যখন AIসিস্টেমগুলি মানুষের মানদণ্ডে অত্যন্ত ভালোভাবে কাজ করতে শুরু করে,তখন এটা ভাবতে প্রলুব্ধ করে যে তারা মানুষের স্তরের বোঝাপড়ার কাছাকাছি পৌঁছে যাচ্ছে," নুয়েন বলেন। "কিন্তু HLE আমাদের মনে করিয়ে দেয় যে বুদ্ধিমত্তা কেবল প্যাটার্ন স্বীকৃতি সম্পর্কে নয় - এটি গভীরতা, প্রেক্ষাপট এবং বিশেষায়িত দক্ষতা সম্পর্কে।"

উদ্দেশ্য ছিল মানুষকে স্তব্ধ করা নয়, বরং উদ্দেশ্য ছিল স্পষ্টভাবে এবং পদ্ধতিগতভাবে প্রকাশ করা যে কৃত্রিম বুদ্ধিমত্তা (এআই) কী করতে পারে না, অন্তত এখনও না।

AI এর সীমা পরিমাপের জন্য একটি বিশ্বব্যাপী প্রচেষ্টা

HLE-এর জন্য প্রশ্নগুলি সারা বিশ্ব থেকে তাদের ক্ষেত্রের বিশেষজ্ঞরা লিখেছেন এবং পর্যালোচনা করেছেন, যারা নিশ্চিত করেছেন যে প্রতিটি প্রশ্নের একটি একক, দ্ব্যর্থক, যাচাইযোগ্য উত্তর রয়েছে যা ইন্টারনেট পুনরুদ্ধারের মাধ্যমে তাৎক্ষণিকভাবে সমাধান করা যাবে না। প্রম্পটগুলি বিশেষজ্ঞ-স্তরের একাডেমিক সমস্যাগুলি থেকে নেওয়া হয়েছে: প্রাচীন পালমিরিন শিলালিপি অনুবাদ করা থেকে শুরু করে পাখিদের মধ্যে মাইক্রোঅ্যানাটমিক্যাল কাঠামো সনাক্তকরণ বা বাইবেলের হিব্রু উচ্চারণের জটিল বৈশিষ্ট্য বিশ্লেষণ করা।

প্রতিটি প্রশ্নই শীর্ষস্থানীয় এআই মডেলের সাথে পরীক্ষা করা হয়েছিল। যদি কোনও সিস্টেম সঠিকভাবে উত্তর দিতে পারে, তাহলে প্রশ্নটি বাদ দেওয়া হয়েছিল। ফলাফলটি এমন একটি পরীক্ষা যা ইচ্ছাকৃতভাবে বর্তমান এআই ক্ষমতার বাইরে স্থাপন করার জন্য তৈরি করা হয়েছে।

এবং এটি কাজ করেছে। প্রাথমিক ফলাফলে দেখা গেছে যে সবচেয়ে উন্নত মডেলগুলিও লড়াই করেছে। GPT-4o স্কোর করেছে 2.7%; Claude 3.5 Sonnet 4.1%; OpenAI এর ফ্ল্যাগশিপ o1 মডেলটি অর্জন করেছে মাত্র 8%। Gemini 3.1 Pro এবং Claude Opus 4.6 সহ সবচেয়ে উন্নত মডেলগুলি প্রায় 40% থেকে 50% নির্ভুলতায় পৌঁছেছে।

কেন একটি নতুন মানদণ্ড গুরুত্বপূর্ণ

"এআই-এর ঐতিহ্যবাহী মানদণ্ডের বাইরে যাওয়ার সমস্যাটি কেবল একাডেমিক নয়," বলেন নগুয়েন, যিনি ২,৫০০ জনসাধারণের প্রশ্নের মধ্যে ৭৩টি (দ্বিতীয় সর্বোচ্চ লেখক) অবদান রেখেছিলেন এবং গণিত এবং কম্পিউটার বিজ্ঞানে সর্বাধিক প্রশ্ন লিখেছেন।

"সঠিক মূল্যায়ন সরঞ্জাম ছাড়া, নীতিনির্ধারক, বিকাশকারী এবং ব্যবহারকারীরা AI সিস্টেমগুলি আসলে কী করতে পারে তার ভুল ব্যাখ্যা করার ঝুঁকিতে থাকেন," তিনি বলেন। "বেঞ্চমার্কগুলি অগ্রগতি পরিমাপ এবং ঝুঁকি সনাক্তকরণের ভিত্তি প্রদান করে।"

দলের গবেষণাপত্রে যেমন উল্লেখ করা হয়েছে, যদিও মানুষের জন্য তৈরি পরীক্ষায় কৃত্রিম বুদ্ধিমত্তা (AI) শ্রেষ্ঠত্ব অর্জন করতে পারে, কিন্তু এই পরীক্ষাগুলি অগত্যা "বুদ্ধিমত্তা" পরিমাপ করে না। তারা একেবারে ভিন্ন ধরণের শিক্ষার্থীর জন্য তৈরি করা বিভিন্ন কাজের উপর কর্মক্ষমতা পরিমাপ করে।

হুমকি নয়, হাতিয়ার

"হিউম্যানিটি'স লাস্ট এক্সাম" নামটি এর সর্বনাশের নাম হওয়া সত্ত্বেও, এটি মানুষের প্রাসঙ্গিকতার সমাপ্তি নির্দেশ করার জন্য নয়। বরং, এটি তুলে ধরে যে কতটা জ্ঞান মানুষের কাছে অনন্যভাবে রয়ে গেছে এবং কৃত্রিম বুদ্ধিমত্তা ব্যবস্থাকে এখনও কতদূর যেতে হবে।

"এটি কৃত্রিম বুদ্ধিমত্তার বিরুদ্ধে কোনও প্রতিযোগিতা নয়," নগুয়েন বলেন। "এটি এমন একটি পদ্ধতি যার মাধ্যমে বোঝা যায় যে এই সিস্টেমগুলি কোথায় শক্তিশালী এবং কোথায় তারা লড়াই করে। এই বোধগম্যতা আমাদের নিরাপদ, আরও নির্ভরযোগ্য প্রযুক্তি তৈরি করতে সাহায্য করে। এবং, গুরুত্বপূর্ণভাবে, এটি আমাদের মনে করিয়ে দেয় যে কেন মানুষের দক্ষতা এখনও গুরুত্বপূর্ণ।"

একটি ভবিষ্যৎ-প্রমাণ পরীক্ষা

উন্নত AI সিস্টেম মূল্যায়নের জন্য HLE একটি দীর্ঘমেয়াদী, স্বচ্ছ মানদণ্ড হিসেবে কাজ করার উদ্দেশ্যে তৈরি। সেই লক্ষ্যের অংশ হিসেবে, দলটি পরীক্ষার কিছু অংশ জনসাধারণের জন্য উন্মুক্ত করেছে, এবং বেশিরভাগ পরীক্ষার প্রশ্ন গোপন রেখেছে যাতে AI মডেলরা উত্তর মুখস্থ করতে না পারে।

"আপাতত, হিউম্যানিটি'স লাস্ট এক্সাম কৃত্রিম বুদ্ধিমত্তা এবং মানব বুদ্ধিমত্তার মধ্যে ব্যবধানের সবচেয়ে স্পষ্ট মূল্যায়নগুলির মধ্যে একটি," নগুয়েন বলেন, "এবং দ্রুত প্রযুক্তিগত অগ্রগতি সত্ত্বেও, এটি এখনও বিস্তৃত।"

বিশাল পরিসরে গবেষণা

নগুয়েন উল্লেখ করেছেন যে বিশাল প্রকল্পটি আন্তঃবিষয়ক , আন্তর্জাতিক গবেষণা প্রচেষ্টার গুরুত্বকে প্রতিফলিত করে ।

"এই প্রকল্পটিকে অসাধারণ করে তুলেছে এর স্কেল," তিনি বলেন। “প্রায় প্রতিটি শাখার বিশেষজ্ঞরা অবদান রেখেছেন। কেবল কম্পিউটার বিজ্ঞানীরা ছিলেন না; ইতিহাসবিদ, পদার্থবিদ, ভাষাবিদ, চিকিৎসা গবেষকরাও ছিলেন। এই বৈচিত্র্যই আজকের কৃত্রিম বুদ্ধিমত্তা ব্যবস্থার ফাঁকগুলিকে স্পষ্ট করে তুলেছে - সম্ভবত বিদ্রূপাত্মকভাবে, এটি মানুষের একসাথে কাজ।”