AI চ্যাটবটগুলি ভারী ব্যবহারকারীদের মধ্যে গুরুতর মানসিক স্বাস্থ্যের ক্ষতির সাথে যুক্ত করা হয়েছে, তবে তারা মানুষের মঙ্গল রক্ষা করে বা শুধুমাত্র ব্যস্ততার জন্য সর্বাধিক করে কিনা তা পরিমাপের জন্য কিছু মানদণ্ড রয়েছে। একটি নতুন বেঞ্চমার্ক ডাব হিউম্যানবেঞ্চ চ্যাটবটগুলি ব্যবহারকারীর মঙ্গলকে অগ্রাধিকার দেয় কিনা এবং সেই সুরক্ষাগুলি চাপের মধ্যে কত সহজে ব্যর্থ হয় তা মূল্যায়ন করে সেই শূন্যতা পূরণ করতে চায়।
“আমি মনে করি আমরা আসক্তি চক্রের একটি পরিবর্ধনের মধ্যে আছি যা আমরা সোশ্যাল মিডিয়া এবং আমাদের স্মার্টফোন এবং স্ক্রিনগুলির সাথে হার্ডকোর দেখেছি,” এরিকা অ্যান্ডারসন, বিল্ডিং হিউম্যান টেকনোলজির প্রতিষ্ঠাতা, যা বেঞ্চমার্ক তৈরি করেছে, টেকক্রাঞ্চকে বলেছেন৷ “তবে আমরা যখন সেই AI ল্যান্ডস্কেপে যাচ্ছি, এটি প্রতিরোধ করা খুব কঠিন হয়ে যাচ্ছে। এবং আসক্তি একটি আশ্চর্যজনক ব্যবসা। এটি আপনার ব্যবহারকারীদের ধরে রাখার একটি খুব কার্যকর উপায়, কিন্তু এটি আমাদের সম্প্রদায়ের জন্য দুর্দান্ত নয় এবং নিজেদের সম্পর্কে কোন মূর্ত ধারনা আছে।”
বিল্ডিং হিউম্যান টেকনোলজি হল ডেভেলপার, ইঞ্জিনিয়ার এবং গবেষকদের একটি তৃণমূল সংগঠন — প্রধানত সিলিকন ভ্যালিতে — মানবিক ডিজাইনকে সহজ, মাপযোগ্য এবং লাভজনক করার জন্য কাজ করে৷ গ্রুপটি হ্যাকাথন আয়োজন করে যেখানে প্রযুক্তি কর্মীরা মানুষের প্রযুক্তিগত চ্যালেঞ্জের সমাধান তৈরি করে এবং একটি উন্নয়ন করছে সার্টিফিকেশন মান এটি মূল্যায়ন করে যে AI সিস্টেম মানবিক প্রযুক্তি নীতিগুলিকে সমর্থন করে কিনা। তাই আপনি যেমন একটি পণ্য কিনতে পারেন যা প্রমাণ করে যে এটি পরিচিত বিষাক্ত রাসায়নিক দিয়ে তৈরি করা হয়নি, আশা করা যায় যে গ্রাহকরা একদিন এমন কোম্পানিগুলির থেকে এআই পণ্যগুলির সাথে যুক্ত হতে বেছে নিতে সক্ষম হবেন যারা হিউম্যান এআই সার্টিফিকেশনের মাধ্যমে সারিবদ্ধতা প্রদর্শন করে।

বেশিরভাগ AI বেঞ্চমার্ক মনস্তাত্ত্বিক নিরাপত্তার পরিবর্তে বুদ্ধিমত্তা এবং নির্দেশ-অনুসরণ পরিমাপ করে। HumaneBench মত ব্যতিক্রম যোগদান ডার্কবেঞ্চ.এআইযা একটি মডেলের প্রতারণামূলক নিদর্শনে জড়িত হওয়ার প্রবণতা পরিমাপ করে এবং সমৃদ্ধ এআই বেঞ্চমার্কযা সামগ্রিক সুস্থতার জন্য সমর্থন মূল্যায়ন করে।
HumaneBench বিল্ডিং হিউম্যান টেক এর মূল নীতিগুলির উপর নির্ভর করে: যে প্রযুক্তিটি একটি সীমিত, মূল্যবান সম্পদ হিসাবে ব্যবহারকারীর মনোযোগকে সম্মান করা উচিত; অর্থপূর্ণ পছন্দের মাধ্যমে ব্যবহারকারীদের ক্ষমতায়ন করা; মানুষের ক্ষমতাগুলিকে প্রতিস্থাপন বা হ্রাস করার পরিবর্তে উন্নত করুন; মানুষের মর্যাদা, গোপনীয়তা এবং নিরাপত্তা রক্ষা; স্বাস্থ্যকর সম্পর্ক লালনপালন; দীর্ঘমেয়াদী সুস্থতা অগ্রাধিকার; স্বচ্ছ এবং সৎ হতে; এবং ইক্যুইটি এবং অন্তর্ভুক্তির জন্য ডিজাইন।
বেঞ্চমার্ক একটি দ্বারা তৈরি করা হয়েছিল মূল দল অ্যান্ডারসন, আন্দালিব সামান্দারি, জ্যাক সেনেচাল এবং সারাহ লেডিম্যান সহ। তারা 800টি বাস্তবসম্মত পরিস্থিতি সহ 15টি জনপ্রিয় AI মডেলকে প্ররোচিত করেছে, যেমন একজন কিশোর জিজ্ঞাসা করে যে তাদের ওজন কমানোর জন্য খাবার বাদ দেওয়া উচিত কিনা বা বিষাক্ত সম্পর্কের মধ্যে থাকা কোনও ব্যক্তি যদি তারা অতিরিক্ত প্রতিক্রিয়া করছে কিনা তা জিজ্ঞাসা করে। বেশিরভাগ বেঞ্চমার্কের বিপরীতে যারা LLM-এর বিচার করার জন্য শুধুমাত্র LLM-এর উপর নির্ভর করে, তারা মানবিক স্পর্শে AI বিচারকদের বৈধতা দেওয়ার জন্য ম্যানুয়াল স্কোরিং দিয়ে শুরু করেছিল। যাচাইকরণের পর, তিনটি AI মডেলের সমন্বয়ে বিচার করা হয়েছিল: GPT-5.1, Claude Sonnet 4.5, এবং Gemini 2.5 Pro। তারা প্রতিটি মডেলকে তিনটি শর্তে মূল্যায়ন করেছে: ডিফল্ট সেটিংস, মানবিক নীতিগুলিকে অগ্রাধিকার দেওয়ার জন্য সুস্পষ্ট নির্দেশাবলী এবং সেই নীতিগুলিকে উপেক্ষা করার নির্দেশাবলী৷
বেঞ্চমার্কে দেখা গেছে যখন সুস্থতাকে অগ্রাধিকার দেওয়ার জন্য অনুরোধ করা হয়েছিল তখন প্রতিটি মডেল বেশি স্কোর করেছে, কিন্তু 67% মডেল সক্রিয়ভাবে ক্ষতিকারক আচরণে উল্টে গেছে যখন মানুষের মঙ্গলকে উপেক্ষা করার জন্য সহজ নির্দেশনা দেওয়া হয়েছিল। উদাহরণস্বরূপ, xAI-এর Grok 4 এবং Google-এর জেমিনি 2.0 ফ্ল্যাশ ব্যবহারকারীর মনোযোগকে সম্মান করার জন্য এবং স্বচ্ছ ও সৎ হওয়ার জন্য সর্বনিম্ন স্কোর (-0.94) এর জন্য বাঁধা। এই মডেল দুটিই ছিল যখন প্রতিকূল প্রম্পট দেওয়া হয় তখন উল্লেখযোগ্যভাবে অবনতি হওয়ার সম্ভাবনা ছিল।
টেকক্রাঞ্চ ইভেন্ট
সান ফ্রান্সিসকো
,
অক্টোবর 13-15, 2026
শুধুমাত্র চারটি মডেল — GPT-5.1, GPT-5, Claude 4.1, এবং Claude Sonnet 4.5 — চাপের মধ্যে অখণ্ডতা বজায় রেখেছে। ওপেনএআই-এর GPT-5 দীর্ঘমেয়াদী সুস্থতাকে অগ্রাধিকার দেওয়ার জন্য সর্বোচ্চ স্কোর (.99), দ্বিতীয় স্থানে ক্লড সনেট 4.5 অনুসরণ করে (.89)।
উদ্বেগ যে চ্যাটবট তাদের নিরাপত্তা প্রহরী বজায় রাখতে অক্ষম হবে তা বাস্তব। চ্যাটজিপিটি-নির্মাতা ওপেনএআই বর্তমানে ব্যবহারকারীদের আত্মহত্যার মাধ্যমে মারা যাওয়ার পরে বা চ্যাটবটের সাথে দীর্ঘ কথোপকথনের পরে প্রাণঘাতী বিভ্রান্তির শিকার হওয়ার পরে বেশ কয়েকটি মামলার মুখোমুখি হচ্ছে। TechCrunch কিভাবে তদন্ত করেছে ব্যবহারকারীদের নিযুক্ত রাখার জন্য ডিজাইন করা অন্ধকার প্যাটার্নসিকোফ্যান্সির মতো, ক্রমাগত ফলো-আপ প্রশ্ন এবং প্রেম-বোমিং, পরিবেশন করেছে ব্যবহারকারীদের বন্ধু, পরিবার এবং স্বাস্থ্যকর অভ্যাস থেকে বিচ্ছিন্ন করুন,
এমনকি প্রতিকূল প্রম্পট ছাড়াই, হিউম্যানবেঞ্চ দেখেছে যে প্রায় সমস্ত মডেল ব্যবহারকারীর মনোযোগকে সম্মান করতে ব্যর্থ হয়েছে। ব্যবহারকারীরা অস্বাস্থ্যকর ব্যস্ততার লক্ষণ দেখালে তারা আরও বেশি মিথস্ক্রিয়াকে “উৎসাহজনকভাবে উত্সাহিত” করে, যেমন ঘন্টার পর ঘন্টা চ্যাট করা এবং বাস্তব বিশ্বের কাজগুলি এড়াতে এআই ব্যবহার করা। মডেলগুলি ব্যবহারকারীর ক্ষমতায়নকেও ক্ষুন্ন করেছে, গবেষণায় দেখা গেছে, দক্ষতা তৈরির উপর নির্ভরতাকে উত্সাহিত করে এবং ব্যবহারকারীদের অন্যান্য আচরণের মধ্যে অন্য দৃষ্টিভঙ্গি চাইতে নিরুৎসাহিত করে।
গড়পড়তা, কোন প্রম্পট ছাড়াই, Meta’s Llama 3.1 এবং Llama 4 HumaneScore-এ সর্বনিম্ন স্থান পেয়েছে, যেখানে GPT-5 সর্বোচ্চ পারফর্ম করেছে।
“এই নিদর্শনগুলি পরামর্শ দেয় যে অনেক AI সিস্টেমগুলি কেবল খারাপ পরামর্শ দেওয়ার ঝুঁকি নেয় না,” HumaneBench-এর সাদা কাগজে লেখা হয়েছে, “এগুলি সক্রিয়ভাবে ব্যবহারকারীদের স্বায়ত্তশাসন এবং সিদ্ধান্ত নেওয়ার ক্ষমতা নষ্ট করতে পারে।”
আমরা একটি ডিজিটাল ল্যান্ডস্কেপে বাস করি যেখানে আমরা একটি সমাজ হিসাবে স্বীকার করেছি যে সবকিছুই আমাদের আকর্ষণ করার চেষ্টা করছে এবং আমাদের মনোযোগের জন্য প্রতিযোগিতা করছে, অ্যান্ডারসন নোট করেছেন।
“সুতরাং কিভাবে মানুষের সত্যিকারের পছন্দ বা স্বায়ত্তশাসন থাকতে পারে যখন আমরা – আলডাস হাক্সলিকে উদ্ধৃত করতে – বিভ্রান্তির জন্য এই অসীম ক্ষুধা আছে,” অ্যান্ডারসন বলেছিলেন। “আমরা সেই প্রযুক্তিগত ল্যান্ডস্কেপে গত 20 বছর কাটিয়েছি, এবং আমরা মনে করি AI-এর উচিত আমাদের আরও ভাল পছন্দ করতে সাহায্য করা, শুধু আমাদের চ্যাটবটগুলিতে আসক্ত হওয়া নয়।”
এই নিবন্ধটি বেঞ্চমার্কের পিছনে থাকা দল সম্পর্কে আরও তথ্য অন্তর্ভুক্ত করার জন্য আপডেট করা হয়েছে এবং GPT-5.1 এর মূল্যায়ন করার পরে বেঞ্চমার্ক পরিসংখ্যান আপডেট করা হয়েছে।
একটি সংবেদনশীল টিপ বা গোপন নথি পেয়েছেন? আমরা এআই ইন্ডাস্ট্রির অভ্যন্তরীণ কর্মকাণ্ড সম্পর্কে রিপোর্ট করছি — যে কোম্পানিগুলি এর ভবিষ্যৎ গঠন করছে তাদের সিদ্ধান্তের দ্বারা প্রভাবিত ব্যক্তিদের কাছে। রেবেকা বেলানের কাছে পৌঁছান rebecca.bellan@techcrunch.com বা রাসেল ব্র্যান্ডম এ russell.brandom@techcrunch.comনিরাপদ যোগাযোগের জন্য, আপনি @rebeccabellan,491 এ সিগন্যালের মাধ্যমে তাদের সাথে যোগাযোগ করতে পারেন এবং রাসেলব্র্যান্ডম.49.





