به گزارش تحلیل ایران وقتی صحبت از رباتهای گفتگوی مختلف میشود معمولاً همه دوست دارند بدانند «کدام یک قویتر است؟». اما پاسخ دادن به این سؤال به هیچوجه ساده نیست. این مدلها حجم عظیمی از اطلاعات را پردازش میکنند، توانایی استدلال دارند، متن تولید میکنند،
گفتگو انجام میدهند، کدنویسی میکنند و در دهها حوزه دیگر فعال هستند. برای همین نمیشود با یک معیار ساده گفت کدامیک بهتر است.
اینجاست که «سنجه» یا بنچمارک (Benchmark) وارد میشود؛ یعنی مجموعهای از آزمونها، معیارها و روشهای استاندارد که پژوهشگران از آنها برای مقایسه مدلهای زبانی استفاده میکنند. در این به این موضوع میپردازیم که این سنجهها چه هستند، چطور کار میکنند و چرا
وجودشان برای پیشرفت هوش مصنوعی ضروری است.
چرا اصلاً باید مدلهای زبانی را با سنجه مورد بررسی قرار دهیم؟
در نگاه اول شاید این سؤال پیش بیاید که «چرا نمیگذاریم کاربران خودشان تشخیص بدهند کدام ربات گفتگو بهتر است؟». اما مسئله این است که تجربه کاربران معمولاً بر اساس استفاده روزمره است و نمیتواند معیار علمی و دقیق باشد. مدلهای زبانی طیف وسیعی از تواناییها
دارند: ممکن است مدلی در گفتگوی عمومی خوب باشد اما در مسائل ریاضی ضعیف عمل کند؛ یا برعکس، در نوشتن کد فوقالعاده باشد اما در مکالمه پر از خطا شود. بنابراین برای اینکه بتوانیم یک «تصویر دقیق و قابل مقایسه» از عملکرد آنها به دست بیاوریم، نیازمند آزمونهایی استاندارد
هستیم که تحت شرایط مشخص، توانایی آنها را در حوزههای مختلف بسنجند.
سنجهها درواقع همان خطکش یا متر اندازهگیری هوش مصنوعی هستند. بدون این ابزار، توسعهدهندگان نمیدانند مدلشان چقدر خوب است، کاربران نمیتوانند مدلها را با هم مقایسه کنند و پژوهشگران هم نمیتوانند پیشرفت واقعی فناوری را بررسی کنند. سنجهها سازوکاری فراهم
میکنند تا بتوانیم بفهمیم یک مدل چه میداند، چگونه استدلال میکند و آیا میتوان به خروجیهایش اعتماد کرد یا نه.
آزمونهایی برای محک هوش واقعی
یکی از گستردهترین گروههای سنجهها، آزمونهایی هستند که میزان دانش عمومی و قدرت استدلال مدلهای زبانی را اندازه میگیرند. معروفترین آنها MMLU است. در این سنجه،مجموعهای بسیار گسترده از پرسشهای چندگزینهای گردآوری شده که هدفشان سنجش «دانش واقعی» یک مدل
زبانی در کنار «قدرت استدلال» آن در حوزههای مختلف است. این پرسشها از دهها رشته دانشگاهی و تخصصی انتخاب شدهاند؛ از تاریخ و علوم اجتماعی گرفته تا زیستپزشکی، ریاضیات، روانشناسی، اقتصاد، حقوق و حتی موضوعات تخصصی مهندسی.
هر سؤال معمولاً طوری طراحی شده که مدل نتواند صرفاً با الگوهای سطحی زبانی پاسخ درست را حدس بزند؛ بلکه باید مفهوم را بفهمد، قیاس کند و میان گزینهها بهترین را انتخاب کند. روند کار هم ساده است: سؤال نمایش داده میشود، مدل یک گزینه را انتخاب میکند، و سپس پاسخ
آن با کلیدهای معتبر و مستند مقایسه میشود. اگر یک مدل در مجموعهای به این اندازه متنوع و دقیق عملکرد خوبی داشته باشد، معنایش این است که توانسته هم دامنه گستردهای از دانش را پوشش دهد و هم در تحلیل مفهومی و استدلال در حوزههای متفاوت توانایی قابل اتکایی از
خود نشان دهد.
در کنار آن سنجه BIG-bench قرار دارد که استانداردی جامعتر و گستردهتر است.در این سنجه مجموعهای بسیار بزرگ از وظایف قرار گرفته که هرکدام بخشی از تواناییهای یک مدل زبانی را میسنجند. این وظایف از پرسشهای ساده عمومی تا چالشهای پیچیدهتر گسترده شدهاند.
برای نمونه، برخی از فعالیتها شامل درک مفاهیم پایه علمی، تحلیل جملات مبهم، تشخیص طنز، پاسخدادن به ضربالمثلهای فرهنگی، یا انجام استدلالهای زنجیرهای است. ایده اصلی این سنجه این است که طیف وسیعی از «تواناییهای شبیه انسان» مورد ارزیابی قرار گیرد؛ تواناییهایی
که مدلها در آموزش معمول خود کمتر با آنها مواجه میشوند اگر مدل بتواند طیف متنوعی از این وظایف را بهدرستی انجام دهد، نشان میدهد که نهتنها دانش عمومی گسترده دارد، بلکه درک متنی و انعطاف ذهنی قابلقبولی هم دارد.
در نسخه سختتر آن، BBH یا BIG-Bench Hard، تمرکز روی چالشهایی است که حتی پاسخدادن به آنها برای انسان هم ساده نیست. وظایف این سنجه معمولاً شامل استدلال چندمرحلهای، تحلیل الگوهای پیچیده، یا حل مسئلههایی است که نیاز به «درک عمیقتر» نسبت به روابط مفهومی
دارند. مثلاً در برخی فعالیتها، مدل باید چند گزاره را کنار هم بگذارد و نتیجهای منطقی استخراج کند، یا از روی تعدادی سرنخ متنی، یک استنباط غیرمستقیم انجام دهد. این سنجه در عمل نشان میدهد که آیا مدل فقط در حد بازتولید دادههای آموزشدیده رفتار میکند یا واقعاً
میتواند مسئلههای تازه و ناشناخته را نیز درک و تحلیل کند.
سنجهای که فقط «درستی پاسخ» را نمیسنجد
مدلهای زبانی فقط باهوش بودن سنجیده نمیشوند؛ مهم است که پاسخهایشان ایمن، بیطرف، سرعتمند و قابل اعتماد باشد. درست به همین دلیل پروژهای مهم به نام HELM (Holistic Evaluation of Language Models) به معنای «ارزیابی کلگریانه از مدلهای زبانی» توسط مرکز پژوهشی
استنفورد ایجاد شد. این سنجه برخلاف بسیاری از آزمونهای سنتی فقط یک نمره نمیدهد، بلکه کیفیت مدل را از جهات مختلف بررسی میکند.
سنجه HELM به جنبههایی توجه میکند که در دنیای امروز اهمیت زیادی دارد. مثلاً اینکه آیا مدل محتوای مضر، توهینآمیز یا غیرقانونی تولید میکند، چقدر احتمال دارد اطلاعات غلط بسازد، سرعت تولید متنش چطور است، هزینه پردازشی آن چقدر است و آیا رفتار مدل قابل تکرار
و شفاف است یا نه. نگاه جامع این نسجه باعث شده بسیاری از آزمایشگاهها و شرکتهای فناوری از آن برای مقایسه مدلهای جدید استفاده کنند.
سنجههای مخصوص کدنویسی
توانایی کدنویسی یکی از مهمترین مهارتهای چتباتهای امروزی است و برای ارزیابی این مهارت سنجههای مخصوص وجود دارد. مهمترین آنها HumanEval است. در این سنجه، یک مسئله برنامهنویسی همراه با چند تست به مدل داده میشود. مدل باید کدی تولید کند که بتواند همه
تستها را با موفقیت پشت سر بگذارد.
یک نکته مهم در این سنجه معیار pass@k است. توضیح سادهاش این است: «اگر مدل چند بار برای یک مسئله تلاش کند، چند بار توانسته جواب درست تولید کند؟». این معیار کمک میکند مدلهایی که چند نسخه از یک کد تولید میکنند، دقیقتر ارزیابی شوند. HumanEval یکی از معتبرترین
سنجهها در دنیای برنامهنویسی ماشینی است و شرکتهایی مثل اپناِیآی هم برای ارزیابی مدلهایشان از آن استفاده میکنند.
سنجش توانایی گفتگوی رباتها
ارزیابی کیفیت گفتگو، یکی از سختترین بخشهای سنجش مدلهای زبانی است. برخلاف آزمونهای چندگزینهای که همیشه یک «پاسخ درست» دارند، در گفتگو ممکن است هزاران پاسخ مختلف وجود داشته باشد که همه از نظر انسانی قابل قبولاند. بنابراین باید از سنجههایی استفاده شود
که واقعیت تعامل انسانی را شبیهسازی کنند.
یکی از این سنجهها MT-Bench است که مکالمههای چندمرحلهای بین کاربر و مدل را بررسی میکند و میسنجد که مدل چقدر میتواند پاسخهای منطقی، منسجم و طبیعی بدهد. هدف آن شبیهسازی گفتگوهای واقعی و سنجش توانایی مدل در حفظ جریان مکالمه است.
روش دیگر ChatEval است که ترکیبی از ارزیابی انسانی و خودکار است و کمک میکند کیفیت پاسخها بهطور دقیقتر بررسی شود. مدلها هم از نظر محتوا و هم از نظر سبک گفتار مورد سنجش قرار میگیرند.
در سنجه ACUTE-Eval نیز انسانها دو مکالمه تولید شده توسط مدل را با هم مقایسه میکنند و تشخیص میدهند کدام یک بهتر است. این روش به جای دادن نمره عددی، کیفیت واقعی گفتگو را شبیهسازی و ارزیابی میکند. این روش شبیه مقایسه دو متن در شرایط واقعی است و یکی از
دقیقترین شیوهها برای سنجش کیفیت گفتگو به شمار میرود.
در کنار اینها مجموعههای تخصصی مانند ConvAI، MultiWOZ و DSTC وجود دارند که برای مکالمات کاربردی طراحی شدهاند؛ مثلاً گفتگویی که هدفش رزرو هتل، خرید بلیت یا سفارش غذاست. این سنجهها بررسی میکنند آیا مدل میتواند اطلاعات را در طول گفتگو نگه دارد، هدف کاربر
را درست بفهمد و اطلاعات موردنیاز را پیدا کند یا نه.
اندازهگیری کیفیت متن تولیدشده
یکی از چالشهای مهم ارزیابی مدلهای زبانی، سنجش کیفیت متنی است که تولید میکنند. برای مثال در ترجمه، خلاصهسازی یا بازنویسی متن، معمولاً خروجی مدل با یک متن مرجع مقایسه میشود. سنجههایی مثل BLEU و ROUGE این کار را با مقایسه شباهت کلمات انجام میدهند. هرچه
شباهت بین متن خروجی و متن مرجع بیشتر باشد، نمره بالاتر است.
اما این سنجهها محدودیت دارند؛ زیرا فقط شباهت ظاهری را بررسی میکنند و ممکن است متنی که معنا را کاملاً درست منتقل کرده ولی ساختار متفاوتی دارد، نمره پایینی بگیرد. به همین دلیل سنجههای پیشرفتهتری مانند BERTScore، COMET و BLEURT طراحی شدهاند که بهجای مقایسه
کلمهای، «معنای جمله» را میسنجند. این روش به واقعیت زبان نزدیکتر است و تصویر دقیقتری از کیفیت متن ارائه میدهد.
نرخ توهم مدلها با چه سنجهای اندازهگیری میشود؟
برای اندازهگیری توهم (Hallucination) در مدلهای زبانی، از مجموعهای از سنجهها استفاده میشود که هر کدام نوعی خطای «اطلاعات نادرست» را میسنجند. روشهای مبتنیبر «پرسشپاسخ» مثل QAGS و QAEval عملکرد مدل را با مقایسه پاسخهایش با اطلاعاتی که واقعاً در متن
یا منبع وجود دارد بررسی میکنند. در این روشها ابتدا از متن اصلی سؤال ساخته میشود و سپس پاسخ مدل با پاسخ مرجع مقایسه میشود؛ هر جا مدل چیزی بگوید که در منبع وجود ندارد، توهم ثبت میشود. در گروه دیگر، سنجههای مبتنیبر «بررسی ادعا» (fact-verification) مانند
FactCC یا SummaC قرار دارند. اینها بررسی میکنند که هر جملهای که مدل تولید کرده، با حقایق موجود در منبع یا شواهد استخراجشده سازگار است یا نه. اگر ادعایی با شواهد همخوانی نداشته باشد یا تأییدی برایش پیدا نشود، بهعنوان توهم ثبت میشود.
در کنار این ابزارهای خودکار، ارزیابی انسانی و نسخههای ترکیبی نیز نقش مهمی دارند. متخصصان محتوا یا ارزیابهای آموزشدیده پاسخها را از نظر «درست بودن»، «قابلاستناد بودن» و «سازگاری با منبع» بررسی و نرخ توهم را بهصورت درصد گزارش میکنند. برای کارهای حجیمتر
نیز رویکرد LLM-as-a-judge استفاده میشود که در آن یک مدل دیگر نقش داور را دارد و میزان انطباق پاسخ با حقیقت را میسنجد؛ البته همیشه در نهایت نیاز به تأیید انسانی باقی میماند، چون مدل داور هم ممکن است خطا کند. امروزه معتبرترین روشها ترکیبی از چند سنجه خودکار
بههمراه نمونهبرداری و قضاوت انسانی هستند تا نتیجه قابلاتکاتر باشد.
بالاخره چت جیپیتی بهتر است یا جمنای؟
بر اساس آنچه گفت هیچ پاسخ یکسانی برای این سوال وجود ندارد که از بین مدلهای مختلف رباتهای گفتگو مانند چت جیپیتی، جمنای، کلاود، گروک، دیپسیک و ... کدام یک از همه بهتر است. هر کس باید ببیند چه کاربری خاصی مدنظر دارد؛ سپس سنجه یا بنچمارکی که آن کاربری
را میسنجد، پیدا کند و در نهایت ببینید هر کدام از این مدلها در آن سنجه خاص چه نمرهای را کسب کردهاند.
بهعنوان مثال منابع معتبر نیز تأیید میکنند که:
جمنای پرو 3 طبق سنجهها، ویژگیها و قابلیتهای فنی برتری دارد، اما چت جیپیتی برای وظایف نوشتاری و گفتگوهای عمومی بهتر است
جمنای در وظایف چندوجهی عالی است، اما چت جیپیتی در کاربردهای متنی مانند تولید محتوا، کدنویسی و پژوهش برتری دارد
جمنای برای حل مسائل ساختاریافته، پرسوجوهای پیچیده ریاضی و کدنویسی یکپارچه مناسب است، در حالی که چت جیپیتی برای وظایفی که نیاز به خلاقیت روایی، توضیحات مفصل یا محتوای آموزشی ساختاریافته دارند بهتر عمل میکند.
به صورت کلی چت جیپیتی زمانی بهتر است که متن طبیعی و جذاب میخواهید و میتواند لحن را به راحتی تطبیق دهد، در حالی که جمنای برای وظایف ساختاریافته یا پژوهشمحور مانند نوشتار آکادمیک و مستندات مناسبتر است. همچنین جمنای با پایگاه دانش بهروزتر (ژانویه ۲۰۲۵)
نسبت به چت جیپیتی (ژوئن ۲۰۲۴) برای دقت واقعی در رویدادهای اخیر و پژوهش بلادرنگ با یکپارچگی جستجوی گوگل بهتر است.