سیستمی برای ارزیابی و رتبه‌بندی مدل‌های زبانی (LLM) فارسی راه‌اندازی شد

آزمایشگاه پردازش زبان طبیعی دانشگاه صنعتی امیرکبیر و مرکز تحقیقات هوش مصنوعی پارت، برای ارزیابی مدل‌های زبانی (LLM) فارسی، سیستم جدیدی رونمایی کردند. این سیستم شامل جدول رتبه‌بندی و ابزارهای ارزیابی پیشرفته‌ای است که عملکرد مدل‌های مختلف در حوزه‌هایی مانند درک متن و پاسخ‌دهی را مقایسه می‌کند.

توسعه‌دهندگان Open Persian LLM Leaderboard با اشاره به اینکه سیستم‌های ارزیابی پیشین، مدل‌های زبانی فارسی را صرفا با سطح دانش دبیرستان محک می‌زدند، ادعا می‌کنند که سیستم جدید قابلیت ارزیابی مدل‌ها در سطح کارشناسی ارشد و عرصه‌های گوناگون از جمله پزشکی، اقتصاد، صنعت، منطق و مهندسی را ارائه می‌دهد. به‌گفته‌ی توسعه‌دهندگان، این چهارچوب ارزیابی با بیش‌از ۴۰هزار نمونه توسعه داده شده و تعداد نمونه‌ها به‌طور مستمر در حال افزایش است.

مقاله‌ی مرتبط

قرار است سیستم جامع ارزیابی مدل‌های زبانی فارسی به توسعه‌دهندگان کمک کند تا مدل‌های خود را براساس معیارهای استاندارد ارزیابی کنند و کیفیت آن‌ها را بهبود دهند. ظاهرا بخشی از قابلیت‌های سیستم ارزیابی جدید به‌صورت متن‌باز در وب‌سایت HuggingFace هم قرار گرفته است تا دسترسی پژوهشگران و توسعه‌دهندگان به این سیستم ساده‌تر باشد.