آموزش بدون مجوز مدل‌های هوش مصنوعی از رونوشت‌های متنی یوتیوب توسط غول‌های فناوری

تحقیقات جدید وبسایت Proof News نشان می‌دهد که برخی از بزرگترین شرکت‌های فناوری جهان مدل‌های هوش مصنوعی خود را بر روی دیتاستی، که شامل رونوشت‌های بیش از 173000 ویدیوی یوتیوب بود، بدون مجوز آموزش داده‌اند.

به گزارش lastech و به نقل از انگجت، این دیتاست که توسط یک شرکت غیرانتفاعی به نام EleutherAI ایجاد شده است، حاوی رونوشت‌هایی از ویدئوهای یوتیوب از بیش از 48000 کانال است، و از جمله توسط اپل، انویدیا و آنتروپیک استفاده شده است. یافته‌های این تحقیقات واقعیت ناراحت‌کننده‌ای را درباره هوش مصنوعی روشن می‌کند: این فناوری عمدتاً بر پایه داده‌هایی ساخته شده است که از تولیدکنندگان محتوا بدون کسب رضایت یا پرداخت غرامت به آنها استخراج شده است.

این دیتاست شامل هیچ ویدیو یا تصویری از یوتیوب نیست، اما شامل رونوشت‌های ویدیویی از بزرگترین تولیدکنندگان محتوا در این پلتفرم از جمله مارکز براونلی و MrBeast، و همچنین ناشران بزرگ خبری مانند نیویورک‌تایمز، بی‌بی‌سی و ABC News است. زیرنویس‌های ویدیوهای متعلق به انگجت نیز بخشی از این دیتاست است.

براونلی در اکانت خود در ایکس اینگونه نوشت: «اپل داده‌های هوش مصنوعی خود را از چندین شرکت تهیه کرده است.» او افزود: «یکی از آنها هزاران دیتا/رونوشت را از ویدیوهای یوتیوب، از جمله مال من، جمع‌آوری کرده است. وی افزود: «این یک مشکل رو به گسترش برای مدتی طولانی خواهد بود».

یکی از سخنگویان گوگل در پاسخ گفت که نظرات قبلی توسط نیل موهان، مدیرعامل یوتیوب، مبنی بر اینکه شرکت‌هایی که به شکلی از داده‌های یوتیوب برای آموزش مدل‌های هوش مصنوعی استفاده می‌کنند که شرایط و خدمات این پلت‌فرم را نقض می‌کند همچنان پابرجاست. اپل، انویدیا، آنتروپیک و EleutherAI به درخواست اظهار نظر از طرف انگجت پاسخ ندادند.

تاکنون، شرکت‌های هوش مصنوعی درباره داده‌های مورد استفاده برای آموزش مدل‌های خود شفاف نبوده‌اند. در اوایل این ماه، هنرمندان و عکاسان اپل را به دلیل فاش نکردن منبع داده‌های آموزشی برای Apple Intelligence مورد انتقاد قرار دادند.

یوتیوب، به طور ویژه به عنوان بزرگترین مخزن ویدیوهای جهان، معدن طلایی نه تنها رونوشت (ترانسکریپت)، بلکه صدا، ویدئو و تصاویر است که آن را به دیتاستی جذاب برای آموزش مدل‌های هوش مصنوعی تبدیل می‌کند. در اوایل سال جاری، میرا موراتی، مدیر ارشد فناوری OpenAI، از پاسخ دادن به سؤالات وال‌استریت‌ژورنال در مورد اینکه آیا این شرکت از ویدیوهای یوتیوب برای آموزش سورا (ابزار تولید ویدیوی هوش مصنوعی آتی OpenAI) استفاده می‌کند طفره رفت.

موراتی در آن زمان گفت: «من قصد ندارم وارد جزئیات داده‌هایی که استفاده شده‌اند بشوم، اما این داده‌ها در دسترس عموم بوده یا داده‌های دارای مجوز بوده‌اند». ساندار پیچای، مدیرعامل آلفابت، نیز گفته است که شرکت‌هایی که از داده‌های یوتیوب برای آموزش مدل‌های هوش مصنوعی خود استفاده می‌کنند شرایط خدمات این پلتفرم را نقض می‌کنند.

اگر می‌خواهید ببینید زیرنویس‌های ویدیوهای یوتیوب شما یا کانال‌های مورد علاقه‌تان بخشی از این دیتاست هستند یا نه، می‌توانید به ابزار جستجوی Proof News مراجعه کنید.

حتما بخوانید : رژیم غذایی مناسب برای سلامت قلب کودکان به توصیه متخصصان چیست؟

مجله خبری lastech