سرچ هوش مصنوعی پرپلکسیتی؛ چت‌بات محبوب انویدیا

جان پاچکوفسکی، سردبیر اجرایی فوربز در پلتفرم ایکس، پرپلکسیتی را به باد انتقاد گرفت و گفت این موتور هوش مصنوعی «بیشتر گزارش‌های ما را می‌دزد. نام ما و چند منبع دیگری که این گزارش را از ما بازنشر کرده بودند، به‌عنوان منبع می‌آورد، اما طوری‌که به‌راحتی نادیده گرفته می‌شود؛ درضمن، در ذکر منبع، وب‌سایت‌هایی را که از گزارش ما استفاده کرده بودند، برجسته‌تر از خود مقاله‌ی اصلی نشان می‌دهد.»

حدودا دو هفته بعد،‌ ۱۹ ژوئن، مجله‌ی وایرد گزارش تحقیقی مفصلی درباره‌ی پرپلکسیتی منتشر کرد و نشان داد که چگونه هوش مصنوعی این شرکت «مقالات وایرد را بازنویسی می‌کند و گاهی آن‌ها را به‌طور نادرست و با کمترین اشاره به منبع، خلاصه می‌کند.»

پرپلکسیتی به‌ استخراج محتوای پولی وب‌سایت‌ها متهم شده است

وایرد همچنین گفت پرپلکسیتی احتمالا پروتکل مسدودسازی ربات‌های جست‌وجوگر را نادیده می‌گیرد و از طریق یک IP ناشناس که طبق بررسی‌های وایرد، به پرپلکسیستی تعلق دارد، فایل‌های robots.txt را دور می‌زند و محتوای محافظت‌شده پشت پی‌وال را بی‌اجازه استخراج می‌کند.

سرینیواس در پاسخ به این اتهامات به فست‌کمپانی گفت که «پرپلکسیتی پروتکل استثناکردن ربات‌ها را نادیده نمی‌گیرد و درباره‌اش دروغ هم نمی‌گوید. فکر می‌کنم درباره‌ی سازوکار پرپلکسیتی دچار سوتفاهم شده‌اند. ما فقط از کرالرهای وب خودمان استفاده نمی‌کنیم، بلکه به کرالرهای توسعه‌دهندگان دیگر هم متکی هستیم.»

سرینیواس گفت کرالر وب مرموزی که وایرد شناسایی کرده، متعلق به پرپلکسیتی نبود، بلکه به یک شرکت متفرقه‌ی دیگر تعلق داشت. سرینیواس از ذکر نام این شرکت به‌خاطر امضای توافق‌نامه‌ی عدم‌افشا خودداری کرد و وقتی از او سوال شد که آیا از آن‌ها خواسته تا استخراج محتوای وایرد را متوقف کنند، از پاسخ طفره رفت و فقط گفت «قضیه پیچیده است.»

پیچیدگی ماجرا

گزارش ۱۹ ژوئن وایرد مدعی است که پرپلکسیتی با نادیده‌گرفتن پروتکل استثناکردن ربات‌ها، بخش‌هایی از وب‌ را که ناشران نمی‌خواهند ربات‌ها به آن‌ها دسترسی داشته باشند، کرال کرده و اطلاعات آن را استخراج می‌کند.

پروتکل استثنا کردن ربات‌ها که اولین بار در سال ۱۹۹۴ مطرح شد، به توسعه‌دهندگان اجازه می‌دهد دسترسی ربات‌های جستجوگر وب را به صفحات خاصی از وب‌سایت‌شان مسدود کنند.

درکل، فرایند وب اسکرپینگ یا گردآوری از وب که طی آن ابزارهای کرال به‌طور خودکار اطلاعات را از صفحات وب استخراج می‌کنند، پدیده‌ی رایجی است و تمام موتورهای جستجو ازجمله گوگل این کار را انجام می‌دهند تا صفحات وب در نتایج جستجو قرار بگیرند. پژوهشگران و شرکت‌های دیگر نیز از کرالرها برای جمع‌آوری داده از اینترنت به‌منظور تجزیه‌وتحلیل بازار، پژوهش‌های علمی و آموزش مدل‌های یادگیری ماشین استفاده می‌کنند.

برای رعایت پروتکل robots.txt اجبار قانونی وجود ندارد

وب اسکرپرهایی که پروتکل استثناکردن ربات‌ها را رعایت می‌کنند، ابتدا فایل «robots.txt» در کد منبع وب‌سایت را می‌خوانند تا بفهمند استخراج اطلاعات از کدام صفحه‌ها مجاز است؛ برای مثال، این روزها استخراج داده‌های وب‌سایت برای ساخت مدل‌های هوش مصنوعی ممنوع است. موتورهای جستجو و شرکت‌های هوش مصنوعی ازجمله خود پرپلکسیتی اعلام کرده‌اند که به این پروتکل احترام می‌گذارند، اما اجبار قانونی برای رعایت آن وجود ندارد.

دیمیتری شولنکو، رئیس کارگزاری پرپلکسیتی در واکنش به اتهامات فوربز و وایرد به تک‌کرانچ گفت خلاصه‌کردن محتوای منتشرشده در وب با فرایند کرال‌کردن متفاوت است. «کرال زمانی است که فقط در وب گشت می‌زنید، اطلاعات را برمی‌دارید و ایندکس می‌کنید.» او اضافه کرد که IP پرپلکسیتی ممکن است به‌عنوان بازدیدکننده در وب‌سایتی ظاهر شود که دسترسی به آن در فایل robots.txt ممنوع شده، اما این اتفاق تنها زمانی می‌افتد که کاربر URL وب‌سایت را به درخواست خود اضافه کند که این مورد «به معنی کرال‌کردن نیست.» او تاکید کرد که «ما فقط داریم به درخواست مستقیم و خاص کاربر به آن URL سر می‌زنیم.»

درواقع، پرپلکسیتی دارد می‌گوید اگر کاربری به‌طور دستی URL سایتی را به چت‌بات بدهد، چت‌بات دیگر نقش کرالر وب را ندارد، بلکه به‌عنوان ابزاری برای کمک به کاربر در دریافت و پردازش اطلاعات موردنیاز او عمل می‌کند. اما از نظر وایرد و بسیاری از وب‌سایت‌های خبری دیگر، این تفاوت اهمیتی ندارد، چراکه بازدید از یک URL و استخراج اطلاعات آن به‌طور هزاران بار در روز دقیقا شبیه همان وب‌اسکرپینگ است.

از سوی دیگر، وایرد و فوربز پرپلکسیتی را به محتواربایی متهم کرده‌اند؛ جالب اینکه به‌گفته‌ی وایرد، پرپلکسیتی دقیقا محتوای همان مقاله‌ای را به سرقت برده که در آن به محتواربایی متهم شده بود.

خبرنگاران وایرد می گویند چت‌بات پرپلکسیتی یک متن شش پاراگرافی با ۲۸۷ کلمه تولید کرد که به‌طور دقیق نتیجه‌گیری مقاله و شواهد آن را خلاصه می‌کرد. یک جمله هم دقیقا با جمله‌ی مقاله یکی بود. طبق دستورالعمل‌های موسسه‌ی Poynter، اگر نویسنده (یا هوش مصنوعی) هفت کلمه متوالی از منبع را بدون تغییر استفاده کند، احتمالا سرقت ادبی صورت گرفته است.

اینجا پای «استفاده منصفانه» به میان می‌آید. اگرچه شرکت پرپلکسیتی قبول دارد که در ذکر منابع کوتاهی کرده و قول داده که در آینده آن را بهبود دهد، بااین‌حال معتقد است که این شرکت حق استفاده از مقالات رسانه‌ها برای ارائه‌ی خلاصه را دارد. اگر همین حالا از چت‌جی‌پی‌تی بخواهید یکی از مقاله‌های ورج یا وایرد را برایتان خلاصه کند، صریحا به شما خواهد گفت اجازه‌ی این کار را ندارد. کوپایلت مایکروسافت هم که اتفاقا مبتنی‌بر همان مدل زبانی است، تنها در حد چهار‌، پنج جمله‌ی کوتاه درباره‌ی مقاله صحبت خواهد کرد؛ اما پرپلکسیتی خلاصه‌ای پرجزییات‌تر ارائه می‌دهد که در بیشتر موارد، نیاز کاربر به خواندن خود مقاله را از بین می‌برد.

پرپلکسیتی معتقد است خلاصه‌نویسی مقاله در حیطه استفاده منصفانه قرار می‌گیرد

قضیه‌ی «استفاده‌ی منصفانه» کمی پیچیده است، چراکه سرقت ادبی اگرچه کار ناپسندی به‌شمار می‌رود، غیرقانونی نیست. به‌گفته‌ی دفتر حق تکثیر ایالات متحده، استفاده از بخش محدودی از یک اثر، مثلا نقل‌قول‌ها برای مقاصدی مانند نقد، گزارش خبری و علمی، قانونی است. شرکت‌های هوش مصنوعی مانند پرپلکسیتی معتقدند که خلاصه‌نویسی مقاله هم در حیطه‌ی استفاده‌ی منصفانه قرار دارد.

شولنکو معتقد است که «هیچ‌کس نمی‌تواند حقایق را در مالکیت خودش نگه دارد. به‌محض اینکه حقایق دردسترس قرار بگیرند، همه می‌توانند از آن‌ها استفاده کنند.» از نظر شولنکو، متون خلاصه‌شده‌ی پرپلکسیتی شبیه وقتی است که خبرنگاران از اطلاعات منابع دیگر برای نوشتن گزارش‌های خود استفاده می‌کنند.

تحلیل وایرد مشکل دیگری در این محصول پرهیاهو را برملا کرد؛ اینکه برخلاف ادعای پرپلکسیتی که ابزارهای آن «پاسخ‌های فوری و قابل‌اعتماد به هر سوالی با ذکر کامل منابع» ارائه می‌دهند تا دیگر نیازی به «کلیک روی لینک‌های مختلف» نباشد،‌ این چت‌بات گاهی‌اوقات پاسخ‌های اشتباه می‌دهد و به اصطلاح دنیای هوش مصنوعی، دچار هذیان‌گویی می‌شود.

این‌طور که به‌نظر می‌رسد، در برخی موارد و باوجود نمایش گرافیکی در رابط کاربری که نشان می‌دهد چت‌بات قبل از ارسال پاسخ، درحال «خواندن» منابع است، پرپلکسیتی واقعا این منابع را نمی‌خواند و پاسخ خود را صرفا براساس URL و متادیتا ارائه می‌دهد. به‌عبارت دیگر و به قول ورج، ترفند جادویی پرپلکسیتی که این استارتاپ را به ارزشی ده‌رقمی رسانده این است که هم کاری را که می‌گوید نمی‌کند، انجام می‌دهد و هم کاری را که می‌گوید می‌کند، انجام نمی‌دهد.

سرینیواس دررابطه با این اتهام مدعی شد که وایرد از پرامپت‌هایی استفاده کرده که پرپلکسیتی را به‌طور هدف‌مند به‌سمت پاسخ‌های اشتباه هدایت کرده است و کاربران عادی با چنین نتایجی روبه‌رو نخواهند شد. «ما هرگز نگفته‌ایم که چت‌بات ما دچار توهم نمی‌شود.»

سرینیواس قبول دارد که در برخی موارد، پرپلکسیتی نتوانسته به‌طور کامل یا برجسته به منابعی که از آن‌ها محتوا را استخراج کرده، ارجاع بدهد، اما اتهام هرگونه فعالیت غیرحرفه‌ای یا غیرقانونی را رد کرده است.

سرینیواس همچنین گفت پروتکل استثنا کردن ربات‌ها «چارچوب قانونی» ندارد. از نظر او، ظهور هوش مصنوعی نیازمند تعریف نوع جدیدی از رابطه‌ی کاری بین تولید‌کنندگان محتوا با پلتفرم‌هایی مثل پرپلکسیتی است.

درهمین‌راستا، مصطفی سلیمان، مدیرعامل کسب‌وکار هوش مصنوعی مایکروسافت هم در صحبتی جنجالی گفت هر محتوایی که به‌صورت رایگان در اینترنت منتشر می‌شود، به‌عنوان رایگان‌افزار شناخته خواهد شد و هرکسی می‌تواند بدون مجوز از آن استفاده کند. درحالی‌که محتواهای تولیدشده، به‌طور خودکار دارای کپی‌رایت هستند و همه‌ی پلتفرم‌ها موظف‌‌اند که حق کپی‌رایت را رعایت کنند.

راهکار هوشمندانه پرپلکسیتی برای راضی‌کردن رسانه‌ها

شرکت‌های هوش مصنوعی ازجمله OpenAI قراردادهایی را با تعدادی از رسانه‌های خبری امضا کرده‌اند تا به محتوای فعلی و آرشیوی آن‌ها برای آموزش الگوریتم‌های خود دسترسی پیدا کنند. در ازای این دسترسی، OpenAI به رسانه‌ها وعده می‌دهد که مقالات خبری آن‌ها را در پاسخ به پرسش‌های کاربران ChatGPT نمایش دهد.

پرپلکسیتی تا پیش از شروع دردسرهای کپی رایت، برنامه‌ای برای همکاری و جلب رضایت رسانه‌ها نداشت؛ اما اخیرا ابتکار جدیدی به‌نام «برنامه‌ی ناشران» را معرفی کرده تا در ازای استفاده از محتوای رسانه‌ها، هزینه‌ی مشخصی را به آن‌ها پرداخت کند. رسانه‌هایی که تاکنون این قرارداد را با پرپلکسیتی امضا کرده‌اند، عبارت‌اند از: فورچون، تایم، وردپرس، اشپیگل، آنترپرنور و تگزاس تریبیون. جالب است که نامی از وایرد و فوربز در این فهرست به چشم نمی‌خورد.

وردپرس از برنامه پرپلکسیتی برای تقسیم درآمد هیجان‌زده است

پرپلکسیتی قصد دارد بخش تبلیغات را به ویژگی «سوالات مرتبط» موتورجستجوی خود اضافه کند تا هر بار کاربری با این محتوا تعامل برقرار کرد، ناشران به‌طور مستقیم سهمی از درآمد تبلیغاتی این پلتفرم را دریافت کنند. علاوه‌براین، ناشران به APIها و پشتیبانی توسعه‌دهندگان پرپلکسیتی دسترسی رایگان خواهند داشت تا بتوانند موتورپاسخ سفارشی در وب‌سایت خود ایجاد کنند.

تمام کارمندان رسانه‌های شریک پرپلکسیتی همچنین به‌طور رایگان اشتراک یک‌ساله‌ی طرح «پرو سازمانی» این موتورجستجو را دریافت خواهند کرد که شامل ویژگی‌های پیشرفته‌ی حفظ حریم شخصی و امنیت داده‌ است.

مدیرعامل اتوماتیک، شرکت توسعه‌دهنده‌ی وب‌سایت وردپرس، به ورج گفت که «تقسیم درآمد پرپلکسیتی با ناشران بسیار بهتر از گوگل است که خب صفر است!» اتوماتیک می‌گوید مبالغ دریافتی از پرپلکسیتی را بین مشتریان وردپرس تقسیم خواهد کرد. «مبلغ دقیقش را نمی‌دانم، اما احتمالا در ابتدا کم خواهد بود، چون پرپلکسیتی درحال‌حاضر درآمد زیادی ندارد. اما اگر این موتورجستجو واقعا قرار است جای گوگل را بگیرد، که فکر می‌کنم شانسش را دارد، این درآمد چشم‌گیر خواهد شد. ما دنبال این هستیم که به هر شکل ممکن به کسب درآمد ناشران کمک کنیم.»

آیا پرپلکسیتی می‌تواند جای سرچ گوگل را بگیرد؟

تکنولوژی هوش مصنوعی مولد قرار بود مدل جستجوی ما در اینترنت را متحول کند؛ یا دست‌کم این چیزی بود که از دو سال پیش با ظهور چت‌جی‌پی‌تی می‌شنیدیم و حالا هر غول فناوری درحال تبلیغ هوش مصنوعی خودش است؛ مایکروسافت با کوپایلت، گوگل با جمنای و اپل هم با اپل اینتلیجنس. اگرچه این تکنولوژی از پس انجام کارهایی بیشتر از جستجو در اینترنت برمی‌آید، پایین کشیدن سرچ گوگل از تخت سلطنت کماکان بزرگ‌ترین هدف هوش مصنوعی به نظر می‌رسد؛ حتی OpenAI، سازنده‌ی ChatGPT هم گفته که درحال ساخت موتور جستجویی برای رقابت مستقیم با گوگل است.

اما براساس اطلاعات شرکت تحقیقاتی سئو Ahrefs، چت‌بات‌های مبتنی‌بر مدل زبانی فقط در برخی موارد، مفیدتر از صفحه‌ی نتایج گوگل ظاهر می‌شوند؛ اما در بیشتر موارد، هوش مصنوعی برای جایگزین‌شدن با گوگل، مسیر بسیار دشواری را در پیش دارد.

به‌طور دقیق‌تر، هوش مصنوعی در نوع خاصی از سرچ که به آن جستجوهای اکتشافی می‌گویند، بهتر از گوگل عمل می‌کند؛ این مدل سوال‌ها (مثلا «چرا اره‌ برقی اختراع شد»)، پاسخ واحدی ندارند و درواقع شروع یک فرایند یادگیری هستند. درمورد جستجوی‌ اطلاعات مدفون هم هوش مصنوعی عملکرد بهتری دارد؛ زیرا می‌تواند جواب سوال (مثلا، چطور بایوس کامپیوتر را آپدیت کنیم) را از زیر انبوهی از تبلیغات و کلید‌واژه‌های سئویی بیرون بکشد و مستقیم به کاربر ارائه دهد.

اما کاربران فقط برای این مدل جستجو سراغ گوگل نمی‌روند و موتور جستجو هم برخلاف باور مدیرعامل پرپلکسیتی، صرفا صفحاتی از لینک‌های آبی نیست؛ بلکه بیشتر شبیه سیستم‌عامل بسیار کوچکی است که نیاز کاربر را به‌طور گسترده‌ای برطرف می‌کند. بیشتر اوقات، نیاز ما از سرچ گوگل صرفا جستجوی وب‌سایت است. اگر قصد کاربر از سرزدن به موتورجستجو، پیدا کردن آدرس lastech باشد، گوگل و موتورهای سنتی بهتر از چت‌بات‌ها این کار را انجام خواهند داد.

گوگل درحال‌حاضر زیر ذره‌بین پرونده‌ی سنگین ضدانحصار دولت آمریکا قرار دارد که ممکن است به تجزیه‌شدن این شرکت ۲۶ ساله منجر شود. اما حتی در این شرایط هم به‌چالش‌کشیدن سلطه‌ی گوگل، بی‌نهایت دشوار و نیازمند نوآوری‌های اساسی است. در رقابت نفس‌گیر بین جستجوی سنتی و جستجوی هوش مصنوعی، یا گوگل باید مدل کسب‌وکارش را با این فناوری بهینه کند یا شرکت‌های هوش مصنوعی، چت‌بات بهتری از سرچ گوگل ارائه دهند. اینکه کدام‌یک زودتر به این راه‌حل می‌رسد قابل پیش‌بینی نیست.

حتما بخوانید : به‌روزرسانی iOS 18.2 با Genmoji و سیری مجهز به ChatGPT کمی زودتر از انتظار منتشر می‌شود