سرچ هوش مصنوعی پرپلکسیتی؛ چتبات محبوب انویدیا
سرچ هوش مصنوعی پرپلکسیتی؛ چتبات محبوب انویدیا
جان پاچکوفسکی، سردبیر اجرایی فوربز در پلتفرم ایکس، پرپلکسیتی را به باد انتقاد گرفت و گفت این موتور هوش مصنوعی «بیشتر گزارشهای ما را میدزد. نام ما و چند منبع دیگری که این گزارش را از ما بازنشر کرده بودند، بهعنوان منبع میآورد، اما طوریکه بهراحتی نادیده گرفته میشود؛ درضمن، در ذکر منبع، وبسایتهایی را که از گزارش ما استفاده کرده بودند، برجستهتر از خود مقالهی اصلی نشان میدهد.»
حدودا دو هفته بعد، ۱۹ ژوئن، مجلهی وایرد گزارش تحقیقی مفصلی دربارهی پرپلکسیتی منتشر کرد و نشان داد که چگونه هوش مصنوعی این شرکت «مقالات وایرد را بازنویسی میکند و گاهی آنها را بهطور نادرست و با کمترین اشاره به منبع، خلاصه میکند.»
پرپلکسیتی به استخراج محتوای پولی وبسایتها متهم شده است
وایرد همچنین گفت پرپلکسیتی احتمالا پروتکل مسدودسازی رباتهای جستوجوگر را نادیده میگیرد و از طریق یک IP ناشناس که طبق بررسیهای وایرد، به پرپلکسیستی تعلق دارد، فایلهای robots.txt را دور میزند و محتوای محافظتشده پشت پیوال را بیاجازه استخراج میکند.
سرینیواس در پاسخ به این اتهامات به فستکمپانی گفت که «پرپلکسیتی پروتکل استثناکردن رباتها را نادیده نمیگیرد و دربارهاش دروغ هم نمیگوید. فکر میکنم دربارهی سازوکار پرپلکسیتی دچار سوتفاهم شدهاند. ما فقط از کرالرهای وب خودمان استفاده نمیکنیم، بلکه به کرالرهای توسعهدهندگان دیگر هم متکی هستیم.»
سرینیواس گفت کرالر وب مرموزی که وایرد شناسایی کرده، متعلق به پرپلکسیتی نبود، بلکه به یک شرکت متفرقهی دیگر تعلق داشت. سرینیواس از ذکر نام این شرکت بهخاطر امضای توافقنامهی عدمافشا خودداری کرد و وقتی از او سوال شد که آیا از آنها خواسته تا استخراج محتوای وایرد را متوقف کنند، از پاسخ طفره رفت و فقط گفت «قضیه پیچیده است.»
پیچیدگی ماجرا
گزارش ۱۹ ژوئن وایرد مدعی است که پرپلکسیتی با نادیدهگرفتن پروتکل استثناکردن رباتها، بخشهایی از وب را که ناشران نمیخواهند رباتها به آنها دسترسی داشته باشند، کرال کرده و اطلاعات آن را استخراج میکند.
پروتکل استثنا کردن رباتها که اولین بار در سال ۱۹۹۴ مطرح شد، به توسعهدهندگان اجازه میدهد دسترسی رباتهای جستجوگر وب را به صفحات خاصی از وبسایتشان مسدود کنند.
درکل، فرایند وب اسکرپینگ یا گردآوری از وب که طی آن ابزارهای کرال بهطور خودکار اطلاعات را از صفحات وب استخراج میکنند، پدیدهی رایجی است و تمام موتورهای جستجو ازجمله گوگل این کار را انجام میدهند تا صفحات وب در نتایج جستجو قرار بگیرند. پژوهشگران و شرکتهای دیگر نیز از کرالرها برای جمعآوری داده از اینترنت بهمنظور تجزیهوتحلیل بازار، پژوهشهای علمی و آموزش مدلهای یادگیری ماشین استفاده میکنند.
برای رعایت پروتکل robots.txt اجبار قانونی وجود ندارد
وب اسکرپرهایی که پروتکل استثناکردن رباتها را رعایت میکنند، ابتدا فایل «robots.txt» در کد منبع وبسایت را میخوانند تا بفهمند استخراج اطلاعات از کدام صفحهها مجاز است؛ برای مثال، این روزها استخراج دادههای وبسایت برای ساخت مدلهای هوش مصنوعی ممنوع است. موتورهای جستجو و شرکتهای هوش مصنوعی ازجمله خود پرپلکسیتی اعلام کردهاند که به این پروتکل احترام میگذارند، اما اجبار قانونی برای رعایت آن وجود ندارد.
دیمیتری شولنکو، رئیس کارگزاری پرپلکسیتی در واکنش به اتهامات فوربز و وایرد به تککرانچ گفت خلاصهکردن محتوای منتشرشده در وب با فرایند کرالکردن متفاوت است. «کرال زمانی است که فقط در وب گشت میزنید، اطلاعات را برمیدارید و ایندکس میکنید.» او اضافه کرد که IP پرپلکسیتی ممکن است بهعنوان بازدیدکننده در وبسایتی ظاهر شود که دسترسی به آن در فایل robots.txt ممنوع شده، اما این اتفاق تنها زمانی میافتد که کاربر URL وبسایت را به درخواست خود اضافه کند که این مورد «به معنی کرالکردن نیست.» او تاکید کرد که «ما فقط داریم به درخواست مستقیم و خاص کاربر به آن URL سر میزنیم.»
درواقع، پرپلکسیتی دارد میگوید اگر کاربری بهطور دستی URL سایتی را به چتبات بدهد، چتبات دیگر نقش کرالر وب را ندارد، بلکه بهعنوان ابزاری برای کمک به کاربر در دریافت و پردازش اطلاعات موردنیاز او عمل میکند. اما از نظر وایرد و بسیاری از وبسایتهای خبری دیگر، این تفاوت اهمیتی ندارد، چراکه بازدید از یک URL و استخراج اطلاعات آن بهطور هزاران بار در روز دقیقا شبیه همان وباسکرپینگ است.
از سوی دیگر، وایرد و فوربز پرپلکسیتی را به محتواربایی متهم کردهاند؛ جالب اینکه بهگفتهی وایرد، پرپلکسیتی دقیقا محتوای همان مقالهای را به سرقت برده که در آن به محتواربایی متهم شده بود.
خبرنگاران وایرد می گویند چتبات پرپلکسیتی یک متن شش پاراگرافی با ۲۸۷ کلمه تولید کرد که بهطور دقیق نتیجهگیری مقاله و شواهد آن را خلاصه میکرد. یک جمله هم دقیقا با جملهی مقاله یکی بود. طبق دستورالعملهای موسسهی Poynter، اگر نویسنده (یا هوش مصنوعی) هفت کلمه متوالی از منبع را بدون تغییر استفاده کند، احتمالا سرقت ادبی صورت گرفته است.
اینجا پای «استفاده منصفانه» به میان میآید. اگرچه شرکت پرپلکسیتی قبول دارد که در ذکر منابع کوتاهی کرده و قول داده که در آینده آن را بهبود دهد، بااینحال معتقد است که این شرکت حق استفاده از مقالات رسانهها برای ارائهی خلاصه را دارد. اگر همین حالا از چتجیپیتی بخواهید یکی از مقالههای ورج یا وایرد را برایتان خلاصه کند، صریحا به شما خواهد گفت اجازهی این کار را ندارد. کوپایلت مایکروسافت هم که اتفاقا مبتنیبر همان مدل زبانی است، تنها در حد چهار، پنج جملهی کوتاه دربارهی مقاله صحبت خواهد کرد؛ اما پرپلکسیتی خلاصهای پرجزییاتتر ارائه میدهد که در بیشتر موارد، نیاز کاربر به خواندن خود مقاله را از بین میبرد.
پرپلکسیتی معتقد است خلاصهنویسی مقاله در حیطه استفاده منصفانه قرار میگیرد
قضیهی «استفادهی منصفانه» کمی پیچیده است، چراکه سرقت ادبی اگرچه کار ناپسندی بهشمار میرود، غیرقانونی نیست. بهگفتهی دفتر حق تکثیر ایالات متحده، استفاده از بخش محدودی از یک اثر، مثلا نقلقولها برای مقاصدی مانند نقد، گزارش خبری و علمی، قانونی است. شرکتهای هوش مصنوعی مانند پرپلکسیتی معتقدند که خلاصهنویسی مقاله هم در حیطهی استفادهی منصفانه قرار دارد.
شولنکو معتقد است که «هیچکس نمیتواند حقایق را در مالکیت خودش نگه دارد. بهمحض اینکه حقایق دردسترس قرار بگیرند، همه میتوانند از آنها استفاده کنند.» از نظر شولنکو، متون خلاصهشدهی پرپلکسیتی شبیه وقتی است که خبرنگاران از اطلاعات منابع دیگر برای نوشتن گزارشهای خود استفاده میکنند.
تحلیل وایرد مشکل دیگری در این محصول پرهیاهو را برملا کرد؛ اینکه برخلاف ادعای پرپلکسیتی که ابزارهای آن «پاسخهای فوری و قابلاعتماد به هر سوالی با ذکر کامل منابع» ارائه میدهند تا دیگر نیازی به «کلیک روی لینکهای مختلف» نباشد، این چتبات گاهیاوقات پاسخهای اشتباه میدهد و به اصطلاح دنیای هوش مصنوعی، دچار هذیانگویی میشود.
اینطور که بهنظر میرسد، در برخی موارد و باوجود نمایش گرافیکی در رابط کاربری که نشان میدهد چتبات قبل از ارسال پاسخ، درحال «خواندن» منابع است، پرپلکسیتی واقعا این منابع را نمیخواند و پاسخ خود را صرفا براساس URL و متادیتا ارائه میدهد. بهعبارت دیگر و به قول ورج، ترفند جادویی پرپلکسیتی که این استارتاپ را به ارزشی دهرقمی رسانده این است که هم کاری را که میگوید نمیکند، انجام میدهد و هم کاری را که میگوید میکند، انجام نمیدهد.
سرینیواس دررابطه با این اتهام مدعی شد که وایرد از پرامپتهایی استفاده کرده که پرپلکسیتی را بهطور هدفمند بهسمت پاسخهای اشتباه هدایت کرده است و کاربران عادی با چنین نتایجی روبهرو نخواهند شد. «ما هرگز نگفتهایم که چتبات ما دچار توهم نمیشود.»
سرینیواس قبول دارد که در برخی موارد، پرپلکسیتی نتوانسته بهطور کامل یا برجسته به منابعی که از آنها محتوا را استخراج کرده، ارجاع بدهد، اما اتهام هرگونه فعالیت غیرحرفهای یا غیرقانونی را رد کرده است.
سرینیواس همچنین گفت پروتکل استثنا کردن رباتها «چارچوب قانونی» ندارد. از نظر او، ظهور هوش مصنوعی نیازمند تعریف نوع جدیدی از رابطهی کاری بین تولیدکنندگان محتوا با پلتفرمهایی مثل پرپلکسیتی است.
درهمینراستا، مصطفی سلیمان، مدیرعامل کسبوکار هوش مصنوعی مایکروسافت هم در صحبتی جنجالی گفت هر محتوایی که بهصورت رایگان در اینترنت منتشر میشود، بهعنوان رایگانافزار شناخته خواهد شد و هرکسی میتواند بدون مجوز از آن استفاده کند. درحالیکه محتواهای تولیدشده، بهطور خودکار دارای کپیرایت هستند و همهی پلتفرمها موظفاند که حق کپیرایت را رعایت کنند.
راهکار هوشمندانه پرپلکسیتی برای راضیکردن رسانهها
شرکتهای هوش مصنوعی ازجمله OpenAI قراردادهایی را با تعدادی از رسانههای خبری امضا کردهاند تا به محتوای فعلی و آرشیوی آنها برای آموزش الگوریتمهای خود دسترسی پیدا کنند. در ازای این دسترسی، OpenAI به رسانهها وعده میدهد که مقالات خبری آنها را در پاسخ به پرسشهای کاربران ChatGPT نمایش دهد.
پرپلکسیتی تا پیش از شروع دردسرهای کپی رایت، برنامهای برای همکاری و جلب رضایت رسانهها نداشت؛ اما اخیرا ابتکار جدیدی بهنام «برنامهی ناشران» را معرفی کرده تا در ازای استفاده از محتوای رسانهها، هزینهی مشخصی را به آنها پرداخت کند. رسانههایی که تاکنون این قرارداد را با پرپلکسیتی امضا کردهاند، عبارتاند از: فورچون، تایم، وردپرس، اشپیگل، آنترپرنور و تگزاس تریبیون. جالب است که نامی از وایرد و فوربز در این فهرست به چشم نمیخورد.
وردپرس از برنامه پرپلکسیتی برای تقسیم درآمد هیجانزده است
پرپلکسیتی قصد دارد بخش تبلیغات را به ویژگی «سوالات مرتبط» موتورجستجوی خود اضافه کند تا هر بار کاربری با این محتوا تعامل برقرار کرد، ناشران بهطور مستقیم سهمی از درآمد تبلیغاتی این پلتفرم را دریافت کنند. علاوهبراین، ناشران به APIها و پشتیبانی توسعهدهندگان پرپلکسیتی دسترسی رایگان خواهند داشت تا بتوانند موتورپاسخ سفارشی در وبسایت خود ایجاد کنند.
تمام کارمندان رسانههای شریک پرپلکسیتی همچنین بهطور رایگان اشتراک یکسالهی طرح «پرو سازمانی» این موتورجستجو را دریافت خواهند کرد که شامل ویژگیهای پیشرفتهی حفظ حریم شخصی و امنیت داده است.
مدیرعامل اتوماتیک، شرکت توسعهدهندهی وبسایت وردپرس، به ورج گفت که «تقسیم درآمد پرپلکسیتی با ناشران بسیار بهتر از گوگل است که خب صفر است!» اتوماتیک میگوید مبالغ دریافتی از پرپلکسیتی را بین مشتریان وردپرس تقسیم خواهد کرد. «مبلغ دقیقش را نمیدانم، اما احتمالا در ابتدا کم خواهد بود، چون پرپلکسیتی درحالحاضر درآمد زیادی ندارد. اما اگر این موتورجستجو واقعا قرار است جای گوگل را بگیرد، که فکر میکنم شانسش را دارد، این درآمد چشمگیر خواهد شد. ما دنبال این هستیم که به هر شکل ممکن به کسب درآمد ناشران کمک کنیم.»
آیا پرپلکسیتی میتواند جای سرچ گوگل را بگیرد؟
تکنولوژی هوش مصنوعی مولد قرار بود مدل جستجوی ما در اینترنت را متحول کند؛ یا دستکم این چیزی بود که از دو سال پیش با ظهور چتجیپیتی میشنیدیم و حالا هر غول فناوری درحال تبلیغ هوش مصنوعی خودش است؛ مایکروسافت با کوپایلت، گوگل با جمنای و اپل هم با اپل اینتلیجنس. اگرچه این تکنولوژی از پس انجام کارهایی بیشتر از جستجو در اینترنت برمیآید، پایین کشیدن سرچ گوگل از تخت سلطنت کماکان بزرگترین هدف هوش مصنوعی به نظر میرسد؛ حتی OpenAI، سازندهی ChatGPT هم گفته که درحال ساخت موتور جستجویی برای رقابت مستقیم با گوگل است.
اما براساس اطلاعات شرکت تحقیقاتی سئو Ahrefs، چتباتهای مبتنیبر مدل زبانی فقط در برخی موارد، مفیدتر از صفحهی نتایج گوگل ظاهر میشوند؛ اما در بیشتر موارد، هوش مصنوعی برای جایگزینشدن با گوگل، مسیر بسیار دشواری را در پیش دارد.
بهطور دقیقتر، هوش مصنوعی در نوع خاصی از سرچ که به آن جستجوهای اکتشافی میگویند، بهتر از گوگل عمل میکند؛ این مدل سوالها (مثلا «چرا اره برقی اختراع شد»)، پاسخ واحدی ندارند و درواقع شروع یک فرایند یادگیری هستند. درمورد جستجوی اطلاعات مدفون هم هوش مصنوعی عملکرد بهتری دارد؛ زیرا میتواند جواب سوال (مثلا، چطور بایوس کامپیوتر را آپدیت کنیم) را از زیر انبوهی از تبلیغات و کلیدواژههای سئویی بیرون بکشد و مستقیم به کاربر ارائه دهد.
اما کاربران فقط برای این مدل جستجو سراغ گوگل نمیروند و موتور جستجو هم برخلاف باور مدیرعامل پرپلکسیتی، صرفا صفحاتی از لینکهای آبی نیست؛ بلکه بیشتر شبیه سیستمعامل بسیار کوچکی است که نیاز کاربر را بهطور گستردهای برطرف میکند. بیشتر اوقات، نیاز ما از سرچ گوگل صرفا جستجوی وبسایت است. اگر قصد کاربر از سرزدن به موتورجستجو، پیدا کردن آدرس lastech باشد، گوگل و موتورهای سنتی بهتر از چتباتها این کار را انجام خواهند داد.
گوگل درحالحاضر زیر ذرهبین پروندهی سنگین ضدانحصار دولت آمریکا قرار دارد که ممکن است به تجزیهشدن این شرکت ۲۶ ساله منجر شود. اما حتی در این شرایط هم بهچالشکشیدن سلطهی گوگل، بینهایت دشوار و نیازمند نوآوریهای اساسی است. در رقابت نفسگیر بین جستجوی سنتی و جستجوی هوش مصنوعی، یا گوگل باید مدل کسبوکارش را با این فناوری بهینه کند یا شرکتهای هوش مصنوعی، چتبات بهتری از سرچ گوگل ارائه دهند. اینکه کدامیک زودتر به این راهحل میرسد قابل پیشبینی نیست.