صدای انسان یا هوش مصنوعی؟ چالش تمایز در عصر فناوری پیشرفته
صدای انسان یا هوش مصنوعی؟ چالش تمایز در عصر فناوری پیشرفته
میتوانید بگوید کدام صدا متعلق به انسان است؟
در یک آزمایش غیررسمی، حدود نیمی از شرکتکنندگان نمیتوانستند صداهای تولیدشده توسط انسان و هوش مصنوعی را تشخیص دهند. تشخیص، تنها با گوشدادن دشوار بود. نشانههای ظریف مانند صدای نفسگرفتن سریع، صدای انسان را نشان میدهد؛ در حالی که وزن، آهنگ و تونالیته به صدای هوشمصنوعی اشاره میکنند. برای کسی که برای تشخیص این تفاوتها آموزش ندیده، تشخیص گفتار انسان و هوش مصنوعی دشوار است؛ زیرا این نشانهها اغلب ظریف هستند.
انسانها بهطور کلی در تشخیص دیپفیک عملکردی ضعیف دارند؛ اما نرمافزارهای تخصصی میتوانند دراین زمینه کمککننده باشند. نمونههایی از ترکیب صداهای واقعی و جعلی ممکن است در کلاهبرداری استفاده شوند؛ مانند ویدیویی از بیل گیتس که محصولی جعلی را تبلیغ میکند. بهترین کار این است که مراقب محتوای مشکوک باشید و احتیاط را در نظر بگیرید.
بیشتر بخوانید
پیت نیکولتی، مدیر ارشد امنیت اطلاعات جهانی «چک پوینت»، شرکت محصولات امنیت رایانهای، در چالش «آلیس در سرزمین عجایب» بیبیسی دچار مشکل شد. او گفت:
ما در جامعهای زندگی میکنیم که کلونهای صوتی تولیدشده توسط هوش مصنوعی میتوانند حتی سیستمهای اعتبارسنجی صدای شرکتهای کارت اعتباری را فریب دهند
– پیت نیکولتی
نیکولتی میگوید معمولاً هنگام پخش صدا به الگوهای گفتاری غیرطبیعی مانند مکثهای نامنظم و جملهبندیهای نامناسب گوش میدهد. تحریفها و نویزهای پسزمینه نامناسب شناسایی را آسانتر میکند. او همچنین به تغییرات محدود در حجم، آهنگ و لحن گوش میدهد، زیرا صداهایی رباتی که تنها از چند ثانیه صحبت یک انسان شبیهسازی میشوند، ممکن است دامنهی کامل صدای انسان را نداشته باشند. نیکولتی تأکید میکند که شبیهسازیهای صوتی هوش مصنوعی حتی میتوانند سیستمهای اعتبارسنجی صدای شرکتهای کارت اعتباری را فریب دهند.
کارشناسان، گفتار تولیدشده توسط هوش مصنوعی را توسط تغییر تن صدا و تنفس، تاکید و لحن در گفتار تشخیص میدهند؛ زیرا انسانها از این صداها برای افزودن معنا و زمینه به جملات استفاده میکنند.
هرینگتون میگوید گوشدادن به پستیوبلندی صدا یا تاکید کلماتی که در جمله استفاده میشوند، میتواند ترفند خوبی برای تشخیص گفتار تولیدشده توسط کامپیوتر باشد، زیرا انسانها از تأکید برای معنیدادن بیشتر به یک جمله در متن سخن استفاده میکنند.
لحن یا تغییر زیروبم صدا در یک جمله، میتواند کلمات را طوری بیان کند که جملهی خبری به پرسش تغییر کند. جملهبندی نیز عامل مهمی است. نحوهی شکستن یک جمله نیز میتواند معنای آن را تغییر دهد.
تاکید، لحن و جملهبندی، نوای گفتار در سطح جمله هستند
تاکید، لحن و جملهبندی، این سه عنصر گفتار با هم، به عنوان نوای گفتار در سطح جمله شناخته میشوند. هرینگتون میگوید: «این یکی از راههایی است که گفتار تولیدشده توسط کامپیوتر بسیار ضعیف بوده و شبیه انسان نیست.» اما با پیشرفت فناوری، هوش مصنوعی در تکرار این جنبههای گفتار نیز مهارت بیشتری پیدا میکند.
کارشناسان امنیت سایبری و فناوری بهویژه نگران شبیهسازی صدا هستند که تهدیدی واقعی برای مشاغل است. به عنوان مثال، آساف راپوپورت، مدیر عامل Wiz، حادثهای را تعریف میکند که در آن کلاهبرداران یک شبیهساز صوتی از او ایجاد کردند تا پیام صوتی جعلی برای کارمندان بفرستند و بتوانند اعتبارنامهها را سرقت کنند. اگرچه تلاش کلاهبرداران ناموفق بود، به عنوان زنگ هشدار عمل کرد.
در موردی دیگر، مدیر مدرسهای پس از اینکه کلیپ صوتی جعلی نشان میداد اظهاراتی عمیقا توهینآمیز بیان میکند، تهدید به مرگ شد. در مورد دیگری، کلاهبرداران از اعضای خانوادهای از طریق تماسهای تلفنی با استفاده از شبیهسازی صوتی عزیزانشان پول دزدیدند.
کارشناسان توصیه میکنند که برای احراز هویت از روشهای جایگزین استفاده کنید. مثلاً در خانه، از گذرواژههای خانوادگی استفاده کنید و در محل کار قبل از هر اقدامی پیامهای صوتی را تأیید کنید. همچنین میتوانید سوالات شخصی مانند آهنگ مورد علاقهی فرد را بپرسید. اما بهترین کار این است که اگر به پیام مشکوکی برخوردید، بگویید با او (فرستندهی پیام) تماس میگیرید و سپس با شمارهای که از قبل دارید، تماس بگیرید.
بسیاری از سیستمهای صوتی هوش مصنوعی با صحبتکردن در طیف وسیعی از صداها و زیروبم مشکل دارند
تشخیصدادن صدای هوش مصنوعی و صدای انسان در دو کلیپ صوتی «آلیس در سرزمین عجایب» برای هرینگتون و همکارانش در موسسه آواشناسی دانشگاه مونیخ سخت بود. آنها خاطرنشان کردند که تغییرات در سرعت گفتار و میزان تنفس، که معمولاً ویژگیهای انسانی هستند، گاهیاوقات در صداهای هوش مصنوعی مشهودتر است.
بهداخلکشیدن هوا هنگام صحبت نیز یکیدیگر از نشانههای مشخص برای تشخیص گفتار است. در دو کلیپ صوتی نکتهی عجیبی راجعبه نحوهی نفسگیری بین صحبتها وجود داشت. هرینگتون و همکارانش همچنین گفتند متوجه شدهاند که تنفس در یکی از کلیپهای «آلیس در سرزمین عجایب» تقریباً بیشازحد دقیق و منظم است که بتواند متعلق به انسان باشد؛ اما معلوم شد که اشتباه کردهاند و نمونهی موردنظرشان صدای انسان است.
بهتکاپوافتادن متخصصان برای تمایز هوش مصنوعی از صدای انسان، قابلیتهای پیشرفته هوش مصنوعی در تقلید گفتار انسان را برجسته میکند. هرینگتون نسبت به توانایی هوش مصنوعی در اعمال صحیح نوای گفتار ابراز نگرانی کرد. هرینگتون میگوید بااینحال راه دیگری برای تشخیص صدای انسان از صدای هوش مصنوعی وجود دارد. او پیشنهاد میکند از چیزی به نام کاهش تکیهگذاری آوایی (Prosodic Deaccenting) استفاده کنید. مثال زیر را در نظر بگیرید:
سوال: آیا جان هنوز «دوران مشقت» را نخوانده است؟
پاسخ: جان از دیکنز خوشش نمیآید.
نکتهی کلیدی، تاکید بر کلمهی خوشش نمیآید است. این تأکید فقط در مورد احساسات جان نسبت به کتاب «دوران مشقت» نیست، بلکه بیشتر نسبت به چارلز دیکنز، نویسندهی کتاب است. هرینگتون میگوید: «ترکیب این نوع گفتوگوها با آوای طبیعی ممکن است هنوز برای بسیاری از سیستمهای هوش مصنوعی سخت باشد، زیرا به دانشی از جهان نیاز دارد که فراتر از کلمات چاپشده در صفحه است.» مدلهای زبانی بزرگ حتی ممکن است استفاده از جنبههای آوایی صحیح را نیز به زودی توسط مجموعه دادههای بزرگی از اینترنت یاد بگیرند، زیرا خود را برای صحبت انسانیتر آموزش میدهد.
بیشتر بخوانید
سرویسهای اصلی گفتار آوایی هوش مصنوعی مانند عملکرد صوتی چتجیپیتی درحالحاضر نیز توانایی دارند بخندند، زمزمه کنند، حرفشان توسط شما قطع شود و سپس به آنچه میگفتند ادامه دهند. ChatGPT همچنین میتواند هر آنچه را که تا به حال به آن گفتهاید به خاطر بسپارد.
OpenAI، توسعهدهندهی چتجیپیتی میگوید هیچ تدابیر امنیتیای برای اطمینان از اینکه هوش مصنوعی در طول مکالمات نشان دهد که انسان نیست، وجود ندارد. OpenAI همچنین قصد ندارد یک «واترمارک» برای شناسایی محتوای تولیدشدهی توسط هوش مصنوعی اضافه کند. توسعهدهندگان توضیح دادند که این تصمیم بدین دلیل است که نشاندادن هوش مصنوعی بودن چتجیپیتی ممکن است بهطور غیرمنصفانه بر کاربران خاصی تأثیر بگذارد؛ مانند افرادی که دارای اختلالات گفتاری هستند و از چتجیپیتی برای برقراری ارتباط استفاده میکنند یا دانشآموزانی که برای دریافت کمک در نوشتن تکالیفشان از این چتبات استفاده میکنند. بااینحال، OpenAI میگوید فعالانه تلاش میکند تا شبیهسازی صدا را با رونمایی از ویژگیهای پیشرفته چتجیپیتی مسدود کند.
جکی شانون، سرپرست چندوجهی محصول ChatGPT، به بیبیسی گفت: «ما تلاش میکنیم تا صدای مصنوعیمان را از کپیکردن صدای افراد واقعی منع کنیم. به ویژه برای ادونسد ویس، ما فقط به مدل اجازه میدهیم از صداهای ازپیشتعیینشده استفاده کند.» صداهای چتجیپیتی شامل دو صدای انگلیسی و هفت صدای آمریکایی و دو جنسیت است.
چند ترفند دیگر وجود دارد که اگر شک دارید که صدایی که در حال مکالمه با آن هستید ممکن است صدای انسان نباشد، میتوانید آنها را امتحان کنید. برای مثال میتوانید از آن بخواهید که فریاد بزند. نیکولتی گفت بسیاری از سیستمهای صوتی هوش مصنوعی برای صحبتکردن خارج از محدودهی صوتیِ معمولی مشکل دارند، مگر اینکه بهطور خاص آموزش دیده باشند. او گفت از چتجیپیتی خواسته که فریاد بزند و جواب گرفته که نمیتواند این کار را انجام دهد.
هوش مصنوعی هنوز نمیتواند فریاد بزند
گرنان میگوید ایرادات موجود در گفتار انسان میتواند یکیدیگر از نقاط ضعف هوش مصنوعی برای تقلید باشد. اصلاح خود و تجدیدنظرکردن یا تغییردادن گفتار یا افکار، کاری بسیار انسانی است. بعید به نظر میرسد که چتجیپیتی بگوید: «اوه اصلا مهم نیست!» یا «فراموشش کن.»
همچنین اقداماتی وجود دارد تا نرمافزار تشخیص دیپفیک راحتتر در دسترس مصرفکنندگان قرار گیرد. برای مثال، مکآفی با شرکتهای دل، اچپی، لنوو، سامسونگ، ایسر و ایسوس همکاری کرده است تا راهحل تشخیصیشان روی کامپیوترهای شخصی مجهز به هوشمصنوعی، ازقبلنصبشده باشد. به گفتهی گروبمن، این شرکت در آیندهی نزدیک نرمافزار تشخیصی را برای دستگاههای موبایل نیز عرضه میکنند.
الونلبز، سازندهی ابزاری که برای ساخت کلیپ تقلید صوتی هوش مصنوعی در چالش «آلیس در سرزمین عجایب» استفاده شد همچنین ابزار تشخیص هوش مصنوعی رایگانی ارائه داده است تا به مردم کمک کند تشخیص دهند که آیا از نرمافزارش برای ایجاد قطعه صدایی استفاده شده است یا خیر.
اما در نبرد مداوم بین ساخت محتوای هوش مصنوعی و تمایز از آن محتوای انسانی، ممکن است چیزی را که در زندگی دیجیتالی خود از دست دادهایم دوباره کشف کنیم و آن تعامل فیزیکی است. شاید پاسخ برای فهمیدن اینکه آیا با یک انسان صحبت میکنید ساده باشد: زمان بیشتری را صرف ملاقات حضوری کنید.
جواب برای آن دسته از خوانندگانی که تا آخر مقاله به خواندن ادامه دادند و هنوز در مورد اینکه کدام یک از کلیپهای صوتی واقعی بود شک دارند، این است که اولین کلیپ، هوش مصنوعی بود؛ در حالی که کلیپ دوم صدای انسان بود. آیا توانستید درست حدس بزنید؟