صدای انسان یا هوش مصنوعی؟ چالش تمایز در عصر فناوری پیشرفته

می‌توانید بگوید کدام صدا متعلق به انسان است؟

در یک آزمایش غیررسمی، حدود نیمی از شرکت‌کنندگان نمی‌توانستند صداهای تولید‌شده توسط انسان و هوش مصنوعی را تشخیص دهند. تشخیص، تنها با گوش‌دادن دشوار بود. نشانه‌های ظریف مانند صدای نفس‌گرفتن سریع، صدای انسان را نشان می‌دهد؛ در حالی که وزن، آهنگ و تونالیته به صدای هوش‌مصنوعی اشاره می‌کنند. برای کسی که برای تشخیص این تفاوت‌ها آموزش ندیده، تشخیص گفتار انسان و هوش مصنوعی دشوار است؛ زیرا این نشانه‌ها اغلب ظریف هستند.

انسان‌ها به‌طور کلی در تشخیص دیپ‌فیک عملکردی ضعیف دارند؛ اما نرم‌افزارهای تخصصی می‌توانند دراین زمینه کمک‌کننده باشند. نمونه‌هایی از ترکیب صداهای واقعی و جعلی ممکن است در کلاهبرداری استفاده شوند؛ مانند ویدیویی از بیل گیتس که محصولی جعلی را تبلیغ می‌کند. بهترین کار این است که مراقب محتوای مشکوک باشید و احتیاط را در نظر بگیرید.

بیشتر بخوانید

پیت نیکولتی، مدیر ارشد امنیت اطلاعات جهانی «چک پوینت»، شرکت محصولات امنیت رایانه‌ای، در چالش «آلیس در سرزمین عجایب» بی‌بی‌سی دچار مشکل شد. او گفت:

ما در جامعه‌ای زندگی می‌کنیم که کلون‌های صوتی تولید‌شده توسط هوش مصنوعی می‌توانند حتی سیستم‌های اعتبارسنجی صدای شرکت‌های کارت اعتباری را فریب دهند

– پیت نیکولتی

نیکولتی می‌گوید معمولاً هنگام پخش صدا به الگوهای گفتاری غیرطبیعی مانند مکث‌های نامنظم و جمله‌بندی‌های نامناسب گوش می‌دهد. تحریف‌ها و نویزهای پس‌زمینه نامناسب شناسایی را آسان‌تر می‌کند. او همچنین به تغییرات محدود در حجم، آهنگ و لحن گوش می‌دهد، زیرا صداهایی رباتی که تنها از چند ثانیه صحبت یک انسان شبیه‌سازی می‌شوند، ممکن است دامنه‌ی کامل صدای انسان را نداشته باشند. نیکولتی تأکید می‌کند که شبیه‌سازی‌های صوتی هوش مصنوعی حتی می‌توانند سیستم‌های اعتبارسنجی صدای شرکت‌های کارت اعتباری را فریب دهند.

کارشناسان، گفتار تولید‌شده توسط هوش مصنوعی را توسط تغییر تن صدا و تنفس، تاکید و لحن در گفتار تشخیص می‌دهند؛ زیرا انسان‌ها از این صداها برای افزودن معنا و زمینه به جملات استفاده می‌کنند.

هرینگتون می‌گوید گوش‌دادن به پستی‌وبلندی صدا یا تاکید کلماتی که در جمله استفاده می‌شوند، می‌تواند ترفند خوبی برای تشخیص گفتار تولید‌شده توسط کامپیوتر باشد، زیرا انسان‌ها از تأکید برای معنی‌دادن بیشتر به یک جمله در متن سخن استفاده می‌کنند.

لحن یا تغییر زیر‌و‌بم صدا در یک جمله، می‌تواند کلمات را طوری بیان کند که جمله‌ی خبری به پرسش تغییر کند. جمله‌بندی نیز عامل مهمی است. نحوه‌ی شکستن یک جمله نیز می‌تواند معنای آن را تغییر دهد.

تاکید، لحن و جمله‌بندی، نوای گفتار در سطح جمله هستند

تاکید، لحن و جمله‌بندی، این سه عنصر گفتار با هم، به عنوان نوای گفتار در سطح جمله شناخته می‌شوند. هرینگتون می‌گوید: «این یکی از راه‌هایی است که گفتار تولید‌شده توسط کامپیوتر بسیار ضعیف بوده و شبیه انسان نیست.» اما با پیشرفت فناوری، هوش مصنوعی در تکرار این جنبه‌های گفتار نیز مهارت بیشتری پیدا می‌کند.

کارشناسان امنیت سایبری و فناوری به‌ویژه نگران شبیه‌سازی صدا هستند که تهدیدی واقعی برای مشاغل است. به عنوان مثال، آساف راپوپورت، مدیر عامل Wiz، حادثه‌ای را تعریف می‌کند که در آن کلاهبرداران یک شبیه‌ساز صوتی از او ایجاد کردند تا پیام صوتی جعلی برای کارمندان بفرستند و بتوانند اعتبارنامه‌ها را سرقت کنند. اگرچه تلاش کلاهبرداران ناموفق بود، به عنوان زنگ هشدار عمل کرد.

در موردی دیگر، مدیر مدرسه‌ای پس از اینکه کلیپ صوتی جعلی نشان می‌داد اظهاراتی عمیقا توهین‌آمیز بیان می‌کند، تهدید به مرگ شد. در مورد دیگری، کلاهبرداران از اعضای خانواده‌ای از طریق تماس‌های تلفنی با استفاده از شبیه‌سازی صوتی عزیزانشان پول دزدیدند.

کارشناسان توصیه می‌کنند که برای احراز هویت از روش‌های جایگزین استفاده کنید. مثلاً در خانه، از گذرواژه‌های خانوادگی استفاده کنید و در محل کار قبل از هر اقدامی پیام‌های صوتی را تأیید کنید. همچنین می‌توانید سوالات شخصی مانند آهنگ مورد علاقه‌ی فرد را بپرسید. اما بهترین کار این است که اگر به پیام مشکوکی برخوردید، بگویید با او (فرستنده‌ی پیام) تماس می‌گیرید و سپس با شماره‌ای که از قبل دارید، تماس بگیرید.

بسیاری از سیستم‌های صوتی هوش مصنوعی با صحبت‌کردن در طیف وسیعی از صداها و زیر‌و‌بم مشکل دارند

تشخیص‌دادن صدای هوش مصنوعی و صدای انسان در دو کلیپ‌ صوتی «آلیس در سرزمین عجایب» برای هرینگتون و همکارانش در موسسه آواشناسی دانشگاه مونیخ سخت بود. آن‌ها خاطرنشان کردند که تغییرات در سرعت گفتار و میزان تنفس، که معمولاً ویژگی‌های انسانی هستند، گاهی‌اوقات در صداهای هوش مصنوعی مشهودتر است.

به‌داخل‌کشیدن هوا هنگام صحبت نیز یکی‌دیگر از نشانه‌های مشخص برای تشخیص گفتار است. در دو کلیپ صوتی نکته‌ی عجیبی راجع‌به نحوه‌ی نفس‌گیری بین صحبت‌ها وجود داشت. هرینگتون و همکارانش همچنین گفتند متوجه شده‌اند که تنفس در یکی از کلیپ‌های «آلیس در سرزمین عجایب» تقریباً بیش‌از‌حد دقیق و منظم است که بتواند متعلق به انسان باشد؛ اما معلوم شد که اشتباه کرده‌اند و نمونه‌ی موردنظرشان صدای انسان است.

به‌تکاپو‌افتادن متخصصان برای تمایز هوش مصنوعی از صدای انسان، قابلیت‌های پیشرفته هوش مصنوعی در تقلید گفتار انسان را برجسته می‌کند. هرینگتون نسبت به توانایی هوش مصنوعی در اعمال صحیح نوای گفتار ابراز نگرانی کرد. هرینگتون می‌گوید با‌این‌حال راه دیگری برای تشخیص صدای انسان از صدای هوش مصنوعی وجود دارد. او پیشنهاد می‌کند از چیزی به نام کاهش تکیه‌گذاری آوایی (Prosodic Deaccenting) استفاده کنید. مثال زیر را در نظر بگیرید:

سوال: آیا جان هنوز «دوران مشقت» را نخوانده است؟

پاسخ: جان از دیکنز خوشش نمی‌آید.

نکته‌ی کلیدی، تاکید بر کلمه‌ی خوشش نمی‌آید است. این تأکید فقط در مورد احساسات جان نسبت به کتاب «دوران مشقت» نیست، بلکه بیشتر نسبت به چارلز دیکنز، نویسنده‌ی کتاب است. هرینگتون می‌گوید: «ترکیب این نوع گفت‌وگوها با آوای طبیعی ممکن است هنوز برای بسیاری از سیستم‌های هوش مصنوعی سخت باشد، زیرا به دانشی از جهان نیاز دارد که فراتر از کلمات چاپ‌شده در صفحه است.» مدل‌های زبانی بزرگ حتی ممکن است استفاده از جنبه‌های آوایی صحیح را نیز به زودی توسط مجموعه داده‌های بزرگی از اینترنت یاد بگیرند، زیرا خود را برای صحبت انسانی‌تر آموزش می‌دهد.

بیشتر بخوانید

سرویس‌های اصلی گفتار آوایی هوش مصنوعی مانند عملکرد صوتی چت‌جی‌پی‌تی در‌حال‌حاضر نیز توانایی دارند بخندند، زمزمه کنند، حرفشان توسط شما قطع شود و سپس به آنچه می‌گفتند ادامه دهند. ChatGPT همچنین می‌تواند هر آنچه را که تا به حال به آن گفته‌اید به خاطر بسپارد.

OpenAI، توسعه‌دهنده‌ی چت‌جی‌پی‌تی می‌گوید هیچ تدابیر امنیتی‌ای برای اطمینان از اینکه هوش مصنوعی در طول مکالمات نشان دهد که انسان نیست، وجود ندارد. OpenAI همچنین قصد ندارد یک «واترمارک» برای شناسایی محتوای تولید‌شده‌ی توسط هوش مصنوعی اضافه کند. توسعه‌دهندگان توضیح دادند که این تصمیم بدین دلیل است که نشان‌دادن هوش مصنوعی بودن چت‌جی‌پی‌تی ممکن است به‌طور غیرمنصفانه بر کاربران خاصی تأثیر بگذارد؛ مانند افرادی که دارای اختلالات گفتاری هستند و از چت‌جی‌پی‌تی برای برقراری ارتباط استفاده می‌کنند یا دانش‌آموزانی که برای دریافت کمک در نوشتن تکالیفشان از این چت‌بات استفاده می‌کنند. با‌این‌حال، OpenAI می‌گوید فعالانه تلاش می‌کند تا شبیه‌سازی صدا را با رونمایی از ویژگی‌های پیشرفته چت‌جی‌پی‌تی مسدود کند.

جکی شانون، سرپرست چندوجهی محصول ChatGPT، به بی‌بی‌سی گفت: «ما تلاش می‌کنیم تا صدای مصنوعی‌مان را از کپی‌کردن صدای افراد واقعی منع کنیم. به ویژه برای ادونسد ویس، ما فقط به مدل اجازه می‌دهیم از صداهای از‌پیش‌تعیین‌شده استفاده کند.» صداهای چت‌جی‌پی‌تی شامل دو صدای انگلیسی و هفت صدای آمریکایی و دو جنسیت است.

چند ترفند دیگر وجود دارد که اگر شک دارید که صدایی که در حال مکالمه با آن هستید ممکن است صدای انسان نباشد، می‌توانید آن‌ها را امتحان کنید. برای مثال می‌توانید از آن بخواهید که فریاد بزند. نیکولتی گفت بسیاری از سیستم‌های صوتی هوش مصنوعی برای صحبت‌کردن خارج از محدوده‌ی صوتیِ معمولی مشکل دارند، مگر اینکه به‌طور خاص آموزش دیده باشند. او گفت از چت‌جی‌پی‌تی خواسته که فریاد بزند و جواب گرفته که نمی‌تواند این کار را انجام دهد.

هوش مصنوعی هنوز نمی‌تواند فریاد بزند

گرنان می‌گوید ایرادات موجود در گفتار انسان می‌تواند یکی‌دیگر از نقاط ضعف هوش مصنوعی برای تقلید باشد. اصلاح خود و تجدید‌نظر‌کردن یا تغییر‌دادن گفتار یا افکار، کاری بسیار انسانی است. بعید به نظر می‌رسد که چت‌جی‌پی‌تی بگوید: «اوه اصلا مهم نیست!» یا «فراموشش کن.»

همچنین اقداماتی وجود دارد تا نرم‌افزار تشخیص دیپ‌فیک راحت‌تر در دسترس مصرف‌کنندگان قرار گیرد. برای مثال، مک‌آفی با شرکت‌های دل، اچ‌پی، لنوو، سامسونگ، ایسر و ایسوس همکاری کرده است تا راه‌حل تشخیصی‌شان روی کامپیوترهای شخصی مجهز به هوش‌مصنوعی، از‌قبل‌نصب‌شده باشد. به گفته‌ی گروبمن، این شرکت در آینده‌ی نزدیک نرم‌افزار تشخیصی را برای دستگاه‌های موبایل نیز عرضه می‌کنند.

الون‌لبز، سازنده‌ی ابزاری که برای ساخت کلیپ تقلید صوتی هوش مصنوعی در چالش «آلیس در سرزمین عجایب» استفاده شد همچنین ابزار تشخیص هوش مصنوعی رایگانی ارائه داده است تا به مردم کمک کند تشخیص دهند که آیا از نرم‌افزارش برای ایجاد قطعه صدایی استفاده شده است یا خیر.

اما در نبرد مداوم بین ساخت محتوای هوش مصنوعی و تمایز از آن محتوای انسانی، ممکن است چیزی را که در زندگی دیجیتالی خود از دست داده‌ایم دوباره کشف کنیم و آن تعامل فیزیکی است. شاید پاسخ برای فهمیدن اینکه آیا با یک انسان صحبت می‌کنید ساده باشد: زمان بیشتری را صرف ملاقات حضوری کنید.

جواب برای آن دسته از خوانندگانی که تا آخر مقاله به خواندن ادامه دادند و هنوز در مورد اینکه کدام یک از کلیپ‌های صوتی واقعی بود شک دارند، این است که اولین کلیپ، هوش مصنوعی بود؛ در حالی که کلیپ دوم صدای انسان بود. آیا توانستید درست حدس بزنید؟

حتما بخوانید : اسپیکر نمایشگردار اپل تأخیر خورد؟