هوش مصنوعی جدید گوگل با توانایی ساخت متن، تصویر و صدا معرفی شد

گوگل هوش مصنوعی Gemini 2.0 Flash را رسماً معرفی کرد تا OpenAI رقیب قدرتمندی پیش‌ روی خود داشته باشد.

گوگل می‌گوید که Gemini 2.0 Flash افزون‌بر متن، می‌تواند به‌صورت بومی تصویر و صدا تولید و از اپلیکیشن‌ها و خدمات متفرقه استفاده کند. بدین‌ترتیب مدل جدید جمنای می‌تواند به جست‌وجوی گوگل دسترسی داشته باشد و کد اجرا کند و کارهایی انجام دهد که تا پیش‌‌از این، ممکن نبود.

به‌نوشته‌ی تک‌کرانچ، نسخه‌ی آزمایشی 2.0 Flash از امروز از‌طریق API Gemini و پلتفرم‌های توسعه‌دهنده‌ی هوش مصنوعی گوگل و AI Studio و Vertex AI در دسترس خواهد بود. با‌این‌حال، قابلیت‌های تولید صدا و تصویر تنها برای «شرکای اولیه» پیش‌از انتشار گسترده در ژانویه (دی و بهمن) در دسترس قرار می‌گیرد.

گوگل می‌گوید که در ماه‌های آینده، 2.0 Flash را برای طیف وسیعی از محصولات مانند Android Studio و Chrome DevTools و Firebase و Gemini Code Assist و سایر محصولات منتشر خواهد کرد.

نسل اول هوش مصنوعی جمنای Flash، یعنی 1.5 Flash، فقط می‌توانست متن تولید کند و برای کارهای پیچیده‌تر طراحی نشده بود. گوگل می‌گوید که مدل جدیدش «همه‌کاره‌تر» است؛ زیرا می‌تواند ابزارهایی مانند جست‌وجو را فراخوانی کند و با API‌‌های خارجی تعامل داشته باشد.

تولسی دوشی، رئیس محصول مدل جمنای در گوگل می‌گوید: «می‌دانیم که Flash به‌دلیل تعادل بین سرعت و عملکرد، در بین توسعه‌دهندگان بسیار محبوبیت دارد؛ اما اکنون قدرتمندتر شده است.»

گوگل ادعا می‌کند 2.0 Flash که طبق آزمایش‌های خود گوگل دو برابر سریع‌تر از مدل Gemini 1.5 Pro است، در زمینه‌هایی مانند کدنویسی و تجزیه‌و‌تحلیل تصویر بهبود چشمگیری یافته است. در واقع، به‌ادعای گوگل 2.0 Flash به‌دلیل مهارت‌های ریاضی برتر و «واقع‌گرایی» خود، جایگزین 1.5 Pro به‌عنوان مدل اصلی جمنای می‌شود.

تولید صدا یکی دیگر از ویژگی‌های اصلی 2.0 Flash است و دوشی آن را «قابل هدایت و سفارشی‌سازی» توصیف می‌کند. به‌عنوان مثال، این مدل می‌تواند متن را با استفاده از یکی از هشت صدای «بهینه‌شده» برای لهجه‌ها و زبان‌های مختلف روایت کند. دوشی می‌گوید: «می‌توانید از آن بخواهید که کُندتر یا سریع‌تر صحبت کند یا حتی می‌توانید از آن بخواهید که با لحنی شبیه یک دزد دریایی صحبت کند.»

گوگل نمونه‌‌های تصویر یا صدا از 2.0 Flash ارائه نکرده است و فعلاً راهی برای دانستن کیفیت آن در مقایسه با خروجی‌های مدل‌های دیگر وجود ندارد.

گوگل می‌گوید از فناوری SynthID برای واترمارک‌کردن تمام صدا و تصاویری که با 2.0 Flash تولید می‌شوند، استفاده می‌کند. در نرم‌افزارها و پلتفرم‌هایی که از SynthID پشتیبانی می‌کنند، خروجی‌های مدل علامت‌گذاری خواهند شد.

مقاله‌های مرتبط

نسخه‌ی نهایی 2.0 Flash دی و بهمن امسال منتشر خواهد شد. در همین‌ حال، گوگل در حال انتشار API Multimodal Live API است تا به توسعه‌دهندگان در ساخت اپلیکیشن‌هایی با قابلیت پخش زنده‌ی صدا و ویدئو به‌صورت لحظه‌ای کمک کند.

گوگل می‌گوید که توسعه‌دهندگان می‌توانند با استفاده از API Multimodal Live، اپلیکیشن‌هایی چندوجهی به‌صورت لحظه‌ای با ورودی‌های صوتی و تصویری از دوربین‌ها یا صفحه‌نمایش ایجاد کنند. این API از ادغام ابزارها برای انجام کارها پشتیبانی می‌کند و می‌تواند «الگوهای گفت‌وگوی طبیعی» مانند وقفه‌ها را مدیریت کند؛ مشابه API Realtime OpenAI.

حتما بخوانید : هشدار سازمان ملل: سه‌چهارم از سطح زمین در معرض خشکی شدید قرار دارد