هوش مصنوعی جدید گوگل با توانایی ساخت متن، تصویر و صدا معرفی شد
هوش مصنوعی جدید گوگل با توانایی ساخت متن، تصویر و صدا معرفی شد
گوگل هوش مصنوعی Gemini 2.0 Flash را رسماً معرفی کرد تا OpenAI رقیب قدرتمندی پیش روی خود داشته باشد.
گوگل میگوید که Gemini 2.0 Flash افزونبر متن، میتواند بهصورت بومی تصویر و صدا تولید و از اپلیکیشنها و خدمات متفرقه استفاده کند. بدینترتیب مدل جدید جمنای میتواند به جستوجوی گوگل دسترسی داشته باشد و کد اجرا کند و کارهایی انجام دهد که تا پیشاز این، ممکن نبود.
بهنوشتهی تککرانچ، نسخهی آزمایشی 2.0 Flash از امروز ازطریق API Gemini و پلتفرمهای توسعهدهندهی هوش مصنوعی گوگل و AI Studio و Vertex AI در دسترس خواهد بود. بااینحال، قابلیتهای تولید صدا و تصویر تنها برای «شرکای اولیه» پیشاز انتشار گسترده در ژانویه (دی و بهمن) در دسترس قرار میگیرد.
گوگل میگوید که در ماههای آینده، 2.0 Flash را برای طیف وسیعی از محصولات مانند Android Studio و Chrome DevTools و Firebase و Gemini Code Assist و سایر محصولات منتشر خواهد کرد.
نسل اول هوش مصنوعی جمنای Flash، یعنی 1.5 Flash، فقط میتوانست متن تولید کند و برای کارهای پیچیدهتر طراحی نشده بود. گوگل میگوید که مدل جدیدش «همهکارهتر» است؛ زیرا میتواند ابزارهایی مانند جستوجو را فراخوانی کند و با APIهای خارجی تعامل داشته باشد.
تولسی دوشی، رئیس محصول مدل جمنای در گوگل میگوید: «میدانیم که Flash بهدلیل تعادل بین سرعت و عملکرد، در بین توسعهدهندگان بسیار محبوبیت دارد؛ اما اکنون قدرتمندتر شده است.»
گوگل ادعا میکند 2.0 Flash که طبق آزمایشهای خود گوگل دو برابر سریعتر از مدل Gemini 1.5 Pro است، در زمینههایی مانند کدنویسی و تجزیهوتحلیل تصویر بهبود چشمگیری یافته است. در واقع، بهادعای گوگل 2.0 Flash بهدلیل مهارتهای ریاضی برتر و «واقعگرایی» خود، جایگزین 1.5 Pro بهعنوان مدل اصلی جمنای میشود.
تولید صدا یکی دیگر از ویژگیهای اصلی 2.0 Flash است و دوشی آن را «قابل هدایت و سفارشیسازی» توصیف میکند. بهعنوان مثال، این مدل میتواند متن را با استفاده از یکی از هشت صدای «بهینهشده» برای لهجهها و زبانهای مختلف روایت کند. دوشی میگوید: «میتوانید از آن بخواهید که کُندتر یا سریعتر صحبت کند یا حتی میتوانید از آن بخواهید که با لحنی شبیه یک دزد دریایی صحبت کند.»
گوگل نمونههای تصویر یا صدا از 2.0 Flash ارائه نکرده است و فعلاً راهی برای دانستن کیفیت آن در مقایسه با خروجیهای مدلهای دیگر وجود ندارد.
گوگل میگوید از فناوری SynthID برای واترمارککردن تمام صدا و تصاویری که با 2.0 Flash تولید میشوند، استفاده میکند. در نرمافزارها و پلتفرمهایی که از SynthID پشتیبانی میکنند، خروجیهای مدل علامتگذاری خواهند شد.
مقالههای مرتبط
نسخهی نهایی 2.0 Flash دی و بهمن امسال منتشر خواهد شد. در همین حال، گوگل در حال انتشار API Multimodal Live API است تا به توسعهدهندگان در ساخت اپلیکیشنهایی با قابلیت پخش زندهی صدا و ویدئو بهصورت لحظهای کمک کند.
گوگل میگوید که توسعهدهندگان میتوانند با استفاده از API Multimodal Live، اپلیکیشنهایی چندوجهی بهصورت لحظهای با ورودیهای صوتی و تصویری از دوربینها یا صفحهنمایش ایجاد کنند. این API از ادغام ابزارها برای انجام کارها پشتیبانی میکند و میتواند «الگوهای گفتوگوی طبیعی» مانند وقفهها را مدیریت کند؛ مشابه API Realtime OpenAI.