قابلیت هوش مصنوعی گفتاری متن‌باز متا در شناسایی ۴ هزار زبان متخلف

مدل‌های گفتاری چندزبانه در مقایسه‌ با مدل‌های موجود، عملکرد بسیار خوبی دارند و تا ۱۰ برابر زبان‌های بیشتری را پوشش می‌دهند. به گزارش ایرانی متا، زومیت نوشت: مدل هوش مصنوعی جدید متا، مثل بسیاری از ... [ادامه مطلب]
با دوستان خود را به اشتراک بگذارید:
مدل‌های گفتاری چندزبانه در مقایسه‌ با مدل‌های موجود، عملکرد بسیار خوبی دارند و تا ۱۰ برابر زبان‌های بیشتری را پوشش می‌دهند.
به گزارش ایرانی متا، زومیت نوشت: مدل هوش مصنوعی جدید متا، مثل بسیاری از پروژه‌های مشابه امروزی، نسخه‌ی تغییریافته‌ای از ChatGPT نیست. پروژه‌ی گفتار چندزبانه (MMS) غول رسانه‌های اجتماعی می‌تواند بیش‌ از چهار هزار زبان را تشخیص و عملیات تبدیل متن به گفتار را به‌ بیش از ۱۱۰۰ زبان ارائه دهد.

متا پروژه‌ی MMS را مثل بسیاری از مدل‌های هوش مصنوعی قبلی خود به‌طور منبع‌باز ارائه می‌دهد تا به حفظ تنوع زبانی کمک و محققان را به استفاده از آن تشویق کند. این شرکت می‌گوید: «امروز ما مدل‌ها و کدهای خود را به‌طور عمومی به‌ اشتراک می‌گذاریم تا دیگران در جامعه‌ی تحقیقاتی بتوانند از آن‌ها براساس نیازشان استفاده کنند. امیدواریم با این اقدام، به حفظ‌ تنوع زبانی باورنکردنی جهان کمک کوچکی کرده باشیم.»

مدل‌های تبدیل متن به گفتار، معمولاً به آموزش با هزاران ساعت صدا به‌همراه برچسب‌های رونویسی نیاز دارند. برچسب‌ها برای یادگیری ماشینی بسیار اهمیت دارند و به الگوریتم‌ها اجازه می‌دهند داده‌ها را به‌درستی دسته‌بندی و درک کنند. البته چنین داده‌هایی برای زبان‌هایی که به‌طور گسترده در کشورهای صنعتی مورداستفاده قرار نمی‌گیرند، به‌سادگی دردسترس نیست.

متا از رویکردی غیرمتعارف برای جمع‌آوری داده‌های صوتی استفاده کرد؛ بهره‌گرفتن از صداهای ضبط‌شده از متون مذهبی. این شرکت گفت: «ما از تنوع متون مذهبی که به زبان‌های مختلف ترجمه شده‌اند، به‌طور گسترده برای ارائه‌ی ترجمه‌ی آن زبان‌ها، بهره گرفته‌ایم. این ترجمه‌ها نسخه‌‌های صوتی هم دارند و افراد آن‌ها را به زبان‌های مختلف مطالعه می‌کنند.» محققان متا با استفاده از صداهای ضبط‌شده از متون مذهبی، تعداد زبان‌های مدل هوش مصنوعی خود را به بیش‌ از چهار هزار عدد افزایش دادند.

شاید فکر کنید استفاده از متن‌های مذهبی باعث جهت‌گیری مدل هوش مصنوعی گفتاری متا شود اما براساس اعلام این شرکت، چنین اتفاقی رخ نخواهد داد. غول رسانه‌های اجتماعی جهان می‌گوید: «درحالی‌که محتوای صداهای ضبط‌شده براساس متن‌های مذهبی هستند، این مدل برای تولید زبان، تعصبی روی متن‌ها ندارد زیرا ما از روش طبقه‌بندی زمانی پیوندگرا (CTC) استفاده می‌کنیم.»

اگرچه بیشتر متن‌های مذهبی که متا از آن‌ها در مدل هوش مصنوعی جدیدش بهره گرفته، با صدای مردان ضبط شده‌اند، اما عملکرد این فناوری با صدای زنان دقیقاً شبیه نمونه‌ی صدای مردان است و از این نظر تفاوتی ندارد.

به‌ نوشته‌ی انگجت، متا پس‌ از آموزش مدل هوش مصنوعی گفتاری خود برای استفاده از داده‌های بیشتر، از wav2vec 2.0 بهره گرفت؛ مدل یادگیری گفتاری خودنظارتی این شرکت که می‌تواند روی داده‌های بدون برچسب، آموزش ببیند. ترکیب منابع داده‌های نامتعارف و مدل گفتاری خودنظارتی، نتایج چشم‌گیری به‌ دنبال داشت. مدل‌های گفتاری چندزبانه در مقایسه‌ با مدل‌های موجود، عملکرد بسیار خوبی دارند و تا ۱۰ برابر زبان‌های بیشتری را پوشش می‌دهند. به‌طور خاص، متا MMS را با Whisper شرکت OpenAI مقایسه کرد و عملکرد فناوری متا، فراتر از انتظار بود.

البته متا می‌گوید مدل‌های هوش مصنوعی جدیدش کاملاً بی‌نقص نیستند. این شرکت توضیح داد: «برای مثال این خطر وجود دارد که مدل گفتار به نوشتار ما، کلمات یا عبارت‌های انتخابی را به‌اشتباه تعبیر کند. با توجه به نوع خروجی، این مشکل می‌تواند به توهین یا ارائه‌ی متن نادرست منجر شود. ما اعتقاد داریم همکاری سرتاسری در جامعه‌ی هوش مصنوعی برای توسعه‌ی مسئولانه‌ی این فناوری‌ها حیاتی است.»

متا امیدوار است با متن‌باز کردن MMS به گسترش و بهبود این فناوری کمک کند و روزی را می‌بیند که افراد بتوانند در سرتاسر جهان هرچیز را به زبان مادری خود یاد بگیرند و با هر فرد دیگری با زبان خود صحبت کنند.

دیدگاهتان را بنویسید

 مقایسه کپی ترید در صرافی Toobit و XT : کدام انتخاب بهتری است؟ متا دیسکریپشن: کپی تریدینگ چیست و چگونه در Toobit به آسانی از...
با گسترش بازار ارزهای دیجیتال در سال ۲۰۲۵، فرصت‌های درآمدزایی برای تریدرها بیشتر شده، اما هم‌زمان ریسک کلاهبرداری‌های کریپتویی...
تبدیل عکس به فیلم با استفاده از هوش مصنوعی یکی از جالب‌ ترین و سریع‌ترین روندهای تکنولوژی خلاقانه در...
عید قربان، یکی از بزرگ‌ترین اعیاد اسلامی، همواره فرصت مناسبی برای اجرای کمپین‌های جذاب در دنیای کریپتو است. در همین...
در شهری که به نوآوری و میزبانی رویدادهای جهانی شهرت دارد، حمایت مالی توبیت از رویداد Crypto Fight Night (CFN) دبی 2025 در...
توبیت، ستاره ای نوظهور در دنیای معاملات ارزهای دیجیتال، به پیشروی در ارائه نوآوری های کاربرمحور و ابزارهای پیشرفته...
  این روزها، طراحی لوگو دیگر محدود به طراحان حرفه‌ای نیست. با ظهور ابزارهای هوش مصنوعی، هر کسی می‌تواند...
مقدمه: به دنیای نوین عکاسی دیجیتال با CashClick خوش آمدید! این پلتفرم انقلابی با ترکیب هنر عکاسی و فناوری...
هوش مصنوعی (AI) در حال نفوذ به تمام جنبه های زندگی ما است و آشپزخانه نیز از این قاعده...
برنامه «گپ جی پی تی (GapGPT)» با هدف دسترسی آسان‌تر کاربران ایرانی به هوش مصنوعی توسعه یافته است. شما...
در عصر تکنولوژی، هر روزه نرم افزارها و وبسایت‌های جدید قدم در عرصه رقابت می‌گذارند که زندگی را برای...
هوش مصنوعی به صورت فزاینده ای در عرصه های مختلف بیزینس و تجارت، رسانه های مختلف و همچنین وب...
متاورس، عنوانی است که در سال‌های اخیر بسیار شنیده می‌شود و اشاره به دنیایی مجازی دارد که در آن...
شهرداری تهران به منظور هماهنگی با تکنولوژی و همسویی با پنجره ملی خدمات دولت هوشمند یارانه در سال‌های گذشته...
میدجورنی یکی از پلتفرم‌های تولید تصاویر است که آثار هنری متنوعی را براساس دستورها و درخواست‌های کاربران خلق می‌کند....