هوش مصنوعی و کتاب صوتی؛ منتظر حذف صداپیشگان باشیم؟

24 اسفند 1401

هوش مصنوعی و کتاب صوتی؛ منتظر حذف صداپیشگان باشیم؟

معده ها صدا می کنند. صدای حرکت عضلات در دستگاه گوارش صدا تولید می‌کند. هر حرکتی صدا تولید می‌کند و یک میکروفون کافی است تا این صداها ضبط شوند. این درحالی است که صداپیشگان و ... [ادامه مطلب]

با دوستان خود را به اشتراک بگذارید:

معده ها صدا می کنند. صدای حرکت عضلات در دستگاه گوارش صدا تولید می‌کند. هر حرکتی صدا تولید می‌کند و یک میکروفون کافی است تا این صداها ضبط شوند. این درحالی است که صداپیشگان و در واقع صداهای تولید شده هوش مصنوعی نباید نگران صداهای عجیب گوارشی باشند.

در طرف مقابل اما لی آلرز و کریگ هینکل ربات نیستند. آن‌ها انسان‌هایی هستند که در اواسط ژانویه برای تولید کتاب‌های صوتی خود نگران صدای اضافه معده هستند و روی این بحث می‌کنند که روی کلمه «افزایش» کجا و چگونه تأکید شود تا کتابی در حوزه ارتباط زوج‌ها بهتر صدا گذاری شود.

استودیوی NAP در The Rukkus Room در نشویل، تنسی است، همان جایی که تیلور سویفت اولین آلبوم خود را ضبط کرد. بوی قهوه در اتاق انتظار می پیچد. هینکل با هر کلمه‌ای که از دهان آلرز بیرون می‌آید خود را تنظیم می‌کند. از آی‌پد حاوی متن کتاب گرفته تا مانیتور بزرگی که روی صفحه صدا در استودیو نشسته است.

آلرز قبل از شروع مجدد بخشی از یک فصل به هینکل می گوید: می خواهم در این سؤالات احساسات بیشتری داشته باشم.

کتاب های صوتی این روزها رونق دارند. بر اساس تحقیقات Acumen، انتظار می‌رود حجم این بازار تا سال 2030 به 33. 5 میلیارد دلار برسد که بسیار از4. 2 میلیارد دلار در سال 2021 بیشتر است. چه این مسئله حاصل افزایش محبوبیت پادکست‌ها باشد، چه حاصل راحتی گوش دادن چه هر چیز دیگری، شرکت‌ها فناوری با نگاه به این حوزه دنبال نقش آفرین هوش مصنوعی هستند.

در سال 2023، شور و شوق در مورد پتانسیل هوش مصنوعی بالا است، اما نگرانی در مورد از دست رفتن شغل‌های خلاق نیز زیاد است. ChatGPT می تواند هر چیزی از نامه های پیش مجوز بیمه گرفته تا بایوس برنامه دوستیابی را با درجات مختلف موفقیت بنویسد. پلتفرم‌های هوش مصنوعی مانند Lensa AI و OpenAI’s Dall-E هنر تولید شده توسط هوش مصنوعی را به تصویر می‌کشند و بسیاری از کسانی که با خلق هنر دیجیتال درآمد کسب می‌کنند را به نگرانی انداخته‌اند.

بیشتر بخوانید رمزگشایی استراتژی متاورس دبی

شرکت های فناوری از جمله اپل و گوگل مدتی است که روی روایت کتاب های صوتی توسط هوش مصنوعی کار می کنند. در سال 2022 گوگل خدمات خود را برای ناشران در شش کشور از جمله ایالات متحده و کانادا عرضه کرد. راویان یا دوبلورهای هوش مصنوعی گوگل نام هایی مانند آرچی که انگلیسی به نظر می رسد و سانتیاگو که اسپانیایی صحبت می کند دارند. در اوایل ژانویه، اپل مجموعه‌ای از صداهای هوش مصنوعی را با نام‌هایی مانند مدیسون و جکسون معرفی کرد که نویسندگان و ناشران مستقلی که کتاب‌های خود را در Apple Books می‌فروشند، می‌توانند برای خواندن کتاب‌های خود از آن‌ها استفاده کنند.

حضور روزافزون هوش مصنوعی در حوزه خواند روایت کتاب های صوتی، راویانی مانند تانیا ابی کمی مضطرب کرده است.

ابی، راوی ساکن گرند راپیدز، میشیگان که بیش از 1000 کتاب در 21 سال گذشته ضبط کرده است، می‌گوید: «نمی‌دانم تا پنج سال دیگر این شغل تمام وقت من خواهد بود یا خیر.»

راویانی مانند ابی می گویند که انسانیت آنها دقیقاً همان چیزی است که به آنها کمک می کند کارهایشان را انجام دهند. به خصوص در داستان‌های تخیلی، راوی‌ها درباره همه چیز از صدای یک شخصیت گرفته تا نحوه برقراری ارتباط تفاوت‌های ظریف و احساسات تصمیم‌گیر هستند.

کاتلین لی، راوی اهل آستین، تگزاس، می‌گوید: اگر شخصیتی پس از مرگ پدرش گریه می‌کند، باید این اشک‌ها و نفس‌ها را در گفتارش بیان کنم.

مسئله پول است

واقعیت این است که برای ناشران و نویسندگان کوچک، زمان و پول می تواند قدرت بیشتری نسبت به تقدس یک اجرای خلاقانه داشته باشد. کتاب های صوتی برای انتشارات دانشگاه میشیگان درآمد چندانی ندارند، ناشری که سالانه حدود 100 کتاب دانشگاهی را منتشر می کند.

بیشتر بخوانید لیست قاتلان اتریوم؛ کدام پروژه‌ها می‌توانند اتریوم را شکست دهند؟

استخدام یک راوی برای کتابی که ممکن است تنها چند صد دلار به دست بیاورد، می تواند 6000 دلار هزینه داشته باشد. به گفته ACX، تولید کننده کتاب صوتی آمازون، تولید یک ساعت کامل از یک کتاب صوتی می تواند حدود شش ساعت طول بکشد.

چارلز واتکینسون، مدیر انتشارات دانشگاه میشیگان و دستیار کتابدار دانشگاه برای انتشار در کتابخانه دانشگاه میشیگان، گفت: واقعیت این است که تا زمانی که شما یک محصول پرفروش نداشته باشید، اقتصاد جواب نمی‌دهد.

برای نویسندگان و ناشران کوچکتر، زمان و هزینه تولید یک کتاب صوتی ممکن است بسیار زیاد باشد و هوش مصنوعی چیزی است که می‌تواند مسئله را عوض کند.

حدود دو سال پیش، گوگل برای انجام یک برنامه آزمایشی به انتشارات دانشگاه میشیگان مراجعه کرد. انتشارات دانشگاه توانست از ابزار گوگل برای ایجاد حدود 100 کتاب صوتی دیجیتالی استفاده کنند، هرچند هنوز هنوز به مداخله انسانی نیاز است. واتکینسون گفت برخی از اساتیدی که از گوگل استفاده کرده‌اند، از دانش‌آموزان می‌خواهند که ضبط را گوش کنند تا آن را با متن مقایسه کنند. با وجود تسریع در فرآیند ضبط با هوش مصنوعی، همچنان مشکلاتی وجود دارد.

واتکینسون گفت که دانشگاه میشیگان به این موضوع علاقه مند است که چگونه هوش مصنوعی به طور بالقوه می تواند دسترسی به کتاب هایی را افزایش دهد که بدون هوش مصنوعی امکان صوتی کردن آن‌ها وجود ندارد. هر چند نتایج گوگل درخشان نبود، اما این نتایج برای کسانی که مشکل بینایی داشتند می‌توانست مفید باشد.

ظهور صداهای دیجیتال

علاوه بر نام‌های بزرگی مانند اپل و گوگل، گروهی از شرکت‌های کوچک‌تر نیز وارد فضای صوتی هوش مصنوعی شده‌اند. DeepZen یکی از آنهاست. DeepZen که در سال 2018 تأسیس شد و با الهام از فیلم Her در سال 2013 یک سیستم پردازش زبان طبیعی ساخت که می تواند نشانه هایی از متن بگیرد و از صداهای هوش مصنوعی ساخته شده از راویان انسانی دارای مجوز استفاده می کند که با نام مستعار برچسب گذاری شده اند.

بیشتر بخوانید Seed.Photo یک مارکت پلیس متفاوت برای خرید و فروش NFT

تایلان کامیس، مدیرعامل و یکی از بنیانگذاران این شرکت می‌گوید: یکی از بزرگ‌ترین چالش‌ها ایجاد پلتفرمی بود که متن را به صورت طوطی‌وار صحبت نکند و لحن داشته باشد.

DeepZen همچنین در حال کار بر روی روشی است تا صداهای هوش مصنوعی به زبان های دیگر صحبت کند تا دسترسی به بازار بزرگ‌تری ممکن شود.

هیچ چیز تمام نشده است

هیچ کدام از اینها به این معنا نیست که ماه آینده دوبلورها و کتاب‌خوان‌ها در صف بیکاری قرار خواهند گرفت. جان بهرنز که مالک شرکت تولید کتاب های صوتی نشویل است، در چند سال گذشته دو کتاب تولید شده توسط هوش مصنوعی را داشته و معتقد است هوش مصنوعی همچنان با مشکلاتی مواجه است و مثلا نمی‌تواند آیات کتاب مقدس را تلفظ کند.

بهرنز گفت که یک کتاب صوتی بد ممکن است 50 تا 100 مورد برای مشکلاتی که باید برطرف شوند تولید کند. هوش مصنوعی صدها مورد تولید کرد. او توصیه می کند که دچار وحشت نشوید.او می‌گوید: اگر قرار است در ترس زندگی کنید، چرا به سرمایه گذاری و فعالیت در این حرفه ادامه می دهید؟ اگر فکر می کنید که این شغل در حال مردن است چرا هنوز به این کار مشغولید؟