معده ها صدا می کنند. صدای حرکت عضلات در دستگاه گوارش صدا تولید میکند. هر حرکتی صدا تولید میکند و یک میکروفون کافی است تا این صداها ضبط شوند. این درحالی است که صداپیشگان و در واقع صداهای تولید شده هوش مصنوعی نباید نگران صداهای عجیب گوارشی باشند.
در طرف مقابل اما لی آلرز و کریگ هینکل ربات نیستند. آنها انسانهایی هستند که در اواسط ژانویه برای تولید کتابهای صوتی خود نگران صدای اضافه معده هستند و روی این بحث میکنند که روی کلمه «افزایش» کجا و چگونه تأکید شود تا کتابی در حوزه ارتباط زوجها بهتر صدا گذاری شود.
استودیوی NAP در The Rukkus Room در نشویل، تنسی است، همان جایی که تیلور سویفت اولین آلبوم خود را ضبط کرد. بوی قهوه در اتاق انتظار می پیچد. هینکل با هر کلمهای که از دهان آلرز بیرون میآید خود را تنظیم میکند. از آیپد حاوی متن کتاب گرفته تا مانیتور بزرگی که روی صفحه صدا در استودیو نشسته است.
آلرز قبل از شروع مجدد بخشی از یک فصل به هینکل می گوید: می خواهم در این سؤالات احساسات بیشتری داشته باشم.
کتاب های صوتی این روزها رونق دارند. بر اساس تحقیقات Acumen، انتظار میرود حجم این بازار تا سال 2030 به 33. 5 میلیارد دلار برسد که بسیار از4. 2 میلیارد دلار در سال 2021 بیشتر است. چه این مسئله حاصل افزایش محبوبیت پادکستها باشد، چه حاصل راحتی گوش دادن چه هر چیز دیگری، شرکتها فناوری با نگاه به این حوزه دنبال نقش آفرین هوش مصنوعی هستند.
در سال 2023، شور و شوق در مورد پتانسیل هوش مصنوعی بالا است، اما نگرانی در مورد از دست رفتن شغلهای خلاق نیز زیاد است. ChatGPT می تواند هر چیزی از نامه های پیش مجوز بیمه گرفته تا بایوس برنامه دوستیابی را با درجات مختلف موفقیت بنویسد. پلتفرمهای هوش مصنوعی مانند Lensa AI و OpenAI’s Dall-E هنر تولید شده توسط هوش مصنوعی را به تصویر میکشند و بسیاری از کسانی که با خلق هنر دیجیتال درآمد کسب میکنند را به نگرانی انداختهاند.
شرکت های فناوری از جمله اپل و گوگل مدتی است که روی روایت کتاب های صوتی توسط هوش مصنوعی کار می کنند. در سال 2022 گوگل خدمات خود را برای ناشران در شش کشور از جمله ایالات متحده و کانادا عرضه کرد. راویان یا دوبلورهای هوش مصنوعی گوگل نام هایی مانند آرچی که انگلیسی به نظر می رسد و سانتیاگو که اسپانیایی صحبت می کند دارند. در اوایل ژانویه، اپل مجموعهای از صداهای هوش مصنوعی را با نامهایی مانند مدیسون و جکسون معرفی کرد که نویسندگان و ناشران مستقلی که کتابهای خود را در Apple Books میفروشند، میتوانند برای خواندن کتابهای خود از آنها استفاده کنند.
حضور روزافزون هوش مصنوعی در حوزه خواند روایت کتاب های صوتی، راویانی مانند تانیا ابی کمی مضطرب کرده است.
ابی، راوی ساکن گرند راپیدز، میشیگان که بیش از 1000 کتاب در 21 سال گذشته ضبط کرده است، میگوید: «نمیدانم تا پنج سال دیگر این شغل تمام وقت من خواهد بود یا خیر.»
راویانی مانند ابی می گویند که انسانیت آنها دقیقاً همان چیزی است که به آنها کمک می کند کارهایشان را انجام دهند. به خصوص در داستانهای تخیلی، راویها درباره همه چیز از صدای یک شخصیت گرفته تا نحوه برقراری ارتباط تفاوتهای ظریف و احساسات تصمیمگیر هستند.
کاتلین لی، راوی اهل آستین، تگزاس، میگوید: اگر شخصیتی پس از مرگ پدرش گریه میکند، باید این اشکها و نفسها را در گفتارش بیان کنم.
مسئله پول است
واقعیت این است که برای ناشران و نویسندگان کوچک، زمان و پول می تواند قدرت بیشتری نسبت به تقدس یک اجرای خلاقانه داشته باشد. کتاب های صوتی برای انتشارات دانشگاه میشیگان درآمد چندانی ندارند، ناشری که سالانه حدود 100 کتاب دانشگاهی را منتشر می کند.
استخدام یک راوی برای کتابی که ممکن است تنها چند صد دلار به دست بیاورد، می تواند 6000 دلار هزینه داشته باشد. به گفته ACX، تولید کننده کتاب صوتی آمازون، تولید یک ساعت کامل از یک کتاب صوتی می تواند حدود شش ساعت طول بکشد.
چارلز واتکینسون، مدیر انتشارات دانشگاه میشیگان و دستیار کتابدار دانشگاه برای انتشار در کتابخانه دانشگاه میشیگان، گفت: واقعیت این است که تا زمانی که شما یک محصول پرفروش نداشته باشید، اقتصاد جواب نمیدهد.
برای نویسندگان و ناشران کوچکتر، زمان و هزینه تولید یک کتاب صوتی ممکن است بسیار زیاد باشد و هوش مصنوعی چیزی است که میتواند مسئله را عوض کند.
حدود دو سال پیش، گوگل برای انجام یک برنامه آزمایشی به انتشارات دانشگاه میشیگان مراجعه کرد. انتشارات دانشگاه توانست از ابزار گوگل برای ایجاد حدود 100 کتاب صوتی دیجیتالی استفاده کنند، هرچند هنوز هنوز به مداخله انسانی نیاز است. واتکینسون گفت برخی از اساتیدی که از گوگل استفاده کردهاند، از دانشآموزان میخواهند که ضبط را گوش کنند تا آن را با متن مقایسه کنند. با وجود تسریع در فرآیند ضبط با هوش مصنوعی، همچنان مشکلاتی وجود دارد.
واتکینسون گفت که دانشگاه میشیگان به این موضوع علاقه مند است که چگونه هوش مصنوعی به طور بالقوه می تواند دسترسی به کتاب هایی را افزایش دهد که بدون هوش مصنوعی امکان صوتی کردن آنها وجود ندارد. هر چند نتایج گوگل درخشان نبود، اما این نتایج برای کسانی که مشکل بینایی داشتند میتوانست مفید باشد.
ظهور صداهای دیجیتال
علاوه بر نامهای بزرگی مانند اپل و گوگل، گروهی از شرکتهای کوچکتر نیز وارد فضای صوتی هوش مصنوعی شدهاند. DeepZen یکی از آنهاست. DeepZen که در سال 2018 تأسیس شد و با الهام از فیلم Her در سال 2013 یک سیستم پردازش زبان طبیعی ساخت که می تواند نشانه هایی از متن بگیرد و از صداهای هوش مصنوعی ساخته شده از راویان انسانی دارای مجوز استفاده می کند که با نام مستعار برچسب گذاری شده اند.
تایلان کامیس، مدیرعامل و یکی از بنیانگذاران این شرکت میگوید: یکی از بزرگترین چالشها ایجاد پلتفرمی بود که متن را به صورت طوطیوار صحبت نکند و لحن داشته باشد.
DeepZen همچنین در حال کار بر روی روشی است تا صداهای هوش مصنوعی به زبان های دیگر صحبت کند تا دسترسی به بازار بزرگتری ممکن شود.
هیچ چیز تمام نشده است
هیچ کدام از اینها به این معنا نیست که ماه آینده دوبلورها و کتابخوانها در صف بیکاری قرار خواهند گرفت. جان بهرنز که مالک شرکت تولید کتاب های صوتی نشویل است، در چند سال گذشته دو کتاب تولید شده توسط هوش مصنوعی را داشته و معتقد است هوش مصنوعی همچنان با مشکلاتی مواجه است و مثلا نمیتواند آیات کتاب مقدس را تلفظ کند.
بهرنز گفت که یک کتاب صوتی بد ممکن است 50 تا 100 مورد برای مشکلاتی که باید برطرف شوند تولید کند. هوش مصنوعی صدها مورد تولید کرد. او توصیه می کند که دچار وحشت نشوید.او میگوید: اگر قرار است در ترس زندگی کنید، چرا به سرمایه گذاری و فعالیت در این حرفه ادامه می دهید؟ اگر فکر می کنید که این شغل در حال مردن است چرا هنوز به این کار مشغولید؟