موسیقی دیپ فیک؛ این فریادهای وهمانگیز از دنیای هوش مصنوعی به گوش میرسد!
تا به حال برایتان پیش آمده که از ستارگان موسیقی که درگذشتهاند، موسیقی جدید بشنوید که در دوره حیاتشان آن را اجرا نکردهاند؟ احتمالا تعحب کردهاید، اما باید بدانید که از هوش مصنوعی میتوان برای ایجاد آهنگهای جدیدی استفاده کرد که با صدای خوانندههای فوتشده اجرا شوند. در حال حاضر آهنگهایی از فرانک سیناترا و دیگر ستارگان فوتشده با این فناوری اجرا شده و در بازار موجود است. فناوری موسیقی دیپ فیک یا موسیقی جعل عمیق ترفندهای حیرتانگیزی دارد و به راستی میتواند موسیقی پاپ را زیر و رو کند.
موسیقی دیپ فیک چطور ساخته می شود؟
این قطعه را شنیدهاید؟
‘It’s Christmas time! It’s hot tub time!”
این یک بخش از آواز فرانک سیناترا است. یا حداقل بگذارید بگوییم «شبیه او» است. نتهای بهکار رفته در این آهنگ با یک چرخش ساده و در سبک بوهمی شاد کنار هم ردیف شدهاند. این آهنگ میتواند تقریباً به عنوان یک نسخه نمایشی از صدای ازدسترفته سیناترا در گوش جان طرفداران او بنشیند. حتی بخشهایی از تغییرات صدای او و آن لحن غنی که زمانی قطعههای قدیمی را میخواند، در این قطعه تکرار شده است. اگر به آن گوش دهید، خواهید دید که صدا بسیار آشناست، حتی اگر بین کلیدهای نتهای متفاوتی شنیده شود. گاهی اوقات به نظر میرسد این موسیقی از روی یک اجرای زنده ضبط شده است.
آهنگی که درباره آن صحبت میکنیم، نه یک آهنگ اصلی، بلکه یک ملودی و نوای جعلی بسیار شبیه به واقعی است که توسط شرکت پژوهش و توسعه OpenAI ساخته شده است. این شرکت، در این مسیر پروژه Jukebox را کلید زده است که از هوش مصنوعی برای تولید موسیقی کامل همراه با متن، در انواع مختلف سبکها و صداهای هنرمندان استفاده میکند. در کنار آهنگهایی از فرانک سیناترا، این شرکت آثار موسیقی و هنری را ارائه کرده است که به عنوان موسیقی دیپ فیک یا موسیقی جعل عمیق از کیتی پری، الویس، سایمون و گارفونکل، 2Pac، سلین دیون و موارد دیگر شناخته میشوند.
روش کار
روش کار بهطور خلاصه به این صورت است که ابتدا هوش مصنوعی با استفاده از آهنگهای 1.2 میلیمتری، همراه با متن کامل و متادیتای مربوطه که از وب گرفته شدهاند، آموزش میبیند. پس از آموزش، این مدل هوش مصنوعی میتواند بر اساس هر آنچه که تغذیهاش کردهاید، صدای خام را به مدت چند دقیقه پخش کند. مثلاً کویین یا دالی پارتون یا حتی موتزارت را وارد میکنید و از خروجی دیگر، یک صدای ساخته شده بسیار شبیه به اصلی بهدست خواهید آورد.
دکتر متیو یی کینگ، نوازنده موسیقی الکترونیکی و محقق دانشگاهی در گلداسمیتس در این باره میگوید: «این خروجی به عنوان یک کار مهندسی، واقعاً دستاورد چشمگیری است.» البته شرکت OpenAI از مصاحبه در این زمینه خودداری کرده است، اما دکتر متیو یی کینگ درباره این فرایند اینطور توضیح میدهد: «آنها یک سیگنال صوتی را به مجموعهای از واژگانی که در موسیقی یک هنرمند به کار میرود، اضافه میکنند.
یعنی مجموعه لغات بهکاررفته در همه آثار یک هنرمند را، در سه لایه مختلف از زمان تجزیه میکنند. سپس به شما مجموعهای از قطعات اصلی را به عنوان خروجی میدهند که برای بازسازی موسیقی کافی است. این الگوریتم میتواند این قطعات را بر اساس محرکی که به آن وارد میکنید، مرتب کند. بنابراین، به عنوان مثال برخی از قطعات الا فیتزجرالد را به آن بدهید و هوش مصنوعی «دایره واژگان» آن هنرمند را پیدا کرده و با هم ترکیب میکند تا چیزی در فضای موسیقی او و در سبک او ایجاد کند.»
موسیقی جعل عمیق با چه چالش هایی روبهرو است؟
اگرچه این فناوری از نظر فنی موفقیتهای تحسینبرانگیزی داشته است، اما درباره برخی از نمونههای تولیدشده از موسیقی دیپ فیک، به ویژه نمونه آثار هنری از هنرمندانی که مدتهاست درگذشته اند، حسی نامطلوب و تاحدی وحشتناک وجود دارد. با گوش دادن به این قطعات موسیقی انگار دارید به صدای غمانگیز ارواحی گوش میدهید که در دستگاههای پخش موسیقی گمشدهاند و هنوز از کلیشههای پیش پا افتاده زندگی میخوانند و گاهی حتی از زندگی شکایت میکنند!
موسیقی دیپ فیک یا جعل عمیق قرار است تنوع گستردهای در صنعت موسیقی داشته باشد، زیرا شرکتهای بیشتری دارند الگوریتمهای موسیقی را اعمال میکنند. پروژه مگنتا گوگل Magenta Google که به عنوان «کاوش یادگیری ماشین به عنوان ابزاری در روند خلاقیت» معرفی شده است، چندین API منبع باز ایجاد کرده است که با استفاده از صداهای کاملاً جدید که توسط ماشین تولید شده یا آفرینشهای مشترک انسان با هوش مصنوعی است، امکان ترکیب را فراهم میکند.
استارتاپهای متعددی مانند آمپر موزیک Amper Music، موسیقی سفارشی و تولیدشده توسط هوش مصنوعی را برای محتوای رسانهای تولید میکنند که دارای حق چاپ جهانی است. حتی اسپاتیفای هم در حال ورود به این حوزه است و گروه تحقیقاتی هوش مصنوعی آن توسط فرانسوا پاچت، رئیس سابق آزمایشگاه علوم کامپیوتر سونی موزیک هدایت میشود.
چالشهای اخلاقی و مالکیت معنوی
پیشبینی این که چگونه چنین فناوری میتواند منجر به چالشهای مربوط به مسائل اخلاقی و مالکیت معنوی شود، کار سختی نیست. مثلا اگر کسی نخواهد موسیقی یک هنرمند را که در متن یک فیلم استفاده شده، یا در یک نمایش تلویزیونی اجرا شده یا در تیزرهای تبلیغاتی موجود است، از راه قانونی و از بازار بخرد، میتواند خودش یک موسیقی دیپ فیک بسازد!
در همین حال، سرویسهای پخش این نوع موسیقی نیز میتوانند لیست موسیقیهایی را که با هنرمندان هوش مصنوعی و با صدای مشابه ولی فیک تولید شدهاند، ایجاد کنند و در این لیستها از کاربران حق کپی دریافت نکنند. حالا سوالی که مطرح میشود این است که: آیا این نوع خدمات اگر در ایستگاههای رادیویی ارائه شوند، واقعا نرخ پرداخت پول برای دریافت موسیقی را کاهش میدهند؟
سازمانهای حقوقی در صنعت موسیقی از نزدیک این پیشرفتها را دنبال میکنند. در اوایل سال جاری، راک نیشن درخواست حذف DMCA را علیه یک کاربر گمنام در یوتیوب به دلیل استفاده از هوش مصنوعی برای تقلید از صدای Jay-Z و ضرب آهنگ برای رپ شکسپیر و بیلی جوئل ثبت کرد. هر دو اثری که این کاربر آپلود کرده بود، فوق العاده واقعی به نظر میرسیدند. این محتوا به طور غیرقانونی از هوش مصنوعی برای جعل صدای این هنرمندان استفاده کرده بود.
داستان حق کپی و استفاده از موسیقی دیپ فیک
راک نیشن از اظهارنظر درباره پیامدهای حقوقی جعل هویت هوش مصنوعی خودداری کرده است. چندین کمپانی بزرگ دیگر که در حوزه فروش آثار موسیقی فعالیت میکنند نیز از اظهارنظر در این باره خودداری کردهاند. چنان که طی تماس گاردین با یکی از اصلیترین این شرکتها، این پاسخ به صورت محرمانه دریافت شده است: «به عنوان یک شرکت عمومی، هنگام صحبت درباره موضوعات آینده، باید احتیاط کنیم.»
حتی سازمان صنعت انگلستان، BPI حاضر به ثبت سابقه در رابطه با نحوه برخورد صنعت با دستاوردهای جدید دنیای هوش مصنوعی و اقدامات لازم برای محافظت از هنرمندان و یکپارچگی کار آنها نشد. IFPI که یک نهاد تجارت بینالمللی موسیقی است نیز به ایمیلهایی که در این باره ارسال شده، پاسخ نداده است.
شاید دلیل این پاسخ ندادنها این باشد که حداقل در انگلیس این نگرانی وجود دارد که مبنایی برای حمایت قانونی در این زمینه وجود ندارد. روپرت اسکلت، رئیس حقوقی گروه Beggars در این باره میگوید: «با موسیقی دو حق چاپ مجزا وجود دارد. یکی در نت موسیقی و شعر آن، یعنی آهنگی که منتشر شده و یکی آهنگ جداگانه در ضبط صدا که مورد توجه شرکتهای توزیع کننده آلبوم است. اگر کسی از ضبط واقعی استفاده نکرده باشد و یک شبیهسازی با استفاده از هوش مصنوعی ایجاد کرده باشند، درباره ضبط صدا هیچگونه ادعای قانونی علیه وی در زمینه حق کپی نمیتوان داشت.»
موسیقی دیپ فیک برای آینده چه ارمغانی دارد؟
فناوری دیپ فیک همچنین سوالات عمیقتری را به وجود میآورد: چه چیزی یک هنرمند را نزد مخاطبان خود خاص میکند؟ چرا ما به سبکها یا انواع خاصی از موسیقی پاسخ میدهیم و طرفدار آنها میشویم؟ در آینده چه اتفاقی میافتد وقتی بتوانیم هر زمان که نیاز داشتیم از موسیقی دیپ فیک استفاده کنیم، یا چنین دیپ فیکهایی را ایجاد کنیم؟ یی کینگ معتقد است که روباتهای خودکار قادرند در هر زمان، بر اساس تنظیماتی که انتخاب میکنید، قطعهای عالی از موسیقی را برای شما تولید کنند؛
چیزی که قبلا هم توسط استارت آپ پیشگام Endel انجام شده بود. همچنین ستارههای پاپ میتوانند با گوش دادن به هوش مصنوعی، آهنگها محبوب را برای آلبومهای آینده خود پیشبینی کنند. آنها میتوانند با استفاده از این فناوری، آهنگهایی را تولید کنند که افراد بیشتری طرفدار آن شوند و آن را گوش دهند.
اما اگر احساس سرمایهگذاری عاطفی که روی هنرمندان محبوبمان داریم را از دست بدهیم و آثار هنری که این هنرمندان با ذوق و تلاشهای حقیقی و انسانی خود میآفرینند را فراموش کنیم و نیز ارزشی که آثار حقیقی از جنبه آفرینش انسانی دارند، از دست بدهیم، بهراستی چیزی اساسی و ارزشمند را در موسیقی از دست خواهیم داد. این سیستمها برای ارائه بهتر هنرهای انسانی آموزش دیدهاند و تولید شدهاند و باید باعث تقویت آن لطیفهها و ذوقهای انسانی شوند. قطعه گمشده پازل در این میان، همان یافتن راههایی برای جبران نقصهای انسانی در صنعت موسیقی است، نه ایجاد نقصهای جدید در این صنعت و جایگزین کردن آنها!