دیپ فیک صوتی چیست؟معایب و مزایای تکنولوژی دیپ‌فیک صوتی

دانش و فناوری دیدگاه‌ها برای دیپ فیک صوتی چیست؟معایب و مزایای تکنولوژی دیپ‌فیک صوتی بسته هستند 821 Views

دیپ فیک صوتی چیست؟

اکثر ما ویدیوهای دیپ‌فیک را دیده‌ایم که در آن‌ها، چهره‌ی شخصیت اصلی یک فیلم با چهره‌ی فرد دیگری جابه‌جا می‌شود. در نمونه‌های حرفه‌ای، شناسایی تقلبی بودن چهره‌ی جدید بسیار دشوار می‌شود.

اکنون نمونه‌های دیگری دیده می‌شوند که از هوش مصنوعی برای تغییر صدا استفاده می‌کنند. شرکت Resemble AI یکی از ارائه‌دهنده‌های فناوری کپی کردن صدا است. زهیب احمد، مدیرعامل شرکت، دیپ‌فیک صوتی را به فتوشاپ تشبیه می‌کند که برای صوت به کار رفته باشد.

ویرایش ناشیانه‌ی یک فایل فتوشاپ، اغلب به‌راحتی شناسایی می‌شود. درحالی‌که محققان امنیتی می‌‌گویند مردم در شناسایی صدای دیپ‌فیک، تنها ۵۷ درصد دقت دارند.

از تکنولوژی دیپ‌فیک صوتی که منجر به کلون کردن اصوات یا بازتولید تقریبا بی‌نقص صدای افراد می‌شود می‌توان هم برای مقاصد خوب و هم مقاصد بد استفاده کرد.

برای مثال می‌توان آن را در سرویس‌های ترکیب صدا به کار گرفت و صدا را به افرادی که این توانایی را به خاطر عارضه‌هایی مانند اسکلروز جانبی آمیوتروفیک، آپراکسی، ضربه‌های مغزی تروماتیک، سکته یا هرچیز مشابهی از دست داده‌اند بازگرداند.

از این تکنولوژی همین حالا در صنایع فیلم و تلویزیون، گیمینگ و مراکز تماس استفاده می‌شود و بی‌شمار پتانسیل نیز برای استفاده از آن در امور رمزنگاری و تراپی نیز وجود ندارد. در عین حال، نمی‌توان این را زیر سوال برد که تکنولوژی دیپ‌فیک صوتی تهدیدی بزرگ برای پروسه‌های دموکراتیک است، خصوصا پروسه‌هایی که به حریم شخصی مربوط می‌شوند. در صورت استفاده بدخواهانه، تکنولوژی دیپ‌فیک صوتی می‌تواند به کلاهبرداری، فریب و آزار منجر شود.

دقیقا به خاطر همین پتانسیل‌های خوب و بد، اکنون زمانش رسیده که توجهی مضاعف به تکنولوژی دیپ‌فیک صوتی نشان دهیم و به طرقی به بررسی به آن بپردازیم که منجر به کاهش خطر فریب دادن مردم شود، خصوصا این فریب که شخصی سرشناس، چیزی را گفته که در حقیقت بیانش نکرده است.

موارد استفاده برای کسب‌وکار‌ها چه خواهد بود؟ ارقام نشان می‌دهند که فرصتی بزرگ برای سازمان‌های اقتصادی فراهم شده تا از تکنولوژی‌های صوتی استفاده کرده و وارد تجارت‌های تازه شوند. موسسه AppDynamics در سال ۲۰۱۸ گزارش کرد که تا سال ۲۰۲۰، بیش از نیمی از سرچ‌های انجام شده در سطح وب، با صدا صورت خواهند گرفت.

از سوی دیگر نیز، ۶۱ درصد از تصمیم‌گیران برجسته حوزه فناوری اطلاعات گام را فراتر گذاشته و انتظار دارند فرمان‌های صوتی به صورت کامل جایگزین فرمان‌های تایپ شده به صورت دستی برای یافتن اطلاعات در سراسر اینترنت شوند؛ و نسل جوان در این حوزه پیشرو است – ۸۴ درصد از متولدین قرن بیست و یکم همین حالا از دستیار‌های صوتی برای پایش برنامه روزانه و مسئولیت‌های خود استفاده می‌کنند.

بیایید به مرور مزایا، معایب و آینده که در انتظار تکنولوژی دیپ‌فیک صوتی است بپردازیم.

صدای مصنوعی چگونه ساخته می‌شود؟

تولید صدای کپی و مصنوعی امروزه طرفداران زیادی دارد و شرکت‌های متعددی با جدیت در این حوزه فعالیت می‌کنند. به‌عنوان مثال Resemble AI و Descript دموهای آنلاینی را دراختیار کاربران عادی قرار می‌دهند که امکانات قابل‌توجهی هم دارند. برای استفاده از دموهای آنلاین تنها باید صدای خود را با خواندن یک متن روی نمایشگر ضبط کرده و ارسال کنید. سپس یک نمونه‌ی کامل از صدای شما ساخته می‌شود.

تبدیل کردن نمونه‌ی صدا به صدایی کامل، به لطف فناوری هوش مصنوعی و خصوصا الگوریتم‌‌های یادگیری عمیق ممکن می‌شود. این الگوریتم‌ها، جزئیات صدای شما را از نمونه‌ی ضبط‌شده استخراج می‌کنند و مدلی از آن می‌سازند.

سپس بلوک‌های سازنده‌ی زبان استخراج می‌شوند تا برای تفلظ کلماتی که شما به زبان نیاورده‌اید، استفاده شوند. فناوری موردنیاز برای چنین فرایندی از مدت‌ها پیش وجود داشت، اما دانشمندان به ترکیب کردن و استخراج بهترین راهکار برای استفاده از آن، نیاز داشتند.

وسعه‌دهنده‌ها برای ساختن الگوریتم‌های حرفه‌ای، به مجموعه‌ای عظیم از صداهای ضبط‌شده نیاز داشتند تا نتایج قابل‌قبولی از فرایندهای ساخت صدا کسب شود. از چند سال پیش، تحقیقات و پیشرفت‌های علمی با سرعت زیادی پیش رفتند و زمینه‌ی کافی برای توسعه‌ی فناوری فراهم شد. تحقیقات در حوزه‌ی بینایی کامپیوتری اهمیت زیادی پیدا کرد که بعدا منجر به پیشرفت سریع‌تر هوش مصنوعی صوتی هم شد. دانشمندان برای توسعه‌ی الگوریتم‌های بینایی کامپیوتری، شبکه‌های GAN توسعه دادند که توانایی پیش‌بینی براساس داده‌های موجود را داشت. درنهایت دانشمندان حوزه‌ی هوش مصنوعی صوتی اعتقاد دارند پایه‌های پیشرفت، از توسعه‌ی هوش مصنوعی بصری ایجاد شد.

یکی از نوآوری‌های مهمی که در فناوری کپی کردن صدا ایجاد شد، نیاز به داده‌های خام برای ساخت یک صدا را تا حد زیادی کاهش داد. همان‌طور که گفته شد، در گذشته به ده‌ها یا صدها ساعت صدا نیاز بود تا یک صدای مصنوعی ساخته شود. اکنون تنها با استفاده از چند دقیقه نمونه‌ی صدا، می‌توان آن را کپی کرد.

مزایا

امکان صحبت به صورت طبیعی از سوی افرادی که از مشکلات پزشکی رنج می‌برند

امکان برقراری ارتباط و اشتراک‌گذاری افکار و احساسات با کلمات، از اهمیتی بسیار زیاد برخوردار بوده و در واقع این یکی از معدود ویژگی‌هایی است که ما انسان‌ها را منحصر به فرد می‌کند. اما تکنولوژی واگردانی صوتی سنت‌شکنانه کنونی، کار‌های بسیار بیشتری می‌تواند برای افرادی انجام دهد که از توانایی صحبت برخوردار نیستند.

برای مثال گسترش تکنولوژی اتوماسیون خانگی را کنترل صوتی را در نظر بگیرید. کلون کردن صدا می‌تواند باعث شود افرادی که قادر به صحبت به صورت طبیعی نیستند استقلال بیشتری داشته باشند و بهتر به استفاده از دیوایس‌هایی بپردازند که از با فرمان‌های صوتی کنترل می‌شوند.

دستیار‌های صوتی

بنابر گزارش «پیش‌بینی وضعیت دستیار دیجیتال و دیوایس صوتی مبتنی بر هوش مصنوعی» شرکت Ovum، تا سال ۲۰۲۱ میلادی شمار دستیار‌های صوتی از تعداد انسان‌های حاضر روی کره خاکی بیشتر خواهد بود. بیایید برای مثال به دستیار صوتی گوگل نگاه کنیم. صدای این دستیار با استفاده از سیستم نوشتار به گفتار Tacotron ۲ تولید می‌شود که خود بر دو شبکه عصبی عمیق متکی است.

نخستین شبکه، متن را به تصویری بصری (یا طیف نگاره) از فرکانس‌های صدا به مرور زمان تبدیل می‌کند و سپس یک سیستم WaveNet به تحلیل طیف نگاره پرداخته و المان‌های صوتی را شکل می‌دهد. خروجی، گفتاری است که تفاوت چندانی با گفتار عادی انسانی ندارد و حتی می‌تواند کلمات بسیار دشوار را به خوبی تلفظ کند.

محتوای تعاملی برای کورس‌های یادگیری آنلاین

کلون کردن صدا با هوش مصنوعی باعث می‌شود که دیگر در هر کلاس درس نیازی به نوت‌برداری یا بازنگری در نوت‌ها برای یافتن اشتباهات بالقوه نباشد. از سوی دیگر، هزینه پولی و زمانی سخنرانی‌هایی که به صورت حرفه‌ای ضبط می‌شوند نیز کاهش می‌یابد و کورس‌های یادگیری آنلاین شکلی دسترس‌پذیرتر به خود می‌گیرند. این اتفاقی کوچک نیست، خصوصا در دوران بحران کنونی که به خاطر پاندمی کووید-۱۹، محدودیت‌های فراوان برای مردم به وجود آمده است.

معایب

اخاذی

از ویدیو‌های جعلی، اما شدیدا واقع‌گرایانه با صحنه‌های جنسی یا خشونت‌آمیز که با ترکیب تکنولوژی دیب‌فیک ویدیویی و صوتی ساخته شده‌اند می‌توان برای اخاذی از افراد استفاده کرد.

ایمیل‌های اسپم

اگر تا به حال ایمیل برایتان آمده باشد که در آن نوشته شده «با بانک X ارتباط برقرار کنید تا اطلاعات بیشتر راجع به روند حواله پول در اختیارتان قرار بگیرد» به احتمال زیاد نام ایمیل‌های اسپم به گوشتان خورده و هیچ توجهی هم به آن‌ها نشان نداده‌اید.

اما یک تماس تلفنی از سوی کسی که صدایی بسیار شبیه به یکی از مخاطبان مورد اعتمادتان دارد و شما را به پاسخ دادن به یک ایمیل ترغیب می‌کند ممکن است نظرتان را عوض کرده و باعث شود دست به انجام کاری بزنید که بعدا آرزو می‌کردید هیچوقت انجامش نمی‌دادید.

رقابت غیرقانونی

یک نفر ممکن است خود را مدیر عامل فلان کمپانی جای بزند و در این جایگاه مهم، شروع به نشر اطلاعات دروعین در تماس‌های تلفنی مربوط به گزارش‌های مالی کند. سهام‌داران و سرمایه‌گذاران فریب خواهند خورد و قیمت سهام را از آنچه در واقعیت هست خواهند پنداشت. از همین تکنیک بدخواهانه می‌توان برای تخریب رقبای صنعتی نیز استفاده کرد.

آینده

استفاده در مدل بنگاه به بنگاه

با درنظرگیری یافته‌های موجود در گزارش AppDynamics که بالاتر به آن‌ها اشاره شد، استفاده از تکنولوژی بازتولید صدا به صورت گسترده، آنقدر‌ها دور نیست. ۶۹ درصد از تصمیم‌گیرندگان حوزه فناوری اطلاعات در شرکت‌هایی کار می‌کنند که یا همین حالا روی تکنولوژی سرمایه‌گذاری کرده‌اند یا می‌خواهند طی سه سال آتی روی آن سرمایه‌گذاری کنند.

چه به دنبال بازتولید صدا باشید، چه درمان برای مشکلات کلامی، چه گیمینگ، چه رمزنگاری و چه هرچیز دیگر، از تکنولوژی کلون صدا می‌توان در گستره وسیعی از صنایع نفع برد. برای مثال با توسعه یک سیستم بلادرنگ در دنیای گیمینگ می‌توان به گیمر‌ها اجازه داد که از صدا‌های مختلف در چت‌های داخل بازی استفاده کنند. وقتی صحبت از تکنولوژی دیپ‌فیک صوتی باشد، جهان دارد با سرعت بسیار زیادی تغییر می‌کند.

کلون صدا برای مراکز تماس

کمپانی Reespecher اکنون مشغول کار روی تکنولوژی‌هایی سنت‌شکن است که به اپراتور‌ها در آن‌سوی آب‌ها اجازه می‌دهد صدایی شبیه به افراد بومی داشته باشند؛ بنابراین هنگام تماس با یکی از این مراکز، احساس خواهید کرد که با یکی از شهروندان کشور خود صحبت می‌کنید. از سوی دیگر، اپراتور‌های رباتیک هم به زودی صدایی انسانی‌تر خواهند داشت.

جمع‌بندی

تکنولوژی دیپ‌فیک صوتی بدون هیچ تردید ریسک‌های خود را به همراه می‌آورد، اما نخستین گام برای تمرکز مضاعف روی جنبه‌های مثبت تکنولوژی اینست که جنبه‌های منفی را شناسایی کرده و در صدد تقلیل دادن آن‌ها برآییم. صدا‌های کلون شده‌ای که هیچ تفاوتی با صدای سخنگوی اصلی ندارند می‌توانند بهترین ابزار ممکن برای فیلم‌سازان، بازی‌سازان و دیگر تولیدکننده مدیا باشند.

خیلی زود صدا‌های بازتولید شده به صورت دیجیتالی، احساسات و حالات گوناگون را نیز در بر می‌گیرند، همانطور که شواهدش را با دستیار‌های صوتی نظیر بیکسبی سامسونگ، سیری اپل یا الکسای آمازون دیده‌ایم؛ و با از راه رسیدن صدا‌هایی که قادر به انتقال احساسات باشند، مشاوره و مصاحبت شکلی کاملا جدید به خود خواهند گرفت.

مجله اینترنتی اقیانوس از مطالعه لذت ببرید

دیپ فیک صوتی چیست؟معایب و مزایای تکنولوژی دیپ‌فیک صوتی