قفزة كبيرة في مجال الذكاء الاصطناعي من شركة مايكروسوفت في تقليد الأصوات
قفزة كبيرة أخرى في مجال الذكاء الاصطناعي من شركة مايكروسوفت، وبعد تقليد الوجوه والخيال الصناعي مايكروسوفت تكشف عن نموذج ذكاء اصطناعي جديد، يحمل اسم VALL-E، والذي يمكنه تقليد الأصوات وتحويل النص إلى كتابة، بطريقة مذهلة لم يسبق لها مثيل.
VALL-E يمكنه تقليد الأصوات بشكل واقعي من تسجيل مدته 3 ثوانٍ
على الرغم من وجود العديد من الخدمات على الإنترنت، أو برامج ذكاء اصطناعي يمكنها تقليد الأصوات، إلا أنها عادة ما تتطلب كمية كبيرة من البيانات، ونماذج كثيرة من تسجيلات الأصوات، حتى يتمكن البرنامج من تقليد الأصوات بشكل جيد، أو تحويل النصوص إلى جمل مسموعة.
ومع هذا فإن طريقة الكلام في التسجيل النهائي الذي تقدمه أغلب تلك البرامج، غالباً ما تكون صناعية ويمكن تمييز أنها صادرة عن “روبوت”.
لكن نموذج VALL-E الجديد يمكنه تقليد صوت أي شخص بطريقة واقعية جداً، وكل ما يحتاجه تسجيل صوتي مدته 3 ثوانٍ فقط. ويمكن أن يتطابق الكلام الذي ينتجه VALL-E، مع نغمة الصوت وحتى نطق الكلمات بطريقة فيها مشاعر تبدو مطابقة للشخص الذي يتم تقليد صوته.
ليس هذا فحسب، بل حتى تقليد الأصوات في خلفية المقطع الأصلي، مثلاً لو كان في مقطع الصوت الأصلي أصوات عصافير أو أصوات سيارات أو أي نوع من الضوضاء، سيقوم VALL-E بتقليدها في مقاطع الصوت الجديدة المزيفة التي ينتجها.
7000 ساعة من التسجيلات لتدريب VALL-E
مع أن VALL-E لا يحتاج سوى 3 ثوانٍ لتقليد الأصوات بشكل متقن، لكن للوصول لهذه المرحلة كانت شركة مايكروسوفت بحاجة إلى مجموعة بيانات ضخمة، تضم أكثر من 60 ألف ساعة من التسجيلات، التي قدمها 7000 شخص مختلف يتحدثون اللغة الإنجليزية بلهجات مختلفة.
توضح الأمثلة والمقاطع الصوتية التي أنتجها VALL-E، أنه يعمل بشكل أفضل مع بعض الأصوات أكثر من غيرها، وأنه قد يواجه مشكلة مع بعض اللهجات.
ولكن نظراً لأن التطبيق لا يزال في مراحله الأولى، فمن المحتمل أن تتحسن وظائفه بمرور الوقت.
تزييف عميق وسرقة بيانات باستخدام تقليد الأصوات VALL-E
إمكانيات استخدام برامج ذكاء اصطناعي يمكنها إنتاج أصوات واقعية، لا حصر لها، من البيع بالتجزئة إلى التكنولوجيا المالية وحتى الألعاب، لكنها لا تخلو من مخاطر عديدة، وربما هذا أحد دوافع شركة مايكروسوفت لعدم جعل أكواد برنامج تقليد الأصوات VALL-E مفتوحة المصدر.
حيث يمكن أن يتم استخدام VALL-E في تقليد أصوات السياسيين والمشاهير، باستخدام مقاطع من أصواتهم على الإنترنت، ودمجها مع تقنيات التزييف العميق، لإنتاج مقاطع مزيفة شديدة الواقعية، أو حتى يمكن لبعض المجرمين الوصول إلى البنوك أو الأنظمة الأمنية التي تستخدم البصمة الصوتية ككلمة مرور.
أو ربما تزييف صوت أحد افراد عائلتك أو أصدقائك للقيام بعمليات احتيال عبر الهاتف، وانتحال شخصياتهم.
وبحسب محمد يحيى باتيل، مهندس الأمن الرقمي: “إنه لا ينبغي الخوف من التقدم في التكنولوجيا الجديدة مثل VALL-E، ولكن لا يزال يتعين علينا التعامل مع أنظمة مثل هذه بدرجة من الحذر”.