في الأشهر الأخيرة ، لقد شهد تطبيق الذكاء الاصطناعي في مجال الموسيقى نمواً هائلاً.وإحدى الأدوات التي تُحدث أكبر قدر من الضجيج هي موسيقىيستطيع نموذج Meta إنشاء مقاطع موسيقية بمجرد وصفها بالكلمات. إذا كنت ترغب في أن يقوم الذكاء الاصطناعي بتأليف مقطوعة موسيقية في ثوانٍ، ولكنك تريد أيضًا القيام بذلك محليًا أو مع بعض التحكم التقني، فهذا الدليل مناسب لك.
دعونا نلقي نظرة على هذا بهدوء. ما هو برنامج MusicGen بالضبط، وكيف يعمل داخلياً، وكيف يمكنك تجربته مجاناً؟يمكنك تجربته، سواءً من خلال العرض التوضيحي عبر الإنترنت أو بتشغيله بنفسك. ستلاحظ أنه على الرغم من أن الفكرة تبدو متقدمة للغاية، إلا أنها في الواقع سهلة الاستخدام، ولا تحتاج إلى أن تكون موسيقيًا محترفًا لتحقيق أقصى استفادة منها.
ما هو برنامج MusicGen وماذا يقدم تحديداً؟
باختصار، MusicGen هو نموذج ذكاء اصطناعي مصمم لتوليد الموسيقى من النصوصتكتب وصفًا للأغنية التي تريدها - على سبيل المثال، "لحن بيانو هادئ مع أجواء سينمائية ولمسة من الآلات الوترية" - ويعيد النظام مقطعًا صوتيًا قصيرًا يحاول مطابقة ما طلبته.
بدلاً من التعامل مع الكلمات كما تفعل برامج الدردشة الآلية، يعمل برنامج MusicGen باستخدام أجزاء صوتية مضغوطة على شكل "رموز".هذه الرموز عبارة عن وحدات صغيرة تمثل أجزاء من الصوت. ويتعلم النموذج التنبؤ بالرموز التي يجب أن تأتي تالياً، تماماً كما يتنبأ نموذج اللغة العادي بالكلمة التالية في الجملة.
تم تصميم الأداة على بنية من نوع Transformer، يشبه إلى حد كبير ذلك المستخدم في نماذج النصوص مثل تلك التي تقدمها جوجل أو أوبن إيه آيلكنها مُكيّفة للتعامل مع المعلومات الموسيقية ومتوافقة مع أجهزة المزج والمكونات الإضافيةطورت شركة Meta نسخة معدلة من هذه البنية للعمل مع تدفقات عرض الصوت المضغوطة المتعددة في وقت واحد، وبالتالي إدارة الإيقاع والتناغم والجرس بطريقة منسقة.
أحد الجوانب الرئيسية للمشروع هو أن تم إصدار MusicGen كنموذج مفتوح المصدرهذا يعني أن كلاً من الكود والنماذج المدربة مسبقاً متاحة للعموم. وبالتالي، يمكن للمطورين والباحثين والمستخدمين المتقدمين الاطلاع عليها وتعديلها ودمجها في مشاريعهم الخاصة دون الحاجة إلى البدء من الصفر.

كيف تم تدريب Meta MusicGen ولماذا يُعد ذلك مهماً؟
لضمان قدرة MusicGen على إنتاج نتائج متسقة، قام فريق البحث Audiocraft في Meta تم تدريب النموذج باستخدام ما يقرب من 20.000 ساعة من الموسيقى المرخصة.هذه ليست مجرد أغاني عشوائية مأخوذة من الإنترنت، بل هي مواد حصلت الشركة على إذن باستخدامها.
من مجموعة البيانات تلك، تتوافق 10.000 مقطع صوتي مع تسجيلات عالية الجودة من قاعدة بيانات داخليةأما الساعات المتبقية فتأتي من مكتبات تجارية معروفة في هذا المجال، والتي تضم آلاف السمات والمؤثرات الصوتية المستخدمة في الأفلام والإعلانات وإنتاج المحتوى.
تمت معالجة جميع هذه المواد باستخدام برنامج Encodec، برنامج ترميز الصوت الذي طورته شركة ميتا يسمح بضغط الصوت إلى رموز مع الحفاظ على جودة عالية جدًايستخدم برنامج Encodec تقنيات التعلم الآلي لتحقيق نسبة ضغط عالية دون المساس بتفاصيل الصوت. وهذا أمر بالغ الأهمية إذا كان على النموذج بعد ذلك إعادة بناء موسيقى واقعية من تلك المقاطع الصوتية.
نتيجة هذا التدريب هي عدة إصدارات من برنامج MusicGen. بأحجام تتراوح بين 300 مليون و 3.300 مليار معلمةكلما زاد عدد معايير النموذج، زادت قدرته على التمثيل. ومن حيث المبدأ، تحسّنت الجودة التي يمكن أن يقدمها، على الرغم من أنه يستهلك في المقابل المزيد من موارد الحوسبة والذاكرة.
كيف يعمل برنامج MusicGen من الداخل
عندما تتفاعل مع MusicGen، فأنت في الواقع تستخدم نموذج لغوي متخصص في تسلسلات الصوت المضغوطةبدلاً من توليد الحروف، يقوم البرنامج بتوليد تلك الوحدات الصغيرة المنفصلة التي تمثل الصوت. بعد ذلك، تقوم وحدة أخرى بإعادة بناء الصوت من تلك الوحدات.
تبدأ العملية بإدخال النص الخاص بك، أي بالمطالبة. يقوم برنامج MusicGen بتحليل الوصف الذي تكتبه لاكتشاف أهم الكلمات الرئيسية. تلك التي تحدد أسلوب المقطوعة الموسيقية، وإيقاعها، ونوع الآلات المستخدمة فيها، أو طابعها العام: "سريعة"، "ملحمية"، "غيتار كهربائي"، "آلات توليف صوتية من الثمانينيات"، "موسيقى تصويرية"، إلخ. بناءً على هذه الكلمات المفتاحية، يقوم النموذج بتعديل توزيع الاحتمالات الخاص به على الرموز الصوتية التي يمكنه توليدها.
إذا قررت أيضًا تقديم مرجع موسيقي اختياري - مقطع صوتي قصير - يستخلص برنامج MusicGen اللحن الرئيسي والبنية الإيقاعية من تلك القطعةإنها لا تنسخ الأغنية تمامًا، بل تستلهم من لحنها وتناغمها وإيقاعها لتحويلها وتكييفها مع ما وصفته في النص.
في الأساس، يكون برنامج الترميز Encodec مسؤولاً عن قسّم الصوت إلى أجزاء صغيرة يمكن تمثيلها كتسلسلات منفصلة.هذا التمثيل المضغوط هو ما يتعلمه المحول للتنبؤ به، مما يضمن إمكانية إعادة بناء الصوت بجودة عالية إلى حد معقول، حتى عندما يتم إنشاء المقاطع من الصفر.
ومن النقاط الأخرى التي يجب مراعاتها الطبيعة العشوائية للتوليد: في كل مرة تقوم فيها بإنشاء مقطوعة موسيقية باستخدام MusicGen، تكون النتيجة مختلفة.حتى لو استخدمت نفس الموجه، فإن النموذج يعيد أخذ عينات من تسلسل الرموز من البداية. هذا يغير ترتيب الرموز المحدد، وبالتالي يغير المقطع نفسه.

MusicGen، والمطالبات، واستخدام المراجع الموسيقية
جوهر تجربة مستخدم MusicGen هو التوجيهات، أي أوامر النص التي تستخدمها لإخبار النموذج بنوع الموسيقى التي تريد منه تأليفهاكلما كنت أكثر وضوحاً، زادت احتمالية أن تكون النتيجة أقرب إلى ما تفكر فيه.
فعلى سبيل المثال، فإن عبارة عامة جدًا مثل "الموسيقى الإلكترونية" واسعة النطاق لدرجة أنها يمكن للنموذج أن يُرجع أي شيء تقريبًا ضمن هذا النطاقمن موسيقى التكنو البسيطة إلى موسيقى السينثويف الميلودية. أما إذا كتبتَ، من ناحية أخرى، "مقطوعة موسيقية إلكترونية بأسلوب السينثويف، بإيقاع متوسط، يهيمن عليها صوت السينثسيزر، مع جوٍّ حنيني وبدون غناء"، فإنك تُضيّق نطاق نوع المقطع الذي سينتجه بشكل كبير.
بالإضافة إلى ذلك، هناك إمكانية لتوفير لحن مرجعي. ستجد في واجهة الويب الخاصة بـ Hugging Face حقلاً يسمى "شرط على لحن (اختياري)". حيث يمكنك تحميل مقطع قصير من مقطوعة موسيقية موجودة. سيقوم برنامج MusicGen بالتقاط اللحن الرئيسي وتكييفه مع طلبك. ينتج عن ذلك شيء جديد، ولكنه مستوحى من تلك المقطوعة الأصلية.
هذا المزيج من النص الوصفي ومقطع الصوت يجعل تكون النتائج بشكل عام أكثر اتساقاً مع ما تريدهإذا زودت النموذج بالنص فقط، فسيكون لديه حرية أكبر، وستكون النتائج غير متوقعة إلى حد ما. أما إذا أضفت اللحن أيضاً، فإنك تمنحه نقطة انطلاق محددة ليبدأ منها.
على أي حال، لا يوجد "مُوجِّه مثالي" عالمي. أفضل استراتيجية هي التجربةإن تجربة تركيبات من الأساليب والآلات والصفات والهياكل ("مقدمة هادئة، تصاعد تدريجي في المنتصف، نهاية مفاجئة") ستساعدك في العثور على الصيغ التي تناسب ذوقك بشكل أفضل.
القيود الحالية لبرنامج MusicGen
على الرغم من أن العروض لافتة للنظر للغاية، لا يزال لدى MusicGen العديد من القيود المهمة التي يجب أن تكون على دراية بها. قبل التفكير فيه كحل سحري لإنتاج موسيقى متكاملة، إليك أهم قيوده الحالية:
- مدة المقاطع التي ينتجها البرنامج حوالي 12 ثانية. إذا لم تقم بأي تدخل يدوي لاحق، فلن تقوم الأداة بإنتاج أغاني كاملة مدتها عدة دقائق بشكل افتراضي.
- لا يمتلك سيطرة كاملة على التراكيب الموسيقية الطويلةأفضل ما يفعله هو توليد الزخارف والقوام والمقاطع الصغيرة التي يمكن استخدامها كأساس أو مصدر إلهام، بدلاً من الحركات المعقدة ذات التغييرات في النبرة والتطوير المطول.
- لا يفهم الذكاء الاصطناعي الموسيقى بالطريقة التي يفهمها بها الملحن البشري.بدلاً من ذلك، يتعلم البرنامج أنماطاً إحصائية من مجموعة بيانات التدريب الخاصة به. وهذا يعني أنه على الرغم من أن النتائج قد تبدو مقنعة للغاية، إلا أنها لا تحمل دائماً معنى موسيقياً عميقاً.
علاوة على ذلك، هناك الجانب القانوني والأخلاقي: على الرغم من أن النموذج قد تم تدريبه باستخدام موسيقى مرخصة، إلا أن النقاش في هذه الصناعة لا يزال قائماً بقوة.هناك قلق بشأن التأثير المحتمل على الملحنين والمنتجين والفنانين، فضلاً عن مسألة مدى قدرة النموذج على محاكاة أسلوب مبدعين محددين دون انتهاك الحقوق.
MusicGen من Meta والنقاش الدائر في صناعة الموسيقى
شركة ميتا ليست الشركة الوحيدة التي انغمست كلياً في مجال توليد الموسيقى باستخدام الذكاء الاصطناعي، ولكن لقد وضع مشروع MusicGen نفسه في قلب النقاش لكونه اقتراحًا مفتوح المصدر بنتائج تنافسية مقارنة بالبدائل المغلقة.
نماذج مثل MusicLM من جوجل، وRiffusion، وMusai كما أنها تقوم بتوليد مقطوعات موسيقية بناءً على إشارات صوتية.لكل منها نهجها التقني الخاص، ولكن حقيقة أن نموذج Meta متاح على GitHub وفي مستودعات مثل Hugging Face قد دفعت مجتمع البحث إلى التركيز على اختباره ومقارنته.
تتمتع شركة ميتا بثقة كبيرة في تقنيتها. في الواقع، وقد نشرت مقارنات لإظهار أن MusicGen يمكنها تقديم جودة أفضل يتفوق على بعض منافسيه في سياقات معينة. في صفحة عينة متاحة للجميع، يمكن لأي شخص إعادة إنتاج أمثلة مختلفة وتحديد أيها يجده أكثر طبيعية أو إثارة للاهتمام من الناحية الإبداعية.
أدى هذا الافتتاح إلى إعادة إشعال نقاش كان جارياً بالفعل: إلى أي مدى يُعدّ من المرغوب فيه أن يتمكن أي شخص من إنتاج موسيقى بجودة شبه احترافية بمجرد الضغط على زر؟ يرى البعض في ذلك تحولاً جذرياً نحو إتاحة صناعة الموسيقى للجميع. بينما يرى آخرون أنه يهدد بإغراق السوق بمحتوى عام، ويؤدي إلى انخفاض دخل الموسيقيين والملحنين.
وفي الوقت نفسه، قدمت شركة ميتا مشاريع أخرى في مجال الذكاء الاصطناعي مثل مشروع ليما، وهو مشروع موجه نحو اللغة. مما يوضح رغبة الشركة في الدخول بشكل كامل في سباق السيطرة على سوق الذكاء الاصطناعيعلى الرغم من قيامها بتسريح آلاف الموظفين في قطاعات أخرى من القوى العاملة، إلا أن الشعور السائد في هذا القطاع هو أن الالتزام بالذكاء الاصطناعي جاد للغاية، وأنه سيُحدث تحولاً جذرياً في العديد من المهن، بما في ذلك صناعة الموسيقى.
كيفية استخدام MusicGen من خلال عرض Hugging Face التوضيحي
إذا كان ما تريده هو جرّب برنامج MusicGen بسرعة دون تثبيت أي شيء على جهاز الكمبيوتر الخاص بك. أسهل طريقة هي استخدام النسخة التجريبية المجانية المتوفرة على موقع Hugging Face، ضمن المساحة الرسمية التي يستضيفها فريق Meta.
- أدخل عنوان URL الخاص بمساحة facebook/MusicGen في Hugging Face. ستجد هناك صفحة بسيطة نسبياً، لكنها تحتوي على جميع عناصر التحكم اللازمة. لا تحتاج إلى التسجيل لتشغيل بعض الأمثلة، ولكن لإنشاء مقاطعك الخاصة، قد تحتاج إلى حساب مجاني، وذلك بحسب إعدادات الموقع في أي وقت.
- في واجهة البرنامج، انتقل إلى خيار "وصف موسيقاك".هنا يمكنك كتابة وصف المقطوعة الموسيقية التي تريد أن يقوم الذكاء الاصطناعي بتأليفها. يمكنك دمج الإشارات إلى النوع الموسيقي، والآلات، والمشاعر، والبنية.
- ثم انتقل إلى قسم "الشرط على اللحن (اختياري)". في هذا المربع، يمكنك تحميل مقطع صوتي قصير ليكون بمثابة دليل لحني. هذا الجزء اختياري تمامًا.
- اضغط على زر "إنشاء". سيرسل النظام طلبك إلى نموذج MusicGen ويبدأ عملية الإنشاء، والتي يمكن أن تستغرق من بضع ثوانٍ إلى عدة دقائق، اعتمادًا على حمل الخادم وحجم النموذج الذي يستخدم المساحة حاليًا.
بمجرد اكتمال الجيل، في الأسفل، سيظهر مشغل مع المقطع الصوتي الناتج.ومن هناك يمكنك الاستماع إليه مباشرةً في متصفحك. وفي كثير من الحالات، يمكنك أيضاً تنزيل الملف وحفظه على جهاز الكمبيوتر الخاص بك واستخدامه لاحقاً في برنامج الإنتاج الموسيقي الخاص بك، أو في فيديو، أو بودكاست، أو أي مكان آخر ترغب فيه.
كيفية استخدام MusicGen محليًا
إذا كنت تفضل بدلاً من الاعتماد على العرض التوضيحي عبر الإنترنت قم بتشغيل برنامج MusicGen على جهاز الكمبيوتر الخاص بك لمزيد من التحكم والخصوصية.إن كون المشروع مفتوح المصدر يصبّ في مصلحتك تمامًا. فالشفرة والقوالب متوفرة على GitHub و Hugging Face، وجاهزة للتنزيل.
في سيناريو نموذجي، ستحتاج يجب تثبيت لغة بايثون ووحدة معالجة رسومات جيدة خاصةً إذا كنت ترغب في إنشاء مقاطع سلسة أو اختيار نماذج ذات معلمات أكثر. مع ذلك، يمكن تشغيل الإصدارات الأصغر على وحدات معالجة مركزية قوية، على الرغم من أن عملية العرض ستكون أبطأ بكثير.
بمجرد تجهيز البيئة، يكون التدفق العام عادةً على النحو التالي:
- استنسخ مستودع المشروع.
- تثبيت التبعيات (عادةً باستخدام pip).
- قم بتنزيل القالب المحدد الذي ترغب في استخدامه. من Hugging Face.
ومن هناك، يمكنك تشغيل نماذج البرامج النصية التي تقبل مطالبة نصية وتعيد ملفًا صوتيًا.
يتيح لك العمل محليًا أيضًا قم بدمج MusicGen في نظامك الخاص سلسلة إنتاج الموسيقىيمكنك إنشاء أدوات مخصصة لتوليد حلقات لعروضك التوضيحية، أو أتمتة إنشاء موسيقى خلفية للفيديوهات، أو حتى تجربة واجهاتك الخاصة التي تجمع بين النصوص والتحكم في MIDI والمعلمات المتقدمة الأخرى.
يمثل MusicGen by Meta خطوة مهمة في تطور الموسيقى التي تولدها الذكاء الاصطناعييقدم نموذجًا مفتوحًا ومرنًا وسهل الوصول إليه نسبيًا يسمح لك بإنشاء مقاطع صوتية من أوصاف نصية بسيطة، مع خيار إضافة ألحان مرجعية وتشغيلها في السحابة وعلى المستوى المحلي، مع إعادة إشعال النقاش حول دور الذكاء الاصطناعي في صناعة الموسيقى والحدود بين الإلهام والأتمتة والتأليف الإبداعي.