Sora من OpenAI هو المستقبل مركز سمت للدراسات

Sora من OpenAI هو المستقبل الذي أصبح حقيقة

التاريخ والوقت : الإثنين, 26 فبراير 2024

Robert Chapman-Smith

في النسخة الثانية من رائعته التي صدرت عام 1999 بعنوان “في طرفة عين”، اقترح محرر الأفلام الأسطوري والتر مورش تجربة فكرية: “لنفترض أن هناك ذروة تقنية في منتصف القرن الحادي والعشرين، عندما يصبح من الممكن بطريقة ما لشخص واحد أن يصنع فيلمًا كاملًا بممثلين افتراضيين”. مع الكشف عن “Sora” من OpenAI، تقترب البشرية خطوة تلو الأخرى نحو الفرضية التي طرحها مورش.

“Sora” هو نموذج تحويل النص إلى فيديو الذي تم تطويره من قبل OpenAI خلال العام الماضي. يستطيع هذا النموذج إنشاء فيديو عالي الدقة بدقة 1080p، يمتد لمدة دقيقة واحدة، استنادًا إلى نص مكتوب. “Sora” هو أحدث نموذج لتحويل النص إلى فيديو في مجموعة فرعية متنامية من تطبيقات الذكاء الاصطناعي الإبداعية. ينضم “Sora” إلى الجيل الثاني من Runway وPika من مختبرات Pika وEmu من Meta وفقًا لتصريح OpenAI: “يتمتع Sora بالقدرة على إنشاء فيديوهات كاملة في دفعة واحدة أو تمديد الفيديوهات المولدة لجعلها أكثر طولاً”. بالإضافة إلى ذلك، يستطيع النموذج استخدام الصور الثابتة لإنتاج فيديو.
أحد أكثر جوانب “Sora” إثارة للاهتمام استخدامه للرقع الصغيرة، وهي مجموعات صغيرة من البيانات تشبه “الرموز” المستخدمة في نماذج ChatGPT الأخرى. يتم تحويل الفيديو إلى رقع بدرجة ضغط الفيديو في البداية في مساحة ذات أبعاد أقل، ثم يتم تحليل التمثيل بواسطة رقع الزمكان. الرقع الزمكانية تحتوي على معلومات مكانية (بصرية) وزمنية (توقيت) للأحداث داخل تسلسل الفيديو.

تتيح الرقع لـ”Sora” تقسيم الفيديو أو الصورة إلى قطع أصغر يتم تحليلها ومعالجتها بشكل منفصل. هذا يقلل من تعقيد تحليل المعلومات البصرية في فيديو أو صورة معينة. يُعرف البيان البصري مثل الفيديو والصور بأنها بيانات “ذات أبعاد عالية”. على سبيل المثال، تحتوي صورة ذات 1000×1000 بكسل على مليون بُعد. معالجة هذا الكم من الأبعاد تتطلب قوة حسابية كبيرة. بتقسيم فيديو أو صورة إلى رقع أصغر- أو بالأحرى إلى هذا الفضاء الكامن ذو الأبعاد الأقل – يمكنك تحسين أداء النموذج عبر السماح له بالتركيز على الاختلافات بين الرقع المختلفة. توصف OpenAI “Sora” بأنه نموذج محول الانتشار الذي يصنع الفيديو من خلال تحويل تدريجي لرقع ثابتة مضغوطة ومليئة بالضوضاء على مدى العديد من الخطوات.

بالإضافة إلى الرقع، طبقت OpenAI تقنية “إعادة الوصف” المستخدمة مع DALL-E 3 لتزويد “Sora” بمجموعة تدريب من الفيديوهات مع تعليقات نصية مقابلة. “نحن ندرب أولاً نموذجًا وصفيًا للغاية، ثم نستخدمه لإنتاج تعليقات نصية لجميع الفيديوهات في مجموعتنا التدريبية. نجد أن التدريب على تعليقات الفيديو الوصفية يحسن من دقة النص وكذلك من الجودة العامة للفيديوهات”. كما يستخدم “Sora” تقنية GPT لتحويل المطالبات القصيرة من المستخدمين إلى مطالبات أطول وأكثر تفصيلاً، وهي تقنية استخدمتها الشركة أيضًا مع DALL-E 3.

لم تكشف OpenAI بعد عن البيانات التدريبية الدقيقة لـ”Sora”، ولكن جيم فان، العالم الباحث الأول في NVIDIA، اقترح أنه “لن يتفاجأ إذا تم تدريب Sora على الكثير من البيانات الاصطناعية باستخدام “Unreal Engine 5. قام “فان” بهذه التوقعات قبل أن تصدر OpenAI الورقة الفنية لـ”Sora”. بينما لم تناقش الورقة بشكل محدد Unreal Engine، إلا أن الورقة ذكرت قدرة “Sora” على محاكاة العوالم الرقمية. يمكن للنموذج إنشاء محاكاة عالية الدقة للعبة “Minecraft”، اللعبة الشعبية ذات العالم المفتوح من Mojang Studios. تعتقد OpenAI أن “هذه القدرات تشير إلى أن التوسع المستمر في نماذج الفيديو يمثل مسارًا واعدًا نحو تطوير محاكاة عالية القدرة للعالم الفيزيائي والرقمي، والأشياء والحيوانات والأشخاص الذين يعيشون فيها”.

لم يتم إصدار “Sora” بعد للجمهور، ولكن كما هو الحال مع الإصدارات الجديدة لمنتجات جيل الذكاء الاصطناعي (GenAI)، منحت الشركة وصولاً مبكرًا إلى عدد صغير من المحترفين الإبداعيين للحصول على تعليقات حول أدائه. تعمل OpenAI أيضًا مع فرق الاختبار الأمنية – خبراء الأمن الأخلاقي في عالم الذكاء الاصطناعي – لاختبار حواجز الأمان للنموذج بطريقة تنافسية للمساعدة في ضمان عدم توليد “Sora” لمحتوى يتضمن “عنفًا مفرطًا، أو محتوى جنسيًا، أو صورًا تحض على الكراهية، أو تشبه المشاهير، أو الملكية الفكرية للآخرين”.

بعد الإعلان عن “Sora”، قام الرئيس التنفيذي لشركةOpenAI، سام ألتمان، بالبدء في مشاركة أمثلة على مقاطع الفيديو التي تم إنشاؤها باستخدام “Sora” استنادًا إلى المطالبات التي قدمها مستخدمون من مجتمع .X وقد نشر ألتمان قائلاً: “نرغب في أن نعرض لك ما يمكن أن يحققه ..Soraلا تترددوا في تقديم التفاصيل أو الصعوبات!”

في العديد من الجوانب، يبدو “Sora” كإصدار مبكر من رؤية والتر مورش. في كتابه، يتخيل مورش هذه التقنية كـ”صندوق أسود” يمكن أن يحول أفكار شخص واحد مباشرة إلى واقع سينمائي قابل للمشاهدة. ستقوم بتوصيل سلسلة من الأقطاب الكهربائية بنقاط مختلفة على جمجمتك، وببساطة تفكر في الفيلم حتى يصبح واقعًا”. ويطلب من جمهوره أن يفكر فيما إذا كان هذا سيكون “أمرًا جيدًا”.

في حين أن قراءة العقل المباشرة التي يصفها مورش بعيدة كل البعد عن الواقع “على الرغم من حدوث تقدم ملحوظ هناك أيضًا”، فمن الممكن أن يكون صندوق الدردشة هو مقدمة لمدخلات الصندوق الأسود لمورش. في تجربته الفكرية، يصف مورش هذا الجهاز بأنه شيطاني ويعتقد أن صانعي الأفلام في المستقبل سوف يعقدون صفقة فاوستية إذا قبلوا المقايضات التي تقدمها مثل هذه القطعة التكنولوجية القوية.

يبدو أن مورش كان متقدمًا على عصره في هذا الجانب أيضًا. أعرب بعض الأشخاص على الإنترنت عن استنكارهم لإعلان “Sora” باعتباره نهاية صناعة الأفلام وهوليوود، مدعين أن التكنولوجيا الجديدة قد “سرقت المستقبل” من صانعي الأفلام الشباب الطموحين. لكن آخرين كانوا متحمسين للإعلان، حيث رأوا في “Sora” قوة تحررية للإبداع تتيح للأشخاص ذوي الأفكار تجاوز الحواجز التقنية والبيروقراطية التي تقف حاليًا في طريقهم.

كصانع أفلام، أنا أنتمي إلى المجموعة الأخيرة. أنا متحمس بشكل أكبر لآفاق الأدوات الجديدة للسرد القصصي التي تتيح للمزيد من الأشخاص سرد القصص التي يرغبون في سردها. بينما يمكن للأدوات الجديدة والأكثر تطورًا أن تسهل عملية صناعة الفن، سيكون من الخطأ الخلط بين أداة والفن ذاته. وبما أن استخدام الأدوات أصبح أسهل بالنسبة لغير الخبراء، فمن المؤكد أننا سنشهد انتشارًا للفن السيئ. يقدم العقدان الأخيران من الوسائط الرقمية أمثلة وافرة على الفن السيئ الذي لا يمكن تحقيقه إلا لأن أدوات الحرفة يمكن الوصول إليها على نطاق أوسع.

لكننا تلقينا أيضًا نعمة انفجار الفن الجيد الذي صنعه أشخاص لم يكونوا ليتمكنوا من المشاركة في العملية الإبداعية تحت الظروف السابقة. شخصيًا، ما يثير حماسي حول ابتكار مثل “Sora” هو فكرة القدرة على التفكير حول القصص، معزولة عن جوانب فنية أخرى من عملية صناعة الأفلام الحالية. التكرار والمراجعة ضروريان لصناعة أفلام جيدة، ولكن تكلفة التكرار، خاصة التكرار البصري، هي عائق يمكن أن يترك العديد من الأفكار الجيدة بدون استكشاف.

عملية الإبداع هي واحدة من أكثر الأجزاء بهجة في صناعة الأفلام. وحقيقة أن البشرية تبني أدوات يمكن أن تساعد في تحويل الأفكار إلى واقع بسرعة، هي أمر مثير بشكل أساسي. وهذا لا يعني أنه لا توجد تنازلات، وأنه لا توجد أشياء قد نخسرها في العملية، لكني شخصيًا أفضل أن أمتلك وأرى وأشارك أفكارًا أكثر.

وبينما يعمل “Sora” على تقريب الإنسانية من “الصندوق الأسود” الذي وصفه مورش، فإن أحد أكبر العوائق التي تحول دون إنشاء جهاز مورش، والذي يمكن أن يسمح بتحويل رؤية شخص واحد مباشرة إلى فيلم، هو أن هذه النماذج يمكنها لا تزال تكافح في توليد مشاهد معقدة بدقة. على الرغم من الإنجازات التقنية للنموذج والعروض المثيرة للإعجاب، تشير OpenAI إلى أن Sora يعاني من أشياء مثل السبب والنتيجة، بالإضافة إلى الاتجاهات المكانية المربكة مثل اليمين واليسار. قدمت الشركة خمسة أمثلة للأماكن التي يعاني فيها Sora حاليًا من مشاهد معقدة.
حتى مع القصور الحالي، تعتقد الشركة أن “Sora” يمكن أن يكون نموذجًا يغير قواعد اللعبة ويمكن أن يضع الأساس العام للذكاء الاصطناعي (AGI). قال تيم بروكس، عالم في OpenAI، لمجلة تكنولوجيا MIT: “نحن نعتقد أن بناء نماذج يمكنها فهم الفيديو، وفهم كل هذه التفاعلات المعقدة جدًا لعالمنا، هو خطوة مهمة لجميع أنظمة الذكاء الاصطناعي في المستقبل”.

إعداد: وحدة الترجمات بمركز سمت للدراسات

المصدر: Freethink

النشرة البريدية

سجل بريدك لتكن أول من يعلم عن تحديثاتنا!

تابعونا على

تابعوا أحدث أخبارنا وخدماتنا عبر حسابنا بتويتر