ITMO Research_ podcast: كيفية التعامل مع تزامن محتوى AR مع العرض على مقياس الاستاد بأكمله

هذا هو الجزء الأول من نص نص المقابلة الثانية لبرنامجنا ( Apple Podcasts ، Yandex.Music ). ضيف الإصدار - أندري كارساكوف (kapc3d) ، دكتوراه ، باحث أول في المركز الوطني للتطوير المعرفي ، أستاذ مشارك في قسم التحولات الرقمية.

منذ عام 2012 ، عمل أندريه في المجموعة العلمية للتصور ورسومات الكمبيوتر. هو منخرط في مشاريع تطبيقية واسعة النطاق على المستوى الدولي والدولي. في هذا الجزء من المحادثة ، نتحدث عن تجربته في مرافقة AR للأحداث الجماعية.


Photo ThisisEngineering RAEng (Unsplash.com)



سياق المشروع وأهدافه


Timecode ( إصدار صوتي ) - 00:41



دميتريكابانوف: أود أن أبدأ بمشروع الألعاب الأوروبية. إنه مكون متعدد المكونات ، وشاركت عدة فرق في التحضير ، وتوفير الواقع المعزز لعدة آلاف من الجمهور خلال الحدث في الاستاد مهمة خطيرة إلى حد ما. من حيث مشاركتك ، هل كان هذا البرنامج في المقام الأول؟

kapc3d: نعم ، لقد صنعنا جزء البرنامج وقدمنا ​​مرافقة أثناء العرض. كان من الضروري مراقبة ورصد وإطلاق كل شيء في الوقت الحقيقي ، وكذلك للعمل مع مجموعة تلفزيونية. إذا نظرنا في هذا المشروع ككل ، يمكننا التحدث عن مراسم الافتتاح والختام لدورة الألعاب الأوروبية في مينسك ، وكذلك عن حفل افتتاح بطولة WorldSkills في قازان. كان نفس مخطط العمل ، ولكن الأنشطة المختلفة. بينهما كانت فجوة شهرين. قمنا بإعداد المشروع مع الرجال من Sechenov.com .

قابلهم بالصدفة في مهرجان العلومالذي حدث في خريف عام 2018. أظهر طلابنا الجامعيين مشروع دراستهم حول موضوع الواقع الافتراضي. اقترب منا الرجال وسألونا عما نفعله في مختبرنا. بدا الأمر مثل هذا:

- إذن أنت تعمل مع VR ، ولكن هل أنت قادر على الواقع المعزز؟

"حسنًا ، نوعًا ما ، نعم."

- هناك مثل هذه المهمة ، مع تلك التمهيدية. هل يمكنك فعلها؟


لقد خدشنا اللفت قليلاً ، يبدو أنه لا يوجد شيء غير واقعي:

- دعنا نحاول دراسة كل شيء مقدمًا ، ثم سنجد حلاً.

ديمتري: هل يتعاملون مع الدعم الإعلامي فقط؟

أندرو:اصنع كومة كاملة. من وجهة نظر الإدارة والتنظيم - إنهم منخرطون بشكل كامل في التوجيه ، وتنظيم ، واختيار المشهد ، والخدمات اللوجستية وغيرها من الدعم التقني. لكنهم أرادوا القيام بشيء خاص للألعاب الأوروبية. هذه التأثيرات الخاصة ، مثل الواقع المختلط ، كانت تعمل للتلفزيون لفترة طويلة ، لكنها ليست الأكثر ميزانية من حيث التنفيذ التقني. لذلك ، كان الرجال يبحثون عن بدائل.

ديمتري: لنناقش المشكلة بمزيد من التفصيل. كيف كانت تبدو؟

أندرو: هناك حدث. تستمر ساعة ونصف. نحتاج إلى التأكد من أن الجمهور الذي يشاهده مباشرة وأولئك الذين يجلسون في الملعب يمكنهم رؤية التأثيرات بالواقع المعزز مع المزامنة الكاملة مع العرض المباشر في الوقت والموقع على الموقع.

كان هناك عدد من القيود التقنية. كان من المستحيل القيام بمزامنة الوقت عبر الإنترنت ، لأنه كانت هناك مخاوف بشأن الحمل المفرط على الشبكة مع المواقف الكاملة واحتمال حضور الحدث من قبل رؤساء الدول ، بسبب شبكات الجوال التي يمكن أن تزدحم.

Andrey Karsakov ، صورة من مادة جامعة ITMO
كان لدينا مكونان رئيسيان لهذا المشروع - التجربة الشخصية التي يمكن للناس الحصول عليها من خلال الأجهزة المحمولة ، وما يجري على شاشات البث التلفزيوني والمعلومات في الاستاد نفسه.

إذا شاهد شخص فجأة حلقات من الواقع المعزز من خلال جهاز محمول وضرب الشاشة في نفس الوقت ، فيجب أن يرى نفس الصورة.

نحن بحاجة إلى نظامين مختلفين بالفعل للمزامنة الكاملة في الوقت المناسب. لكن خصوصية هذه العروض هي أنها أحداث معقدة ، حيث يتم إشراك عدد كبير من الخدمات التقنية ويتم تنفيذ جميع العمليات وفقًا لرموز الوقت. رمز الوقت هو نقطة زمنية محددة يبدأ فيها شيء ما: الضوء ، الصوت ، خروج الناس ، بتلات المرحلة الافتتاحية ، وما إلى ذلك. كان علينا أن نتكيف مع هذا النظام حتى يبدأ كل شيء في الوقت المناسب. ميزة أخرى هي أن المشاهد والحلقات مع الواقع المعزز تم ربطها بشكل مرئي معًا.

ديمتري:لكنك ما زلت تقرر التخلي عن استخدام رموز الوقت ، بسبب المخاطر العالية لقوة قاهرة ، أو أنك حسبت في البداية بعض خصائص القوة وأدركت أن الحمل على النظام بأكمله سيكون مرتفعًا جدًا؟

أندرو: إذا قمت بعمل خدمة مزامنة لمثل هذا الجمهور ، فلن تكون صعبة للغاية. الطلبات على أي حال لن تقع في وقت واحد. نعم ، الحمل مرتفع ، لكن هذه ليست حالة طارئة. السؤال هو ما إذا كان الأمر يستحق إنفاق الموارد والوقت عليها إذا تم إخماد الشبكة فجأة. لم نكن متأكدين من أن هذا لن يحدث. في النهاية ، عمل كل شيء ، بشكل متقطع بسبب الحمل ، لكنه عمل ، وقمنا بالمزامنة باستخدام رمز الوقت بطريقة مختلفة. لقد كان أحد التحديات العالمية.



تحديات تنفيذ تجربة المستخدم


Timecode ( إصدار صوتي ) - 10:42



أندرو: كان علينا أيضًا أن نفكر في أن الاستاد ليس مكانًا للحفلات الموسيقية الكلاسيكية ، ومزامنة الأنظمة في الفضاء للأجهزة المحمولة. لذا ، منذ فترة ، تم انتهاك قصة مع الواقع المعزز في حفلات Eminem ، ثم كانت هناك حالة مع Loboda.

تصوير روبرت باي (Unsplash.com)
ولكن هذه دائمًا تجربة أمامك - فالجمهور بأكمله يواجه المشهد ، والمزامنة بسيطة للغاية. في حالة الاستاد ، عليك أن تفهم أي جانب أنت في محيطه ، والموضع النسبي بحيث يجلس الاستاد في الفضاء الموجود في البيئة الافتراضية. لقد كان تحديا حامضا. لقد حاولوا حلها بطرق مختلفة ، وحصلنا على حالة قريبة مما تم تنفيذه من قبل Loboda ، ولكن ليس في كل شيء.

تركنا المستخدم يقرر أين هو. لقد قاموا بتصميم الملعب ، حيث اختار الناس القطاع ، الصف ، المكان. كل هذا في أربع "نقرات". بعد ذلك ، كان علينا تحديد الاتجاه إلى المشهد. للقيام بذلك ، أظهرنا صورة ظلية لما يجب أن يبدو عليه المشهد من زاوية المستخدم. قام بدمجها ، نقر عليها وهذا كل شيء - جلس المشهد. حاولنا تبسيط هذه العملية قدر الإمكان. مع ذلك ، 90٪ من المشاهدين الذين أرادوا مشاهدة العرض ليسوا الأشخاص الذين لديهم خبرة في الواقع المعزز.

ديمتري: هل كان هناك طلب منفصل لهذا المشروع؟

أندريه: نعم ، تطبيق iOS و Android ، الذي دفعناه إلى الجانب. على ذلك كانت حملة ترويجية منفصلة. تم وصفه بالتفصيل مسبقًا كيفية التنزيل والمزيد.

ديمتري:عليك أن تفهم أن الشخص ليس لديه مكان للتحقق منه فعليًا ومعرفة كيفية استخدام مثل هذا التطبيق. لذلك ، كانت مهمة "تدريب" الجمهور معقدة.

أندرو: نعم ، نعم. مع UX ، التقطنا الكثير من المخاريط ، لأن المستخدم يريد التجربة بثلاث نقرات: تم تنزيلها وتثبيتها وتشغيلها وعملها. الكثير منهم كسالى للغاية لدرجة أنهم لا يستطيعون متابعة الدروس المعقدة وقراءة التدريب والمزيد. ولم نحاول شرح كل شيء للمستخدم في البرنامج التعليمي قدر الإمكان: سيتم فتح نافذة هنا ، والوصول إلى الكاميرا هنا ، وإلا فلن تعمل ، وما إلى ذلك. بغض النظر عن عدد التفسيرات التي تكتبها ، ومقدار مضغك بالتفصيل ، ومهما كانت ملفات GIF التي تدخلها ، فإن الأشخاص لا يقرؤون ذلك.

في مينسك ، قمنا بتجميع مجموعة كبيرة من التعليقات لهذا الجزء ، وقمنا بالفعل بتغيير الكثير للتطبيق في قازان. لقد سافرنا هناك ليس فقط تلك التسجيلات الصوتية ورموز الوقت التي تتوافق مع حلقة محددة من الواقع المعزز ، ولكننا أخذنا جميع التسجيلات الصوتية ورموز الوقت بالكامل. لذلك سمع التطبيق ما كان يحدث في وقت الإطلاق ، وإذا لم يكن الشخص قد دخل في تلك اللحظة ، فسيقدم معلومات: "الرفيق ، أنا آسف ، ستكون حلقة AR الخاصة بك في غضون 15 دقيقة."



قليلا عن هندسة ونهج التزامن


Timecode ( إصدار صوتي ) - 16:37



ديمتري: هل ما زلت تقرر المزامنة بالصوت؟

أندريه: نعم ، حدث بالصدفة. قمنا بفرز الخيارات وعثرنا على شركة Cifrasoft من إيجيفسك. لا يتم خداعها حقًا ، ولكن SDK يعمل بالحديد ، والذي يسمح لك بمزامنة الصوت مع التوقيت الصوتي. تم وضع النظام للعمل مع التلفزيون ، عندما يمكنك إخراج شيء ما في التطبيق أو تقديم محتوى تفاعلي على صوت الإعلان المشروط.

ديمتري: ولكن هناك شيء واحد هو أنك تجلس في غرفة المعيشة الخاصة بك ، وآخر هو ملعب متعدد الآلاف. كيف تمكنت من إدارة جودة التسجيل الصوتي والتعرف عليه لاحقًا؟

أندرو:كان هناك الكثير من المخاوف والشكوك ، ولكن في معظم الحالات تم الاعتراف بكل شيء بشكل جيد. يقومون ببناء التوقيعات على الموسيقى التصويرية باستخدام خوارزمياتهم الصعبة - حيث يزن الإجمالي أقل من الملف الصوتي الأصلي. عندما يستمع الميكروفون إلى الصوت المحيط ، فإنه يحاول العثور على هذه الميزات والتعرف على المسار من خلالها. في حالة جيدة ، دقة المزامنة 0.1-0.2 ثانية. كان هذا أكثر من كاف. في الظروف السيئة ، كان التناقض يصل إلى 0.5 ثانية.

يعتمد الكثير على الجهاز. لقد عملنا مع أسطول كبير من الأجهزة. بالنسبة لأجهزة iPhone ، هذه ليست سوى 10 نماذج. لقد عملوا بشكل جيد من حيث الجودة والميزات الأخرى. ولكن مع androids ، فإن حديقة الحيوانات تجعل أمي. ليس في كل مكان اتضح أن مزامنة الصوت تعمل. كانت هناك حالات عندما كان على الأجهزة المختلفة ، إلى جانب المسارات المختلفة ، كان من المستحيل سماعها بسبب بعض الميزات. في مكان ما تغادر الترددات المنخفضة ، يبدأ مكان ما مرتفعًا في التنفس. ولكن إذا كان الجهاز يحتوي على جهاز تطبيع على الميكروفون ، فستعمل المزامنة دائمًا.

ديمتري: من فضلك قل لنا عن الهندسة المعمارية - ما الذي تم استخدامه في المشروع؟

أندرو:قدمنا ​​التطبيق على Unity - الخيار الأسهل من حيث الأنظمة الأساسية المتعددة والرسومات. تستخدم مؤسسة AR. قلنا على الفور أننا لا نرغب في تعقيد النظام ، لذلك قصرنا أنفسنا على أسطول من الأجهزة التي تدعم ARKit و ARCore من أجل الحصول على الوقت لاختبار كل شيء. لقد صنعنا مكونًا إضافيًا لـ Tsifirasoft SDK ، ويقع معنا على GitHub . لقد أنشأنا نظامًا لإدارة المحتوى بحيث يتم تشغيل البرامج النصية وفقًا لجدول زمني.

لقد قمنا بالتلاعب قليلاً بنظام الجسيمات ، لأنه يمكن للمستخدم تسجيل الدخول في أي وقت من حلقة معينة ، ويحتاج إلى رؤية كل شيء من اللحظة التي قام فيها بالمزامنة. الترقيع بنظام يسمح بتشغيل البرامج النصية بوضوح في الوقت المناسب بحيث يمكن تمرير تجربة ثلاثية الأبعاد ذهابًا وإيابًا ، كما هو الحال في فيلم. إذا كان يعمل من خارج منطقة الجزاء مع الرسوم المتحركة الكلاسيكية ، كان علي أن العبث مع أنظمة الجسيمات. في مرحلة ما ، يبدأون في التكاثر ، وإذا وجدت نفسك في مكان ما إلى درجة التكاثر ، لم يولدوا بعد ، على الرغم من أنهم على ما يبدو. لكن هذه المشكلة ، في الواقع ، يمكن حلها بسهولة.

بالنسبة للجزء المتحرك ، فإن الهندسة المعمارية بسيطة للغاية. بالنسبة للبث ، كل شيء أكثر تعقيدًا. كانت لدينا قيود على الحديد. تم تحديد الشرط من العميل: "هنا لدينا مثل هذه الحديقة الحديدية ، تقريبًا ، كل شيء يحتاج إلى العمل عليها". ركزنا على الفور على حقيقة أننا سنعمل مع بطاقات التقاط الفيديو منخفضة التكلفة نسبيًا. لكن الميزانية لا تعني أنها سيئة.

كان هناك قيود على الأجهزة وبطاقات التقاط الفيديو وظروف العمل - كيف يجب أن نحصل على صورة. بطاقات الالتقاط - Blackmagic Design ، التي تعمل وفقًا لنظام القفل الداخلي - وذلك عندما يأتي إطار الفيديو من الكاميرا. تحتوي البطاقة على شريحة معالجة خاصة بها ، والتي تحتوي أيضًا على إطار يجب وضعه فوق الشريحة الواردة. تمزجهم البطاقة - كلما لم نلمس شيئًا هناك ولا نؤثر على الإطار من كاميرا الفيديو. النتيجة من خلال إخراج الفيديو ، تبصق على جهاز التحكم عن بعد. هذه طريقة جيدة لتطبيق التسميات التوضيحية وأشياء أخرى مماثلة ، ولكنها ليست مناسبة جدًا لتأثيرات الواقع المختلط ، لأن هناك العديد من القيود على خط أنابيب التقديم.

ديمتري: من حيث الحوسبة في الوقت الحقيقي ، أو ربط الأشياء ، أو أي شيء آخر؟

أندرو:من حيث الجودة وتحقيق التأثيرات المرجوة. يرجع ذلك إلى حقيقة أننا لا نعرف ما تراكب الصورة فوقها. نحن ببساطة نقدم معلومات اللون والشفافية أعلى الدفق الأصلي. لا يمكن تحقيق بعض التأثيرات مثل الانكسارات والشفافية الصحيحة والظلال الإضافية بمثل هذا المخطط. للقيام بذلك ، تحتاج إلى تقديم كل شيء معًا. على سبيل المثال ، لن يعمل بأي شكل من الأشكال لجعل تأثير تشويه الهواء من حريق أو من الأسفلت الساخن. الأمر نفسه مع انتقال تأثير الشفافية مع مراعاة مؤشر الانكسار. لقد أنشأنا المحتوى في البداية بناءً على هذه القيود ، وحاولنا استخدام التأثيرات المناسبة.


ديمتري: هل لديك المحتوى الخاص بك في المشروع الأول للألعاب الأوروبية؟

أندرو: لا ، كانت المرحلة الرئيسية لتطوير المحتوى هي اللاعبين من Sechenov.com. رسم فناني الجرافيك المحتوى الأساسي مع الرسوم المتحركة وأشياء أخرى. وقمنا بدمج كل شيء في المحرك ، وإضافة تأثيرات إضافية ، وتكييفها بحيث يعمل كل شيء بشكل صحيح.

إذا تحدثنا عن خط الأنابيب ، فعندئذٍ جمعنا كل شيء للتلفزيون على Unreal Engine 4. وتزامن ذلك أنهم بدأوا في تلك اللحظة فقط في فرض أدواتهم للواقع المختلط (الواقع المختلط). اتضح أن كل شيء ليس بهذه البساطة. جميع الأدوات خام حتى الآن ، كان علينا إنهاء الكثير يدويًا. في مينسك ، عملنا على تجميع مخصص للمحرك ، أي أننا أعادنا كتابة بعض الأشياء داخل المحرك بحيث يمكننا ، على سبيل المثال ، رسم الظلال فوق الأشياء الحقيقية. في هذا الإصدار من المحرك ، الذي كان مناسبًا في ذلك الوقت ، لم تكن هناك ميزات تسمح بذلك باستخدام الأدوات القياسية. لهذا السبب ، قام رجالنا بتجميعهم المخصص من أجل توفير كل ما هو حيوي.



الفروق الدقيقة الأخرى والتكيف مع WorldSkills في قازان


الرمز الزمني ( للنسخة الصوتية ) - 31:37



ديمتري: لكن كل هذا في وقت قصير إلى حد ما؟

أندريه: المواعيد النهائية لمشروع قازان ، لمينسك - عادي. حوالي ستة أشهر للتطوير ، ولكن مع مراعاة حقيقة أن ستة أشخاص كانوا متورطين. في الوقت نفسه ، قاموا بصنع الجزء المتحرك ، وطوروا أدوات للإنتاج البرمجي. لم يكن هناك إخراج صورة فقط. على سبيل المثال ، نظام تتبع بصريات ، لذلك كان من الضروري عمل مجموعة أدوات خاصة بك.

ديمتري: هل كان هناك تكيف من مشروع إلى آخر؟ لمدة شهر ونصف كان من الضروري الاستفادة من التطورات ونقل المشروع بمحتوى جديد إلى موقع جديد؟

أندرو:نعم ، لقد كان شهر ونصف. لقد خططنا لقضاء إجازة لمدة أسبوعين للفريق بأكمله بعد مشروع مينسك. ولكن بعد الإغلاق مباشرة ، جاء الرجال من Sechenov.com ويقولون: "حسنًا ، دعوا قازان يفعل ذلك". تمكنا من الاسترخاء قليلاً ، لكننا تحولنا إلى هذا المشروع بسرعة كافية. أكمل شيئا على الجانب التقني. تم إنفاق معظم الوقت على المحتوى ، لأننا فعلنا ذلك تمامًا بالنسبة لـ WorldSkills ، اتفقنا للتو مع فريق المخرج. لم يكن هناك سوى نص من جانبهم. لكن الأمر كان أسهل - لم تكن هناك حاجة لتكرار إضافي. عندما تقوم بعمل المحتوى بنفسك ، سترى على الفور كيف يعمل في المحرك ، يمكنك تحريره وتنسيقه بسرعة.


على الجزء المتحرك ، أخذنا في الاعتبار كل التفاصيل الدقيقة التي كانت لدينا في مينسك. لقد قاموا بتصميم تطبيق جديد ، وأعادوا صياغة بعض الهندسة المعمارية ، وأضافوا دروسًا ، لكنهم حاولوا جعله قصيرًا وواضحًا قدر الإمكان. تقليل عدد خطوات المستخدم من تشغيل التطبيق إلى عرض المحتوى. كان شهر ونصف كافيين لإنشاء مشروع مناسب. ذهبنا إلى الموقع لمدة أسبوع ونصف. كان العمل هناك أسهل ، لأن كل السيطرة على المشروع كانت في أيدي المنظمين ، لم يكن من الضروري التنسيق مع اللجان الأخرى. كان العمل في كازان أسهل وأسهل وكان من الطبيعي أن يكون هناك وقت أقل.

ديمتري: لكنك قررت ترك نهج التزامن ، كما كان ، بالصوت؟

أندرو:نعم ، تركنا الصوت. عملت بشكل جيد. كما يقولون ، إذا نجحت ، فلا تلمسها. لقد أخذنا في الاعتبار الفروق الدقيقة في جودة الصوت. عندما قدموا المقدمة ، كانت هناك حلقة تدريبية فقط حتى يتمكن الناس من تجربتها قبل بدء العرض. كان من المفاجئ أنه عندما لحظة تشغيل مسار في الاستاد يكون هناك تصفيق عاصف ، "مباشر" ، يسمح لك النظام بالمزامنة بشكل جيد على هذا المسار ، ولكن إذا اختلط التصفيق المسجل مع المسار في تلك اللحظة ، فإن المسار يتوقف عن الإمساك به. تم أخذ هذه الفروق الدقيقة في الاعتبار ، وكان الصوت متزامنًا بشكل جيد.

ملاحظة: في الجزء الثاني من القضية ، نحن نتحدث عن التصور العلمي للبيانات ، ونمذجة العمليات في مشاريع أخرى ، وتطوير الألعاب وبرنامج الماجستير " التكنولوجيا لتطوير ألعاب الكمبيوتر"". ننشر استمرار في المواد التالية. يمكنك الاستماع ودعمنا هنا:






PPS في الوقت نفسه ، على النسخة الإنجليزية من هبر: نظرة فاحصة على جامعة ITMO .



All Articles