التمثيل الرقمي للصوت التناظري. برنامج تعليمي موجز



أعزائي القراء ، اسمي فيليكس هاروتيونيان. أنا طالب ، عازف كمان محترف. في هذه المقالة ، أود أن أشارككم مقتطفًا من العرض التقديمي الذي قدمته في جامعة غراتس للموسيقى والمسرح حول موضوع الصوتيات التطبيقية.

فكر في الجوانب النظرية لتحويل الإشارة التناظرية (الصوتية) إلى رقمية.
لن تكون المقالة شاملة ، ولكن ستكون هناك روابط تشعبية في النص لمزيد من الدراسة للموضوع.

ما الفرق بين الصوت الرقمي والتناظري؟


يتم وصف إشارة تناظرية (أو سلسلة متصلة) بواسطة وظيفة مستمرة للوقت ، أي لقد فعلت ذلكخط مستمر مع مجموعة مستمرة من القيم الممكنة (الشكل 1).

تين. 1


الإشارة الرقمية هي إشارة يمكن تمثيلها كتسلسل للقيم الرقمية المحددة. في أي وقت ، يمكن أن تأخذ قيمة نهائية محددة واحدة فقط (الشكل 2).

تين. 2


يمكن أن تأخذ الإشارة التناظرية في النطاق الديناميكي أي قيمة. يتم تحويلها إلى إشارة تناظرية إلى النظام الرقمي باستخدام عمليتين - تفريد و تكميم . قائمة انتظار العملية ليست مهمة.

التقسيم هو عملية تسجيل (قياس) قيمة الإشارة على فترات معينة (متساوية عادة) من الوقت (الشكل 3).

تين. 3


التكميم هو عملية تقسيم نطاق اتساع الإشارة إلى عدد معين من المستويات وتقريب القيم المقاسة أثناء أخذ العينات إلى أقرب مستوى (الشكل 4).

تين. 4


يكسر التقسيم الإشارة في مكون الوقت (عموديًا ، الشكل 5 ، اليسار).
يجلب التكميم الإشارة إلى القيم المعينة ، أي أنها تقرب الإشارة إلى المستويات الأقرب إليها (أفقياً ، الشكل 5 ، إلى اليمين).

تين. 5


تنشئ هاتان العمليتان نوعًا من نظام الإحداثيات الذي يسمح لك بوصف الإشارة الصوتية بقيمة محددة في أي وقت.
الرقمي هو إشارة يتم تطبيق التكمية والكمية عليها. تتم الرقمنة في محول تناظري إلى رقمي (ADC) . كلما زاد عدد مستويات القياس وكلما زاد تردد أخذ العينات ، كلما كانت الإشارة الرقمية تتوافق بدقة أكبر مع الإشارة التناظرية (الشكل 6).

تين. 6


يتم ترقيم مستويات القياس وتعيين رمز ثنائي لكل مستوى . (الشكل 7)

تين. 7


يُطلق على عدد البتات التي يتم تعيينها لكل مستوى تكمية عمق البت أو عمق القياس (eng. عمق البت). كلما زاد عمق البت ، يمكن تمثيل المزيد من المستويات في الشفرة الثنائية (الشكل 8).

تين. 8.


تسمح لك هذه الصيغة بحساب عدد مستويات القياس:

إذا كان N هو عدد مستويات القياس ، فإن
n هو عمق البت ، ثم

N=2n



عادة ، يتم استخدام البتات 8 و 12 و 16 و 24 بت. من السهل حساب أنه بالنسبة لـ n = 24 فإن عدد المستويات هو N = 16،777،216.

عند n = 1 ، ستتحول الإشارة الصوتية إلى شفرة مورس: إما أن يكون هناك "طرق" أم لا. هناك أيضًا نقطة عائمة 32 بت. تبلغ سعة قرص الصوت المضغوط المدمج التقليدي 16 بت. كلما كان عمق البت أقل ، كلما تم تقريب المزيد من القيم وزاد خطأ القياس الكمي.

خطأ التكمية هو انحراف إشارة كمية من تناظرية ، أي الفرق بين قيمة المدخلاتX والقيمة الكمية X(XX)

تؤدي أخطاء تكميم كبيرة إلى تشويه شديد للإشارة الصوتية ( ضوضاء تكمية ).

كلما زاد عمق البت ، كلما كانت أخطاء التكمية أصغر ، كانت نسبة الإشارة إلى الضوضاء (SNR) أفضل ، والعكس بالعكس: عند عمق البت المنخفض ، تزداد الضوضاء (الشكل 9).

تين. 9


يحدد عمق البت أيضًا النطاق الدينامي للإشارة ، أي نسبة القيم القصوى والدنيا. مع كل بتة ، ينمو النطاق الديناميكي بحوالي 6 ديسيبل ( ديسيبل ) (6 ديسيبل مرتين ، أي أن الشبكة تصبح أكثر كثافة ، يزداد التدرج).

تين. 10. شدة الضوضاء في أعماق بت 6 بت و 8 بت


لا يمكن تصحيح أخطاء القياس (التقريب) بسبب عدم كفاية عدد المستويات.

ضوضاء التكمية


سعة الإشارة عند 1 بت (أعلى) و 4 بت


مثال صوتي 1: 8 بت / 44.1 كيلو هرتز ، ~ 50dB SNR
ملاحظة: إذا تعذر تشغيل الملفات الصوتية عبر الإنترنت ، فيرجى تنزيلها .


مثال صوتي 1


مثال صوتي 2: 4bit / 48kHz ، ~ 25dB SNR


مثال صوتي 2


مثال صوتي 3: 1 بت / 48 كيلو هرتز ، ~ 8dB SNR


مثال صوتي 3


الآن عن أخذ العينات.

كما ذكرنا سابقًا ، هذا هو انقسام رأسي للإشارة وقياس قيمة قيمة بعد فترة زمنية معينة. يسمى هذا الفاصل الزمني لأخذ العينات أو فترة أخذ العينات. معدل أخذ العينات ، أو معدل أخذ العينات ( معدل العينة المعروف) هو القيمة المعكوسة لفترة أخذ العينات ويقاس بالهرتز . إذا كانت
T هي فترة أخذ العينات ، فإن
F هي تردد أخذ العينات ، إذن
F=1/T

من أجل تحويل إشارة تناظرية مرة أخرى من إشارة رقمية (لإعادة إنشاء وظيفة مستمرة وسلسة بدقة من قيمة "نقطة" منفصلة) ، يجب على المرء اتباع نظرية Kotelnikov (نظرية Nyquist - Shannon).

تنص نظرية كوتلنيكوف على ما يلي:
( ) , , , .
هل تعرف الرقم 44.1 كيلو هرتز؟ هذا أحد معايير تردد أخذ العينات ، وقد تم اختيار هذا الرقم على وجه التحديد لأن الأذن البشرية تسمع إشارات تصل إلى 20 كيلو هرتز فقط. الرقم 44.1 أكبر من ضعف الرقم 20 ، لذلك يمكن تحويل جميع الترددات في إشارة رقمية يمكن الوصول إليها إلى الأذن البشرية في شكل تناظري دون تشويه.

لكن 20 * 2 = 40 ، لماذا 44.1؟ الأمر كله يتعلق بالتوافق مع معايير PAL و NTSC . لكن اليوم لن نفكر في هذه اللحظة. ماذا سيحدث إذا لم تتبع نظرية Kotelnikov؟

عندما يتم العثور على تردد في إشارة صوتية أعلى من نصف تردد أخذ العينات ، يحدث التعرج - وهو تأثير يؤدي إلى التراكب ، وعدم تمييز الإشارات المستمرة المختلفة عند أخذ عينات منها.

اسم مستعار


كما يمكن رؤيته من الصورة السابقة ، فإن نقاط أخذ العينات تقع بعيدًا عن بعضها البعض لدرجة أنه عند الاستيفاء (أي تحويل النقاط المنفصلة إلى إشارة تناظرية) ، يتم استعادة تردد مختلف تمامًا عن طريق الخطأ.

مثال صوتي 4: تردد متزايد خطيًا من ~ 100 إلى 8000Hz. تردد الاعتيان - 16000Hz. لا اسم مستعار.


التحليل الطيفي


مثال صوتي 5: نفس الملف. تردد الاعتيان - 8000Hz. هناك اسم مستعار


التحليل الطيفي


مثال:
توجد مادة سمعية حيث يكون تردد الذروة 2500 هرتز. لذلك ، يجب تحديد تردد أخذ العينات 5000 هرتز على الأقل.


السمة التالية للصوت الرقمي هي معدل البت . معدل البت هو مقدار البيانات المرسلة لكل وحدة زمنية. يقاس معدل البت عادة بالبت في الثانية (Bit / s أو bps). يمكن أن تكون البتات متغيرة أو ثابتة أو متوسطة.

تسمح لك الصيغة التالية بحساب معدل البت (صالح فقط لتدفقات البيانات غير المضغوطة):

معدل البت = معدل العينة * البت * عدد القنوات

على سبيل المثال ، يمكن حساب معدل البت الصوتي على النحو التالي:
44100 (معدل العينة) * 16 (بت) * 2 (عدد القنوات ، ستيريو ) = 1411200 بت / الثانية = 1411.2 كيلوبت / ثانية

مع معدل البت الثابت (CBR) ، لا يتغير إرسال حجم دفق البيانات لكل وحدة زمنية طوال عملية الإرسال. الميزة الرئيسية هي القدرة على التنبؤ بدقة إلى حد ما بحجم الملف النهائي. من السلبيات - ليست النسبة المثلى للحجم / الجودة ، نظرًا لأن "كثافة" المادة الصوتية أثناء مقطوعة موسيقية تتغير ديناميكيًا.

عند التشفير بمعدل بت متغير (VBR) ، يختار برنامج الترميز معدل البت بناءً على الجودة المطلوبة. كما يوحي الاسم ، يختلف معدل البت على ملف الصوت المشفر. تعطي هذه الطريقة أفضل نسبة جودة / حجم لملف الإخراج. من السلبيات: الحجم الدقيق للملف النهائي متنبأ به للغاية.

متوسط ​​معدل البت (ABR) هو حالة خاصة من VBR ويأخذ مكانًا وسيطًا بين معدل البت الثابت والمتغير. يتم تعيين معدل البت المحدد من قبل المستخدم. لا يزال البرنامج يغيره في نطاق معين ، لكنه لا يتجاوز متوسط ​​قيمة معينة. 

بالنسبة لمعدل البت المحدد ، عادة ما تكون جودة VBR أعلى من ABR. جودة ABR ، بدورها ، أعلى من CBR: VBR> ABR> CBR.

ABR مناسب للمستخدمين الذين يحتاجون إلى مزايا تشفير VBR ، ولكن مع حجم ملف يمكن التنبؤ به نسبيًا. بالنسبة لـ ABR ، عادة ما يكون التشفير في مسارين مطلوبًا ، حيث لا يعرف برنامج الترميز في الممر الأول أجزاء المادة الصوتية التي يجب ترميزها بحد أقصى لمعدل البت.

هناك 3 طرق لتخزين المواد الصوتية الرقمية:

  • بيانات غير مضغوطة (أولية)
  • بيانات ضائعة
  • البيانات المضغوطة الضائعة

تنسيق بيانات غير مضغوط (RAW)


يحتوي فقط على سلسلة من القيم الثنائية.
في هذا التنسيق يتم تخزين المواد الصوتية في قرص صوتي مضغوط. يمكن فتح ملف صوتي غير مضغوط ، على سبيل المثال ، في Audacity. لديهم الامتداد .raw ، .pcm ، .sam ، أو ليس لديهم امتداد على الإطلاق. لا يحتوي RAW على رأس ملف ( بيانات تعريف ).

تنسيق آخر لتخزين دفق الصوت غير المضغوط هو WAV . على عكس RAW ، يحتوي WAV على رأس ملف.

ضياع مسموعة


مبدأ الضغط مشابه للأرشيفات (Winrar ، Winzip ، إلخ). يمكن ضغط البيانات وفك ضغطها مرة أخرى أي عدد من المرات دون فقدان المعلومات.

كيف تثبت أنه مع الضغط بدون فقد ، فإن المعلومات تبقى بالفعل على حالها؟ يمكن إثبات ذلك من خلال طريقة التداخل المدمر . نأخذ مسارين صوتيين. في المسار الأول ، نستورد ملف WAV الأصلي غير المضغوط. في المسار الثاني ، نستورد نفس الملف الصوتي ، بدون ضغط. عكس مرحلة أحد المسارات (صورة طبق الأصل). عند تشغيل كلا المسارين في وقت واحد ، ستكون إشارة الخرج صامتة.

هذا يثبت أن كلا الملفين يحتويان على معلومات متطابقة تمامًا (الشكل 11).

تين. أحد عشر


برامج ترميز الضغط دون فقد: flac ، WavPack ، Monkey's Audio ...

إذا ضغط الفقدان

لا ينصب التركيز على تجنب فقدان المعلومات ، ولكن على المضاربة مع التصورات الذاتية (علم النفس الصوتي ). على سبيل المثال ، عادة لا تدرك أذن الشخص البالغ ترددات أعلى من 16 كيلو هرتز. باستخدام هذه الحقيقة ، يمكن لبرنامج ترميز الضغط الفقد ببساطة قطع جميع الترددات فوق 16 كيلو هرتز ، حيث "لن يسمع أحد الفرق على أي حال."

مثال آخر هو تأثير الإخفاء . يمكن استنساخ السعات الضعيفة التي تتداخل مع السعات القوية بجودة أقل. عند الترددات المنخفضة العالية ، لا تلتقط الأذن ترددات متوسطة هادئة. على سبيل المثال ، إذا كان هناك صوت عند 1 كيلو هرتز بمستوى صوت 80 ديسيبل ، فلن يتم سماع صوت 2 كيلو هرتز بمستوى 40 ديسيبل.

يستخدم هذا برنامج الترميز: يمكن إزالة الصوت 2 كيلو هرتز.

التحليل الطيفي لترميز mp3 مع مستويات ضغط مختلفة


برامج ضغط وفك ضغط الملفات: mp3 ، aac ، ogg ، wma ، Musepack ...

شكرًا على اهتمامك .

حدث:
إذا لم يتم تحميل الملفات الصوتية لسبب ما ، يمكنك تنزيلها من هنا: cloud.mail.ru/public/HbzU/YEsT34i4c

All Articles