درس:پردازش گفتار/فصل سوم/بخش اول

از ویکی جامع پردیس دانشگاهی دانشگاه قم
پرش به: ناوبری، جستجو


مقدمات

صدا، احساس ارتعاشات و نوسانات هوا توسط گوش انسان است. اين نوسانات، بر اثر عواملی مانند جابجايی، ارتعاش یا اصطکاک اشياء ايجاد می شوند. در صدايی که انسان می شنود دو عامل نقش آفرینی می کنند: نوسانات هوا و گوش انسان.

در واقع اولی سيگنال می باشد و دومی تشکيل دهنده یک سيستم است. در اين قسمت ابتدا مطالبی در مورد قسمت اول مطرح خواهد شد و سپس به قسمت سيستم يعنی گوش انسان می پردازيم. در ادامه، در مورد گفتار و نحوه تولید آن، مطالب مختصری بیان خواهد شد و در انتها، مباحثی در مورد رقمی کردن صدای پیوسته مطرح خواهد شد.

سيگنال صوتی

سيگنال صوتی در واقع همان ارتعاشات و نوسانات هوا است که به گوش می رسد. در اين قسمت مهم ترين پارامترهای مربوط به اين سيگنال صوتی بيان می شود. در واقع تمايز و تفاوت ميان اصوات ناشی از تفاوت در اين پارامترها می باشد. در اين قسمت بيشتر از (Vaseghi, 2007) استفاده شده است.

فشار صوت (SP‏ [۱])- سطح فشار صوت (SPL [۲])

فشار صوت، فشاری است که نوسات بر هوا وارد می کنند تا به گوش برسند. این فشار، با واحد پاسکال که برابر می باشد سنجیده می شود ( : نیوتن و : مترمربع).اگر فشاری که نوسانات بر هوا وارد می کنند از میزان مشخصی کمتر باشد، صدا قابل شنیدن نیست. در فرکانس ، کمترين ميزان فشار هوا که برای گوش عادی، قابل شنيدن می باشد برابر می باشد. این قرارداد، در استاندارد ANSI S1.1-1994، ذکر شده است. این عدد را آستانه شنوايی[۳] خوانده و با نشان می دهند.

سطح فشار صوت، لگاریتم فشار صدا نسبت به است.


(1-0)


بر اساس اين معادله، سطح فشار صوت آستانه شنوايي برابر می باشد.همچنین بيشترين فشار صوتی که بالاتر از آن موجب آسيب جدی به گوش می شود برابر یا می باشد. در نتيجه محدوده شنوايی انسان می باشد.

سطح شدت صوت (SIL [۴])

در شنیدن یک صدا، علاوه بر فشار صوت، سرعت نوسانات نیز اهمیت دارد. حاصل ضرب فشار در سرعت صدا، سطح شدت صدا یا به اختصار شدت صدا خوانده می شود.


(2-0)


در این رابطه، و بردارهای جهت دار بوده و به ترتیب نشان دهنده شدت و سرعت صدا می باشند. نیز فشار صوت می‏باشد. واحد سرعت، و واحد فشار می باشد. در نتیجه واحد شدت صدا، است.

پس می توان گفت، شدت صوت در واقع توان صوت بر واحد سطح می باشد.

شدت صوت، نیز مانند پارامتر SPL، معمولا به صورت لگاریتم نسبی و طبق رابطه زیر تعریف می گردد[۵].


(3-0)


در این رابطه انرژی ضعيف ترين سيگنال صوتی قابل شنيدن می باشد. در جدول 0-1 شدت بعضي صداها بر حسب آمده است.



جدول 0-1. شدت بعضی صداها ( (Thompson, 2005)و (Giordano, 2012) با تغییرات)
نوع صدا شدت (DB)
پچ پچ (در یک متری) 10
صحبت معمولی 60-70
جاروبرقی 70
مترو 90
رعد و برق 110
طبل (در 30 سانتی متری) 130
موتور جهت (در 10 متری) 150


بلندی صوت[۶]

برخلاف دو معيار قبلی که مقادير کمی[۷] بودند، بلندی، يک معيار کيفی[۸] می باشد و نشان دهنده ميزان قوت و ضعفی است که شنونده از صدای رسيده دارد. به عنوان مثال، اگر صدايی با شدت زياد داشته باشيم ولی به هر دليلی (مثلا سنگينی گوش) گوش ما آن را ضعيف بشنود براي ما بلندی ضعيفی دارد حال آن که برای فردی ديگر ممکن است مناسب يا حتی قوی به نظر آيد. پس اين معيار بسته به افراد مختلف و در سنين مختلف تفاوت می کند. در يک سيستم شنوايی معمولی و در فرکانس بلندی صوت به صورت رابطه تجربی زير تعريف شده است:


(4-0)


اين رابطه نشان می دهد اگر فشار صوت افزايش يابد يا به عبارتی 10 برابر شود بلندی صوت تنها 2 برابر می شود.


سرعت انتشار صوت

سرعت انتشار صوت در هوا از رابطه زير به دست می آيد:


(5-0)


که در اين رابطه دمای هوا بر حسب درجه سانتیگراد است.

سرعت انشار صوت در مايعات بيشتر از هوا و در جامدات بيشتر از مايعات است. مثلا سرعت صوت در آب حدود است و در فلزات تا حدود هم می رسد.


گام[۹]

قبل از توضیح مفهوم گام مناسب است با تعریف چند واژه، آشنا شویم. ابتدا با مفهوم تُن[۱۰] یا به عبارت کامل تر تن محض[۱۱] آشنا می شویم. تن، صدایی است که در حوزه فرکانس، تنها یک مؤلفه دارد. اگرچه صدایی با یک مؤلفه فرکانسی قابل تولید است، اما در عمل اکثر صداها ترکیبی از چند مؤلفه فرکانسی یا به عبارتی دیگر چندین تن است.

در بعضی صداها، بین مؤلفه های فرکانسی، رابطه برقرار است. به ، فرکانس اصلی[۱۲] و به بقیه، فرکانس های همساز[۱۳] اطلاق می شود. در بعضی ابزارهای تولید موسیقی، مانند گیتار، چنین وضعیتی وجود دارد.

یک راه مشخص کردن ترکیبی از تن‏ها، استفاده از خاصیتی به نام گام است. مشابه بلندی صدا، گام نيز يک معيار کيفی است و نشان دهنده درکی است که گوش از فرکانس اصلی يک صدا می کند.

هر چه گام بالاتر باشد صدا زيرتر و هر چه پايين تر باشد صدا بم‏تر به نظر می رسد. به بيان ديگر هر چه صدا زيرتر باشد می گوييم گام بالاتر است و هر چه بم‏تر باشد گوييم گام پايين تر است. نکته ديگر اينکه هرچه فرکانس اصلي بزرگتر باشد گام نيز بالاتر است و صدا زيرتر است و عکس اين قضيه نيز صحيح می باشد. البته اين رابطه (به خصوص در فرکانس های زیر )به صورت خطی نیست.


مایه (طنین [۱۴])

تجربه نشان می دهد که هرگاه يک نت خاصی را يک دفعه با يک آلت موسيقی و دفعه ديگر با آلت موسيقی ديگر بنوازند و چشم همه بسته باشد، گوش به خوبی تشخيص می دهد که اين دو صدا از اسباب مختلف است. اين کيفيت را که صوت های با يک فرکانس اصلی و هم شدت را از يکديگر متمايز می سازد، مايه می نامند. در اينجا شدت و گام يکسان است اما در واقع داشتن ضرايب مختلف فوريه برای همسازها و به عبارت خلاصه داشتن تبديل فوريه های نايکسان در فرکانس های همساز موجب اين تفاوت می شود.


گوش انسان

در شنيدن يک صدا توسط گوش انسان چند عامل ايفای نقش می کنند و صدايی که در نهايت شنيده می شود تحت تأثير اين عوامل می باشد. در ادامه اين عوامل را به اختصار توضيح می دهيم.


آستانه مطلق شنوايی (ATH [۱۵])

يک ويژگی واضح سيستم شنوايی اين است که اگر صدا از حد مشخصی کمتر باشد قادر به شنيدن آن نخواهيم بود. اين ويژگی را به صورت دقيق تر زير بيان می کنند.

منحنی بر حسب فرکانس و شدت صوت وجود دارد که اصطلاحا منحنی آستانه مطلق شنوايی (ATH) خوانده می شود. در يک مؤلفه مشخص فرکانسی، اگر شدت صوت از حدی که منحنی ATH تعيين می کند کمتر باشد اين مؤلفه فرکانسی توسط گوش در نظر گرفته نمی شود. نمونه ای از يک منحنی ATH در شکل زير نشان داده شده است. به عنوان مثال در يک صدا، مؤلفه با فرکانس و شدت قابل درک و شنیدن توسط گوش انسان نخواهد بود.

نکته مهم: سؤالی که شايد به ذهن برسد اين است که در تعريف ATH به حوزه فرکانس توجه نموده و بحث خود را در اين حوزه انجام داديم. اما طبيعی تر آن است که در حوزه زمان بررسی را انجام داده و مثلا بگوييم اگر يک نمونه از اندازه معينی کمتر باشد قابل شنيدن نخواهد بود. اما اين گفته صحيح نيست. چرا که نشان داده شده است که گوش انسان بيشتر از آنچه به مقدار نمونه های زمانی حساس باشد به ميزان تغيير بين نمونه ها حساس است و می دانيم مفهومی که ميزان تغيير را مدل می کند فرکانس است. اصولا اغلب تحيل های مربوط به صدا در به جای حوزه زمان (نمونه های زمانی) در حوزه فرکانس انجام می گيرد.


شکل 0-1. نمونه ای از يک منحنی ATH ( (Spanias, Painter, & Atti, 2006))

حساسيت فرکانسی گوش

در مورد گوش انسان مهم ترين نکته ای که وجود دارد اين است که گوش انسان، در واقع، فیلتری است که تنها فرکانس های بين تا را درک می کند. اين بدان معنی است که اگر سيگنال صوتی ما باشد و تبديل فوريه آن آنگاه گوش فرکانس های زير و بالای را حذف می کند و برابر صفر قرار می دهد و در واقع جديدی را به مغز ارسال می کند. به بيان ديگر گوش جهش های خيلی کم يا خيلی شديد سيگنال را حذف می کند و در نتيجه مغز و در نهايت انسان آنها را درک نخواهد کرد.

مثال 0-1. در برنامه MATLAB زير سعی کرده ايم يک سيگنال صوتی با مقدار ثابت را پخش کنيم که با اجرای برنامه متوجه می شويم که تقريبا هيچ صدايی شنيده نمی شود.


x=0.5*ones(40000,1);
wavplay(x);


نکته ديگر اينکه حساسيت گوش انسان به فرکانس های بين تا بيشتر است. به اين معنا که مؤلفه های مربوط به اين فرکانس ها را از خود، تقریبا بدون تضعیف، عبور می دهد اما فرکانس های ديگر را تا حدی تضعيف می کند (البته همان گونه که گفته شد برای محدوده خارج از اين تضعيف تقریبا کامل است و مقدار برابر صفر در نظر گرفته می شود).

معمولا برای نمايش اين ويژگی نموداری به نام منحنی بلندی يکسان[۱۶] رسم می شود که نمونه ای از آن را در شکل زير نشان داده ايم.


شکل 0-2. نمونه ای از يک منحنی بلندی يکسان



تمام نقاطی که روی منحنی قرار دارند دارای بلندی يکسان می باشند. يعنی گوش، آنها را به يک ميزان بلندی درک می کند. به عنوان مثال دو نقطه A و B را در نظر بگيريد. در نقطه A، با فرکانس ، شدت صوت و در نقطه B با فرکانس شدت برابر است. اما بلندی هر دو يکسان است. علت اين است که ميزان تضعيف صوت توسط گوش در فرکانس خيلی بيشتر از فرکانس است. در نتيجه بايد شدت بيشتری داشته باشد تا بلندی يکسان با صدای متناظر با نقطه B داشته باشد.


شدت صوت

عامل مؤثر ديگر در شنيدن صدا، شدت صوت می باشد که تعریف آنها گذشت. اگر شدت از حدی کمتر باشد ديگر هيچ گوشی آن را نمی تواند بشنود. همچنين هر چه شدت صوت بيشتر باشد گوش آن را بلندتر درک می کند.

در شکل 0-3 چند منحنی بلندی يکسان[۱۷] صدا رسم شده است. تمام نقاط روي يک منحنی، بلندی يکسان دارند. همچنين هر چه به منحنی بالاتری برويم بلندی بيشتر می شود. عامل اين افزايش بلندی، در واقع افزايش شدت صوت می باشد.


شکل 0-3. منحنی های بلندي يکسان بر حسب فرکانس و SPL


پوشش فرکانسی [۱۸]

اگر در يک محيط پرسروصدا مثلا در يک ماشين در حال حرکت، قرار داشته باشيد احتمالا يک صدای ضعيف مثل پچ پچ فرد کناری خود را نخواهيد شنيد. اين امر، موضوعی کاملا واضح است. در بعضی موارد، نکته جالب تر ديگری نيز به چشم می خورد. باز تصور کنيد در ماشين در حال حرکت نشسته ايد و صدای A را به خاطر سروصدا آن را نمی شنويد. اما يک صدای ديگر B (مثلا زنگ اعلام پیام موبایل) که با شدتی تقريبا مثل صدای A است را گوش می شنود.

علت وجود اين دو مسئله به يک ويژگی مهم گوش انسان برمی گردد که اصطلاحا پوش فرکانسی ناميده می شود. اين ويژگی را به صورت زير می توان توضيح داد.

فرض کنيد صدای A در محيط وجود داشته باشد و يک صدای B هم به محيط وارد شود. در حوزه فرکانس يک مؤلفه فرکانسی از A را در نظر بگيريد. ويژگی پوشش فرکانسی بيان می دارد که برای اين مؤلفه فرکانسی A نموداری وجود دارد که مؤلفه های فرکانسی B بر طبق آن تحت الشعاع قرار می گيرند. نمونه ای از اين نمودار در شکل زير نشان داده شده است.در اين شکل مؤلفه سبز رنگ، يک مؤلفه صدای A در حوزه فرکانس است. به ازای اين مؤلفه، يک منحنی وابسته به فرکانس وجود دارد که در شکل به رنگ آبی می باشد. اين منحنی بيان می دارد که هر مؤلفه فرکانسی B که زير منحنی باشد توسط مؤلفه مزبور A پوشش داده شده و ديگر توسط گوش درک نمی شود. به عنوان مثال سه مؤلفه از B به نام های X، Y و Z به رنگ قرمز نشان داده شده اند. در اينجا مؤلفه X در زير منحنی است و در نتيجه وسط مؤلفه مربوط به داده A پوشش داده شده و در شنيدن تأثير نمی گذارد. ساير مؤلفه ها يعنی Y و Z توسط مؤلفه مربوط به A پوشش داده نمی شوند و شنيده می شوند.

به اين منحنی آبی، اصطلاحا منحنی آستانه پوشش[۱۹] اطلاق می شود. به طور مشابه می توان به ازای هر مؤلفه فرکانسی A، منحنی های مشابهی را به دست آورد. منحنی آستانه پوشش برای يک مؤلفه از روی ويژگی های سيستم شنوايی و شدت مؤلفه مزبور محاسبه می گردد.

به مؤلفه مربوط به A که برايش منحنی آستانه پوشش تعريف شده (در اين مثال مؤلفه قهوه ای) پوششگر[۲۰] و به مؤلفه های B اصطلاحا پوشيده شده[۲۱] گفته می شود.


شکل 0-4. يک منحنی آستانه پوشش (به رنگ آبی) و تأثير آن در مؤلفه های سیگنال دیگر


گفتار و نحوه تولید آن

گفتار، اصواتی است که از مخارج حروف انسان، ادا می شود. فشار هوایی که از شش ها خارج می شود بعد از عبور از تارهای صوتی، و خروج از دهان به گفتار تبدیل می شود.

در ادامه به ذکر چند تعريف مرتبط با حوزه گفتار، می پردازيم؛ تعاريفی که در بحث های بعدی از آنها استفاده خواهيم کرد.

واج [۲۲]

واج، کوچک ترين واحد گفتاری است که جايگزينی آن با واج ديگر سبب تغيير احتمالی معنا شود. در هر زبان، يک سری علائم IPA‏[۲۳] برای نمايش واج ها تعيين شده است. مثلا در انگليسی، کلمه do را بر حسب علائم IPA به صورت /də/ نشان داده می شود.

واج گونه[۲۴] (هم واج)

هر واج ممکن است به صورت های مختلفی با تغييرات جزئی تلفظ شود. به هر يک از تلفظ های متفاوت واج، واج گونه يا هم واج گفته می شود. برخلاف واج، تغيير يک هم واج به ديگری باعث تغيير معنی نمی شود.

مثال 0-2. و دو واج گونه برای واج /p/ هستند. در تلفظ ، هوای بيشتری نسبت به از دهان خارج می شود. P در کلمه pit، دارای هم واج است اما p در کلمه spit دارای هم واج است.

واج‏ صدادار(واکه [۲۵])- واج‏ بی صدا (هم خوان [۲۶])

یک واج، یا واکه (صدادار)، و یا هم خوان (بی صدا) است. واکه ها با کمک تارهای صوتی[۲۷]، تلفظ می شوند. فشار هوای خروجی از شش ها، از تارهای صوتی عبور می کند. در ادای واکه ها، تارهای صوتی، به تناوب باز و بسته می شوند. فرکانس این باز و بسته شدن ها، همان است که تحت عنوان فرکانس گام در 1.1 توضیح داده شد. در مقابل، در ادای یک هم خوان، تارهای صوتی، باز می مانند و تأثیر چندانی در تلفظ هم خوان ندارند. در هر دو حالت، تلفظ واکه یا هم خوان، هوا بعد از عبور از تارهای صوتی، از مجرای صوتی[۲۸] می گذرد و در نهایت به صورت گفتار ادا می شود.


شکل 0-5.سیستم تولید گفتار انسان


در شکل زیر یک مدل ریاضی ساده برای سیستم تولید گفتار، نشان داده شده است. در این مدل

  • ، مدل کننده مجرای صوتی می باشد.
  • G ضریبی است که معرف میزان شدت فشار هوا می باشد. هر چه فشار هوای خروجی از شش ها بیشتر باشد، G بیشتر می باشد.
  • هوای خروجی از شش ها به صورت یک سیگنال تصادفی قابل مدل سازی می باشد. این سیگنال تصادفی، در واقع از نوع نویز سفید است که در بخش بهسازی گفتار توضیح داده خواهد شد. در نتیجه، بعضی مواقع به جای لفظ سیگنال تصادقی، از واژه نویز سفید استفاده می شود.
  • عبور سیگنال تصادفی از تارهای صوتی و باز و بسته شدن آنها، سبب می شود پالسی که اصطلاحا قطار پالس خوانده می شود تولید گردد. واضح است در زمانی که تارها، بسته هستند، مقدار سیگنال، صفر است که در شکل بالا هم به وضوح نشان داده شده است. با توجه به متناوب بودن باز و بسته شدن تارها، قطار پالس هم یک سیگنال متناوب می باشد.

در شکل زیر، سیگنال اول، حرف "ن" و سیگنال دوم حرف "ش" است که اولی، واکه و دومی، هم خوان است. به روشنی دیده می شود که واکه، سیگنالی تقریبا متناوب است در حالی که هم خوان، نامتناوب بوده و شبیه یک سیگنال تصادفی می باشد. در بخش فشرده سازی، جزئیات بیشتری در خصوص سیستم تولید گفتار و به خصوص، سیستم مدل کننده مجرای صوتی ((H(z) بیان خواهد شد.

الف
||
ب

شکل 0-7. سیگنال گفتار حرف "ن" (الف) و "ش" (ب)


تبديل صدای پيوسته به صدای رقمی

صدايی به گوش انسان می رسد ماهيت پيوسته دارد و با گذر زمان مقدار آن تغيير می کند. به عبارت ديگر صدا يک سيگنال پيوسته x(t) است. برای اينکه بتوانيم با کامپيوتر روی صدا تحليل انجام دهيم بايد آن را به يک سيگنال رقمی تبدیل نماييم. در اين قسمت، در مورد رقمی کردن سيگنال صدا و مطالب مرتبط با آن بحث خواهيم کرد. در فصل اول، یعنی مقدمات ریاضی، بیان شد که برای تبدیل یک سیگنال پیوسته به رقمی، دو عمل نمونه برداری و سپس رقمی کردن بايد انجام شود. در این قسمت، در ارتباط با نحوه نمونه برداری و رقمی کردن سیگنال صدا مطالبی ارائه می گردد.

نمونه برداری صدای پيوسته

همان گونه که در فصل اول گذشت، در نمونه برداری از يک سيگنال پيوسته بايد نرخ نايکوئيست رعايت شود تا کيفيت صدا دچار خدشه نشود. در بخش قبل بيان شد که بيشترين فرکانسی که گوش انسان می تواند درک کند حوالی است. در نتيجه برای رعايت نرخ نايکوئيست، میزان نمونه برداری بايد حدود نمونه در ثانيه باشد. البته اين، نرخ ايده آل است و در عمل حتی تعداد نمونه های خيلی کمتر از اين هم کفايت می کند چرا که همان گونه که پيشتر گذشت حساسيت گوش انسان بيشتر تا حوالی است. در نتيجه معمولا نرخ نمونه برداری بين تا کفايت مي کند. در جدول 3 نرخ نمونه برداری در کاربردهای مختلف ذکر شده است.


جدول 0-2. نرخ نمونه برداری صدا در کاربردهای مختلف
کاربرد نرخ نمونه برداری
تلفن 8k
کنفرانس راه دور[۲۹] 16k
CD صوتی 44.1k
نوار ديجيتالی صوتی 48k


رقمی کردن

رقمی کردن هم مشابه نمونه برداری بايد به گونه ای انجام شود که کيفيت صدا کمترين آسيب را ببيند. در کاربردهای تلفنی، تعداد بازه ها برابر 256 می باشد که با 8 بيت قابل نمايش و کدشدن می باشد. در دستگاه های ضبط CD صوتی اين نرخ 16 بيت يا 65536 سطح است. در نتيجه کيفيت صدای تلفنی کمتر از کيفيت صدای صداهای ضبط شده در CD است.

سيگنال رقمی شده، همان است که به صورت يک فايل در کامپيوتر ذخيره می شود.

مثال 0-3. يک سيگنال صوتی پيوسته در اختيار داريم. با انجام نمونه برداری و رقمی کردن می خواهيم صدا را به صدای رقمی تبديل کرده و به صورت فايل در کامپيوتر ذخيره کنيم. حجم فايل را در دو کاربرد زير به دست آوريد. فرض کنيد طول سيگنال صوتی يک دقيقه باشد.

الف) کاربرد تلفنی

ب) CD صوتی

در کاربرد تلفنی نرخ نمونه برداری نمونه در ثانيه و تعداد بيت ها در رقمی کردن 8 بيت است. در نتيجه در هر ثانيه، نمونه داريم که هر نمونه 8 بيت است. پس کلا در يک ثانيه، بيت خواهيم داشت که در يک دقيقه، برابر با مصرف خواهيم داشت. در کاربرد CD صوتی اين عدد برابر خواهد شد[۳۰].

صدای چندکاناله[۳۱] (استریو [۳۲])

در بعضی موارد بيش از يک ابزار ضبط صدا در صحنه قرار داده می شود. به هر يک از اين ابزارها، يک کانال گفته می شود. صدای به دست آمده از هر کانال را می توان به طور مجزا نمونه برداری و رقمی کرد. معمولا داده های به دست آمده از همه کانال ها را با هم در يک فايل قرار می دهند. به اين طريقه ضبط صدا، ضبط چندکاناله يا استريوفونيک و يا به اختصار استريو گفته می شود. در مقابل، اصطلاحات ضبط تک کاناله[۳۳] يا مونوفونيک[۳۴] يا به اختصار مونو، در ضبط صدا به صورت تک کاناله، استفاده می شود.

فايده داشتن صدای چندکاناله اين است که صدا طبيعی تر جلوه می کند. گوش انسان، صدا را در جهات مختلف دريافت می کند. پخش استريو موجب می شود صدا، مشابه صدای طبيعي به گوش منتقل شود و در نتيجه صدا طبيعی تر جلوه می کند. اما عيب ضبط استريو اين است اندازه فايل مربوطه بزرگتر از مونو می باشد.

مثال 0-4. يک صدا را به صورت پيوسته ضبط کرده ايم. طول صدا 10 ثانيه می باشد. می خواهيم آن را به صورت صدای رقمی درآورده در کامپيوتر ذخيره کنيم. نرخ نمونه برداری برابر 44100 نمونه در ثانيه تنظيم گرديد. به ازای هر نمونه 16 بيت تخصيص داده شد. اگر صدای پيوسته به صورت مونو ذخيره شده باشد حجم فايل صوتی برابر می باشد. اما در ضبط استريوی مثلا دو کاناله اين عدد دو برابر می شود و برابر می باشد.



پاورقی

  1. Sound pressure (SP)
  2. Sound pressure level (SPL)
  3. Threshold of hearing
  4. Sound intensity level (SPL)
  5. هنگامی که پارامترها، مبتنی بر توان باشند به جای ضریب 20، ضریب 10 برای لگاریتم به کار برده می ‏شود
  6. Loudness
  7. Objective
  8. Subjective
  9. Pitch
  10. Tone
  11. Pure Tone
  12. Fundamental frequency
  13. Harmonic frequency
  14. Timbre
  15. Absolute Threshold of hearing (ATH)
  16. Equal loudness curve
  17. Equal loudness contour
  18. Frequency masking
  19. Masking threshold
  20. Masker
  21. Maskee
  22. Phoneme
  23. International Phonetic Alphabet (IPA)
  24. allophone
  25. Vowel
  26. Consonant
  27. Vocal cord (Vocal fold)
  28. Vocal tract
  29. Teleconferencing
  30. در عمل فايل های صوتی علاوه بر داده دارای يک سری بايت اضافی به نام Header می باشند که حجم نهايی فايل از اين اعداد بيشتر خواهد شد.
  31. Multichannel audio
  32. Stereo
  33. Single channel
  34. Monophonic