10
Acoustic Characteristics
of Speech Sounds
Acoustic Characteristics of Speech Sounds
183
I1J
i
',1
This chapter discusses the primary acoustic characteristics of a variety of speecb
sounds and illustrates them by means of spectrograms and spectra. We start wi~
vowels and subsequently discuss consonants.
"
+-F2
I-Fl
100 200
Time (ms)
Ii]
;~
i
" "
,
1 2 3 Frequency (kHz)
F3
~~
~
F2
~
F3
,E
'"Eo
~
.
1 2 3 Frequency (kHz)
[0]
10.1 Vowels
Figure 10.1 (a, c) Spectrograms and (b, d) LPC spectra of the English vowels
[i] and [a] produced by a male speaker.
and a third formant frequency around 3,200 Hz. In contrast, the vowel [a] has
a first formant frequency around 810 Hz, a second formant frequency around
1,250 Hz, and a third formant frequency around 2,400 Hz. This difference
reflects the different vocal tract shapes involved in the production of the two
vowels. Figure 10.2 shows the stylized frequencies of the first three formants for
all monophthongal vowels of American English, averaged over a group of 50 male
speakers (Hillenbrand et al. 1995).
The vowels along the horizontal axis are organized from front to back. In
addition, the front vowels are ranked in descending order of height, from high
[i] to low [re], and the back vowels in ascending order of height, from low [a]
to high [u]. When the vowels are arranged this way, it is apparent that the two
Vowels are produced with a relatively open vocal tract and the airstream is not
severely impeded. The resulting acoustic signal is therefore relatively loud. In addi~
tion, vowels are usually produced with vocal fold vibration. The primary acousti!f
characteristic of vowels is the location of the formant frequencies, specifically,~
the first three formants (FI-B). As discussed in Section 9.5.1, the shape of the,
vocal tract determines the location of the formant frequencies. Changes in the
position of the articulators will modify the shape of the vocal tract and, as a result,
the location of the formant frequencies. Since the same formant frequencies can
be generated with a variety of articulatory positions, formant frequency location
is a critical determinant of vowel quality rather than the positions of the articu-
lators. For a given speaker or for a group of speakers with the same vocal tract
length, each vowel is associated with a distinct acoustic formant frequency pattern. "'
As an example, Figure 10.1 shows spectrograms and linear predictive coding (LPC)
spectra of the vowels [i] and [a] spoken by a male English speaker.
As on any spectrogram, frequency is plotted along the vertical axis, and time
along the horizontal axis. Intensity is represented by the darkness of the display.
The darker a particular area, the greater its intensity. The spectrograms of the
two vowels have several things in common. They are both characterized by the
presence of a number of dark bands along the frequency scale. These dark bands
correspond to the formant frequencies that reflect the resonances of the vocal tract
and appear as "peaks" in the LPC spectrum.
The crucial difference between the two vowels is of course the exact location
of the formant frequencies. As indicated in Figure 10.1, the vowel [i] has a first
formant frequency around 240 Hz, a second formant frequency around 2,450 Hz
major dimensions for describing vowels, height and backness, have clear acous-
tic correlates. Vowel height is inversely correlated with the frequency of the first
formant: the higher the vowel (and the higher the tongue position), the lower the
Fl. This is true for both the front and back vowels. Moreover, vowels of com-
parable height, such as [i] and [u], have comparable first formant frequencies. Vowel
backness is reflected in the frequency of the second formant frequency, or more
precisely, in the distance between the first and second formant frequencies. It is
clear from Figure 10.2 that the difference F2-Fl is relatively large for the front
vowels and relatively small for the back vowels.
As vowel quality changes, the frequency of the third formant does not change
nearly as much as that of F1 and F2, with the possible exception of the vowel
[i], for which F3 is quite high. Overall, then, F3 does not provide much informa-
tion about the quality of the English vowels, which is why many acoustic
descriptions of these vowels consist only of the first two formant frequencies.
However, there are languages in which F3 does provide an important cue to vowel
quality. For example, languages such as Dutch, French, German, and Swedish have
both front unrounded and front rounded vowels. The lengthening of the vocal
tract due to lip rounding lowers all formants (see Section 9.5.1), and moves
F3 close to F2, which distinguishes between front unrounded and front rounded
vowels, as illustrated in Figure 10.3 for German.
Formant
Hasil (
Bahasa Indonesia) 1:
[Salinan]Disalin!
10Karakteristik akustikPidato suaraAkustik Karakteristik pidato suara183I1Jsaya', 1Bab ini membahas akustik karakteristik utama dari berbagai speecbsuara dan menggambarkan mereka melalui spectrograms dan spectra. Kita mulai wi ~vokal dan kemudian mendiskusikan konsonan."+-F2Fl100 200Waktu (ms)II];~saya" ",1 2 3 frekuensi (kHz)F3~~~F2~F3, E' "Eo~.1 2 3 frekuensi (kHz)[0]10.1 vokalSpectrograms gambar 10.1 (, c) dan (b, d) spektrum LPC vokal Inggris[i] dan [] diproduksi oleh pembicara laki-laki.dan ketiga formant frekuensi sekitar 3.200 Hz. Secara kontras, memiliki vokal []frekuensi formant pertama sekitar 810 Hz, frekuensi formant kedua di sekitar1.250 Hz, dan frekuensi formant ketiga sekitar 2.400 Hz. Perbedaan inimencerminkan bentuk berbeda vokal yang terlibat dalam produksi dari duavokal. Angka 10.2 menunjukkan frekuensi bergaya formants tiga untukSemua monophthongal vokal dari bahasa Inggris Amerika, rata-rata selama sekelompok laki-laki 50speaker (Hillenbrand et al. 1995).Vokal sepanjang sumbu horisontal disusun dari depan ke belakang. DalamSelain itu, vokal depan peringkat dalam urutan dari ketinggian, dari tinggi[i] untuk rendah [kembali], dan memanjangkan kembali urutan dari ketinggian, dari rendah []tinggi [u]. Ketika vokal disusun dengan cara ini, itu jelas bahwa duaVokal diproduksi dengan vokal relatif terbuka dan airstream tidakparah terhambat. Sinyal akustik yang dihasilkan relatif keras. PA tahun ~tion, vokal biasanya diproduksi dengan getaran lipatan vokal. Acousti utama! fKarakteristik vokal adalah lokasi frekuensi formant, secara khusus, ~tiga formants (FI-B). Seperti telah dibahas dalam Bagian 9.5.1, bentuk,vokal menentukan lokasi frekuensi formant. Perubahanposisi artikulator akan memodifikasi bentuk vokal dan, sebagai hasilnya,Lokasi formant frekuensi. Karena frekuensi formant sama dapatdihasilkan dengan berbagai posisi gangguan artikulasi, formant frekuensi lokasiadalah determinan penting kualitas vokal bukan posisi articu-lators. Pembicara diberikan atau sekelompok speaker dengan vokal yang samapanjang, setiap vokal ini dikaitkan dengan pola frekuensi formant akustik yang berbeda. "'Sebagai contoh, 10.1 angka menunjukkan spectrograms dan linier prediktif coding (LPC)spektrum memanjangkan [i] dan [] diucapkan oleh seorang pembicara bahasa Inggris yang laki-laki.Seperti pada setiap Tampilan spektrogram, frekuensi diplot sepanjang sumbu vertikal, dan waktusepanjang sumbu horisontal. Intensitas diwakili oleh kegelapan tampilan.Gelap area tertentu, semakin tinggi intensitas. Spectrograms daridua huruf vokal mempunyai beberapa hal kesamaan. Mereka berdua ditandai dengankehadiran sejumlah band-band gelap sepanjang skala frekuensi. Band ini gelapsesuai dengan frekuensi formant yang mencerminkan resonansi vokaldan muncul sebagai "puncak" dalam spektrum LPC.Perbedaan penting antara dua huruf vokal adalah tentu lokasi yang tepatfrekuensi formant. Seperti yang ditunjukkan dalam gambar 10.1, vokal [i] telah pertamafrekuensi formant sekitar 240 Hz, frekuensi formant kedua sekitar 2,450 Hzbesar dimensi untuk menggambarkan vokal, ketinggian dan backness, telah jelas acous-Tic berkorelasi. Vokal tinggi terbalik berkorelasi dengan frekuensi yang pertamaformant: semakin tinggi vokal (dan semakin tinggi kedudukan lidah), semakin rendahFL. Hal ini berlaku untuk kedua vokal depan dan belakang. Selain itu, vokal com-perumpamaan tinggi, seperti [i] dan [u], memiliki frekuensi formant pertama sebanding. Vokalbackness tercermin dalam frekuensi frekuensi formant kedua, atau lebihtepatnya, di jarak antara frekuensi formant pertama dan kedua. Itujelas dari angka 10.2 perbedaan F2-Fl relatif besar untuk bagian depanvokal dan relatif kecil untuk vokal kembali.Seperti kualitas vokal berubah, frekuensi formant ketiga tidak berubahhampir sebanyak itu F1 dan F2, dengan kemungkinan pengecualian dari vokal[i], yang F3 cukup tinggi. Secara keseluruhan, kemudian, F3 tidak memberikan banyak informa-tion tentang kualitas vokal Inggris, itulah sebabnya banyak akustikDeskripsi vokal ini hanya terdiri dari dua formant frekuensi.Namun, ada bahasa di mana F3 memberikan isyarat penting untuk vokalkualitas. Sebagai contoh, bahasa seperti Belanda, Perancis, Jerman, dan Swedia memilikikedua takbulat dan front bulat vokal depan. Perpanjangan vokalsaluran karena bibir pembulatan menurunkan semua formants (Lihat bagian 9.5.1), dan bergerakF3 dekat F2, yang membedakan antara depan tak bulat dan front bulatvokal, seperti digambarkan dalam gambar 10.3 untuk Jerman.Formant
Sedang diterjemahkan, harap tunggu..

10
Karakteristik akustik
dari Speech Suara
Karakteristik akustik dari Speech Kedengarannya
183
I1J
i
', 1
Bab ini membahas karakteristik akustik utama berbagai speecb
suara dan menggambarkan mereka dengan cara spektogram dan spektrum. Kami mulai wi ~
vokal dan kemudian mendiskusikan konsonan.
"
+ -F2
I-Fl
100 200
Waktu (ms)
Ii]
; ~
i
" "
,
1 2 3 Frekuensi (kHz)
F3
~~
~
F2
~
F3
, E
'" Eo
~
.
1 2 3 Frekuensi (kHz)
[0]
10.1 vokal
Gambar 10.1 (a, c) spektogram dan (b, d) LPC spektrum vokal bahasa Inggris
[i] dan [a] dihasilkan oleh speaker laki-laki.
dan yang ketiga frekuensi forman sekitar 3.200 Hz. Sebaliknya, vokal [a] memiliki
frekuensi forman pertama sekitar 810 Hz, frekuensi forman kedua sekitar
1.250 Hz, dan frekuensi forman ketiga sekitar 2.400 Hz. Perbedaan ini
mencerminkan bentuk saluran yang berbeda vokal yang terlibat dalam produksi dua
vokal. Gambar 10.2 menunjukkan frekuensi bergaya tiga forman pertama bagi
semua vokal monoftong dari bahasa Inggris Amerika, rata-rata lebih dari sekelompok 50 laki-laki
speaker (Hillenbrand et al. 1995).
The vokal sepanjang sumbu horisontal diatur dari depan ke belakang. Di
samping itu, vokal depan adalah peringkat dalam urutan tinggi, dari tinggi
[i] ke rendah [re], dan kembali vokal dalam urutan tinggi, dari rendah [a]
ke tinggi [u]. Ketika vokal yang disusun dengan cara ini, jelas bahwa kedua
Vokal diproduksi dengan saluran vokal yang relatif terbuka dan aliran udara tidak
parah terhambat. Oleh karena itu sinyal akustik yang dihasilkan relatif keras. Dalam Addi ~
tion, vokal biasanya diproduksi dengan lipatan getaran vokal. The acousti utama! F
karakteristik vokal adalah lokasi dari frekuensi forman, khususnya, ~
tiga forman pertama (FI-B). Seperti yang dibahas dalam Bagian 9.5.1, bentuk,
saluran vokal menentukan lokasi frekuensi forman. Perubahan
posisi artikulator akan memodifikasi bentuk dari saluran vokal dan, sebagai hasilnya,
lokasi frekuensi forman. Karena frekuensi forman yang sama dapat
dihasilkan dengan berbagai posisi artikulasi, lokasi frekuensi forman
adalah penentu penting dari kualitas vokal daripada posisi dari mengartikulasikan
lators. Untuk speaker diberikan atau untuk kelompok speaker dengan saluran vokal yang sama
panjang, masing-masing vokal dikaitkan dengan pola frekuensi forman akustik yang berbeda. " '
Sebagai contoh, Gambar 10.1 menunjukkan spektogram dan prediktif coding (LPC) linear
spektrum vokal [i] dan [a] yang diucapkan oleh pembicara bahasa Inggris laki-laki.
Seperti pada spektogram apapun, frekuensi diplot sepanjang sumbu vertikal, dan waktu
sepanjang sumbu horisontal. intensitas diwakili oleh kegelapan layar.
Semakin gelap daerah tertentu, semakin besar intensitasnya. The spektogram dari
dua vokal memiliki beberapa kesamaan. keduanya ditandai dengan
kehadiran sejumlah gelap band sepanjang skala frekuensi. ini band gelap
sesuai dengan frekuensi forman yang mencerminkan resonansi dari saluran vokal
dan muncul sebagai "puncak" dalam spektrum LPC.
perbedaan penting antara kedua vokal ini tentu saja lokasi yang tepat
dari frekuensi forman . Seperti yang ditunjukkan pada Gambar 10.1, vokal [i] memiliki pertama
frekuensi formant sekitar 240 Hz, frekuensi forman kedua sekitar 2450 Hz
dimensi utama untuk menggambarkan vokal, tinggi dan backness, memiliki jelas acous-
berkorelasi tic. tinggi vokal berbanding terbalik berkorelasi dengan frekuensi yang pertama
forman: semakin tinggi vokal (dan semakin tinggi posisi lidah), semakin rendah
Fl. Hal ini berlaku untuk kedua bagian depan dan vokal kembali. Selain itu, vokal dari com-
tinggi perumpamaan, seperti [i] dan [u], memiliki sebanding frekuensi forman pertama. Vokal
backness tercermin dalam frekuensi frekuensi forman kedua, atau lebih
tepatnya, di jarak antara frekuensi forman pertama dan kedua. Hal ini
jelas dari Gambar 10.2 bahwa perbedaan F2-Fl relatif besar untuk depan
vokal dan relatif kecil untuk vokal kembali.
Seperti perubahan kualitas vokal, frekuensi forman ketiga tidak berubah
hampir sebanyak yang dari F1 dan F2 , dengan kemungkinan pengecualian dari vokal
[i], yang F3 cukup tinggi. Secara keseluruhan, kemudian, F3 tidak memberikan banyak informasi yang
tion tentang kualitas vokal bahasa Inggris, yang mengapa banyak akustik
deskripsi vokal ini hanya terdiri dari dua frekuensi forman pertama.
Namun, ada bahasa yang F3 tidak memberikan penting isyarat untuk vokal
berkualitas. Misalnya, bahasa seperti Belanda, Perancis, Jerman, dan Swedia memiliki
kedua unrounded depan dan depan bulat vokal. Pemanjangan vokal
saluran karena bibir pembulatan menurunkan semua forman (lihat Bagian 9.5.1), dan bergerak
F3 dekat dengan F2, yang membedakan antara depan unrounded dan depan bulat
vokal, seperti digambarkan pada Gambar 10.3 untuk Jerman.
Forman
Sedang diterjemahkan, harap tunggu..
