72_Resp_Fonacion

Fisiología

•
SIN SIGLA

J . Arturo Corrales Hernández
24/7/2023
¡Estudia con miles de materiales!
Vista previa del material en texto
1 
 
 
Dr. Fernando D. Saraví 
 
La voz es un medio de comunicación 
fundamental para la especie humana. Todas las 
comunidades humanas conocidas poseen algún 
lenguaje hablado. 
La producción del habla requiere la 
acción combinada de una fuente de energía 
mecánica, un dispositivo vibrador y una caja de 
resonancia. 
La energía 
mecánica es generada por 
el desplazamiento de aire 
dependiente de la acción 
de los músculos 
respiratorios y la 
elasticidad 
toracopulmonar. Las 
vibraciones son generadas 
en los pliegues o cuerdas 
vocales de la laringe. La 
caja de resonancia son las 
cavidades faríngea, oral y 
nasal. 
 Existen dos 
formas principales de 
emisión de la voz, que 
utilizan el mismo aparato 
fonador en formas 
diferentes: el habla y el 
canto. El susurro es una 
forma de emisión 
particular, diferente de las 
anteriores, porque en ella 
no hay vibración de las 
cuerdas vocales. 
 Dado que la 
laringe tiene un papel 
central en el habla normal 
y en el canto, conviene 
reseñar ahora su 
estructura. La explicación 
que sigue se refiere 
fundamentalmente al 
habla normal. El canto 
involucra aspectos 
técnicos complejos que 
exceden los límites de 
este texto, aunque se 
aludirá más de una vez a 
la voz cantada a modo de 
ejemplo. 
 
ANATOMÍA LARÍNGEA 
 
La laringe es una parte tubular de la vía aérea, 
bien diferenciada, situada entre la tráquea y la 
faringe (Fig. 1). Mide ~ 5 cm de largo y se 
encuentra al nivel de las vértebras cervicales C3 
a C6. Es más pequeña y está ubicada más alto 
en los niños y en las mujeres que en los varones 
adultos. 
La laringe es un órgano formado por 
cartílago, músculo esquelético y tejido 
conectivo. Está tapizada por un epitelio 
estratificado no queratinizado (como el de la 
Fisiología del habla 
Posgrado-00
Sello
2 
 
hipofaringe) hasta el nivel de las cuerdas 
vocales, y por un epitelio cilíndrico 
pseudoestratificado (como el de la tráquea) por 
debajo de dicho nivel. Posee glándulas serosas 
y mucosas. 
 
Cartílagos 
El esqueleto laríngeo está formado por diez 
cartílagos: Los impares epiglotis y tiroides y 
los pares aritenoides, corniculados, cuneiformes 
y cricoides. Los cartílagos laríngeos se unen 
entre sí por los ligamentos intrínsecos: 
Membrana elástica, membrana cuadrangular, 
cono elástico y ligamentos vocales y 
vestibulares. Los ligamentos extrínsecos son 
aquellos que ligan la laringe con estructuras 
adyacentes y encierran la estructura: La 
membrana tirohioidea desde el hueso hioides a 
la escotadura del cartílago tiroides, los 
ligamentos tiroepiglóticos, la membrana 
cricotiroidea y el ligamento cricotraqueal, que 
va desde el borde inferior del cricoides hasta el 
primer anillo de la tráquea. 
 
Pliegues 
En el interior de la laringe se encuentran dos 
pares de pliegues, los superiores llamados 
vestibulares (ventriculares o falsas cuerdas 
vocales) y los inferiores llamados vocales (o 
cuerdas vocales verdaderas).
1
 En ellos se 
encuentran, respectivamente, los ligamentos 
vestibulares y vocales. Los pliegues vocales 
participan en la fonación, mientras que los 
ligamentos vestibulares no tienen papel 
 
1
 Desde el punto de vista anatómico, estas 
estructuras son realmente pliegues, pero en español 
también es enteramente correcto llamarlos “cuerdas 
vocales”. Aquí se usarán indistintamente ambas 
expresiones (pliegues vocales o cuerdas vocales). 
conocido en dicha función. Las cavidades 
limitadas por los ligamentos superiores e 
inferiores se denominan ventrículos laríngeos 
de Morgagni (Fig. 2). 
La laringe se divide en tres 
compartimientos: Uno superior o vestíbulo, por 
encima de los pliegues vocales, uno medio que 
incluye los ventrículos laríngeos y la glotis y un 
tercero inferior o subglótico. La glotis es la 
porción de la laringe donde se produce la voz y 
está formada por las cuerdas vocales y la 
hendidura glótica, que es el espacio que queda 
entre éstas y los cartílagos aritenoides (algunos 
textos llaman glotis solamente a la hendidura). 
Los pliegues o cuerdas vocales tienen 
una estructura histológica característica (Fig. 
3). Están cubiertas por un epitelio que asienta 
sobre una membrana basal. Por debajo de ésta 
se encuentra la lámina propia (lamina propria), 
que consta de tres capas, llamadas superficial, 
media y profunda. La lámina propia posee 
fibroblastos, fibras elásticas, colágenas y ácido 
hialurónico como sus principales componentes. 
3 
 
La capa superficial, llamada espacio de 
Reinke, posee abundante líquido intersticial y 
ácido hialurónico pero escasos colágeno y 
elastina, por lo cual es fácilmente deformable. 
La capa intermedia es rica en elastina y por 
tanto posee considerable distensibilidad. En la 
capa profunda, en contacto con el músculo 
vocal, predomina el colágeno, lo cual la hace 
poco distensible. 
La movilidad de los cartílagos 
aritenoides es crucial para la producción de la 
voz. Estos cartílagos tienen tres clases 
principales de movimiento: rotación, 
basculación y deslizamiento. Cada tipo de 
movimiento es producido por la acción de los 
diferentes músculos que se insertan en los 
aritenoides, que a su vez determinarán si los 
pliegues vocales se desplazarán hacia la línea 
media (aducción) o hacia los lados (abducción). 
 
Músculos 
Al igual que los ligamentos, los músculos de la 
laringe se clasifican en intrínsecos y 
extrínsecos. Los músculos extrínsecos se 
subclasifican en elevadores y depresores de la 
laringe. Los elevadores de la laringe son los 
músculos geniohioideo, digástrico, 
milohioideio, estilohioideo y constrictores 
medio e inferior de la faringe. Los depresores 
de la laringe son los músculos esternohioideo, 
tirohioideo y homoioideo. 
 Los músculos intrínsecos son pares, 
tienen ambas inserciones dentro de la misma 
laringe y actúan sobre las cuerdas vocales (Fig. 
4): 
 
1. Músculo cricotiroideo. Se inserta en la 
cara lateral del arco anterior del cartílago 
cricoides en un extremo, y en el otro en la 
parte inferior del cartílago tiroides y la 
membrana tiroidea. Su contracción tensa 
las cuerdas vocales. 
2. Músculo cricoaritenoideo posterior. Se 
inserta en la superficie posterior de la 
lámina del cricoides en un extremo y en el 
proceso muscular del cartílago aritenoides 
en el otro. Su contracción causa separación 
(abducción) de las cuerdas vocales. 
3. Músculo cricoaritenoideo lateral. Se 
inserta en el borde superior de la parte 
lateral del anillo del cartílago cricoides en 
un extremo y en el proceso muscular del 
cartílago aritenoides en el otro. Su 
contracción causa aducción y alargamiento 
de las cuerdas vocales. 
4. Músculo tiroaritenoideo. Se extiende 
desde la cara interna de la lámina del 
cartílago tiroides y la superficie externa de 
la membrana cricovocal hasta la superficie 
anterolateral del cartílago aritenoides. 
Forma parte del cuerpo de la cuerda vocal. 
Su contracción relaja y acorta las cuerdas 
vocales. 
Todos estos músculos son inervados 
por los nervios recurrentes laríngeos, con 
excepción del cricotiroideo, que recibe 
inervación del nervio laríngeo superior. 
Todos estos nervios son ramas del nervio vago 
(X par craneal). Además de eferencias motoras 
poseen fibras aferentes con información 
4 
 
exteroceptiva y propioceptiva (por ej., de los 
husos musculares de los músculos laríngeos). 
 
Funciones de la laringe 
La laringe cumple varias funciones: 
 
1. Respiratoria: Como parte de la vía aérea 
superior, su apertura es necesaria para la 
ventilación. 
2. Deglutoria: Su cierre evita el paso de 
líquidos o sólidos hacia la tráquea al 
cerrarse durante la deglución. 
3. Fonadora: Su apertura regulada permite la 
emisión de la voz. 
 
Desde el punto de vista de la mera 
supervivencia las dos primeras funciones 
enumeradasson básicas e imprescindibles, 
mientras que la fonación no 
lo es. No obstante, la 
comunicación verbal, 
exclusiva de la especie 
humana, tiene una 
importancia difícil de 
exagerar. 
El cierre de la glotis 
es asimismo necesario para 
el reflejo de la tos y para 
aumentar la presión 
abdominal con la maniobra 
de Valsalva (por ej., durante 
la defecación). También es 
necesario el cierre de la 
glotis cuando se realiza un 
esfuerzo muscular, como 
levantar un objeto pesado. Esto evita la 
espiración que de otro modo se produciría al 
elevarse la presión intratorácica por la 
contracción de la musculatura de los brazos 
y el tronco. 
 
PRODUCCIÓN DE LA VOZ 
 
El habla requiere la acción coordinada de 
los músculos respiratorios, los músculos 
laríngeos y los músculos de la 
articulación. El habla puede subdividirse 
en cuatro aspectos: 
 
1. Procesamiento del lenguaje. El 
contenido de una frase es transformado 
en símbolos fonémicos (los fonemas se 
definirán luego). 
2. Generación de comandos motores hacia 
los músculos de la laringe. 
3. Generación de comandos motores hacia 
los músculos de la articulación del habla. 
4. Generación de comandos motores hacia los 
músculos respiratorios. 
 
Origen de la energía mecánica 
La energía para la emisión de la voz proviene 
de las diferencias de presión originadas durante 
la espiración. En el ciclo respiratorio en reposo, 
la espiración dura solamente 50 % más que la 
inspiración y se produce normalmente sin 
intervención muscular, debido al retroceso 
elástico tóraco-pulmonar (ver MECÁNICA 
RESPIRATORIA). 
Durante el habla normal, la inspiración 
es rápida, pero la espiración se prolonga 
gracias a la relajación más lenta (controlada) de 
los músculos inspiratorios. Esto atenúa el 
efecto espiratorio de la elasticidad tóraco-
5 
 
pulmonar. Durante el habla continuada, la 
inspiranción es más profunda que en la eupnea 
y la espiración ocupa 90 % del ciclo y la 
inspiración solamente 10 %. En la Fig. 5 se 
ilustra el ciclo respiratorio durante la repetición 
de la frase “Buy Bobby a poppy” en el habla 
normal y cuando el sujeto articula pero no 
emite sonido. En este último caso, su 
ventilación sigue un patrón similar al de reposo. 
Durante la ventilación normal las 
cuerdas vocales están en abducción y la 
hendidura glótica es grande en todo el ciclo 
respiratorio. Durante la eupnea, la hendidura 
glótica tiene un ancho medio de 8 mm (Fig. 6 
A), que puede alcanzar 16 a 20 mm durante la 
ventilación forzada (Fig. 6 B). Durante el 
habla, hay abducción de las cuerdas vocales en 
la inspiración y aducción durante la espiración, 
cuando se emite la voz (Fig. 6 C). 
La aducción de las cuerdas vocales 
eleva localmente la resistencia de la vía aérea, 
causando una diferencia de presión entre los 
compartimientos subglótico y vestibular de la 
laringe. Para una voz apenas audible, la 
diferencia de presión mínima es de 3 o 4 
mmHg, pero alcanza un valor del orden de 20 
mmHg durante el habla normal. Esta diferencia 
puede cuadruplicarse cuando se habla muy 
fuerte o durante el canto, por contracción de los 
músculos abdominales. 
 
Fuente sonora 
La principal fuente de sonido son las propias 
cuerdas vocales. Cuando la presión subglótica 
vence la oposición de los pliegues vocales el 
aire circula por la hendidura glótica estrechada. 
La elevada velocidad del aire hace que se 
reduzca su presión lateral (ecuación de 
Bernoulli) y en consecuencia la 
hendidura glótica se cierra. Este ciclo 
se repite periódicamente y causa la 
vibración de las cuerdas vocales, la 
cual interrumpe periódicamente el 
flujo de aire y genera ondas mecánicas 
en la frecuencia audible (Fig. 7). 
 Las ondas mecánicas 
generadas comprenden muchas 
frecuencias en cada individuo. La 
frecuencia de vibración principal de 
las cuerdas vocales corresponde a la 
frecuencia fundamental F0, que 
depende de geometría de las cuerdas 
vocales (largo y espesor), su masa, sus 
propiedades viscoelásticas y el grado 
de tensión al que están sometidas. 
Debe notarse que las vibraciones de 
las cuerdas vocales no se deben a las 
acciones de los músculos laríngeos, sino que 
son una respuesta pasiva a los cambios de 
presión subglótica. Por otra parte, los músculos 
intrínsecos determinan si las cuerdas vocales 
han de vibrar, porque para ello deben estar en 
aducción. También pueden modificar la 
frecuencia de la vibración según el grado de 
estiramiento de las cuerdas vocales. 
 En adultos, la porción vibrante (libre) 
de las cuerdas vocales tiene una longitud media 
de 10 mm en la mujer y 16 mm (60 % mayor) 
en el varón. Su espesor medio es, 
respectivamente, de 3 y 5 mm. Durante los 
primeros 20 años de vida, las cuerdas vocales 
crecen con una tasa anual de 0.4 mm en la 
mujer y 0.7 mm en el varón. 
6 
 
 Durante la pubertad hay un 
crecimiento de la laringe, más marcado en el 
sexo masculino. El desarrollo puberal cambia la 
voz. El cambio más notable y relativamente 
abrupto se produce en el varón cuando se 
alcanza el tercer estadio de Tanner, por efecto 
de la testosterona. El cambio de la voz se 
correlaciona mejor con el aumento de la masa 
y la composición de los pliegues vocales que 
con el aumento de su longitud. 
En los niños de ambos sexos, la 
frecuencia fundamental de la voz F0 es en 
promedio de 300 Hz, pero se reduce a partir de 
la pubertad. Desde los 20 años, la frecuencia 
fundamental de la voz masculina o femenina 
varía poco, alcanzando una F0 promedio algo 
mayor que 100 Hz en el varón y de ~ 200 Hz 
en la mujer, aunque hay cierta superposición. 
En edades avanzadas, F0 tiende a decrecer en la 
mujer y a incrementarse en el varón (Fig. 8). 
Las voces entrenadas (educadas) muestran 
mayor estabilidad con el paso de los años, 
incluso en ancianos. 
 La frecuencia fundamental F0 depende 
de la longitud L, la tensión  (sigma) y la 
densidad  (rho) de las cuerdas vocales, según 
la siguiente ecuación: 
 
 
 
 
La tensión  de las cuerdas vocales depende 
principalmente del estado de contracción de los 
músculos cricotiroideos, que tienden a 
estirarlas, y en menor medida de los músculos 
vocales y tiroaritenoides, que tienden a 
relajarlas. Los músculos cricotiroideos son 
responsables de la mayor parte del ajuste, 
mientras que sus antagonistas contribuyen al 
ajuste fino de la tensión. 
A mayor tensión, mayor será la 
frecuencia (el tono) de la voz. Para unos 
ligamentos vocales de longitud y densidad 
determinadas, esta ecuación es válida para cada 
diferencia de presión transglótica. El 
incremento de la presión transglótica aumenta 
la frecuencia fundamental producida. 
Durante la fonación continuada, como 
en una frase larga, hay ciclos de aducción y 
abducción de los ligamentos vocales, que se 
suceden sin percepción consciente. Los 
músculos intrínsecos de la laringe pueden 
contraerse y relajarse rápidamente, de modo 
que un ciclo completo puede durar ~ 50 ms. 
 Las cuerdas vocales tienen dos modos 
principales de vibración, llamados M1 y M2. 
En M1 vibra toda la cuerda vocal, incluido el 
músculo. En M2 vibra solamente la porción no 
muscular; en este último caso F0 es mayor 
(más aguda), por involucrar una masa menor. 
En el varón M1 se produce durante la voz 
normal y M2 cuando se habla o se canta en 
falsete. En la mujer, M1 y M2 corresponden a 
las llamadas, respectivamente, voz torácica y 
voz cefálica. Tanto en M1 como en M2, el 
aumento de la tensión incrementa F0. Cuando el 
tono se eleva progresivamente, el cambio de 
M1 a M2 se oye como una transición 
fácilmente perceptible, aunque en las voces 
entrenadas – y en particular en los cantantes – 
la transición entre M1 y M2 (o viceversa) 
puede ser auditivamente indetectable. 
 Según el grado de tensión de sus 
pliegues vocales, una persona normal puede 
variar su F0 en unrango de ~ 2 octavas (en cada 
octava sucesiva, la frecuencia es el doble de la 
inicial). Por ej., un sujeto con una F0 baja de 
100 Hz puede alcanzar una F0
 
de 400 Hz (la 
primera octava va de 100 a 200 Hz, y la 
segunda de 200 a 400 Hz). Hay personas que 
tienen naturalmente un rango mayor. Además, 
el entrenamiento vocal permite incrementar el 
rango de frecuencias alcanzable, como se 
observa en los cantantes.
2
 
 
2
 En español y otros idiomas llamados no tonales, 
los cambios de tono no alteran el significado 
(aunque se usan para expresar énfasis o emoción). 
En cambio, en los idiomas tonales, como el chino 
mandarín y el tailandés, los cambios de tono durante 
la pronunciación de una palabra cambian su 
significado. 


L
F
2
1
0 
7 
 
 
 
Caja de resonancia 
El nivel sonoro del habla normal es de 65 a 85 
dB (ver AUDICIÓN). No obstante, la energía 
acústica de F0 en el habla normal es 
escasamente audible. Como se dijo antes, F0 es 
acompañada de numerosos armónicos, de 
frecuencias mayores. Estos armónicos son 
selectivamente amplificados o reforzados por 
el denominado tracto vocal, que se extiende 
desde la glotis hasta los labios (la mayoría de 
los sonidos se emiten con elevación del velo del 
paladar, lo que hace que las fosas nasales no 
formen parte del tracto vocal; no obstante, sí 
participan en consonantes como “m” y “n”). La 
longitud del tracto vocal en adultos varía 
entre 15 y 20 cm (Fig. 9). 
 Durante el habla, el tracto vocal 
puede concebirse – de manera muy 
simplificada – como un tubo cilíndrico 
cerrado en un extremo (la glotis) y abierto en 
el otro (los labios); Fig. 10. Tanto en el 
extremo abierto como en el extremo cerrado 
hay un cambio de impedancia acústica (ver 
AUDICIÓN), que causa reflexión de las 
ondas. Si la reflexión se produce en fase con 
la onda incidente, la amplitud de ambas se 
suma y por lo tanto crece su intensidad. 
En un tubo abierto en un solo 
extremo, se produce resonancia para una 
frecuencia F dada cuando en el extremo 
cerrado hay presión máxima (antinodo) y en 
el extremo abierto presión cero (nodo). Esto 
ocurre con frecuencias cuyas longitudes de 
onda ( que guardan cierta relación con la 
longitud del tubo L. La velocidad del sonido 
en el aire v es de ~ 340 m/s (varía con la 
temperatura). Para una longitud del tracto 
vocal de 0.17 m (17 cm), la frecuencia de 
resonancia más baja se produce cuando  = 
4L (ó L = /4) de modo que el nodo está en 
los labios y el antinodo en la glotis (para el 
flujo de aire la situación es inversa). 
En otras palabras, la primera 
resonancia se produce a una frecuencia F en 
la que la longitud de onda es cuatro veces 
mayor que la longitud del tracto vocal. Si se 
recuerda que F = v/, esa frecuencia mínima 
corresponde a 340 m/s /(4 x 0.17 m) = 500 
Hz. Por la misma razón, también se 
producirá resonancia para los armónicos de 
longitud de onda 2 = 4 L/3 (F = 1500 Hz), 
3 = 4 L/5 (F = 2500 Hz), 4 = 4 L/7 (F = 
3500 Hz), etc. Nótese que la frecuencia 
fundamental F0 tiene longitudes de onda 
demasiado grandes (3.4 m en el varón y 1.7 m 
en la mujer) como para ser objeto de 
resonancia. 
Los armónicos que son reforzados por 
resonancia se denominan formantes y son 
esenciales para que la voz se pueda entender 
(Fig. 11). Tal inteligibilidad de la voz depende 
de los armónicos de las frecuencias 
comprendidas entre 500 Hz y 4000 Hz. 
 En la Fig. 12 A se muestra la estructura 
del tracto vocal de un varón adulto, 
reconstruido mediante imágenes de resonancia 
magnética. La voz efectivamente emitida puede 
considerarse como la suma de los armónicos 
generados en las cuerdas vocales y los 
8 
 
refuerzos producidos por resonancia en ciertas 
frecuencias (Fig. 12 B). 
La frecuencia fundamental determina el 
tono de la voz. Las resonancias contribuyen al 
timbre o sonido característico de cada voz. A 
diferencia del modelo simple que se describió, 
en las personas existen diferencias anatómicas 
en el tracto vocal (además de su longitud) que 
determinan múltiples reflexiones menores. El 
conjunto de ellas le da a cada persona el sonido 
distintivo de su voz, que permite identificarla 
auditivamente entre muchas otras (en una 
comunicación telefónica es más difícil 
reconocer una voz familiar, porque el aparato 
filtra algunas frecuencias). 
 
ARTICULACIÓN 
 
La voz inteligible es articulada. La articulación 
consiste en el movimiento de la lengua, los 
labios, el velo del paladar y la mandíbula para 
producir determinados sonidos. El estudio de 
los sonidos propios de un idioma en cuanto a su 
producción, fisiología y características 
acústicas se denomina fonética. Una 
subdisciplina de la fonética es la fonología. La 
fonología estudia los elementos relacionados 
con el sonido “atendiendo a su valor distintivo 
y funcional” (Real Academia Española). 
Un fonema puede definirse como la 
mínima unidad fonológica de un idioma y por 
tanto es indivisible. Es una abstracción o 
imagen mental de un sonido. Carecen de 
significado propio. Se escriben entre barras 
(/./). 
Desde el punto de vista fonológico, 
cualquier idioma posee un conjunto limitado de 
fonemas que le son propios. En español hay 24 
fonemas (ó 27 según otra clasificación). Los 
fonemas pueden clasificarse según diferentes 
criterios, pero se hace una distinción básica 
entre fonemas vocálicos y fonemas 
consonánticos. 
 
Fonemas vocálicos 
En español son /a/, /e/, /i/, /o/ y /u/, que 
corresponden a las cinco vocales (no se tratarán 
aquí los diptongos y triptongos). Los fonemas 
vocálicos se clasifican en abiertos (/a/), 
cerrados (/i/, /u/) y medios (/e/, /o/) según el 
grado de constricción asociado con su 
Tabla 1: Fonemas consonánticos 
Producción Forma Bilabial Labio- 
dental 
Linguo- 
inter- 
dental 
Linguo- 
dental 
Linguo- 
alveolar 
Linguo-
palatal 
Linguo- 
velar 
Oclusiva Sonora /b/ /d/ /g/ 
Sorda /p/ /t/ /k/ 
Fricativa Sorda /f/ //
1 /s/ /x/ 
Africada Sonora /y/ 
Sorda /ʧ/
2
 
Nasal Sonora /m/ /n/ /ṉ/
3 
 
Lateral Sonora /l/ // 
Vibrante Simple /r/ 
Múltiple /ȓ/
4 
 
1
 Corresponde a la “z” española, como en “zorro”. 
2
 Corresponde a la “ch” como en “chasco”. 
3
 Corresponde a la “ñ” como en “ñandú”. 
4
 Corresponde a la “r” fuerte, como en “roca” o “perro”. 
 
9 
 
producción. También se clasifican en iniciales 
(/e/, /i/), finales (/o/, /u//) y centrales (/a/) según 
la parte de la cavidad oral en la que se 
producen. Así, /a/ es abierto y central; /e/ es 
medio y anterior; /i/ es cerrado e inicial; /o/ es 
medio y final y /u/ es cerrado y final. En la 
Fig. 13 se ilustra la forma que adopta el tracto 
vocal en un varón joven cuando pronuncia las 
vocales. 
 
Fonemas consonánticos 
Los fonemas consonánticos son más numerosos 
(clásicamente 19) y se clasifican según diversos 
criterios, a saber (Tabla 1).
3
 
 
1. El mecanismo de producción (articulación) 
2. Las estructuras orales que participan 
3. La participación de las fosas nasales 
4. La participación de las cuerdas vocales 
 
Según la articulación, se distingue entre 
consonantes en las cuales hay una mayor o 
menor interrupción del flujo de aire; estas 
consonantes se denominan plosivas e incluyen 
aquellas en las que hay oclusión (cierre) de la 
cavidad oral en diferentes niveles. También son 
plosivas las consonantes fricativas, en que no 
hay cierre pero sí estrechamiento y africadas, 
donde hay una oclusión inicial, seguida de una 
fase fricativa. 
Entre las consonantes no plosivas, se 
denominan nasales aquéllas en las cuales parte 
del aire sale por las fosas nasales. Las laterales 
se producen cuando hay una interrupción 
central pero el aire puede circular por los 
costados de la cavidad oral. En los fonemas 
consonánticos vibrantes hayvibración de la 
lengua. 
 Algunos fonemas se producen por 
contacto entre los labios, otro por contacto 
entre el labio inferior y los dientes superiores, y 
otros por contacto entre la lengua y los dientes, 
los alveolos dentarios, el paladar duro o el velo 
del paladar. 
Finalmente, los fonemas se clasifican 
en sonoros cuando su producción requiere 
vibraciones de las cuerdas vocales y sordos 
cuando se pronuncian sin vibración de las 
 
3
 Se llaman alófonos a las variantes de 
pronunciación de un mismo fonema según su 
posición en la palabra o los fonemas vecinos. Por 
ej., la “b” oclusiva de “tumbo” y la “b” fricativa de 
“tubo” son alófonos del fonema /b/; la “n” nasal de 
“diente” y la “n” velar de lengua son alófonos del 
fonema /n/. 
cuerdas vocales. En los fonemas sordos, las 
vibraciones son generadas por la turbulencia 
del aire en la boca. 
Cabe notar que el susurro es una forma 
de comunicación verbal que depende 
enteramente de esta clase de turbulencia; de 
ahí su característica “soplante”. Si usted se 
toma su laringe mientras dice “Esto es un 
susurro” con voz normal y con voz susurrante, 
notará que su laringe vibra en el primer caso, 
pero no en el segundo. 
 
Músculos y estructuras de la articulación 
En la articulación de la palabra participan los 
músculos de la cara, los músculos de la lengua, 
los elevadores y depresores de la mandíbula, 
los músculos del velo del paladar e incluso la 
musculatura faríngea. 
La lengua tiene un papel central. Su 
movilidad se debe principalmente a los 
músculos extrínsecos, mientras que sus 
músculos intrínsecos controlan los cambios en 
su forma. Los desplazamientos de la lengua al 
contactar el velo del paladar, el paladar duro o 
los dientes superiores es necesario para la 
10 
 
pronunciación de diversos fonemas. Otro tanto 
ocurre con el movimiento de los labios, en 
particular del labio inferior, que también es 
imprescindible para una adecuada articulación. 
El velo del paladar desconecta la faringe de las 
fosas nasales cuando se eleva, lo cual modifica 
la resonancia del tracto vocal. El ascenso y 
descenso de la mandíbula, aunque no es tan 
evidente como el movimiento de los labios o la 
lengua, también es necesario para la fonación 
normal. 
 Además de la acción muscular, las 
estructuras rígidas como el paladar duro, los 
alveolos dentarios y la arcada dentaria superior 
son puntos de contacto con la lengua (y en el 
caso de la arcada dentaria, con el labio inferior) 
que participan pasivamente en la fonación. 
 
Aprendizaje del habla y el lenguaje 
El habla es indispensable para el lenguaje oral, 
pero éste necesariamente involucra otras 
funciones complejas. Los aspectos 
neurofisiológicos de la comprensión y la 
producción de lenguaje se tratan en 
FUNCIONES SUPERIORES DEL CEREBRO. 
 Aquí sólo reitero que la capacidad de 
aprender un lenguaje es una función innata e 
indiferenciada. En los primeros años de vida, 
un niño aprenderá espontáneamente el idioma 
al cual esté expuesto. 
Aprende a ejecutar los fonemas 
característicos de ese lenguaje pronunciando 
palabras, lo cual requiere la capacidad de las 
áreas cerebrales del lenguaje y sus conexiones 
motoras de ejecutar – en las secuencias 
correctas – los comandos motores necesarios 
para la producción de los sonidos que escucha 
(esta capacidad se conserva en el adulto, que 
puede reproducir verbalmente expresiones 
incluso en idiomas desconocidos para él). Para 
esto es necesaria la retroalimentación 
auditiva, que permite determinar si el sonido 
producido por el sujeto se corresponde con el 
sonido emitido por otro. 
Sin importar el lenguaje que se 
aprenda, el habla requiere asimismo aprender a 
coordinar el ciclo ventilatorio con el cierre de 
la hendidura glótica y los movimientos de los 
músculos de la articulación. Existe una 
secuencia natural del desarrollo del control 
motor que exhibe un sentido céfalo-caudal (se 
aprende a estabilizar la cabeza antes que el 
tronco) y proximal-distal – por ejemplo, el 
control de la base de la lengua es previo al de 
su punta. 
Inicialmente, el niño realiza la tarea por 
imitación de lo que escucha, pero luego es 
capaz de pronunciar las palabras por sí solo, al 
tiempo que aprende su significado y las emplea 
en forma correcta. Con el tiempo aprende, 
asimismo por exposición a un lenguaje hablado, 
su gramática y expresión (prosodia), con 
grados crecientes de complejidad. Además, la 
dependencia de la producción de los sonidos 
correctos en la retroalimentación auditiva se 
torna menos importante. 
 
Trastornos del habla 
Dado que el habla y el lenguaje son funciones 
neurológicas muy complejas, pueden afectarse 
en múltiples niveles: desde la negativa a hablar 
de un paciente psicótico (mutismo) hasta 
lesiones de los nervios laríngeos, pasando por 
la afasia motora causada por lesiones en el área 
de Broca y la disartria causada por lesiones 
cerebelosas o intoxicación alcohólica. 
Cuando es posible la rehabilitación, el 
conocimiento de los mecanismos del habla y la 
articulación contribuyen a planificar ejercicios 
y tratamientos más eficaces.