La-cualidad-homosilabica-de-los-grupos-[e][a]-y-[e][a]-el-diptongo-espanol-a-debate

•
Artes

Estudiando Artes
28/7/2022
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Arte

54.315 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO
México • mayo de 2014
La cualidad homosilábica
de los grupos [e]+[a] y [e]+[á]:
el diptongo español, a debate
FACULTAD DE FILOSOFÍA Y LETRAS
Sistema Universidad Abierta y Educación a Distancia
Asesora: maestra Ana Isabel Tsutsumi Hernández
tesis que para obtener el título de licenciado en Lengua y Literaturas Hispánicas
presenta Antonio Alberto de la Fuente Mora
 
UNAM – Dirección General de Bibliotecas 
Tesis Digitales 
Restricciones de uso 
 
DERECHOS RESERVADOS © 
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL 
 
Todo el material contenido en esta tesis esta protegido por la Ley Federal 
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). 
El uso de imágenes, fragmentos de videos, y demás material que sea 
objeto de protección de los derechos de autor, será exclusivamente para 
fines educativos e informativos y deberá citar la fuente donde la obtuvo 
mencionando el autor o autores. Cualquier uso distinto como el lucro, 
reproducción, edición o modificación, será perseguido y sancionado por el 
respectivo titular de los Derechos de Autor. 
 
 
 
La cualidad homosilábica de los grupos [e]+[a] y [e]+[á]: el diptongo español, a debate
DEDICATORIA
madre.
duele crecer
porque la luna,
inmarcesible como el diluvio,
se desangra, y no consigo comprender la maravilla de tu amor.
el universo late en ti pues eres toda
templanza, prudencia, fortaleza, justicia.
Dios existe en tu presencia, en tu palabra, en tu sonrisa.
Miri. Alfonso. Nena. Luisito.
la rosa de los vientos.
Achan.
el horizonte.
Eva. Angélica.
el espíritu de Úrsula Iguarán.
Lourdes. Sylvia. Ana.
la UNAM descansa en siete notas.
familia. amigos. maestros.
imposible, mencionar a tanta gente.
gracias por su entereza, por su cariño, por su bondad.
GRACIAS, MAESTROS
Maestra Lourdes, gracias por el brío, la virtud, la mansedumbre, 
la honradez de don Quijote. Maestra Sylvia, gracias por su ex-
traordinaria capacidad para escuchar. De manera especial, agra-
dezco a Ana Tsutsumi haber dirigido esta tesis: gracias por la pa-
ciencia y por la generosidad; gracias por el intercambio de ideas; 
gracias por confiar; gracias, y perdón, por estos tres años; gra-
cias por evidenciar mis fallas, sobre todo las relativas a mi carác-
ter, a veces intransigente. Once vidas no bastan para compen-
sar, Ana Tsutsumi, tanto desvelo. Agradezco a todos mis maes-
tros su don de gente; quiero mencionar a siete personas más: 
Galdino, Yosahandi, Arturo, Rebecca, Pablo, Leonor, Villarías.
Gracias a todos, los que aparecen y los que no:
su ejemplo me ayuda a ser mejor persona.
ÍNDICE
 Introducción
13 1. Propósitos e hipótesis
14 2. Nomenclatura
17 3. Ejemplo de transcripción
 Capítulo 1 / Textos poéticos, norma de habla culta
21 1. Pertinencia de la lengua literaria
25 2. La poesía, dentro del espacio variacional
28 3. Descripción del corpus
 Capítulo 2 / El diptongo español: panorama diacrónico
29 1. De Nebrija (1492) a la Academia (1726-1739)
31 2. La influencia de Andrés Bello (1835)
32 3. Pertinencia del suprasegmento intensidad
33 4. Sobre los grupos conformados por dos vocales débiles distintas
37 5. Diptongos neutros
38 6. Tipología actual del diptongo español
 Capítulo 3 / El timbre de las vocales españolas
41 1. Rasgos distintivos y estudio instrumental
42 2. Recategorización
48 3. Vocales fuertes al interior de palabra, según Bello
 Capítulo 4 / Tipología propuesta y resultados
51 1. El punto medio entre el habla culta y el habla vulgar
54 2. Pronunciación inherente
59 3. La naturaleza excepcional de una licencia métrica
61 4. Estudio instrumental de [e̯ a] y [e̯ á], un acercamiento
67 5. Procedimiento y rendimiento funcional de [e]+[a] y [e]+[á]
68 5.1. [e]+[a]
75 5.2. [e]+[á]
 Capítulo 5 / Inconsistencias grafémicas y fonéticas
85 1. El código escrito, prioritario para los académicos
87 2. Formas sonoras ejemplares sin correlato gráfico
89 3. El español y la tendencia antihiática
92 4. Menosprecio injustificado por la diéresis
 Conclusión
99 1. Repaso
101 2. Discusión
107 FUENTES
111 ANEXOS
13
INTRODUCCIÓN
1. Propósitos e hipótesis
Son tres los objetivos de esta tesis: dos, relativos a la fonética; uno, relativo a la 
grafémica. En sentido extenso: esbozar una tipología más completa del dipton-
go español, a partir de la evaluación somera de 14 grupos conformados por dos 
vocales fuertes.1 En sentido estrecho: enunciar las razones por que considerar las 
secuencias [e]+[a] y [e]+[á] diptongos propios del español. Todo ello, a la luz 
de un corpus de 3000 sonetos, testimonio breve de cinco siglos de tradición li-
teraria hispánica. Consecuencia de lo anterior, el tercer propósito de este traba-
jo: poner de manifiesto que el código escrito presenta inconsistencias vincula-
das con los grupos bivocálicos.
Justificaré, en el capítulo 1, desde las perspectivas literaria y lingüística, por 
qué los textos poéticos son norma de habla culta. Advertiré que el verso es en 
esencia una forma fónica de comunicación distanciada, es decir con impronta 
geográfica irrelevante y con marcas diastrática y diafásica reputadas, y que ade-
más perfila el sistema fonético de la lengua histórica en que es concebido. Expli-
caré por qué la norma académica y la norma prescriptiva no son equivalentes: la 
primera es conceptuación imperfecta de la segunda. Argumentos de autoridad: 
Octavio Paz, Lope Blanch, René Wellek, Austin Warren, Roman Jakobson, Pe-
ter Koch y Wulf Oesterreicher.
Comentaré, en el capítulo 2, los principales problemas de clasificación que ha 
presentado el diptongo. Para ello pasaré revista a tres fuentes: Antonio de Ne-
brija, autor de la primera gramática en español; Andrés Bello, principal referen-
cia para que los académicos redactaran su primer tratado de prosodia; la Real 
Academia Española, autoridad indiscutible, responsable de estudiar y describir 
la lengua, además de propugnar por su unidad. Asimismo, señalaré, respaldado 
por Antonio Quilis, la pertinencia del suprasegmento intensidad para la cabal 
descripción de los fenómenos prosódicos de inmediación vocálica, pues permi-
te diferenciar secuencias aparentemente duplicadas.
1. Es innecesario explicitar la adyacencia de los fonos en cuestión: se sobreentiende que las vocales 
son contiguas, pues de otro modo sería imposible hablar de homosilabismo.
14
Proyectaré, en el capítulo 3, una clasificación articulatoria de los fonos vocáli-
cos, configurada por cinco niveles estándar de abertura y por cinco niveles es-
tándar de localización. A partir de esta recategorización de las vocales será po-
sible entender por qué el diptongo no canónico más fácil de pronunciar es la se-
cuencia [e]+[a]; de ahí el interés por ver cómo se comporta el grupo [e]+[á]. Ar-
gumentos de autoridad: Quilis Morales, Esgueva Martínez, Martínez Celdrán, 
Almeida Suárez, Fernández Planas y Poch Olivé.
Esbozaré, en el capítulo 4, una tipología más completa del diptongo español: 
argumentaré en favor de la adscripción de 16 grupos bivocálicos de cualidad ho-
mosilábica, para un total de 48 unidades, incluidas las 32 secuencias consagra-
das por la Real Academia Española. Para ello tomaré como base un hecho de 
lengua: la existencia de pronunciaciones intermedias, que conservan la pulcri-
tud del habla culta y el prosaísmo del habla vulgar. Trataré de explicar por qué 
doy por cierto que un poema medido trae consigo una pronunciación inheren-
te, primigenia, hipotética, perfectamente realizable. Además intentaré refutar la 
idea, a mi juicio equivocada, de que las realizaciones diptongadas de secuencias 
constituidas por vocales fuertes son necesariamente recurso retórico, esto luego 
de haber traído a cuento que toda licencia métrica posee, por definición, carác-
ter excepcional. Observaré el comportamiento de los grupos de interés, [e]+[a] 
y [e]+[á], para constatar que el homosilabismo no es extraordinario, en contra-
posición a lo que dictala norma académica.
Cuestionaré, en el capítulo 5, que existan pronunciaciones ejemplares sin co-
rrelato gráfico. Propondré el rescate de la diéresis ortográfica (o crema), que re-
suelve casi todos los problemas relacionados con la inmediación vocálica.
La hipótesis de investigación es la que sigue: las secuencias [e]+[a] y [e]+[á] 
deben ser adscritas al inventario de diptongos propios del español, sin que esto 
suponga que las realizaciones orales correspondientes deban ser siempre homo-
silábicas, del mismo modo que hay grupos típicamente diptongados los cuales 
pueden ser pronunciados con cualidad heterosilábica.
2. Nomenclatura
A continuación, especificaré qué grafemas emplearé para la transcripción fóni-
ca. De entrada, advierto que no me interesan variantes alofónicas: una transcrip-
ción a detalle no es pertinente para lo que pretendo, pues, independientemente 
de las formas sonoras específicas, lo que busco es determinar la división silábica 
de las expresiones a analizar.
15
Los fonos consonánticos que considero son los siguientes:2
fonos consonánticos
puntos bilabial labiodental dental alveolar palatal velar
modos
− (sordez) acción laríngea + (sonoridad)
− + − + − + − + − + − +
oclusivo [p] [b] [t] [d] [k] [g]
nasal [m] [n] [ɲ]
vibrante simple [ɾ]
vibrante múltiple [r]
fricativo [f] [s] [ʝ] [x]
aproximante [l]
africado [ʧ̑ ]
Antes de referirme a los sonidos vocálicos, tres aclaraciones.
La primera, retomando a Eugenio Martínez Celdrán:3
Para reunir los términos semivocal y semiconsonante en una 
misma clase, a veces se toma el término inglés glide. [...] Noso-
tros preferimos utilizar semivocal en ambos casos; es decir, tan-
to para las semiconsonantes como para las semivocales tradi-
cionales, generalizando así el término, como se suele hacer en 
muchos tratados de fonética.
2. Me sirvo del Alfabeto Fonético Internacional (AFI). Procuro emplear el mínimo de signos. Por 
ejemplo: los fonos [θ], [ʒ] y [ʎ] los considero variantes dialectales.
3. Eugenio Martínez Celdrán, Manual de fonética española, págs. 161-162.
16
Así pues, semiconsonante y semivocal son palabras inapropiadas. Lo pertinen-
te es, simple y llanamente, hablar de fonos vocálicos de cualidad marginal, que 
no funcionan como núcleo silábico. Para evitar confusiones y duplicidad de tér-
minos: a) descarto el par de voces mencionado; b) elijo el vocablo español des-
lizante.
La segunda, retomando a José Ignacio Hualde:4
Glides differ from vowels in being non-syllabic. They occur 
next to a vowel (either preceding or following it) in the same 
syllable. Most commonly, glides are high. In Spanish there is 
a front or palatal glide [i̯ ] and a back or labiovelar glide [u̯]. 
Some authors distinguish between semiconsonants [j], [w], if 
they precede the vowel, as in viejo [bjéxo] ‘old’, pues [pwés] 
‘then’, and semivowels, if they follow the vowel, as in peine 
[péi̯ne] ‘comb’, deuda [déu̯ða] ‘debt’. We will not follow this 
tradition and will use the same symbols [i̯], [u̯] in both cases.
Así pues, los símbolos [j] y [w] son innecesarios. La ventaja mnemotécnica es 
obvia: dado que sólo interesa destacar la condición marginal de los deslizantes 
—más allá de si pertenecen al seminúcleo anterior o al seminúcleo posterior, es 
decir más allá de si preceden o suceden a la vocal nuclear—, baste emplear el 
diacrítico que indica la cualidad marginal que define a las vocales deslizantes.
La tercera, también retomando a José Ignacio Hualde:5
4. José Ignacio Hualde, The Sounds of Spanish, págs. 54-55. Traducción propuesta: “Los fonos vocá-
licos deslizantes poseen cualidad marginal, a diferencia de las vocales plenas, siempre nucleares, y 
aparecen contiguos a un núcleo silábico, precediéndolo o sucediéndolo, siendo ambos sonidos cons-
tituyentes de una misma sílaba. Por lo general, estos fonos marginales son vocales altas, y en español 
existen uno palatal (o anterior), [i̯], y uno velar (o posterior), [u̯]. Algunos autores distinguen entre 
semiconsonantes, [j] y [w], si están antes de la vocal nuclear, como en viejo, [bjéxo], y pues, [pwés], 
y semivocales, si se hallan después, como en peine, [péi̯ne], y deuda, [déu̯ða]. Nosotros no segui-
remos esta nomenclatura tradicional, y usaremos los mismos símbolos, [i̯] y [u̯], en ambos casos”.
5. Ib., pág. 55. Traducción propuesta: “Podemos incluso encontrar fonos deslizantes medios, [e̯] y 
[o̯], en el habla coloquial, de tal suerte que, por ejemplo, los vocablos línea y poeta pueden ser pro-
nunciados como bisílabos, [líne̯a] y [po̯éta], frente a las más cuidadas realizaciones trisílabas, [lí-
ne.a] y [po.éta]”.
17
We can also find mid glides [e̯], [o̯], in colloquial speech, as 
in bisyllabic línea [líne̯a] ‘line’, poeta [po̯eta] ‘poet’, for more 
careful trisyllabic [líne.a], [po.éta].
Es verdad: [e] y [o] pueden funcionar como vocales deslizantes, pero no úni-
camente en el habla coloquial, como observa el lingüista: los hispanohablantes 
cultos, quienes dan vida a la variante de lengua ejemplar, también pronuncian 
estos sonidos intermedios en situaciones formales.
En conclusión: hablaré de vocales deslizantes (marginales o no nucleares), y 
emplearé los símbolos [i̯], [u̯], [e̯] y [o̯], independientemente de la posición, an-
terior o posterior, que ocupen con respecto al núcleo.
Ahora sí, los fonos vocálicos que considero:
fonos vocálicos
(mínima) [i] [u] si poseen 
cualidad 
marginal, 
se agrega 
el diacrítico: 
[i̯ ], [u̯ ], [e̯ ], [o̯ ]
abertura [e] [o]
(máxima) [a]
(palatal) localización (velar)
Tres acotaciones: a) para explicitar la división silábica utilizaré un punto al fi-
nal de cada sílaba; b) para indicar qué fono vocálico posee prominencia inten-
siva emplearé la tilde; c) para una vocal alargada me serviré del diacrítico pro-
puesto por el AFI ( ː ).
3. Ejemplo de transcripción
Prestemos atención a la letra de una canción de Joan Manuel Serrat, adapta-
ción de un texto de Federico García Lorca:
Amor, amor, que está herido,
herido de amor, huido,
herido, muerto de amor.
18
Decid a todos que ha sido
el ruiseñor.
Bisturí de cuatro filos,
garganta rota y olvido.
Cógeme la mano, amor,
que vengo muy mal herido,
herido de amor, huido.
¡Herido! ¡Muerto de amor!
Por último, observemos la división silábica y la transcripción correspondien-
te a la pronunciación inherente, asociada con lo que en efecto escribió el autor:6
verso sílabas
[a.móɾ.a.móɾ.keːs.táe̯ .ɾí.do.] 8
[e.ɾí.do.de̯a.móɾ.u.í.do.] 8
[e.ɾí.do.mu̯éɾ.to.de̯a.móɾ.] 8
[de.síd.a.tó.dos.ke̯á.sí.do.] 8
[el.rui.se.ɲóɾ.] 5
[bis.tu.ɾí.de.ku̯á.tɾo.fí.los.] 8
[gaɾ.gán.ta.ró.ta.i̯ol.bí.do.] 8
6. Evidentemente, la transcripción propuesta puede ser distinta; por ejemplo, el verso 1 pudo ser di-
vidido así: [a.mó.ɾa.móɾ.keːs.táe̯.ɾí.do.]; con lo cual se conservaría en la sílaba 3 el patrón silábico 
preponderante en español, consonante seguida de vocal. En cualquier caso, lo importante es que las 
vocales contiguas siguen resolviéndose de la misma forma, y por tanto seguimos teniendo ocho emi-
siones de voz para esta línea. Otro asunto a debatir es la naturaleza de la transcripción: ¿fonética, fó-
nica o prosódica? No es prosódica porque el único suprasegmento que tomo en cuenta es la inten-
sidad. El adjetivo fónico me parece ambiguo, pues se refiere a lo fonético y a lo fonológico, por igual. 
Tampoco es una transcripción fonética propiamente dicha, máxime porque no considero alófonos. 
Quizá lo mejor sea hablar de una transcripción métrica, entendiendo que el objetivo es insinuar la 
pronunciación inherente al verso; se trata de una transcripción fonética muy estrecha que da pistas 
para interpretar la realización oral esperada.
19
[kó.xe.me.la.má.no̯a.móɾ.] 8
[ke.bén.go.múi̯ .mál.e.ɾí.do.] 8
[e.ɾí.do.de̯a.móɾ.u.í.do.] 8
[e.ɾí.do.mu̯éɾ.to.de̯a.móɾ. 8
Un comentario al margen, para ir entrando en materia: nadie pone en tela de 
juicio que la secuencia [u]+[í] conforma el diptongo autorizado [u̯í], creciente 
en virtud del suprasegmento intensidad; sinembargo, en el poema este grupo 
aparece dos veces con cualidad heterosilábica, en la voz huido. Pregunto: ¿licen-
cia métrica? Respondo: para nada. Licencia sería lo contrario: [u̯í.do.]. Es claro 
que ambas formas son perfectamente realizables.
21
CAPÍTULO 1
TEXTOS POÉTICOS, NORMA DE HABLA CULTA
1. Pertinencia de la lengua literaria
La pregunta clave es: ¿por qué un corpus de sonetos? Puedo responder con otra 
pregunta: ¿por qué en los estudios de fonética experimental se permite la prue-
ba con logotomas?1 Es claro que los poemas y los logotomas algo tienen de apa-
ratosos, y, sin embargo, en el ámbito de la fonética experimental, todos recono-
cen la utilidad de estos inventos fónicos. ¿Por qué no reconocer la utilidad de 
los poemas escritos por autores prestigiosos? Digo: los textos literarios, ni duda 
cabe, contribuyen a la consolidación de las lenguas históricas. Los logotomas no.
Por supuesto, no pretendo que el habla oral de los hispanoparlantes conste de 
grupos fónicos endecasílabos o heptasílabos (u octosílabos, por decir, si mi cor-
pus constara de poemas romanceados). Tampoco busco que el coloquio esté 
conformado por metáforas propias de la poesía. Entiendo, pues, que los usos co-
mún y artístico del idioma no necesariamente se corresponden.
Estoy al tanto de que, con el surgimiento de la gramática histórica y compa-
rada en el siglo XIX, la literatura quedó disociada de la lingüística. Comprendo 
que la ciencia del lenguaje aprendió a mirar directamente la realidad de la len-
gua.2 Sin embargo, también soy consciente de que la gramática surgió en Grecia 
con el estudio de los textos poéticos, argumento suficiente para asumir el reto, 
acaso anacrónico, de perfilar una clasificación más consistente del diptongo es-
pañol a la luz de la lengua literaria.
En palabras de María Azucena Penas Ibáñez:3
La historia de la lengua española es fundamentalmente una 
historia de la lengua literaria, es decir, de los usos lingüísticos 
1. Un logotoma es una pronunciación artificial que sirve para observar las características acústicas 
de ciertos fonos; por ejemplo, [pa.ta.ká.] y [ba.da.gá.], cuyo espectrograma muestra el comporta-
miento formántico de las consonantes oclusivas, sordas y sonoras.
2. Ver: María Azucena Penas Ibáñez, “El uso literario del lenguaje: de la norma gramatical a la crea-
ción estilística en español”, en Anuario de Estudios Filológicos, núm. 20, págs. 293-310.
3. Ib., pág. 298.
22
registrados y preservados en las obras escritas. Paralelamente, 
la historia literaria es un dilatado recorrido por aquellas obras 
que constituyen los modelos máximos de lenguaje en cada 
época. Decía al respecto Schuchardt que “el lenguaje, nacido 
de la necesidad, alcanza su cima en el arte”.
La poesía, como instrumento para describir fenómenos fonéticos. De entrada, 
sabemos que los poemas entrañan una verdad incontrovertible: son esencial-
mente discursos fónicos. En voz de Octavio Paz:4
En todas las formas escritas de la poesía, el signo gráfico está 
siempre en función del oral. El lector advertido oye mental-
mente, detrás del trazo, las palabras del texto, su música ver-
bal. [...] En ningún otro género literario es de tal modo íntima 
la unión entre sonido y sentido como en la poesía. Esto es lo 
que distingue al poema de las otras formas literarias, su carac-
terística esencial. El poema es un organismo verbal rítmico, un 
objeto de palabras dichas y oídas, no escritas ni leídas.
He aquí el método que propongo: un verso medido supone un número espe-
cífico de sílabas, lo que se traduce en una pronunciación inherente, primigenia, 
hipotética, perfectamente realizable. Doy por sentado que la naturalidad prosó-
dica es punto de intersección que enlaza la lengua común con la lengua artísti-
ca, razón por la cual no es descabellado, luego de observar el comportamiento 
de los grupos vocálicos de interés, replantear la tipología del diptongo hispánico.
Se puede constatar que ciertas secuencias supuestamente heterosilábicas resul-
ta que en un altísimo porcentaje poseen cualidad homosilábica. La réplica más 
común es sostener que se trata de licencias métricas. La contrarréplica menos 
simple es tener presente que una licencia es un permiso, por tanto una excep-
ción, y que en español existe una tendencia importante a la diptongación en el 
habla oral común, lo cual se verifica en la poesía. Si la tendencia antihiática no 
es exclusiva del habla oral real, sino que se presenta vigorosamente también en la 
poesía española, ¿por qué entonces la norma académica supone otra cosa? ¿Qué 
apunta a dicha norma, antinatural?
4. Octavio Paz, La otra voz: poesía y fin de siglo, pág. 122.
23
Cuando observo que los textos poéticos son norma de habla culta no hago otra 
cosa que hacer mía una verdad que han hecho suya autoridades en la materia.
Retomo a Juan Miguel Lope Blanch, quien sostiene que existe un español 
ejemplar, el cual puede ser descifrado merced a los textos literarios. El catedrá-
tico advierte que la lengua literaria, escrita, “puede servir para delimitar y aun 
para fijar la norma lingüística del español contemporáneo”. Parafraseo al exper-
to: “En mi opinión, existe un ideal de norma lingüística hispánica, paradigma 
ejemplar de quienes pretendemos hablar o escribir bien”.5 De manera específica, 
Lope Blanch señala el vínculo entre la fonética y la literatura:6
Desde la Antigüedad se ha señalado la gran importancia que, 
a este respecto, como juez indiscutible de los hechos lingüísti-
cos, tiene el uso general, es decir, el uso de los más pero avala-
do por el de los buenos escritores. Como es bien sabido, la gra-
mática era, para Quintiliano, “el arte de hablar correctamente” 
basado en el estudio de la lengua de los poetas en cuanto mo-
delo digno de imitación.
[...]
Muy particularmente en el dominio o sector de la fonética, el 
modelo escrito puede resultar ejemplarmente definitorio. Ya 
lo dijo, también, Quintiliano, en uno de los axiomas lingüísti-
cos que ha tenido mayor fortuna: “Yo considero que, si la cos-
tumbre no lo objeta, así se debe escribir como se pronuncia; 
porque la utilidad de las letras es esta: conservar los vocablos y 
restituir a los lectores lo depositado en ellas”.
En lo que se refiere a la pronunciación diptongada o hiatizada, Navarro Tomás 
afirma:7
Ofrece un valor principal a este propósito el testimonio de los 
buenos poetas modernos. El oído de un buen poeta es siempre 
5. Juan Miguel Lope Blanch, “La norma lingüística y la norma literaria”, en Actas del XII Congreso de 
la Asociación Internacional de Hispanistas, pág. 240.
6. Ib., pág. 241.
7. Tomás Navarro Tomás, Manual de pronunciación española, pág. 149.
24
un excelente guía en lo que se refiere al acento y al cómputo si-
lábico de las palabras. [...] Sabido es que, en lo que a la articula-
ción y a la dicción se refiere, no existe en español una pronun-
ciación poética distinta de la que se usa en el discurso, en la es-
cena o en la conversación de las personas ilustradas.
De hecho, el primer diccionario académico existe a partir de las autoridades, es 
decir los escritores, razón por la cual no es desatinado afirmar que los textos li-
terarios apuntan al paradigma ejemplar de la lengua española.
Otro argumento de autoridad, en voz de René Wellek y Austin Warren:8
Toda obra de arte literaria es, antes que nada, un conjunto 
de sonidos de los cuales emana el significado. [...] En muchas 
obras de arte —incluso, claro está, la prosa—, el estrato fóni-
co provoca la atención, constituyendo así parte integrante del 
efecto estético, lo cual se aplica a mucha prosa exornada y a 
todo el verso, que por definición es una organización del siste-
ma fonético de un idioma.
Me interesa ponderar el hecho de que el verso, “por definición”, constituye “una 
organización del sistema fonético de un idioma”.
Para finalizar este apartado, cabe citar a Roman Jakobson:9
Cualquier tentativa de reducir la esfera de la función poéti-
ca a la poesía o de confinar la poesía a lafunción poética sería 
una tremenda simplificación engañosa. La función poética no 
es la única función del arte verbal, sino sólo su función domi-
nante, determinante, mientras que en todas las demás activi-
dades verbales actúa como constitutivo subsidiario, accesorio.
El lingüista nos muestra cómo la poesía sistematiza lo que es natural en la len-
gua; da dos ejemplos, a partir de una conversación ficcional:10
8. René Wellek y Austin Warren, Teoría literaria, pág. 187.
9. Roman Jakobson, Ensayos de lingüística general, pág. 358.
10. Ib., págs. 358-359.
25
“Por qué dices siempre Ana y María y nunca María y Ana? 
¿Acaso quieres más a Ana que a su hermana gemela?”. “No, lo 
que ocurre es que suena mejor”. [...] Una muchacha solía ha-
blar del “tonto de Antonio”. “¿Por qué tonto?”. “Porque lo des-
precio”. “Pero, ¿por qué no ridículo, desagradable, payaso, sim-
plón?”. “No sé, pero tonto le cae mejor”.
Jakobson advierte que Ana y María “nos revela el principio poético de la gra-
dación silábica”,11 al tiempo que en el tonto de Antonio “se aplica el recurso poé-
tico de la paronomasia”.12 El hablante común construye inconscientemente, de 
acuerdo con lo que es tendencia en lengua, mientras el poeta potencia este orde-
namiento natural. Del mismo modo: la propensión al diptongo, definitoria para 
el habla oral común del hispanoparlante, es sistematizada en la poesía hispánica.
2. La poesía, dentro del espacio variacional
A continuación intentaré explicar por otra vía por qué la poesía debe ser toma-
da en cuenta cuando se formaliza la norma prescriptiva. Me serviré del modelo 
de cadena variacional planteado por Peter Koch y Wulf Oesterreicher.13
Este par de investigadores rescata una idea de Ludwig Söll: la concepción, ha-
blada o escrita, del enunciado. Söll distingue una dicotomía categórica, mientras 
que Koch y Oesterreicher entienden un continuo gradual, además de que intro-
ducen los términos inmediatez comunicativa y distancia comunicativa, de modo 
que la concepción hablada y la concepción escrita no se equiparen, respectiva-
mente, con el canal fónico y con el canal gráfico.14 Asimismo, nuestros romanis-
11. Ib., pág. 361.
12. Ib., pág. 359.
13. Ver: Wulf Oesterreicher, “El pluricentrismo del español: el problema de los territorios ameri-
canos”, obtenido en <http://cvc.cervantes.es/obref/congresos/rosario/ponencias/aspectos/oeste-
rreicher_w.htm>, consultado el 5 de agosto de 2012; Araceli López Serena, “La importancia de la 
cadena variacional en la superación de la concepción de la modalidad coloquial como registro he-
terogéneo”, en Revista Española de Lingüística, núm. 37, págs. 371-398; Johannes Kabatek, “Orali-
dad, proceso y estructura”, en Pandora: Revue d’Etudes Hispaniques, núm. 2, págs. 37-54; Ricardo 
Renwick, “Norma, variación y enseñanza de la lengua: una aproximación al tema desde la lingüís-
tica de la variación”, en Lexis: Revista de Lingüística y Literatura, vol. XXXI, núm. 2, págs. 305-329.
14. No se niega ni la relación entre inmediatez comunicativa y medio fónico ni la relación entre dis-
tancia comunicativa y medio gráfico, aunque también es indudable que un enunciado escrito pue-
26
tas alemanes retoman los tres niveles de variación propuestos por Eugenio Co-
seriu: variación diatópica (o geográfica), variación diastrática (o sociocultural) 
y variación diafásica (o situacional). Lo que hacen Koch y Oesterreicher es aña-
dir una cuarta dimensión, la cual funciona como parámetro ordenador del espa-
cio variacional: a) la distancia comunicativa supondrá una marca diatópica dé-
bil, una marca diastrática alta y una marca diafásica alta; b) la inmediatez comu-
nicativa supondrá una marca diatópica fuerte, una marca diastrática baja y una 
marca diafásica baja.
Así pues, la norma prescriptiva es una norma descriptiva asociada con la máxi-
ma distancia comunicativa posible. En voz de Oesterreicher:15
Una variedad lingüística puede llegar a convertirse en punto 
de referencia frente a las demás variedades. Este punto de refe-
rencia, que puede considerarse como neutral, es lo que llama-
mos estándar, y, a veces, se trata incluso de una verdadera nor-
ma prescriptiva, cuya ejemplaridad es reconocida por los ha-
blantes, después de un largo proceso histórico que incluye una 
labor metalingüística considerable. La diferencia del estándar, 
como variedad, con respecto a las demás normas existentes en 
el interior de la misma lengua, radica precisamente en el he-
cho de que funciona como punto de referencia para las demás 
variedades, pues tiene una fuerza ordenadora en el espacio va-
riacional de la lengua histórica. En otras palabras, se constitu-
ye en parámetro calificador del estatus de los demás fenóme-
nos lingüísticos.
[...]
El estándar es una norma que prácticamente carece de cual-
quier marca diatópica y representa una variedad diastrática 
(social) y diafásica (estilística) que está connotada positiva-
mente. Se trata de una forma de la lengua con mucho presti-
gio, que combina un máximo de difusión y aceptación entre 
los hablantes con una innegable estabilidad y uniformidad lin-
de ser concebido en la inmediatez o que un enunciado hablado puede ser concebido en la distancia: 
dependerá, entre otros factores, de la competencia comunicativa de quien discurre.
15. Oesterreicher, op. cit.
27
güísticas. Es posible, pues, considerar toda diferencia interna 
que no corresponda al estándar como diasistemática.
Es preciso entender la norma académica como formalización imperfecta de la 
norma prescriptiva. En mi opinión: norma prescriptiva es sinónimo de norma 
culta, norma ejemplar, norma estándar. La lengua es quien prescribe, no los aca-
démicos, quienes verbalizan, ponen por escrito, lo que a su juicio constituye la 
norma prescriptiva. Los académicos describen una variante de lengua producto 
de la máxima distancia comunicativa posible.16 Sin embargo, esta formalización 
es perfectible: por eso digo que la norma académica, hecho tangible, a veces no 
coincide con la norma prescriptiva, hecho intangible. En este sentido, vale inter-
pretar la norma académica en términos de forma y la norma prescriptiva en tér-
minos de sustancia, recordando a Louis Hjelmslev.
Sucede que los poemas de escritores prestigiosos constituyen un tipo textual 
concebido en la máxima distancia comunicativa y que ofrece pistas para enten-
der el tema que nos ocupa: la contigüidad de fonos vocálicos. Los sonetos que 
conforman el corpus de esta tesis presentan una impronta geográfica irrelevan-
te, una impronta sociocultural reputada y una impronta situacional reputada, 
además de que traen consigo, insisto, una pronunciación inherente, para nada 
extravagante o fingida, una dicción sencilla, natural, cuidada pero no artificiosa, 
luces para conocer el diptongo y el hiato españoles, cuestión en la cual la norma 
académica y la norma prescriptiva están disociadas.
La norma académica da por hecho que las secuencias [e]+[a] y [e]+[á] se re-
suelven en hiato, no obstante que, como demostraré en las páginas que siguen, 
el comportamiento diptongado es muy normal, de acuerdo con los textos poéti-
cos, variante prestigiada de lengua, repito. Se esperaría lo contrario, ¿no es cier-
to? Si esto ocurre en los textos literarios, valdría la pena considerar qué sucede 
en el habla oral real. Y quiero dejar muy en claro que estas realizaciones homo-
silábicas no son excepcionales, es decir no son artificio literario, es decir no son 
licencia métrica: una licencia métrica es un permiso, una realización oral ex-
traordinaria.
16. Si la norma académica no fuera, ante todo, una norma descriptiva, el DRAE no aceptaría, por 
ejemplo, el verbo cantinflear, propio de México, muestra de que lo diatópico es rasgo poco importan-
te para la norma prescriptiva, culta, ejemplar, estándar.
28
3. Descripción del corpus
Para esta tesis me sirvo de seis antologías:
• Luis Antonio de Villena (comp.), El libro de los sonetos en lengua española, Ma-
drid, Turner, 2005, antología conformada por 193sonetos.
• Varios autores, El libro de los sonetos: selección de 401 sonetos de los mejores 
autores hispanoamericanos, clásicos y modernos, desde el marqués de Santilla-
na hasta nuestros días, Buenos Aires, antología conformada por 401 sonetos. 
<http://www.archive.org/details/ellibrodelossoneOObuen>, consultado el 
22 de septiembre de 2011.
• Jesús Munárriz (comp.), Un siglo de sonetos en español, Madrid, Hiperión, 
2000, antología conformada por 451 sonetos.
• Otto-Raúl González (comp.), Galería de gobernadores del soneto, Toluca, Ins-
tituto Mexiquense de Cultura, 2002, antología conformada por 323 sonetos.
• Salvador Novo (comp.), 1001 sonetos mexicanos, 8.a edición, México, Porrúa, 
2003, antología conformada por 1014 sonetos.
• Ramón García González (comp.), Biblioteca del Soneto de la Biblioteca Vir-
tual Miguel de Cervantes. En esta plataforma figuran más de 35000 textos 
(es imposible saber cuántos poemas hay exactamente). De esta biblioteca se-
leccioné a unos pocos autores, independientemente de si las secuencias de in-
terés se resuelven en diptongo o en hiato: no me interesa forzar los resulta-
dos; de hecho, primero elegí a los escritores, y posteriormente hice el análisis. 
El total de sonetos, 1000. <http://www.cervantesvirtual.com/bib/portal/bi-
bliotecasoneto/>, consultado el 20 de abril de 2010.
El total de sonetos leídos, 3382. Sin embargo —como hubo textos que apa-
recieron más de una vez, por ejemplo el poema que inicia “Esta tarde, mi bien, 
cuando te hablaba”, de Sor Juana Inés de la Cruz—, he decidido dejar en núme-
ros redondos el total de sonetos que conforma el corpus: 3000.
29
CAPÍTULO 2
EL DIPTONGO ESPAÑOL: PANORAMA DIACRÓNICO
1. De Nebrija (1492) a la Academia (1726-1739)
La primera publicación de la Real Academia Española fue el Diccionario de au-
toridades, que vio la luz entre 1726 y 1739. Dicho texto posee un discurso proe-
mial, en el que los autores, al referirse a los diptongos, apuntan que “qualeſquie-
ra dos vocáles pueden formar una sylaba; pero no ſiempre que eſtán juntas la for-
man”. Los académicos sostienen que hay 20 posibles combinaciones de dos vo-
cales distintas, todas “con la calidád de conſtituír juntas ſolo una ſylaba”.1 Estos 
20 diptongos son los siguientes, y los ejemplos son los que aparecen en el texto 
académico:
diptongos propios del español, según la Academia (1726-1739)
A E Acaecimiento, Albalaes I O Ocio, Región
A I Aire, Alcaide I U Ciudád, Viudedád
A O Chaos, Daos O A Coadjutór, Coagular
A U Cautela, Pauta O E Héroe, Poesía
E A Beatitud, Ethérea O I Oidór, Toisón
E I Réino, Peine O U Moura, Coutiño
E O Geometría, Beodéz U A Cuajo, Agua
E U Deuda, Feudo U E Fuego, Suelo
I A Grácia, Glória U I Buitre, Cuidado
I E Cielo, Miedo U O Arduo, Mútuo
1. Real Academia Española, Diccionario de autoridades, tomo I, pág. 91.
30
La dificultad es saber cuándo estamos frente a un diptongo y cuándo frente 
a un hiato. Es una cuestión sobremanera complicada, incluso hoy en día, y por 
tanto no es de extrañar que hace tres siglos la Academia apuntara que, “en eſte 
punto, la mejor regla ſerá el oído y el conocimiento: pues à quien ſabe no le es 
dificil conocer, que Leí tiene dos ſylabas, y Ley ſolo una, por no introducir en 
eſte tratado reglas árduas y menos guſtosas, que tocan enteramente à la Poe-
sía”.2
Pregunto: ¿la unión y la ruptura vocálicas tocan enteramente a la poesía? Res-
pondo: claro que no. Hay que matizar. Es cierto que el diptongo, hecho lingüís-
tico, se corresponde con la sinalefa y la sinéresis, licencias métricas de enlace, he-
chos literarios. Es cierto que el hiato, hecho lingüístico, se corresponde con la 
dialefa y la diéresis, licencias métricas de quiebre, hechos literarios. No está en 
tela de juicio, pues, que lo lingüístico y lo literario van de la mano; sin embar-
go, el diptongo y el hiato son hechos fónicos los cuales interesan en primerísi-
mo lugar a la fonética, y ya en segundo lugar a la poética (a la métrica, para ser 
más precisos).
Dicho con todas sus letras: los académicos se desentendieron del problema, no 
por indolencia, desde luego, sino porque efectivamente es un tema sobremane-
ra punzante, el cual hoy en día no está aclarado.
En 1492, Antonio de Nebrija publicó su Gramática de la lengua castellana; en 
ella propuso una tipología del diptongo español. Dos siglos y medio antes de 
que la Academia editara su Diccionario de autoridades, el humanista ya conside-
raba 12 realizaciones homosilábicas al interior de palabra, respecto de las cua-
les apuntó:3
Nuestra lengua tiene doze, lo cual en esta manera se puede 
provar: cinco vocales tiene el castellano: a, e, i, o, u; de las cua-
les a, e, o, en ninguna manera se pueden cuajar entre sí ni co-
ger en una herida; assí que no será diphthongo entre ae, ea, ao, 
oa, eo, oe.
[...]
La u, con la o mui pocas vezes se puede aiuntar por diphthon-
go. Assí que, como cinco vocales no pueden aiuntarse entre 
2. Ib., pág. 92.
3. Antonio de Nebrija, Gramática de la lengua castellana, pág. 127.
31
sí más de en veinte maneras, et en las ocho dellas en ningu-
na manera se pueda cuajar diphthongo, queda provado lo que 
diximos: que los diphthongos en el castellano son doze.
De las 14 combinaciones tradicionales (vocal débil seguida de vocal fuerte, 
vocal fuerte seguida de vocal débil, dos vocales débiles distintas), el gramático 
dudó en incluir los grupos conformados por vocal débil velar, [u], seguida de vo-
cal fuerte velar, [o], y al revés. Dudó, pero sí consideró factible su realización, así 
sea “mui pocas vezes”: Antonio de Nebrija observó 14 diptongos, no 12.
El hecho es: antes de que apareciera el primer libro académico hubo lingüistas 
interesados en el tema,4 referencia obligada para que las autoridades diecioches-
cas fijaran su postura en relación con la contigüidad de fonos vocálicos. Pregun-
to: ¿por qué los académicos decidieron que los diptongos eran 20 y no 12 (o 14)? 
¿Por qué consideraron incompleta la clasificación de Nebrija?
2. La influencia de Andrés Bello (1835)
Es por todos sabido que la teoría ortológica de Andrés Bello sentó las bases del 
primer tratado de prosodia por parte de la Academia, impreso en 1870, capítu-
lo tres de la decimosegunda edición de la Gramática de la lengua castellana. En 
1835, el venezolano publicó sus Principios de la ortología y métrica de la lengua 
castellana, texto en el que enlista 30 secuencias homosilábicas, 16 acentuadas y 
14 inacentuadas.5 Bello y la Academia coinciden en señalar qué secuencias no 
pertenecen al conjunto de diptongos propios del español: las constituidas por 
vocales fuertes. Prácticamente lo que dijo Nebrija, casi cuatro siglos antes. Bas-
te comparar ambos inventarios para inferir la influencia del pensador sudame-
ricano:6
4. Ver: Isabel Acero Durántez y Deborah Dietrick Smithbauer, “Evolución del concepto de ‘dipton-
go’ en la gramática española (con referencias a los ‘triptongos’ y al ‘hiato’)”, en Actas del I Congreso 
Internacional de la Sociedad Española de Historiografía Lingüística, págs. 115-135; Abraham Esteve 
Serrano, “Representación gráfica de los fonemas vocálicos”, en Estudios de teoría ortográfica del es-
pañol, págs. 125-137.
5. Considerar la fuerza espiratoria como rasgo distintivo para la categorización del diptongo es un 
grandísimo avance.
6. Andrés Bello, Principios de la ortología y métrica de la lengua castellana, págs. 103-104. Real Acade-
mia Española, Gramática de la lengua castellana, 12.a ed., págs. 295-206.
32
diptongos propios del español
Andrés Bello (1835) Academia (1870)
ac
en
tu
ad
os
ái
in
ac
en
tu
ad
os
ai
de
cr
ec
ie
nt
es
ai
áu au au
éi ei ei
éu eu eu
ói oi oi
óu ou ou
iá ia
cr
ec
ie
nt
es
ia
ié ie ie
ió io io
iú / íu iu iu
uá ua ua
ué ue ue
uó uo uo
uí / úi ui ui
Pareciera a simple vista que la intensidad es redundante, que sólo duplica el nú-
mero de grupos: las autoridades consideraron poco importante la fuerza espira-
toria, con lo cual la descripción del diptongo siguiósiendo problemática.
3. Pertinencia del suprasegmento intensidad
Si bien la cualidad creciente o decreciente de un diptongo está determinada en 
principio por el cambio en el grado de abertura, es menester tomar en cuenta la 
carga intensiva para describir con más precisión los grupos homosilábicos. Va-
rios autores confirman esto, entre ellos Antonio Quilis:7
7. Antonio Quilis Morales, Tratado de fonología y fonética españolas, pág. 179.
33
En español, normativamente, se acostumbra a considerar como 
diptongo la unión en la misma sílaba de:
1. /i, u/ + /e, a, o/
2. /e, a, o/ + /i, u/
3. /i/ + /u/
4. /u/ + /i/
Según que los órganos articulatorios se desplacen en la emisión 
del diptongo hacia la abertura o hacia el cierre, los diptongos se 
llaman crecientes (caso 1), o decrecientes (caso 2). En ellos, las vo-
cales más abiertas, /e, a, o/, son las que forman el núcleo silábico.
En el tercero y cuarto casos, al tratarse de vocales altas, de la mis-
ma abertura prácticamente, formará núcleo silábico la vocal que 
mayor intensidad posea, por muy pequeña que sea esa diferencia.
El hecho es claro: la prominencia intensiva también cuenta. Repito: cuando dos 
fonos vocálicos posean “la misma abertura prácticamente”, funcionará como nú-
cleo silábico “la vocal que mayor intensidad posea”. Analicemos las palabras diá-
logo y dialogo. Es evidente que la naturaleza creciente del diptongo [i̯á] es más 
robusta que la del diptongo [i̯a], ello debido precisamente a la fuerza espiratoria. 
Así pues, tenemos no un grupo homosilábico propio del español, sino dos, am-
bos crecientes, por supuesto, debido al cambio de abertura, pero distintos en vir-
tud de la intensidad. No están duplicados, quiero insistir: son unidades distintas. 
Me parece que la distinción entre fonos con prominencia intensiva y fonos sin 
prominencia intensiva permite una mejor categorización de los diptongos. Ade-
más no debemos olvidar que la intensidad posee valor fonológico en español. No 
veo razón para poner en tela de juicio lo que atinadamente observó Andrés Be-
llo: que la fuerza espiratoria es importante.
4. Sobre los grupos conformados por dos vocales débiles distintas
La naturaleza creciente o decreciente de las secuencias conformadas por dos 
vocales débiles distintas ha sido intensamente discutida.
En la Gramática de la lengua castellana de 1870 se prescribe que “en todo dip-
tongo carga siempre la pronunciacion sobre la vocal más sonora si es una de las 
combinadas, y sobre la última cuando la combinacion es de i ántes ó despues de 
34
u”.8 De ahí, la clasificación tradicional de los diptongos, en crecientes y decre-
cientes, ocho y seis respectivamente, para un total de 14 grupos homosilábicos 
propuestos por la Academia, me refiero a las combinaciones fonológicas posibles, 
las cuales se corresponden con 28 realizaciones fonéticas, si se toma en cuenta 
la fuerza espiratoria, con lo cual quedan fuera las formas [úi̯] y [íu̯]. Así pues: de 
los 30 diptongos que propuso Bello, la Academia rechazó dos.9 Totalmente arbi-
trario, y basten dos ejemplos, uno para [úi̯] y otro para [íu̯].
Navarro Tomás, por ejemplo, le dio seguimiento a esta propuesta, que, repito, 
deja fuera, de entrada, las formas [úi̯] y [íu̯] (estrictamente hablando, también 
quedan fuera las formas [iu̯] y [ui̯]):10
diptongos propios del español, según Navarro Tomás
decrecientes crecientes
ai̯ ja
ạu̯ wa
ęi̯ je
eu̯ we
ǫi̯ jo
ou̯ ju
wi
wo
8. Real Academia Española, Gramática de la lengua castellana, 12.a ed., pág. 297. Esta publicación es 
de particular importancia porque por primera vez la Academia presenta en forma un tratado de pro-
sodia.
9. De las 28 realizaciones restantes, es un hecho que la Academia y Andrés Bello coinciden exacta-
mente en 26. Dos secuencias son un tanto problemáticas. Cierto es que ambas propuestas resuelven 
en diptongo los grupos [u]+[i] y [i]+[u]; sin embargo, el humanista nunca explicita que deriven en 
diptongos crecientes: simplemente da por sentado que se trata de grupos homosilábicos, y es que el 
venezolano clasificó los diptongos en acentuados e inacentuados, y no en crecientes y decrecientes.
10. Tomás Navarro Tomás, Manual de pronunciación española, pág. 65.
35
El fonetista es explícito al señalar que no existen diptongos decrecientes cons-
tituidos por vocales altas:11
En los grupos iu, ui predomina siempre como principal ele-
mento del diptongo la segunda vocal, reduciéndose la prime-
ra a semiconsonante.
Primer ejemplo. La pronunciación [múi̯], correspondiente al adverbio muy, no 
puede ser diptongo creciente. ¿Por qué no puede ser diptongo creciente?: por-
que la vocal velar posee carga intensiva, y la sonoridad va de más a menos. Ma-
ría Josefa Canellada de Zamora afirma:12
Para nosotros, la tan discutida palabra ‘muy’ se pronuncia 
[múi̯], lo cual se prueba en la pronunciación enfática: ‘muy 
bien, pero que MUY bien’ [mú:i̯ βjén] y no [mwí: βjén]. Por 
otra parte, es difícil encontrar otro ejemplo de este diptongo 
en el castellano standard.
Sí: es extremadamente difícil hallar ejemplos del grupo [úi̯] al interior de pala-
bra, es decir en un ámbito de acentuación léxica. La interjección uy. El sustanti-
vo cocuy. Y alguna que otra voz perdida en el lexicón.
A propósito del vocablo muy, Navarro Tomás sostiene que “la combinación ui, 
cualquiera que sea su origen, se pronuncia como diptongo, wí: juicio, buitre, cui-
ta, benjuí, muy, cuido, fuí, fuiste, etc.”; y enfatiza que la pronunciación [múi̯] es an-
tigua, y que “la forma corriente y general es evidentemente wí”.13 Muy dudoso.
En 1991, Álvaro Calderón Rivera escribió un artículo en el cual afirma haber 
demostrado la existencia del decimoquinto diptongo. Al estudioso lo inquieta 
“la presencia, en lengua hispánica actual, de un diptongo más (15º), presente en 
la combinación ui, en palabras, tal vez pocas pero suficientes, que muestran una 
configuración fónica muy específica”.14
11. Íd.
12. María Josefa Canellada de Zamora, Pronunciación del español: lengua hablada y literaria, pág. 50.
13. Navarro Tomás, op. cit., pág. 166.
14. Álvaro Calderón Rivera, “Vigencia del diptongo hispánico /ui̯ /”, en Verba Hispánica, núm. 1, 
pág. 69.
36
El investigador critica a Navarro Tomás, a Quilis Morales, a Gili Gaya, a Alar-
cos Llorach: les reprocha el haber perpetuado una tipología equivocada del dip-
tongo español. “A partir de esta investigación se plantea con propiedad y eviden-
cia la existencia de un 15º diptongo”, sostiene Calderón Rivera, e insiste en que 
“los diptongos hispánicos son, en realidad, 15, teniendo en cuenta que la con-
currencia ortográfica ui no solamente se realiza como diptongo creciente, sino 
también como diptongo decreciente”.15 No 12, no 14, no 20, no 30. Ora son 15.
La existencia de [úi̯] estaba demostrada muchísimo antes, gracias a Andrés Be-
llo, quien, además, no dudó en incluir las secuencias [óu̯], [íu̯] y [ou̯], pese a que 
le faltaron ejemplos extraídos del vocabulario:16
De los diptongos acentuados óu, íu, aunque no tienen nada 
de contrario a la índole de la lengua castellana, no conozco 
ejemplos en dicciones que verdaderamente pertenezcan a ella. 
[...] Del diptongo inacentuado ou, no conozco ejemplo en dic-
ción alguna verdaderamente castellana.
Segundo ejemplo. El diptongo [íu̯] existió en el arcaísmo víuda. De muy difí-
cil pronunciación, [bíu̯.da.], por eso derivó en [bi̯ú.da.]. Lamentablemente no 
tengo más casos al interior de palabra. A propósito de lo anterior, atendamos a 
lo que explica la Academia en la decimoquinta Gramática de la lengua castella-
na, de 1880:17
Es tal la condición de las vocales débiles, que juntándose am-
bas sin acento, necesariamente hacen diptongo; pero siempre 
cayendo y fundiéndose la primera en la segunda. La cual, por 
virtud de este impulso, adquiere mayor vibración, sonoridad y 
timbre, hasta el punto de decidir la asonancia ó la consonancia 
de la frase, del período, ó del verso.
La postura de los académicos parece idéntica a la expresadaen 1870, diez años 
antes: no existen diptongos decrecientes conformados por vocales débiles. Esta 
15. Ib., págs. 70 y 75.
16. Bello, op. cit., págs. 103-104.
17. Real Academia Española, Gramática de la lengua castellana, 15.a ed., pág. 335.
37
creencia se mantuvo intacta en las dos gramáticas posteriores, la de 1874 y la de 
1878. Sin embargo, para la decimoquinta edición la Academia precisa:18
En algunas provincias, donde falta la delicadeza del buen 
oído castellano, suele contradecirse esta regla, y aun la contra-
dijeron, bien que en muy corto número de voces, escritores fe-
licísimos de nuestros siglos de oro.
Y uno de los ejemplos dados es un hexasílabo del Romancero general: “Y á con-
solar víudas”. Vuelvo a repetir: no tengo más casos al interior de palabra. Empe-
ro, no es necedad señalar que al interior de grupo fónico es fácil hallar la realiza-
ción [íu], lo mismo que [úi] y que cualquier otro diptongo, canónico o no.
Entonces es falso que “en todo diptongo carga siempre la pronunciacion” sobre 
la última vocal “cuando la combinacion es de i ántes ó despues de u”. Asimismo 
es equivocado que cuando dos vocales débiles se hallan en diptongo es “siempre 
cayendo y fundiéndose la primera en la segunda”.
Ya quedó demostrado, pues, que [ú]+[i] puede perfectamente derivar en [úi̯] 
y que [í]+[u] puede perfectamente derivar en [íu̯]. Ahora bien: ¿qué ocurre con 
[u]+[i] y [i]+[u]? Es decir: ¿qué ocurre cuando ninguna de las vocales débiles 
posee prominencia intensiva? Siguiendo a Quilis Morales: ¿formará núcleo si-
lábico la que mayor intensidad posea, por muy pequeña que sea esa diferencia?
5. Diptongos neutros
¿Qué hacer, pues, con [u]+[i] y con [i]+[u]? Tres, las opciones.
Opción 1. Cuando no haya contraste en el grado de abertura y cuando ningu-
no de los fonos vocálicos involucrados posea prominencia intensiva sería factible 
hablar de diptongos neutros. Así, habría los diptongos canónicos neutros [iu] y 
[ui]. Solución cómoda pero reduccionista, y por tanto inconsistente.
Opción 2. Se da por hecho que en español el segundo elemento de un dipton-
go predomina sobre el primero, de ahí la creencia de que los diptongos confor-
mados por dos vocales débiles distintas siempre son crecientes. Retomo a Cane-
llada de Zamora, quien apunta que “el elemento que va en 2.ª posición prevale-
ce sobre el de la 1.ª: [man̪ .dᵉúr.xén̪ .te], ‘mandé urgente’”.19
18. Ib., pág. 336.
19. María Josefa Canellada de Zamora, op. cit., pág. 55.
38
Me parece muy difícil que una e y una u puedan coexistir en una misma sílaba 
siendo la vocal débil núcleo silábico; pero algo es cierto: los diptongos crecien-
tes son articulatoriamente más fáciles de realizar. Así pues, habría dos dipton-
gos crecientes: [u̯i] y [i̯u]. Ni duda cabe: la gran mayoría de los grupos homosi-
lábicos es resuelta así, en correspondencia con la base articulatoria de los hispa-
noparlantes. Sin embargo, la postura es asimismo reduccionista, y por tanto in-
consistente.
Opción 3. Analizar cada realización oral, de modo que las magnitudes en her-
cios definan de qué diptongo se trata en cada caso: [u̯i] o [ui̯] para [u]+[i], [i̯u] 
o [iu̯] para [i]+[u]. Pero no es una solución práctica porque no siempre se dis-
pone de un grabador y de un analizador de voz.
En mi opinión, la opción 1 es la más factible.
6. Tipología actual del diptongo español
La Real Academia Española, en el tercer tomo de su nueva gramática, publica-
do en 2011, apunta:20
Las agrupaciones tautosilábicas de dos vocales o diptongos se 
clasifican en diptongos crecientes, si la vocal alta está situada 
en primer lugar, y diptongos decrecientes, si la vocal alta apa-
rece en segundo lugar.
Lo que sabemos de cierto.
Acerca de las secuencias homosilábicas conformadas por vocales débiles, los 
académicos explican:21
Dado que la lengua española favorece claramente la dipton-
gación creciente, cuando dos vocales altas aparecen en la mis-
ma sílaba (bui.tre, ciu.dad, viu.do), se suele considerar que cons-
tituyen un diptongo creciente. [...] No obstante, en el habla, es 
posible realizar la combinación de las dos vocales como dip-
tongo creciente (cuita [ˈku̯i.ta]) o como diptongo decreciente 
(cuita [ˈkui̯ .ta]) en función de diversos factores.
20. Real Academia Española, Nueva gramática de la lengua española: fonética y fonología, pág. 332.
21. Ib., págs. 332-333.
39
De acuerdo con lo anterior, el inventario de diptongos propios del español, se-
gún la RAE, es el que sigue, tomando en cuenta la fuerza espiratoria:
diptongos canónicos, según la Academia, hoy
crecientes decrecientes
[i̯a] [i̯á] [ai̯ ] [ái̯ ]
[u̯a] [u̯á] [au̯ ] [áu̯ ]
[i̯o] [i̯ó] [oi̯ ] [ói̯ ]
[u̯o] [u̯ó] [ou̯] [óu̯ ]
[i̯e] [i̯é] [ei̯ ] [éi̯ ]
[u̯e] [u̯é] [eu̯ ] [éu̯ ]
[i̯u] [i̯ú] [ui̯ ] [úi̯ ]
[u̯ i] [u̯ í] [iu̯ ] [íu̯ ]
El inventario más completo a la fecha: 32 secuencias. Cuatro observaciones:
• Por simplicidad, [i̯u] y [iu̯] serán transcritos como si se tratara del dipton-
go neutro [iu]; sin embargo, es claro que prácticamente todas las realizacio-
nes orales corresponderán al diptongo creciente [i̯u], por dos razones: a) la 
segunda posición es preponderante; b) [u] es más abierto que [i], de acuerdo 
con el sistema de cinco niveles de abertura.22
• Por simplicidad, [u̯i] y [ui̯] serán transcritos como si se tratara del diptongo 
neutro [ui]; sin embargo, es claro que prácticamente todas las realizaciones 
orales corresponderán al diptongo creciente [u̯i], así esto implique un desor-
den según los cinco niveles de abertura (se supone que [i] es menos abierto 
que [u]): tal es la preponderancia de la segunda posición.
• El diptongo creciente [u̯í] presenta un problema: supone un desorden del sis-
tema de cinco niveles de abertura; sin embargo, la preponderancia de la se-
gunda posición facilita sobremanera la articulación homosilábica.
22. En el capítulo que sigue explicaré de qué se trata esto de los cinco niveles de abertura.
40
• El diptongo decreciente [íu̯] presenta dos problemas: a) supone un desorden 
del sistema de cinco niveles de abertura; b) la primera posición es preponde-
rante, debido a la carga intensiva. Tan complicada es esta pronunciación, que 
la existencia del diptongo es casi nula.
41
CAPÍTULO 3
EL TIMBRE DE LAS VOCALES ESPAÑOLAS
1. Rasgos distintivos y estudio instrumental
El sistema español de fonos vocálicos es bastante sencillo, en comparación con 
otras lenguas hermanas, como el portugués, el italiano, el francés. Consta de 
apenas cinco unidades, las cuales tradicionalmente han sido descritas, desde el 
punto de vista articulatorio, atendiendo a dos rasgos: la abertura (lo que vendría 
siendo el modo) y la localización (lo que vendría siendo el punto). 
Dicho escuetamente: a) el modo de articulación tiene que ver con la separa-
ción de las mandíbulas; b) el punto de articulación tiene que ver con la posición 
de la lengua. Ambos rasgos son los principales constituyentes del timbre, el cual 
permite apreciar las cinco vocales.1
Observemos el comportamiento de los primeros dos formantes, F1 y F2, pro-
nunciaciones mías; los valores, en hercios, son los siguientes:2
F1
[a] [o] [e] [u] [i]
768 419 342 291 248
F2
[i] [e] [a] [o] [u]
2523 2243 1250 752 542
Los formantes 1 y 2 muestran, respectivamente, la abertura y la localización, 
es decir, la disposición de los órganos bucales, que, como se dijo, configuran el 
timbre.
Huelga decir que estas cifras no son absolutas, pero sí representativas. Referen-
cia imprescindible, el estudio que en 1983 llevaron a cabo Antonio Quilis y Ma-
nuel Esgueva:3
1. Para una explicación a detalle: Samuel Gili Gaya, Elementos de fonética general, págs. 105-116.
2. El espectrógrafo mide la energía sonora proveniente del tracto vocal, merced a un registro logarít-
mico, en hercios, del sonido articulado. Con ello es posible observar el comportamiento de las rea-
lizaciones orales.
3. Antonio Quilis Morales y Manuel Esgueva Martínez, “Realización de los fonemas vocálicos es-
pañoles en posición fonéticanormal”, en Estudios de fonética I, pág. 244.
42
voz masculina
F1
[a] [o] [e] [u] [i]
657 474 453 293 264
F2
[i] [e] [a] [o] [u]
2317 1995 1215 888 669
voz femenina
F1
[a] [o] [e] [u] [i]
663 510 491 243 240
F2
[i] [e] [a] [o] [u]
2834 2252 1167 981 628
Otra referencia obligada, los valores estándar de F1 y F2 que propone Eugenio 
Martínez Celdrán:4
voz masculina
F1
[a] [o] [e] [u] [i]
699 495 457 349 313
F2
[i] [e] [a] [o] [u]
2200 1926 1471 1070 877
voz femenina
F1
[a] [o] [e] [u] [i]
886 586 576 390 369
F2
[i] [e] [a] [o] [u]
2685 2367 1712 1201 937
2. Recategorización
Si observamos los valores de F1 y F2, resulta que las magnitudes correspon-
dientes al modo y al punto permiten establecer las siguientes relaciones:
modo (abertura) F1 de [a] > F1 de [o] > F1 de [e] > F1 de [u] > F1 de [i]
punto (localización) F2 de [i] > F2 de [e] > F2 de [a] > F2 de [o] > F2 de [u]
4. La tabla de valores aparece en Eugenio Martínez Celdrán, Análisis espectrográfico de los sonidos del 
habla, pág. 39. Pero es más interesante apreciar cómo el profesor llegó a dichos resultados: Eugenio 
Martínez Celdrán, “En torno a las vocales del español: análisis y reconocimiento”, en Estudios de Fo-
nética Experimental, núm. 7, págs. 195-218.
43
Esto posibilita replantear la relación que guardan entre sí las vocales. La pro-
puesta en este trabajo es que existen cinco niveles estándar de abertura y cinco 
niveles estándar de localización:
fonos vocálicos
(mínima) [i]
si poseen 
cualidad 
marginal, 
se agrega 
el diacrítico: 
[i̯ ], [u̯ ], [e̯ ], [o̯ ]
[u]
abertura [e]
[o]
(máxima) [a]
(palatal) localización (velar)
Las cuatro fronteras de F2 están perfectamente delimitadas, mientras que para 
F1 sólo hay dos bien definidas, pues el límite entre [i] y [u] y el límite entre [e] 
y [o] son problemáticos. No se niega la existencia de un orden estándar, es de-
cir que por cada vocal palatal bien pronunciada habrá una correspondiente vocal 
velar bien pronunciada más abierta, pero tampoco se niega que pueda haber vo-
cales velares más cerradas que sus correspondientes vocales palatales, y por ello 
la frontera que separa los fonos altos está indicada con puntos, lo mismo que la 
frontera que separa los fonos medios. Dicho más claramente: a) hay magnitudes 
de F1 que pueden corresponder tanto a [i] como a [u], ya sea porque [i] se abra 
un poco, ya sea porque [u] se cierre otro poco, y la desambiguación sólo será po-
sible atendiendo a F2; b) hay magnitudes de F1 que pueden corresponder tanto 
a [e] como a [o], ya sea porque [e] se abra un poco, ya sea porque [o] se cierre 
otro poco, y la desambiguación sólo será posible atendiendo a F2.
En síntesis: aunque no son totalmente claros los cinco niveles de abertura, de 
los estudios presentados se infiere que existen realizaciones típicas las cuales su-
ponen cinco modos de articulación. Para la localización no hay dudas: existen 
cinco puntos de articulación.
44
Lo dicho en el párrafo anterior es discutible. Pedro Martín Butragueño, por 
ejemplo, en su artículo “Vocales en contexto”, distingue dos tipos de habla: el 
habla de laboratorio y el habla espontánea. La idea principal de dicho estudio es 
fácil de enunciar; en voz del fonetista: “Los datos más espontáneos definen me-
nos las diferencias vocálicas”.5
Los resultados obtenidos por el profesor, era de esperarse, no se corresponden 
con el sistema estándar que observo, esto debido precisamente a que Martín Bu-
tragueño busca “estudiar los segmentos vocálicos en entornos dotados de cier-
ta naturalidad, y no sólo en el laboratorio, si es que se quiere proporcionar des-
cripciones y explicaciones realistas de los hechos lingüísticos”.6 Obvio, se trata 
de realizaciones orales no especialmente cuidadas:
voz masculina
F1
[a] [o] [e] [u] [i]
627 445* 474* 402 394
F2
[i] [e] [a] [o] [u]
1972 1772 1521 1134 1107
voz femenina
F1
[a] [o] [e] [u] [i]
736 527 516 387* 420*
F2
[i] [e] [a] [o] [u]
2275 2058 1719 1261 1114
Tenemos dos inconsistencias, señaladas con asterisco:
• Para la voz masculina: [o] es más cerrado que [e], cuando lo esperado era lo 
contrario. En todos los demás valores la relación típica se cumple.
• Para la voz femenina: [u] es más cerrado que [i], cuando lo esperado era lo 
contrario. En todos los demás valores la relación típica se cumple.
Los problemas se hallan únicamente en F1. En lo que se refiere al comporta-
miento de F2, todo es correcto. Ahora bien, el mismo Martín Butragueño, al 
contrastar el habla espontánea con el habla de laboratorio, sostiene:7
5. Pedro Martín Butragueño, “Vocales en contexto”, obtenido en <http://lef.colmex.mx/index.php/
investigaciones/cambio-variacion/cd-mexico>, consultado el 4 de abril de 2010, pág. 17.
6. Ib., pág. 1.
7. Ib., pág. 6.
45
Podría apuntarse, de hecho, la aparición de un aparente des-
orden del que sólo con mucho mayor trabajo puede emerger 
cierto sistema organizativo (también puede apuntarse, por 
otro lado, que la desorganización relativa es posible gracias a 
la preexistencia de un sistema).
Es decir: sí existe un sistema, un modelo teórico, asociado, huelga decirlo, al 
habla de laboratorio. El sistema preexistente de que habla el profesor probable-
mente conste de cinco niveles de modo y de cinco niveles de punto, como se in-
fiere de los estudios realizados por Quilis Morales y Esgueva Martínez (1983) y 
por Martínez Celdrán (1995); incluso las mediciones hechas a las pronunciacio-
nes de un servidor coinciden a pie juntillas.
Por su parte, Manuel Almeida Suárez (1990) establece valores formánticos 
promedio en lenguaje conversacional. Lo interesante de su estudio es que con-
sidera la intensidad como variable pertinente. Sus resultados:8
F1
habla espontánea
[a] [o] [e] [u] [i]
voz masculina
+ 545 373 369 281 276
− 522 352* 362* 263 252
voz femenina
+ 565 413 340 313 249
− 540 388 329 245* 278*
+ (vocal con prominencia intensiva) / − (vocal sin prominencia intensiva)
Sólo presento F1, que es el dato importante, dado que para F2 siempre hay es-
tabilidad. Como se observa, las inconsistencias, señaladas con asterisco, son las 
mismas que encuentra Martín Butragueño. Acaso mera coincidencia.
Cabe aclarar que estas inconsistencias, por lo menos en el estudio de Almei-
da, se dan únicamente en vocales sin prominencia intensiva; y por el contrario: 
8. Manuel Almeida Suárez, “El timbre vocálico en el español actual”, en Revista de Filología Romá-
nica, núm. 7, págs. 81 y 82. Para la voz femenina, el fonetista desglosa sus resultados considerando 
si la sílaba es libre o trabada, además de si la vocal posee o carece de prominencia intensiva. No en-
tiendo por qué no presentó del mismo modo los resultados para la voz masculina, que desglosa úni-
camente en fónos vocálicos con y sin carga de intensidad. Yo lo que hice fue establecer valores pro-
medio para la voz femenina, con lo cual pude presentar un cuadro uniforme.
46
en vocales con prominencia intensiva los cinco niveles de abertura se mantie-
nen todo el tiempo.9
Lo dicho en el párrafo anterior resulta lógico si tomamos en cuenta que una 
mayor fuerza espiratoria comporta una definición más precisa del timbre carac-
terístico de cada fono. En otras palabras: la intensidad obliga a pronunciar con 
más exactitud. Por consiguiente, la propuesta no queda descartada: incluso en 
lenguaje conversacional hay cinco niveles de abertura, por lo menos en vocales 
con carga intensiva, las cuales son articuladas con un poquito más de cuidado.
Repito: en el habla espontánea también se observan cinco modos de articula-
ción; y este hecho es constatado por Dolors Poch Olivé (1994), quien compara 
el discurso oral, espontáneo y de laboratorio, en catalán y en español, de un va-
rón, hablante bilingüe.10
Las cifras demuestran que un hablante sensible a los detalles fonéticos es capaz 
de pronunciar las vocales españolas, no importa el estilo, perfectamente diferen-
ciadas entre sí, cada una con el timbre que en teoría le corresponde. La investi-gación pone de manifiesto que la distinción formántica en el habla espontánea 
puede ser igual de contundente que en el habla de laboratorio.
Veamos los valores de F1, la variable importante:11
F1
habla espontánea
[a] [o] [e] [u] [i]
catalán 682 428 397 342 309
español 572 427 416 349 336
Como se observa, es clara la existencia de cinco niveles de abertura. En habla 
de laboratorio, también. Repito: la distinción formántica en el habla espontánea 
puede ser igual de contundente que en el habla de laboratorio.
9. Almeida menciona vocales átonas y vocales tónicas; pero es obvio que no se refiere al tono, sino 
a la fuerza espiratoria. Sería interesante que Martín Butragueño amplíe su artículo en pos de dar 
cuenta de las diferencias en el timbre vocálico atendiendo a si el fono se halla en sílaba con promi-
nencia intensiva o en sílaba sin prominencia intensiva.
10. Dolors Poch Olivé, “Dinámica de los sistemas vocálicos y bilingüismo”, en Contextos, núm. 24, 
págs. 7-39.
11. Ib., págs. 14 y 16. Para el catalán sólo consideré las realizaciones de las vocales españolas. Tampo-
co está de más comentar que, como era de esperarse, el habla de laboratorio corrobora la existencia 
de cinco niveles de abertura; pero aquí lo importante es destacar qué sucede en el habla espontánea.
47
Un último comentario, antes de terminar este apartado: en una investigación 
publicada en 1993, Ana María Fernández Planas, en lugar de proponer valores 
estándar, analiza los campos de dispersión de las vocales, a partir de la percep-
ción de 371 sonidos obtenidos con un sintetizador de voz. Tras entrevistar a 30 
oyentes, la investigadora define tres niveles de análisis, los cuales van de lo muy 
ancho a lo muy estrecho en lo que se refiere a zonas de intersección, según lo 
percibido por los informantes.
Me interesa retomar el tercer nivel de análisis, el más estrecho. Veamos las 
magnitudes obtenidas por Fernández Planas, únicamente el formante asocia-
do a la abertura:12
F1 [a] [o] [e] [u] [i]
límite superior 1027 793 727 335 398
límite inferior 942 472* 515* 258 109
Es posible reinterpretar la información obteniendo valores promedio:
F1 [a] [o] [e] [u] [i]
promedio 985 633 621 297 254
De nueva cuenta es evidente la existencia de cinco niveles de abertura. Por su-
puesto, las zonas de ambigüedad más problemáticas corresponden a la frontera 
entre [i] y [u] y a la frontera entre [e] y [o].
En otras palabras: los tradicionales tres niveles de abertura existen en virtud de 
que la pendiente correspondiente a los valores máximo y mínimo de F1 es mu-
cho menos marcada que la correspondiente a los valores máximo y mínimo de 
F2. Por otra parte, no hay la menor duda en lo que se refiere a los cinco niveles 
de localización: es necesario replantear, pues dichos cinco niveles estándar es-
tán perfectamente definidos en todos los estudios que he revisado sobre la es-
tructura formántica de las vocales. Sólo en las magnitudes de F1 hay una que 
otra inconsistencia ocasional, la cual, en mi opinión, queda explicada por el es-
tilo de habla.
12. Ana María Fernández Planas, “Estudio del campo de dispersión de las vocales castellanas”, en 
Estudios de Fonética Experimental, núm. 5, pág. 141.
48
3. Vocales fuertes al interior de palabra, según Bello
Andrés Bello, en su tratado de ortología y métrica, presenta 14 reglas de pro-
nunciación, todas al interior de palabra, según el grupo bivocálico de que se tra-
te, según si alguno de los fonos involucrados posee prominencia intensiva, se-
gún si la secuencia precede o sucede a la sílaba con mayor fuerza espiratoria. De 
lo prescrito por el venezolano interesan solamente las reglas 8 y 9, que describen 
el diptongo no canónico.
En la regla 8, el humanista considera dos vocales fuertes contiguas, ambas sin 
prominencia intensiva, y posteriores a la sílaba con mayor fuerza espiratoria:13
Si las dos vocales concurrentes de que tratamos son llenas, 
forman naturalmente dos sílabas, como en Dánao, cesáreo, hé-
roe, plázcaos, teniéndoos.
Como los poetas hacen casi siempre diptongos las combina-
ciones inacentuadas de que tratamos (particularmente cuan-
do la penúltima vocal no pertenece a un enclítico, como en 
plázcaos), pudieran algunos creer que sería mejor invertirla, 
considerando las tales combinaciones como diptongos natu-
rales que a veces admiten la diéresis por licencia poética. Pero 
me parece más natural mirarlas como disílabas por las razones 
que voy a exponer.
Inmediatamente, el filólogo esboza dos razones, un tanto inconsistentes:14
La primera es la pronunciación. Si se consulta el oído, creo 
que se percibirá que en las vocales finales de Dánao, virgínea, 
héroe, se consume más tiempo que en las de espacio, Virginia, 
serie, fragüe.
En segundo lugar, las formas verbales que llevan el acento 
sobre la raíz, no admiten acento esdrújulo, y cuando termi-
nan en dos vocales llenas tampoco se puede acentuar en ellas 
la primera vocal, aunque ésta se halle acentuada en la palabra 
de que inmediatamente se derivan: dícese amarillas espigas y 
13. Andrés Bello, Principios de la ortología y métrica de la lengua castellana, págs. 96 y 97.
14. Ib., pág. 97.
49
las espigas amarilléan, el purpúreo celaje y los celajes purpuréan. 
¿No es natural mirar estos dos hechos como uno mismo, y ex-
plicar el segundo diciendo que no es posible pronunciar pur-
púrean, porque semejante dicción sería naturalmente esdrúju-
la, y las formas verbales en que se acentúa la raíz no consien-
ten esdrújulos?
Tres, los contraargumentos. Primero: decir que la pronunciación de los dip-
tongos no canónicos consume más tiempo que la pronunciación de los dipton-
gos canónicos es una premisa que no se sustenta, pues equivale a decir que ar-
ticular un margen compuesto consume más tiempo que articular un margen 
simple. Segundo: las formas [a.ma.ɾi.ʝé.an.] y [puɾ.pu.ɾé.an.] son no pertinen-
tes, puesto que el grupo [é]+[a] lógicamente debe ser resuelto en hiato, esto de-
bido al choque entre el fono medio palatal con prominencia intensiva y la vocal 
abierta central. Sólo si el sonido cerrado pierde la prominencia intensiva podría 
haber diptongo. Tercero: si lo que se busca es evitar una dicción esdrújula, a ve-
ces se puede resolver. La forma sonora [a.ma.ɾí.ʝe̯an.], grave, aunque factible, 
suena mal, no así la realización oral [puɾ.pú.ɾe̯an.], que suena bien y no es pro-
paroxítona. Para el verbo alinear, por ejemplo, existen, desde mi punto de vista, 
dos pronunciaciones válidas para la tercera persona del plural, presente indicati-
vo, [a.li.né.an.] y [a.lí.ne̯an.], ambas graves, e incluso me atrevo a afirmar que 
la forma trisílaba es la más usual, pese a que no hay modo de ponerla por escri-
to: la grafía alíneo ha de ser pronunciada [a.lí.ne.o.], esdrújula.
En la regla 9, el humanista considera dos vocales fuertes contiguas, ambas sin 
prominencia intensiva, y anteriores a la sílaba con mayor fuerza espiratoria:15
Si las vocales concurrentes que preceden al acento, son am-
bas llenas, forman naturalmente dos sílabas; como en Saave-
dra, aerostático, Faetón, Laodamia, lealtad, leeríamos, Leovigil-
do, Boadicea, roedor, cooptar. Pero la sinéresis es aquí permitida, 
particularmente si entra en la combinación la vocal e.
La explicación, cuestionable. ¿Con base en qué se asevera que dos vocales fuer-
tes distintas contiguas sin prominencia intensiva y anteriores a la sílaba con ma-
15. Ib., pág. 99.
50
yor fuerza espiratoria forman naturalmente hiato? Parece que el venezolano pre-
firió, entendiendo lo complejo del asunto, no distraerse en sutilezas, y sugirió 
como mejor lograda la ruptura vocálica. Más parece una cuestión de idiolecto. 
Sin embargo, y esto no se discute, la norma que describe el idiolecto de Andrés 
Bello no tiene por qué determinar la norma prescriptiva.
El hecho de que “la sinéresis” sea “permitida” sobre todo “si entra en la combi-
nación la vocal e” supone que muy posiblemente sí existan los cinco niveles de 
abertura propuestos, y es que el fono vocálicomedio palatal, [e], sería más ce-
rrado en contraste con los fonos vocálicos medio velar, [o], y abierto central, [a].
En conclusión: más allá de si existen los cinco niveles de abertura propuestos, 
lo expuesto por el filólogo da pistas para suponer que, en efecto, [e] es típica-
mente menos abierto que [o] y que [a], en ese orden. Por consiguiente: el dip-
tongo no canónico más fácil de demostrar, según el esquema articulatorio esbo-
zado en este capítulo y según lo planteado por Bello, es el conformado por vo-
cal palatal media seguida de vocal central baja, ambas sin prominencia intensi-
va: [e]+[a]. Decidí asimismo observar el comportamiento de [e]+[á].
51
CAPÍTULO 4
TIPOLOGÍA PROPUESTA Y RESULTADOS
1. El punto medio entre el habla culta y el habla vulgar
Antes de entrar en materia, una aclaración, muy importante: para la abertura, 
ya en la práctica, es necesario considerar únicamente tres niveles, pues el orden 
estándar de [i] y [u], las vocales altas, es muy frágil, lo mismo que el orden es-
tándar de [e] y [o], las vocales medias. Los cinco niveles de abertura son válidos 
teóricamente, y sirven para categorizar las vocales españolas. Se acepta, pues, 
que hay inconsistencias, por ello los tres niveles de abertura, pero también se 
acepta la clasificación sistemática en cinco niveles de abertura, con base en he-
chos de lengua:
• El grupo [íu̯] es prácticamente imposible de hallar porque presenta dos pro-
blemas: primero, la vocal palatal posee prominencia intensiva, lo que supo-
ne choque entre abertura e intensidad; segundo, se trata de un diptongo de-
creciente, por tanto más difícil de articular. Se dijo al finalizar el capítulo 2, 
pero es pertinente retomarlo justo ahora. Es el diptongo canónico más dudo-
so, debido a los dos problemas mencionados. Por ejemplo: sabemos de la for-
ma antigua [bíu̯.da.], la cual derivó en [bi̯ú.da.], precisamente por lo difícil 
que es articular este diptongo. Es el único ejemplo que tengo.
• El grupo [u̯í] presenta un problema: la vocal palatal posee prominencia inten-
siva, lo que supone choque entre abertura e intensidad. Se dijo al finalizar el 
capítulo 2, pero es pertinente retomarlo justo ahora. Por ejemplo: en algunas 
voces, como huir, lo ejemplar es el hiato.
• Lo mismo vale decir de [éo̯] y [o̯é]: para el inventario de diptongos no canó-
nicos, son los más difíciles de hallar.
Una vez hecha la aclaración, entremos en materia. Según he observado, los gru-
pos constituidos por vocal media y vocal baja, ambas sin prominencia intensiva, 
pueden ser considerados, cuando poseen carácter homosilábico, diptongos cre-
cientes, dado que, de entrada, existe un cambio, incontrovertible, en el grado de 
abertura, de menos a más: [e̯a] y [o̯a]. Si además la vocal nuclear posee carga de 
intensidad, la cualidad creciente se robustece: [e̯á] y [o̯á]. Lo mismo vale para 
52
las secuencias conformadas por vocales baja y media: cuando poseen carácter 
homosilábico, son diptongos decrecientes: [ae̯], [ao̯], [áe̯] y [áo̯]. El argumen-
to es casi idéntico para dos vocales medias distintas: si son pronunciadas en una 
misma sílaba, tenemos diptongos crecientes, [e̯o], [e̯ó], [o̯e] y [o̯é], y decrecien-
tes, [oe̯], [óe̯], [eo̯] y [éo̯].
Se sabe que en el habla oral real hay cuando menos dieciséis diptongos más:
diptongos no canónicos
crecientes decrecientes
[e̯a] [e̯á] [ae̯ ] [áe̯ ]
[o̯a] [o̯á] [ao̯ ] [áo̯ ]
[e̯o] [e̯ó] [oe̯ ] [óe̯ ]
[o̯e] [o̯é] [eo̯ ] [éo̯ ]
Cuatro observaciones:
• Por simplicidad, [e̯o] y [eo̯] serán transcritos como si se tratara del diptongo 
neutro [eo]; sin embargo, es claro que prácticamente todas las realizaciones 
orales corresponderán al diptongo creciente [e̯o], por dos razones: a) la se-
gunda posición es preponderante; b) [o] es más abierto que [e], de acuerdo 
con el sistema de cinco niveles de abertura.
• Por simplicidad, [o̯e] y [oe̯] serán transcritos como si se tratara del diptongo 
neutro [oe]; sin embargo, es claro que prácticamente todas las realizaciones 
orales corresponderán al diptongo creciente [o̯e], así esto implique un des-
orden según los cinco niveles de abertura (se supone que [e] es menos abier-
to que [o]): tal es la preponderancia de la segunda posición.
• El diptongo creciente [o̯é] presenta un problema: supone un desorden del sis-
tema de cinco niveles de abertura; sin embargo, la preponderancia de la se-
gunda posición facilita sobremanera la articulación homosilábica.
• El diptongo decreciente [éo̯] presenta dos problemas: a) supone un desorden 
del sistema de cinco niveles de abertura; b) la primera posición es preponde-
rante, debido a la carga intensiva. Tan complicada es esta pronunciación, que 
la existencia del diptongo es casi nula.
53
Por supuesto, estos diptongos de que hablo no son nada nuevo. Quilis Morales 
lo dice con toda claridad:1
No debe olvidarse que en el habla aparecen constantemen-
te otros diptongos, no considerados normativamente, aunque 
de existencia real: son diptongos formados por las vocales me-
dias y baja.
No sólo su existencia es real, sino que estos 16 diptongos no canónicos permi-
ten conciliar el habla culta con el habla vulgar, en un habla intermedia, también 
prescriptiva, a mi entender. Por ejemplo, para el sustantivo trapeador y para el 
verbo trapear tendríamos las siguientes posibilidades:
pronunciación
culta intermedia vulgar
[tɾa.pe.a.dóɾ.] [tɾa.pe̯a.dóɾ.] [tɾa.pi̯a.dóɾ.]
[tɾa.pe.áɾ.] [tɾa.pe̯áɾ.] [tɾa.pi̯áɾ.]
Tenemos una [e] plena, como en la pronunciación culta. Tenemos una sílaba 
menos, como en la pronunciación vulgar. El timbre de la [e] se mantiene intac-
to; lo que cambia es su función: de vocal nuclear pasa a vocal marginal.
Navarro Tomás sabe de estas posibilidades, al interior de palabra y al interior 
de grupo fónico, y menciona varios ejemplos de estos diptongos no canónicos. 
Observemos las voces con que el autor ejemplifica estas realizaciones orales in-
termedias: traerán, cáen, lealtad, aldeano, ahogado, Bilbao, coagular, toalla, empeo-
rar, teólogo, incoherente, cohete.2 Se le olvidó al maestro considerar las secuencias 
[éo̯] y [óe̯]; acaso descarte la existencia de este par de diptongos decrecientes. 
Doy dos ejemplos al interior de palabra, correo y corroe, aunque acepto que aquí 
el homosilabismo es algo forzado, sobre todo para [é]+[o], según lo explicado 
en la página anterior.
1. Antonio Quilis Morales, Tratado de fonética y fonología españolas, pág. 181.
2. Tomás Navarro Tomás, Manual de pronunciación española, págs. 68-71.
54
2. Pronunciación inherente
Todo verso trae consigo una pronunciación inherente, primigenia, hipotética, 
perfectamente realizable. Navarro Tomás advierte:3
Es indispensable para el conocimiento de la métrica familia-
rizarse con las propiedades de la sílaba en la lengua española, 
empezando por tener en cuenta que el valor con que tal uni-
dad actúa en el verso es precisamente el que le corresponde en 
la pronunciación.
Me parece suficientemente claro lo dicho por el investigador: la sílaba métrica, 
es decir la sílaba en el verso, vale lo mismo que la sílaba pronunciada. Otro argu-
mento de autoridad, en voz de José Domínguez Caparrós:4
En castellano, la sílaba métrica coincide con la sílaba fónica, 
la sílaba en la pronunciación culta correcta. [...] Lo que impor-
ta destacar es que el verso tiene valor como norma en la pro-
nunciación culta.
Si el verso es medido, se sobreentiende que el autor, por lo menos cuando es-
cribió dicho verso, pensó en un número específico de sílabas, y pronunció efec-
tivamente una determinada secuencia fónica, constituida por un número exacto 
de emisiones de voz. Me parece una verdad consustancial con el acto creador, y 
por tanto tiene carácter axiomático: si el verso es endecasílabo, hubo once emi-
siones de voz —articuladas en la boca o articuladas en la mente—, en corres-
pondencia con una articulación que al poeta le pareció relajada, natural, perfec-
tamente realizable. Por supuesto, no es raro que después el mismo autor, equi-
vocadamente,