Logo Studenta

Sociolinguistica_estadistica_e_informati

¡Este material tiene más páginas!

Vista previa del material en texto

1
SOCIOLINGÜÍSTICA, ESTADÍSTICA E INFORMÁTICA 
 
 
FRANCISCO MORENO FERNÁNDEZ 
Universidad de Alcalá de Henares 
 
Publicado en Lingüística, 6 (1994), pp. 95-154. 
 
0.- Introducción.* 
 El “estado de la cuestión” que presentamos en estas páginas no va a pasar revista a 
cada una de las corrientes que, con criterios más o menos estrictos, reciben el marbete de 
“sociolingüística”, sino que estará referido específicamente a la sociolingüística de la 
variación. Se pretende dar información sobre el empleo de la estadística y de la informática 
en el ámbito de la sociolingüística variacionista. 
 Nuestro deseo es que los contenidos que aquí se van a desarrollar sean de alguna 
utilidad tanto para los especialistas en sociolingüística como para aquellos lingüistas que no 
trabajan en el estudio de la variación. Por este motivo, hemos dividido el trabajo en tres 
apartados. En el primero se ofrece un panorama general de la cuantificación en los estudios 
sociolingüísticos y una presentación del modelo estadístico más utilizado durante los últimos 
años. El segundo apartado explica con algún detalle el funcionamiento de los programas 
informáticos destinados a la aplicación de técnicas estadísticas. El tercero se detiene en las 
fases más complicadas del análisis y en los problemas que suelen tener una solución menos 
clara. 
 
1.- Investigación sociolingüística y cuantificación. 
 
1.1. Aportaciones de la sociolingüística a través de la cuantificación. 
 El nacimiento y desarrollo de la sociolingüística variacionista no puede entenderse 
sin la cuantificación. De hecho, entre los factores “determinantes” de su impulso hay que 
incluir, sin duda, la aplicación de las matemáticas en el tratamiento de grandes volúmenes de 
datos y los avances de la informática durante los últimos quince años. El auxilio de otras 
disciplinas y la mejora de los medios han hecho que la sociolingüística tenga una imagen 
bien caracterizada y destacada en el conjunto de la llamada “lingüística cuantitativa” 
(Tesitelová). 
 Nada de esto, sin embargo, es mérito que deba atribuirse de forma exclusiva a 
nuestra disciplina. La sociolingüística es hija de su tiempo y continuadora de unas 
experiencias acumuladas, principalmente, durante los últimos cincuenta años (Moreno 
Fernández, 1997). 
 El uso de procedimientos cuantitativos en la sociolingüística está íntimamente ligado 
a conflictos de naturaleza teórica que se han ido poniendo de manifiesto conforme nuestra 
disciplina ha ido madurando. Pensamos en los contrastes de pareceres entre los partidarios 
de los análisis cualitativos y de los análisis cuantitativos, en los problemas que presenta la 
relación entre “gramáticas comunitarias” y “gramáticas individuales” o en las dificultades 
para aceptar la existencia de un componente probabilístico dentro de la competencia. A esto 
podríamos añadir que los diversos niveles de la lengua no son igualmente accesibles desde 
unos planteamientos cuantitativos y que las categorías cuantificadas, especialmente las 
sociales, no son siempre las más idóneas, por no entrar en el comentario de los lazos de 
“amor-odio” entre generativistas y variacionistas. 
 Esta relación de conflictos sólo pretende poner de manifiesto la importancia que la 
 
2
cuantificación puede llegar a tener en el campo de la lingüística teórica. Cada uno de esos 
problemas ha sido largamente discutido, algunos han sido resueltos, otros están en 
candelero, pero todos están contribuyendo a enriquecer, depurar y perfeccionar una línea de 
investigación. 
 La sociolingüística ha hecho aportaciones de gran valor, merced, entre otras cosas, al 
manejo de la cuantificación. Ha contribuido, por ejemplo, a ir más allá de los conceptos de 
variación libre y de polimorfismo. No nos atrevemos a negar que existan fenómenos con 
estas características, pero la sociolingüística ha demostrado que muchos de los que 
tradicionalmente han sido considerados como tales simplemente han sido mal o 
insuficientemente estudiados. 
 La existencia de una variación ordenada es un hecho (Weinreich, Labov y Herzog). 
Cuando dentro de una comunidad de habla de lengua española encontramos casos de 
debilitamiento de /s/ implosiva, de neutralización de líquidas, de yeísmo con diferentes 
manifestaciones fonéticas, de morfemas verbales o formas pronominales equivalentes que 
alternan en el uso, etc. es fácil descubrir que las distintas variantes de un mismo fenómeno 
están íntimamente relacionadas con el estrato socio-cultural de los hablantes, con su edad, 
con su sexo, con ciertos rasgos del contexto fónico o con la función que cumple el elemento 
que varía. La sociolingüística tiene entre sus objetivos el de descubrir el orden que pueda 
haber en la variación y el único medio de hacerlo, cuando los datos se cuentan por 
centenares, es la cuantificación. La importancia de los análisis cualitativos, que nadie niega es 
paralela al interés de los estudios cuantitativos: no se puede contar lo que no se ha 
identificado. 
 Desde sus inicios, el variacionismo ha tenido dos preocupaciones principales: el 
estudio de la lengua en su contexto social y el cambio lingüístico. El primero ha sido 
especialmente significativo, porque ha cubierto una necesidad que las investigaciones 
geolingüísticas llevaban poniendo de manifiesto y satisfaciendo parcialmente desde hacía 
mucho tiempo: el análisis del habla de los grandes núcleos urbanos. En la actualidad es 
posible describir con rigor hasta qué punto una variación viene determinada tanto por 
factores lingüísticos, como por factores extralingüísticos (sociales y contextuales) en una 
comunidad determinada. Por otra parte, la sociolingüística ha contribuido a difundir una 
visión de la lengua en la que lo variable es el centro de atención, frente a la postura de las 
corrientes más influyentes de la lingüística general, a la vez que ha convencido a muchos 
sobre la conveniencia de trabajar con materiales de la lengua viva, obtenidos en cantidades 
representativas de boca de unos hablantes representativos. El fracaso de algunos modelos 
teóricos está precisamente en su falta de conformidad con los usos reales. 
 En cuanto al estudio del cambio, hay que destacar la atención prestada al terreno 
específico del cambio lingüístico en marcha, donde se ha conseguido un nivel descriptivo 
muy satisfactorio. Muchas lenguas, como el español, aún no se han visto suficientemente 
beneficiadas por estos avances, pero todo se andará. Por el momento, parece claro que la 
sociolingüística es parcialmente responsable del auge que en los últimos años ha cobrado el 
estudio del cambio lingüístico desde una perspectiva teórica y general. Las obras de 
Lehmann y Malkiel, Bynon, Anttila o Milroy son buena prueba de ello. 
 En todo lo que acabamos de comentar han estado y están presentes los análisis 
cuantitativos. La sociolingüística ha tratado con un mimo especial el desarrollo y 
perfeccionamiento de los medios técnicos necesarios para ello. Hasta tal punto es así que 
algunos especialistas han reprochado a esta disciplina un interés por el ámbito metodológico 
y técnico de la investigación, que podría haber ido en detrimento de algún que otro logro 
teórico (Pisani). La preocupación por el método es conveniente y necesaria, especialmente 
cuando se trabaja con datos de lengua hablada, y no es incompatible con una reflexión 
 
3
teórica seria (la historia de la geografía lingüística es buena prueba de ello). El variacionismo 
ha intentado conjugar los dos intereses, que en el fondo son uno solo, y ha creado una 
metodología que sorprende por su refinamiento y por su eficacia, aunque no sea la panacea 
universal. 
 
1.2. Variación y teoría lingüística. 
 El análisis emblemático de la sociolingüística variacionista es, sin duda, el que se 
conoce con el nombre de análisis de regla variable. Ese nombre recoge la esencia de su origen, 
pero no se ajusta estrictamente al sentido que tiene el análisis en la actualidad. El 
variacionismo ha dedicado parte desus energías a perfeccionar una prueba estadística capaz de 
medir hasta qué punto una serie de factores lingüísticos (contextuales y funcionales) y extralingüísticos 
(sociales y situacionales) determina la aparición de cada una de las variantes de un fenómeno lingüístico 
variable. 
 Conviene dejar claro, antes de seguir adelante, que una estadística de corte 
variacionista no tiene por qué vincularse de forma absoluta y necesaria a una corriente 
teórica determinada. Sin embargo, es evidente que los variacionistas norteamericanos, desde 
un primer momento, han estado condicionados por un entorno de naturaleza generativo-
transformacional. Frente a la propuesta de “regla opcional”, concepto teóricamente endeble, 
la sociolingüística presenta una alternativa destinada a enriquecer el modelo generativista: la 
regla variable (Labov 1969). Esta regla sería capaz de explicar en qué medida se cumple un 
fenómeno y en qué condiciones lingüísticas y sociales. Frente a las propuestas de “hablante-
oyente ideal” y de “comunidad homogénea”, conceptos incompatibles con cualquier tipo de 
empirismo, la sociolingüística propone la experiencia de unos usos reales y representativos. 
Desde el momento en que el variacionismo convierte estas propuestas en axiomas, aparece 
el choque dialéctico con el generativismo (Kay y McDaniel 1979, 1981; Sankoff y Labov 
1979; Kiparsky 1979, 1982; Singh y Ford 1989; Moreno Fernández 1988: 128-130). 
 Sin embargo, el contraste de opiniones no ha hecho que los variacionistas 
norteamericanos pierdan de vista el devenir del generativismo; es más, algunos han 
intentado trabajar desde la “Teoría de la Rección y el Ligamiento” (Lefebvre; Lemieux) y 
otros han visto en el “Modelo de Principios y Parámetros” la posibilidad de un acercamiento 
formal (D’Introno). Una demostración de la importancia que tiene el generativismo para los 
variacionistas norteamericanos está, por un lado, en la propuesta del concepto de regla 
variable y, por otro, en el abandono silencioso que se ha ido haciendo, aproximadamente 
desde 1978, de la misma regla variable en las publicaciones. No se han abandonado las 
técnicas estadísticas, sino el uso formal de las reglas: se calculan y presentan en tablas los 
factores estudiados y su peso cuantitativo, pero no se redactan las reglas derivadas de ellos. 
Las causas de este cambio de orientación son varias: por una parte está la dificultad de 
aplicar la regla variable en el campo de la sintaxis transformacional (Fasold 1990: 251-257); 
por otra, una regla variable no explica los fenómenos, sino que simplemente los describe 
(López Morales 1993: 189); finalmente, los sucesivos cambios en el seno del generativismo 
han hecho que la elaboración de reglas no se ajuste a las necesidades teóricas más actuales. 
En resumen, la renuncia a formular reglas variables está íntimamente ligada a la relación 
entre variacionismo y generativismo. 
 Muy unido a este problema encontramos el del emplazamiento de la variación socio-
lingüística en el conjunto de la lengua; dicho de otra forma, la localización de la regla 
variable en el sistema. La sociolingüística parte de la idea de que la regla variable está 
vinculada a la competencia lingüística. En las explicaciones que se han hecho de esta 
hipótesis pueden observarse distintos matices de intensidad. Para Labov, las reglas variables 
son reglas de producción que en una gran mayoría pueden ser caracterizadas también como 
 
4
“reglas de actuación” (1972: 225-226), aunque constituyen claramente un aspecto de la 
competencia. Para Cedergren y Sankoff, la actuación es un reflejo estadístico — si bien 
aproximado — de la competencia y las reglas variables incluyen un componente 
probabilístico de lo lingüístico y de lo social. Podríamos decir que unos autores han 
defendido más radicalmente un concepto de regla variable como patrimonio exclusivo de la 
competencia, mientras otros no han descuidado los niveles de la lengua menos abstractos. El 
debate sobre esta cuestión ha ido perdiendo fuerza al mismo ritmo que se abandonaba el 
uso formal de las reglas, pero no ha dejado de despertar interés y es probable que en el 
futuro se reavive. 
 Las dificultades y controversias teóricas no han impedido que se sigan haciendo 
análisis estadísticos, con más fuerza y calidad que nunca, pero considerados como simple 
herramienta descriptiva de la variación (Fasold 1990: 256). Esto prueba, como advertíamos 
al principio, que se puede hacer variacionismo desde un modelo teórico no generativista 
(Fasold 1984: 245-247). La sociolingüística exige de la teoría, sea la que sea, capacidad para 
admitir la presencia ordenada de fenómenos variables. 
 
 
1.3. Desarrollo de las técnicas cuantitativas en sociolingüística. 
 La cuantificación en el ámbito de la lingüística se ha hecho básicamente mediante los 
recursos de la estadística, entendida como 
 
ciencia del tratamiento de la información que contiene las series de datos procedentes 
de observaciones de fenómenos colectivos. (Real Academia de Ciencias Exactas, 
Físicas y Naturales) 
 
 La sociolingüística trabaja habitualmente con dos tipos de estadística: una estadística 
descriptiva y una estadística de inferencias (inferencia estadística). La primera consiste 
simplemente en contar y ordenar cuantitativamente un conjunto de datos; la segunda nos 
permite aplicar de forma válida las conclusiones de esos análisis a entidades mayores que en 
realidad no han sido investigadas en su totalidad. 
 La estadística descriptiva incluye pruebas simples de cuantificación, por otra parte muy 
conocidas, como el recuento de frecuencias absolutas, su conversión en frecuencias relativas 
y el cálculo de medias, medianas, modas, varianzas y desviaciones típicas (Moreno 
Fernández 1990a). Este tipo de pruebas se aplican en lingüística desde hace muchos 
decenios. Con el paso del tiempo hemos ido ganando en rapidez y fiabilidad en el manejo de 
los datos, así como en calidad a la hora de presentarlos gráficamente. En este punto, el 
desarrollo de la informática ha reportado grandes ventajas. Actualmente es posible aplicar la 
estadística descriptiva por medio de programas llamados “Hojas de cálculo” que están al 
alcance de cualquier mano. También existen programas estadísticos más completos de los 
que se obtienen cálculos rápidos y gráficos de gran calidad (SPSS, Statgraphics, Statview). 
 Como se deduce de lo apuntado, la estadística descriptiva se ha utilizado desde los 
inicios mismos de la sociolingüística moderna: ejemplo de ello es el trabajo de W. Labov 
(1963) sobre la isla de Martha’s Vineyard. Sin embargo, su aplicación sigue siendo 
inexcusable en cualquier análisis de la variación y los problemas que presenta son mínimos 
desde un punto de vista técnico. El éxito está garantizado cuando el investigador cuantifica 
las categorías pertinentes, cuando están bien delimitadas — sin solapamientos de datos — y 
cuando se aprovechan al máximo sus posibilidades. No obstante, con cierta frecuencia se 
encuentran publicaciones en las que no se pasa del cálculo de los tantos por ciento. Este 
cálculo es tan necesario como básico, pero a menudo necesita ser complementado con 
 
5
análisis que comprueben, por ejemplo, las desviaciones de los datos respecto de las medias 
(varianza, desviación típica), para no llegar a conclusiones limitadas o equivocadas. 
 Una buena estadística descriptiva requiere, por lo general, un conocimiento previo 
de la naturaleza cualitativa de los datos que se quieren cuantificar. Lo demás depende de la 
idoneidad de los materiales recolectados. Para ello se debe contar 
a) con estudios exploratorios, 
b) con hipótesis pertinentes, 
c) con variables y variantes bien caracterizadas y dispuestas en escalas y 
d) con recuentos minuciosos. 
 Los primeros recuentos suelen hacerse de forma manual, por lo que se necesita, 
además de la paciencia, material apropiado para la codificación (hojas cuadriculadas). La 
información bien codificada puede ser trasladadaal ordenador sin mayores problemas. 
 Ahora bien, la importancia de la estadística descriptiva no la convierte en el único 
procedimiento susceptible de aplicación. Estamos ante una fase necesaria, pero no 
suficiente: por eso se la denomina pre-cuantificación. El variacionismo ha puesto en manos de 
los investigadores unos recursos que conviene utilizar para que los análisis no resulten 
pobres, en relación con lo que exige su tiempo. Tales recursos pertenecen al campo de la 
estadística de inferencias y, concretamente, de los análisis multivariables. La estadística permite 
llegar a conclusiones sobre la variación lingüística en una comunidad, partiendo del análisis 
de los datos recogidos en unos pocos hablantes que se consideran representativos de esa 
comunidad. 
 Los análisis de regla variable — también llamados análisis de regresión o análisis 
probabilísticos — estudian la relación entre más de dos variables (grupos de factores) y 
calculan las probabilidades de que aparezcan o no aparezcan las distintas variantes (factores) 
en determinadas condiciones lingüísticas y sociales. Para hacer un análisis estadístico de esta 
naturaleza se necesita 
a) que el fenómeno analizado sea variable, 
b) que la alternativas de la variación sean formas diferentes de decir lo mismo, esto es, que el 
uso de una alternativa u otra (variantes o factores) por parte de un hablante no suponga 
un cambio semántico o pragmático, 
c) que la variación analizada tenga relación con las condiciones lingüísticas (contexto 
fonético, contexto sintáctico, función, etc.) y extra-lingüísticas (características sociológicas 
del hablante, tipo de contexto situacional, tipo de interlocutor, etc.) en que se produce. 
 El fenómeno estudiado puede pertenecer a cualquier nivel lingüístico, si bien existen 
menos dificultades para el análisis cuando se trata de un rasgo fonético-fonológico. El 
objeto principal del estudio se considera una variable dependiente (grupo de factores 
dependientes); los elementos lingüísticos y socio-situacionales que se tienen en cuenta para 
estudiar ese objeto se denominan variables independientes o explicativas (grupos de factores 
independientes o explicativos). La forma de preparar los materiales para el análisis 
probabilístico es prácticamente la misma que hemos señalado para la estadística descriptiva; 
en otras palabras: se parte del recuento de las frecuencias absolutas del rasgo en cada una de 
las condiciones previstas (grupos de factores explicativos) y en los discursos recogidos de 
una muestra de hablantes. 
 Es necesario incidir en la idea de que la finalidad de este tipo de análisis es 
eminentemente lingüística, por lo que los rasgos analizados deben ser elementos variables de 
la lengua. En el momento de valorar el comportamiento de las variables explicativas y de 
organizarlas en grupos coherentes es aconsejable anteponer un criterio lingüístico a otro tipo 
de consideraciones. El sociolingüista no es un sociólogo, ni un matemático: debe pensar 
como lingüista y actuar con los patrones derivados de su formación. De igual modo, los 
 
6
resultados que aporten los análisis también han de ser interpretados desde y para la 
lingüística. 
 La importancia del análisis probabilístico descansa en varios aspectos. Esta prueba 
permite averiguar cuál es el grado en que los grupos de factores explicativos determinan la 
variación de un elemento cuando todos ellos actúan conjuntamente; dicho de otro modo, el 
cálculo permite conocer la probabilidad general de que apareza uno de los factores cuando 
actúan simultáneamente diversos grupos de factores lingüísticos y extralingüísticos. Al 
mismo tiempo, las probabilidades representan el comportamiento general de una comunidad 
a propósito de ciertos fenómenos, aunque solo se hayan recogido los usos lingüísticos de 
algunos hablantes. 
 El uso exclusivo de las frecuencias relativas (%) en la descripción sociolingüística 
limita enormemente el alcance de las conclusiones del análisis e incluso puede conducir a 
interpretaciones erróneas. Veamos un ejemplo creado por David Sankoff (1988). 
Supongamos que estamos analizando la presencia o la ausencia de una marca de plural 
teniendo en cuenta la clase de palabras en la que aparece o no aparece (adjetivos, 
determinantes, nombres) y las funciones gramaticales de los sintagmas en los que se dan esas 
palabras (objeto, sujeto). La Tabla 1 recoge los casos de expresión de la marca en las 
condiciones previstas. 
 Objetos Sujetos Total_____ 
 
Adjetivos 6/10 = 60% 10/10 = 100% 16/20 = 80% 
Determinantes 3/10 = 30% 7/10 = 70% 10/20 = 50% 
Nombres 0/10 = 0% 4/10 = 40% 4/20 = 20% 
__________________________________________________________ 
Total: 9/30 = 30% 21/30 = 70% 
Tabla 1.- Frecuencias (absolutas y relativas) de presencia de una marca de plural según la 
clase de palabras y la función gramatical. Totales válidos. 
 
En esta tabla se indican los casos de presencia de la marca (aplicaciones) sobre un total de 
apariciones posibles. Así, encontramos la marca de plural en seis de los diez casos de 
adjetivos en sintagmas con función de objeto recogidos en los materiales; en tres de los diez 
casos de determinantes en sintagmas con función de objeto y no la encontramos en ninguno 
de los diez casos de nombres con esta misma función. La suma de los totales marginales, en 
unos datos como estos, nos da una imagen real de cómo funciona la variación de plural: la 
aparición de la marca viene claramente determinada por la función de sujeto y por la clase de 
los adjetivos. 
 Ahora bien, hay que tener en cuenta que en las intersecciones de “categoría” y 
“función” encontramos un mismo número de apariciones posibles del morfema (diez), 
hecho que casi nunca se da en los materiales de carácter sociolingüístico. Lo normal es que 
ese número varíe de forma notable y que la distribución de los datos no sea tan uniforme. La 
Tabla 2 representa un ejemplo paralelo al anterior, en el que no coincide el número de 
posibles aplicaciones por categoría y función, aunque las frecuencias relativas parciales sean 
las mismas. 
 Objetos Sujetos Total_____ 
 
Adjetivos 42/70 = 60% 10/10 = 100% 52/80 = 65% 
Determinantes 3/10 = 30% 49/70 = 70% 52/80 = 65% 
Nombres 0/10 = 0% 76/190 = 40% 76/200 = 38% 
_________________________________________________________ 
Total: 45/90 = 50% 135/270 = 50% 
Tabla 2.- Frecuencias (absolutas y relativas) de presencia de una marca de plural según la 
 
7
clase de palabras y la función gramatical. Totales inadecuados para el análisis. 
 
 En este caso, las frecuencias relativas totales no dan una imagen adecuada del 
comportamiento variable del fenómeno, porque podríamos interpretar que el hecho de que 
el morfema se utilice en una secuencia con función de sujeto o de objeto es absolutamente 
indiferente. Pero, aun cuando los datos estén homogéneamente distribuidos, podemos 
encontrar situaciones en las que los totales no son válidos para el análisis. Esto ocurre en la 
Tabla 3. 
 Objetos Sujetos Total_____ 
 
Adjetivos 9/10 = 90% 7/10 = 70% 16/20 = 80% 
Determinantes 0/10 = 0% 10/10 = 100% 10/20 = 50% 
Nombres 0/10 = 0% 4/10 = 40% 4/20 = 20% 
_________________________________________________________ 
Total: 9/30 = 30% 21/30 = 70% 
Tabla 3.- Frecuencias (absolutas y relativas) de presencia de una marca de plural según la 
clase de palabras y la función gramatical. Interacción de factores independientes. 
 
Aquí comprobamos que los totales marginales coinciden con los de la Tabla 1. Pero 
tampoco haríamos una interpretación adecuada si no prestáramos atención a la forma en 
que están distribuidas las frecuencias parciales. Observamos, efectivamente, que la clase de 
los adjetivos y la función de sujeto favorecen la aparición de la marca, sin embargo también 
se aprecia que nuestros dos grupos de factores están interactuando, es decir, ofrecen una 
información solapada, porque los adjetivos sólo admiten la marca cuando van en función de 
objeto, y los determinantesy los nombres sólo favorecen la aplicación de la marca cuando 
pertenecen a un sujeto. Los factores no tienen efectos independientes. 
 De todo ello se desprende que, para conseguir unos valores generales capaces de 
indicar hasta qué punto unos factores u otros favorecen la aplicación de un elemento, hay 
que recurrir a procedimientos matemáticos más seguros y complejos, como, por ejemplo, el 
análisis probabilístico (Moreno Fernández 1990a: 149-151). 
 Los avances técnicos de la sociolingüística han respondido básicamente a una 
búsqueda del modelo estadístico más adecuado para analizar un rasgo lingüístico cuya 
variación depende de unos factores lingüísticos y extralingüísticos. Estos avances se han 
dado principalmente entre 1969 y 1978. Los progresos matemáticos han ido acompañados 
de la creación de programas informáticos que han aplicado los cálculos estadísticos. El 
nombre genérico con que se conocen tales programas es VARBRUL. Las sucesivas 
versiones han ido mejorando y adaptándose a las necesidades de cada momento, desde 1971 
(primer VARBRUL) hasta 1990 (GOLDVARB 2.0). 
 La bibliografía sociolingüística cuenta con varios estudios en los que se da cuenta de 
los modelos estadísticos y los programas informáticos que se han manejado. Los modelos 
han sido, por este orden, el modelo aditivo (Labov 1969), el modelo multiplicativo (Cedergren y 
Sankoff 1974) y los modelos logísticos (Sankoff 1975; Rousseau y Sankoff 1978). Los programas 
utilizados han sido VARBRUL (Cedergren 1973), VARBRUL 2 (Sankoff 1975; Sankoff y 
Thibault 1977; Labov y Labov 1978), VARBRUL 2S (Poplack 1979), VARBRUL 2S para 
PC (Pintzuk 1986) y VARBRUL 3 (Rousseau y Sankoff 1978a; Rousseau 1989). Para 
Macintosh, GOLDVARB 1.6 (Rand y Sankoff 1989) y GOLDVARB 2.0 (Rand y Sankoff 
1990). 
 Dado que pretendemos ofrecer un “estado de la cuestión” actualizado, parece 
preferible tratar con mayor detenimiento el modelo y los programas que hoy tienen más 
difusión y remitir a los estudios pertinentes para conseguir información sobre las etapas 
 
8
anteriores (Moreno Fernández 1988: 111-126; López Morales 1993). 
 
1.4. El modelo estadístico. 
 El modelo estadístico con el que trabaja el variacionismo desde 1975 es el modelo 
logístico de regresión, cuya segunda versión fue presentada en 1978 por Pascale Rousseau y 
David Sankoff. Antes de comentar cuáles son sus características generales, creemos 
necesario hacer algunas advertencias. 
 Hasta el momento, las explicaciones más detalladas que se han dado de este modelo 
proceden, como es lógico, de sus creadores. Sankoff y Rousseau son investigadores de 
formación matemática que han dedicado una parte muy importante de su trabajo a las 
aplicaciones con fines lingüísticos. Ahora bien, estos autores no han dado las explicaciones 
con la intención de que los sociolingüistas aprendan matemáticas o puedan calcular por ellos 
mismos unas probabilidades de significación sociolingüística: han buscado la comprensión 
general del modelo. Ni siquiera la publicación más “pedagógica” de este campo (Sankoff 
1988) permite al lingüista seguir con facilidad los argumentos matemáticos. El modelo se ha 
descrito para su comprensión y la de los resultados que proporcionan los programas 
informáticos correspondientes, pero poco más: se ha dado prioridad al qué y al para qué 
sobre el cómo.1 
 El modelo logístico estima la probabilidad de que un fenómeno variable se 
manifieste en una de sus formas cuando concurren simultáneamente unas determinadas 
condiciones. Para llegar a aplicar esto, es necesario tener en cuenta diversas informaciones. 
En primer lugar, se necesita saber, a propósito de cada factor, cuántas veces se ha 
manifestado — se ha aplicado — en relación con los casos posibles. Este dato se consigue 
mediante el simple recuento de las frecuencias absolutas y el cálculo de las relativas. En la 
Tabla 4 se muestran unos datos de aspiración de /s/ implosiva en lengua española cuando 
en el contexto fónico siguiente aparece una consonante sorda (s), una consonante sonora 
(n), una vocal (v) o pausa. Consideramos casos de aplicación (AP.) los que corresponden a la 
variante aspirada; los casos de no aplicación (NO AP.) son los que no corresponden a la 
aspiración.2 
GRUPO AP. % NO AP. % TOTAL % 
s 597 41 872 59 1469 42 
n 358 51 349 49 707 20 
v 56 9 567 91 623 18 
p 59 8 657 92 716 20 
_______________________________ 
 Total 1070 30 2445 70 3515 
 Tabla 4.- Frecuencias de aspiración de /s/ implosiva, según contexto fónico siguiente.3 
 
En la Tabla 5 se muestran unos datos de aspiración de /s/ implosiva recogidos en seis 
hablantes. Aquí también consideramos casos de aplicación (AP.) los correspondientes a la 
variante aspirada. 
 
GRUPO AP. % NO AP. % TOTAL % 
 1 140 20 564 80 704 20 
 2 246 45 306 55 552 16 
 3 266 51 253 49 519 15 
 4 86 15 503 85 589 17 
 5 149 23 498 77 647 18 
 6 183 36 321 64 504 14 
_______________________________ _ 
 Total 1070 30 2445 70 3515 
Tabla 5.- Frecuencias de aspiración de /s/ implosiva, según hablantes. 
 
9
 Una vez contados los casos particulares en que se manifiesta un factor, hay que 
averiguar, de nuevo mediante un recuento, con qué frecuencia se da ese fenómeno cuando 
coinciden varios factores explicativos. En nuestros ejemplos sobre la aspiración de /s/ 
según el contexto siguiente y el hablante, se trata de averiguar cuántas muestras de aspiración 
se dan en el hablante 1 cuando el contexto siguiente es una consonante sorda, cuando es una 
consonante sonora, ...y así sucesivamente con cada hablante y tipo de contexto. 
 Estos cruces de información dan lugar a la creación de celdas (puntos de 
intersección de los factores) ocupadas por unas frecuencias. La Tabla 6 recoge las celdas 
posibles de nuestro ejemplo, con indicación del número de aspiraciones que se encuentra en 
cada una de ellas (AP.) y de su frecuencia relativa. Ésta es la configuración interna de los 
materiales recogidos. 
 
Tabla 6.- Frecuencias absolutas y relativas de aspiración de /s/ implosiva (AP.), según 
contexto fónico siguiente (s, n, v, p) y hablante (1, 2, 3, 4, 5, 6). 
 
 Los datos de aspiración de /s/ implosiva así presentados parecen suficientes para 
hacer un buen análisis, sin embargo no nos dicen qué importancia, qué peso tiene cada uno 
de los factores de nuestros grupos, al coincidir con los demás, para determinar cada una de 
las frecuencias. Así, en la primera celda tenemos 62 casos de aspiración de /s/ implosiva 
recogidos en el hablante 1 y ante consonante sorda; con los datos de que disponemos no 
podemos saber cuántos de esos casos se deben principalmente al hecho de pertenecer a tal 
informante y cuántos se deben principalmente al hecho de que el fonema va ante 
consonante sorda. Para conocer este extremo hay que crear un “modelo teórico” que nos 
indique la probabilidad de que aparezca la aspiración en cada una de las circunstancias 
previstas, teniendo en cuenta sus posibles combinaciones o cruces. 
 El “modelo teórico” de la sociolingüística de un fenómeno está formado por un 
conjunto de probabilidades, no de frecuencias. La probabilidad de que aparezca un rasgo 
lingüístico determinado se consigue mediante un cálculo de regresión, que combina las 
probabilidades de que una variante se dé en cada circunstancia específica (factores i, j, ...) 
con un valor constante (p0). Las probabilidades específicas se calculan a partir de las 
 
10
frecuencias del “modelo observado”. p0, denominada también input, probabilidad de input, efecto 
medio o media corregida, se consigue a partir de una media del peso de los diferentes grupos de 
factores, que, a su vez, es proporcional al número de datos asociado a cada factor.4 El 
recurso utilizado por el variacionismo con esta finalidad se denomina modelo logístico. 
 
 
 
 Figura 1.-Modelo logístico (Rousseau y Sankoff 1978). 
 
 Esta fórmula es el fruto del perfeccionamiento que ha conocido el análisis de la 
variación a lo largo del tiempo. Por un lado, permite obtener unos valores “teóricos” o 
“esperados” que no sobrepasan nunca los límites del 0 % y del 100% (0 y 1 en términos de 
probabilidades). Por otro lado, la relación que se establece, dentro del “modelo teórico”, 
entre los casos de aplicación y los de no aplicación es siempre simétrica: la probabilidad de 
que aparezca un rasgo lingüístico variable (p = aplicación) siempre es complementaria de la 
probabilidad de que no aparezca (1-p = no aplicación). Finalmente, tiene la virtud de reunir 
todos los aspectos positivos de los diferentes modelos usados por la sociolingüística.5 
 En estadística es muy frecuente la utilización de ciertas técnicas para contrastrar 
hipótesis y para conocer si la distribución interna de unos datos se debe a factores 
accidentales o a errores. La hipótesis de partida en esta clase de análisis se denomina 
“hipótesis nula”, según la cual ninguno de los factores estudiados tendría un efecto 
sistemático sobre la aparición de un fenómeno. La creación de un “modelo teórico” sirve 
para probar si la disposición de unos datos se debe al azar o se explica realmente por la 
influencia de ciertos factores. Se trata, por lo tanto, de demostrar que la hipótesis nula es 
falsa y que los factores analizados tienen algún poder de determinación, mayor o menor, 
según los casos. 
 La sociolingüística variacionista utiliza una prueba para conocer hasta qué punto son 
significativos los parámetros del “modelo teórico”, esto es, la bondad del ajuste entre el 
modelo y los datos: la función de laverosimilitud (“likelihood”). La medida de ese ajuste se 
consigue con los valores correspondientes al efecto que tiene cada factor sobre el rasgo 
lingüístico estudiado. Según Sankoff (1988: 990), el principio de la máxima verosimilitud 
proporciona una estimación de los efectos de los factores que consiste en elegir el conjunto 
de valores que más probablemente ha generado los datos: el valor máximo de la función de 
verosimilitud. Este principio puede tener aplicación en muy diversos campos. En medicina, 
por ejemplo, permitiría seleccionar, entre todas las posibles causas del cáncer de pulmón, 
cuál es la combinación de factores que debe ser considerada como la que más favorece la 
enfermedad; en economía, ayudaría a conocer la probabilidad de ser o no ser un 
desempleado en función de una serie de características individuales o sociales. 
 La verosimilitud es el producto de unos valores conseguidos para cada uno de los 
factores, de la forma que se refleja en la Figura 2. 
 
 
 
 
11
 Figura 2.- Cálculo de la verosimilitud para cada factor. 
 
donde pap. es la probabilidad de que un contexto haya influido sobre una variante lingüística, 
elevada al número de aplicaciones (ocurrencias) en ese contexto, y (1 — p)~ap. es la 
probabilidad de que un contexto no haya influido sobre una variante,6 elevada al número de 
no aplicaciones en ese contexto. Laverosimilitud está relacionada, por tanto, con las 
probabilidades calculadas para cada factor y estas probabilidades se obtienen mediante un 
proceso de aproximación sucesiva (iteraciones), que conducen a la solución más exacta 
(convergencia) y con una mayor verosimilitud.7 
 Así pues, la verosimilitud sirve tanto para indicar cuáles son las probabilidades más 
adecuadas para los factores de un grupo, como para determinar cuál es la combinación de 
factores que mejor se corresponde con los datos. Al comparar varias verosimilitudes, es 
mejor aquella que tiene un valor más cercano a 0. 
 
1.5. Recapitulación. 
 La sociolingüística variacionista ha dedicado una parte importante de sus esfuerzos al 
perfeccionamiento de unas técnicas cuantitativas de análisis, encaminadas a determinar la 
importancia de los contextos lingüísticos y socio-situacionales sobre la variación lingüística. 
El método propuesto se denomina análisis probabilístico. Aunque el variacionismo 
norteamericano siempre ha hecho sus consideraciones teóricas y metodológicas desde 
posiciones cercanas al generativismo, lo cierto es que algunos de sus conceptos 
fundamentales son difíciles de conciliar. Por otra parte, el análisis probabilístico se ha 
convertido en una herramienta de estudio susceptible de ser utilizada desde diversos marcos 
teóricos. 
 El método variacionista busca el cálculo de la probabilidad de que aparezca un rasgo 
lingüístico determinado en unas circunstancias lingüísticas, sociológicas y contextuales 
determinadas. A partir de los datos de frecuencia recogidos en un grupo de hablantes, se 
crea un modelo teórico formado por las probabilidades de que se dé un fenómeno cuando 
concurren diversas circunstancias. La estadística se encarga de precisar hasta qué punto las 
probabilidades calculadas son verosímiles y cuáles son las circunstancias que, al darse 
simultáneamente, pueden explicar mejor un hecho lingüístico. 
 
 
2.- Informática y sociolingüística. 
 
2.1. Los programas VARBRUL. 
 Sólo con tener en cuenta el cálculo de la verosimilitud, sería patente la necesidad de 
usar medios informáticos para el análisis sociolingüístico. Esos medios los proporcionan los 
programas VARBRUL. Existen en el mercado muchos programas estadísticos capaces de 
realizar análisis similares a los que hacen los VARBRUL, pero estos últimos están 
especialmente preparados para trabajar sobre unos datos como los que aparecen en la 
variación lingüística y, además, presentan los resultados de una forma adecuada a los 
intereses de los lingüistas (Sankoff 1988: 990-991). 
 Los programas de la familia VARBRUL no están comercializados y se consiguen de 
forma gratuita de los propios autores o de otros investigadores que los aplican 
habitualmente. En la actualidad se hacen los análisis con las versiones que aplican el modelo 
logístico: VARBRUL 2, VARBRUL 2s, VARBRUL 3 y GOLDVARB 2.0. De todos ellos, 
los más utilizados son VARBRUL 2s y GOLDVARB 2.0, debido a que son versiones para 
ordenadores personales: el primero para IBM-PC o VAX y el segundo para Macintosh. 
 
12
 VARBRUL 2 tiene el inconveniente de ser un programa para macro-computadoras 
— lo que lo hace menos accesible para algunos investigadores — y de no ofrecer 
información que sí presentan otras versiones: por ejemplo, la función de verosimilitud de 
cada una de las combinaciones de factores analizadas. En algunos aspectos, VARBRUL 2 
ofrece ciertas ventajas. Esto ocurre a la hora de introducir los datos en el ordenador: el 
programa no necesita que se le especifiquen cuáles son los grupos de factores analizados; tan 
sólo hay que anotar cuántos casos de un rasgo lingüístico están asociados a los diversos 
factores explicativos: en el ejemplo sobre la aspiración de /s/ implosiva, cuántos casos de 
aspiración se dan en el informante 1 ante consonante sorda, ante sonora, ante vocal, ante 
pausa, en el informante 2 ante sorda, sonora, etc. Naturalmente, esos datos han sido 
contados antes de forma manual. El ordenador se encarga de reunir los factores de tal 
manera que no puedan aparecer en un mismo contexto dos factores pertenecientes a un 
mismo grupo; en otras palabras, se ocupa de encontrar a qué grupo pertenece cada factor 
para aplicar, después, el modelo estadístico ya comentado. 
 VARBRUL 3 comparte con la versión 2 el inconveniente de estar preparado para 
macro-computadoras, pero ofrece unas ventajas que lo convierten en la mejor y más 
completa versión de la familia. Sin embargo, este programa tiene todavía una difusión muy 
limitada. 
 La principal desventaja que ofrece GOLDVARB 2.0 respecto de VARBRUL 2S y 
VARBRUL 3 está en que el primero realiza solamente análisis binomiales, mientras que los 
últimos pueden hacer análisis multinomiales. Esto quiere decir que GOLDVARB sólo 
puede considerar como valores de aplicación los procedentes de uno de los factores de la 
variable dependiente, frente a los valoresde no aplicación, que corresponderían a una o más 
variables explicativas. VARBRUL 2S y 3 pueden considerar como valores de aplicación los 
pertenecientes a más de un factor dependiente, y esto permite estudiar mejor las relaciones 
entre los factores que componen un grupo dependiente, cuando son más de dos. En el caso 
de VARBRUL 3, se añaden otras ventajas —rapidez, capacidad de admisión de datos, 
número de variables explicativas— que comentaremos después. Desde luego, cuando esta 
última versión cubra su etapa experimental, será, sin duda, de obligada aplicación en el 
variacionismo, aunque tenga que manejarse en centros de cálculo. 
 Poniendo en una balanza los pros y los contras, podemos decir que hoy día los 
mejores programas para el análisis sociolingüístico son VARBRUL 2S Y GOLDVARB 2.0. 
El primero fue creado por David Sankoff, mejorado en la Universidad de Pennsylvania y 
preparado para IBM-PC por S. Pintzuk. El segundo está basado en programas de Sankoff, 
Rousseau, Hindle y Pintzuk y fue adaptado para Macintosh por David Rand. En estas dos 
versiones nos centraremos, explicando, en primer lugar, las características comunes y, más 
adelante, sus respectivas peculiaridades. 
 
2.2. Objetivos de los programas VARBRUL. 
 Hay que saber, desde un primer momento, que la aplicación de un análisis 
sociolingüístico a menudo no es un proceso lineal del tipo “codificación de datos > 
introducción de datos en el ordenador > análisis > interpretación de resultados”, sino que la 
fase final exige muchas veces repetir algunos de los pasos anteriores. La causa de esto reside 
en que no todos los conjuntos de datos han sido recogidos de la misma forma ni tienen la 
misma distribución interna. Después de un primer análisis podemos descubrir algunos 
detalles que desconocíamos al empezar la investigación. Lo importante no es aplicar un 
programa informático, sino conseguir la mayor cantidad de información posible sobre el 
rasgo lingüístico convertido en objeto de estudio. 
 La aplicación de los programas de análisis probabilístico tiene los siguientes 
 
13
objetivos generales (Rousseau y Sankoff 1978a: 59-60): 
 
1º.- Calcular la probabilidad de que un hecho variable se manifieste de una forma concreta 
en un contexto determinado (lingüístico y extralingüístico), es decir, cuando una serie de 
factores explicativos aparecen conjuntamente. 
2º.- Decidir hasta qué punto da cuenta un “modelo teórico” de los datos recogidos y 
determinar si los datos pueden ser divididos en varios subconjuntos que respondan a 
modelos diferentes. 
3º.- Comprobar si los grupos de factores contribuyen significativamente a explicar los datos 
o si deben ser desestimados.8 
4º.- Determinar la fiabilidad de los análisis. 
 Un análisis de naturaleza sociolingüística ha de proporcionar una información 
concreta sobre cada uno de los objetivos generales. Todos ellos son importantes, porque 
contribuyen a dar seguridad al investigador sobre la calidad de su estudio. Las conclusiones 
que se deriven de esta información pueden obligar a reconsiderar las diversas etapas de la 
investigación, desde la forma en que se ha seleccionado la muestra de hablantes y se ha 
elegido el objeto de estudio, hasta el avance que puede suponer para el conocimiento de un 
fenómeno. No obstante, excepto aquello que afecte a la recogida misma de los materiales, 
prácticamente todos los problemas que surgen en el proceso analítico pueden ser tratados 
— y en muchos casos solucionados — trabajando sobre la información disponible en el 
ordenador. Es posible, por ejemplo, agrupar variables explicativas que en principio se habían 
tratado de forma separada, prescindir de datos que se han revelado como inadecuados o 
realizar análisis parciales para tener un conocimiento más profundo de algún aspecto. 
 El investigador debe poner un especial cuidado en valorar adecuadamente las 
estimaciones de fiabilidad que proporciona el programa en cada fase del análisis. Solo así 
puede saberse si las conclusiones obtenidas tienen solidez o si los materiales — datos y 
análisis — deben sus características al azar. El sociolingüista tiene que estar seguro de que, al 
realizar el mismo análisis con datos similares, los resultados prácticamente se van a repetir. 
En esta seguridad descansa la comparabilidad de los estudios que se realicen sobre el mismo 
fenómeno en comunidades de habla diferentes. 
 
2.3. Manejo de los programas VARBRUL para ordenadores personales. 
 La aplicación de los programas VARBRUL 2s y GOLDVARB 2.0 tienen en común 
muchos aspectos. En ambos casos hay que recorrer tres etapas antes de proceder al análisis 
probabilístico propiamente dicho: 
 
1º.- Introducción de los datos (tokens) y especificación de factores. 
2º.- Especificación de condiciones. 
3º.- Creación de celdas. 
 
2.3.1. Introducción de los datos. 
 Los datos con los que trabajan estos programas consisten en una lista de 
“secuencias” (tokens) donde queda reflejada la manifestación concreta de cada una de las 
muestras encontradas en los materiales sociolingüísticos, con los rasgos lingüísticos y 
extralingüísticos que configuran su contexto. Los datos se disponen, pues, de uno en uno, 
caso a caso, en forma de lista. 
 Los factores que integran los distintos grupos deben establecer entre sí una relación 
de escala nominal, preferentemente; esto es, cada variante recibe una etiqueta, sin que ello 
implique un orden determinado (Moreno Fernández 1990a: 125-126). Cuando los factores 
 
14
tienen un orden interno,9 el análisis puede plantear unos problemas que explicaremos más 
adelante (Rousseau y Sankoff 1978a: 64). 
 Para introducir los datos en los programas es imprescindible atribuir a cada factor de 
cada grupo un código específico de un carácter (número o letra, mayúscula o minúscula).10 
En un caso como el de la aspiración de /s/ implosiva que antes hemos presentado, 
podemos atribuir los siguientes códigos: 
 
Grupo de factores dependiente : 
- /s/ implosiva: [s] = 2; [h] = 1; ø = 0. 
 
Grupos de factores explicativos: 
- Contexto fónico siguiente: ante consonante sorda = s; ante consonante sonora = n; ante 
vocal = v; ante pausa = p. 
- Hablante: hablante 1 = 1; hablante 2 = 2; hablante 3 = 3; ... etc.11 
 
 En el ejemplo de la marca de plural, que utiliza David Sankoff para explicar el 
funcionamiento de GOLDVARB, se atribuyen los siguientes códigos: 
 
Grupo de factores dependiente: 
- Marca de plural: aparición de marca de plural = 1; no aparición de marca de plural = 0. 
 
Grupos de factores explicativos: 
- Clase de palabra en la que puede aparecer la marca de plural: adjetivo = a; nombre = n; 
determinante = d. 
- Función del sintagma en el que puede aparecer la marca: sujeto = s; objeto = c. 
 
 Siguiendo este sistema de codificación, podemos representar en una secuencia de 
tres caracteres — o más, dependiendo del estudio — los factores que concurren en cada uno 
de los datos. Las secuencias se disponen en forma de lista en una parte del programa que 
tiene las mismas características que un programa de tratamiento de textos y de la que 
daremos algún detalle más abajo. Cada una de las secuencias debe ir precedida de un 
paréntesis, que indica al ordenador que lo que va después de él es un dato que ha de ser 
analizado. Tras el paréntesis, el primer carácter debe ser siempre un factor del grupo 
dependiente. La secuencia debe ir seguida de una marca de fin de línea (retorno manual) o 
de un espacio. 
 
SECUENCIA DE CÓDIGOS PARA CADA DATO: 
 
 ([código de factor dependientex] [código de factor explicativo i] 
 [código de factor explicativoj]... [código de factor explicativon] 
 fin de línea/espacio 
 
 En los ejemplos de marca de plural y de /s/ implosiva, los datos tendrían una 
disposición como esta: 
 
 
15
_________________________________________________________________ 
DATOS DE MARCA DE PLURAL DATOS DE /S/ IMPLOSIVA 
(1as (2p1 
(1as (2n1 
(1as (1s2 
(1ds (1n2 
etc. 
_________________________________________________________________Figura 3.- Disposición de los datos. 
 
 Al preparar los datos correspondientes a los distintos grupos, es posible hacer uso 
del signo ‘.’ (punto) como si fuera un factor. Suele utilizarse, por ejemplo, cuando hay una 
muestra, un contexto, etc. que no se ajusta estrictamente a los factores previstos o cuando se 
piensa que un determinado dato puede ser considerado como cualquiera de los factores del 
mismo grupo, según las circunstancias. 
 Los datos siempre deben cumplir dos requisitos mínimos para poder ser analizados: 
cada grupo ha de incluir al menos dos factores (no se puede analizar un fenómeno 
teóricamente variable cuando sólo se han recogido muestras de una de las variantes); 
además, los datos tienen que incluir al menos un caso para cada uno de los factores 
explicativos previstos (no se puede analizar el factor “ante pausa” si no hay ningún caso de 
mantenimiento de /s/, de aspiración o de pérdida en ese contexto). 
 A la hora de introducir los datos no es imprescindible que la lista de secuencias 
responda exactamente al orden en que los datos han aparecido en los textos transcritos, pero 
se ha de respetar estrictamente el orden de los factores dentro de cada secuencia. La lista de 
datos, dependiendo del fenómeno analizado, puede incluir unas decenas, unos centanares o 
varios miles de secuencias. Aunque la introducción de esos datos lleva algún tiempo, este 
puede acortarse notablemente si se cuenta manualmente el número de secuencias idénticas y 
se trasladan al ordenador mediante las funciones de activar, copiar y mover bloques.12 
 Además de los datos codificados, el ordenador necesita saber cuántos son los grupos 
de factores que van a ser analizados y cuáles son los factores válidos dentro de cada grupo. 
Para ello es necesario cumplimentar una “especificación de factores” — veremos más 
adelante el modo de hacerlo—, gracias a la cual el programa puede identificar cualquier dato 
erróneo o que no se ajuste a lo previsto. Al especificar los factores, también hay que indicar 
al ordenador cómo ha de leer el signo ‘.’ dentro de los datos: se trata de atribuir un “valor 
por defecto”. Si queremos que sea leído como alguno de los otros factores, se especifica el 
código correspondiente. Si simplemente se quiere eliminar esa información, se especifica el 
código ‘/’ (barra inclinada), que significa ‘no se aplica’. 
 
2.3.2. Especificación de condiciones. 
 Una vez introducidos los datos y especificados los factores, hay que cubrir la 
segunda etapa: señalar al ordenador qué condiciones debe tener en cuenta para leer los 
datos. Esta información ya se ha proporcionado en parte mediante la “especificación de 
factores”; esto es, el ordenador ya sabe cuántos grupos de factores hay y qué factores 
conforman cada grupo, pero desconoce, por ejemplo, cuál será considerado como 
dependiente y cuáles como explicativos o independientes. 
 Las condiciones del análisis se especifican en un archivo creado especialmente para 
ello (en los epígrafes dedicados a cada programa explicaremos el modo de crear ese archivo). 
Si el investigador desea hacer su análisis con las condiciones marcadas en la “especificación 
de factores” — pongamos como ejemplo el de la aspiración de /s/ implosiva — creará un 
 
16
archivo con la forma reproducida en la Figura 4. 
__________ 
( 
(1) 
(2) 
(3) 
) 
__________ 
Figura 4.- Disposición de un archivo de condiciones. 
 
 Con esto se está diciendo que se van a analizar los tres grupos previstos y que el que 
aparece en primer lugar (1) será la variable dependiente y los demás, las explicativas. Los 
datos, por tanto, no se van a recodificar. La forma de dar esta información responde a un 
sistema lógico llamado LISP. Cada una de las partes de un archivo de condiciones — la lista 
completa de condiciones, cada elemento de la lista — debe ir entre parántesis. En la Figura 
4, además de los paréntesis aparecen simplemente los números de los grupos de factores. 
 Ahora bien, el desarrollo del análisis puede revelar la necesidad de interpretar las 
secuencias de datos iniciales (tokens) de una manera diferente: por ejemplo, fundir dos 
factores de un grupo en uno solo, no tener en cuenta un factor determinado, prescindir de 
un grupo de factores completo o, incluso, elegir otro grupo dependiente. Todo esto se 
puede hacer desde un archivo de condiciones sin tener que alterar para nada la lista de 
secuencias. En tal circunstancia, ese fichero servirá para recodificar las secuencias 
automáticamente. 
 Para lograr una recodificación, el sistema LISP cuenta con cinco elementos básicos: 
“AND”, “OR”, “NOT”, “COL” y “ELSEWHERE” (escritos con mayúsculas o con 
minúsculas). Los tres primeros son unos operadores lógicos muy conocidos: “AND” y 
“OR” toman hasta 20 argumentos; “NOT” tiene un solo argumento. Por su parte, “COL” 
‘columna dentro de lista de secuencias’ se usa con dos argumentos: el número de un grupo 
de factores y el código del factor que se va a recodificar. “ELSEWHERE” se utiliza como 
último elemento dentro de un conjunto de cláusulas referidas a un grupo de factores y sirve 
para recodificar los datos con un valor determinado, si no se encuentra ninguna de las 
condiciones dadas previamente para ese grupo. La información referida a un grupo que 
aparezca detrás de este operador no se tiene en cuenta para la recodificación. Además de 
estos elementos, el sistema LISP utiliza “NIL” que indica la exclusión en el momento del 
análisis del factor o los factores (argumentos) que lo acompañan. 
 En la Figura 5 se ofrece un ejemplo sencillo de archivo de condiciones dispuesto 
para conseguir una recodificación. Supongamos que al hacer un primer análisis de la 
aspiración de /s/ implosiva hemos observado que no es aconsejable, por las características 
de los datos recogidos, mantener una distinción entre consonantes sordas y consonantes 
sonoras para el contexto fónico siguiente y que tendría más sentido distinguir simplemente 
entre consonantes, vocales y pausa. En ese caso hay que hacer que el ordenador considere 
los datos referidos a las sordas y a las sonoras como elementos de una misma categoría. Para 
ello se redactaría un archivo como el de la Figura 5. 
 
17
 
( 
(1) 
(2 (c (COL 2 s)) 
 (c (COL 2 n)) 
 (v (COL 2 v)) 
 (p (COL 2 p))) 
(3) 
) 
_______________ 
Figura 5.- Disposición de un archivo de condiciones dispuesto para la recodificación 
(muestra sencilla). 
 
 Obsérvese que el conjunto de la información y cada uno de sus componentes se 
encierran entre paréntesis. Con este archivo estamos diciendo lo siguiente: 
1º.- Que el grupo 1 será dependiente y que no se tienen que recodificar sus factores; los 
demás grupos serán explicativos. 
2º.- Que los factores del grupo 2 se tienen que recodificar de la siguiente forma: se va a leer 
como “c” (consonante) lo que en la columna 2 de las secuencias (tokens) aparezca como “s” 
(consonante sorda); también se va a leer como “c” lo que en la columna 2 aparezca como 
“n” (consonante sonora); se va a seguir leyendo como “v” (vocal) lo que en la columna 2 
aparece como “v”; y se va a seguir leyendo como “p” (pausa) lo que en la columna 2 aparece 
como “p”. 
3º.- Que los factores del grupo 3 no se tienen que recodificar. 
 Aunque nuestro ejemplo es bastante sencillo, las posibilidades de recodificación con 
el sistema LISP son muy amplias, como se puede comprobar en una muestra que 
proporcionan Rand y Sankoff (1990) para unos grupos de factores más complejos y que 
reproducimos parcialmente en la Figura 6. 
 
 
 _________________________________ 
( 
(4 (d (OR ( (COL 4 d) (COL 4 c))) 
 (s (ELSEWHERE))) 
(5) 
(3 (/ (OR (COL 3 s) (COL 3 t) (COL 3 u))) 
 (m (OR (OR (COL 3 n) (COL 3 h)) 
 (OR (COL 3 1) (COL 3 2) (COL 3 3) (COL 3 w) (COL 3 u) 
 (COL 3 y) (COL 3 p) (COL 3 t) (COL 3 r) (COL 3 x)))) 
 (x (AND (OR (COL 3 n) (COL 3 h)) (COL 7 n))) 
 (NIL (ELSEWHERE))) 
) 
___________________________________________ 
 
Figura 6.- Archivo de condiciones con recodificación (muestracompleja). 
 
 El desarrollo de la información contenida en este archivo podría ser el siguiente: 
1º.- Considera el grupo 4 como dependiente y los demás como explicativos. 
2º.- Recodifica el grupo 4 de esta forma: lee como “d” bien lo que en la columna 4 de las 
secuencias (tokens) aparece como “d”, bien lo que en la columna 4 aparece como “c”, y lee 
como “s” todo lo demás. 
3º.- El grupo 5 no se recodifica. 
4º.- Recodifica el grupo 3 de esta forma: no se aplica, bien lo que en la columna 3 aparece 
como “s”, bien lo que aparece como “t” o bien lo que aparece como “u”; lee como “m”, por 
 
18
un lado, bien lo que en la columna 3 aparece como “n” o bien lo que en la columna 3 
aparece como “u” o, si no, bien lo que en la columna 3 aparece como “1” o como “2” o 
como “3” o como “w” o como “u” o como “y” o como “p” o como “t” o como “r” o 
como “x”; lee como “x” lo que en la columna 3 aparece, bien como “n”, bien como “h” y lo 
que en la columna 7 aparece como “n”; por último, no se aplica todo lo demás que aparezca 
en las secuencias de este grupo. 
 Como se puede apreciar, si la recodificación que se quiere hacer afecta seriamente a 
la disposición inicial de las secuencias de datos, la elaboración de un archivo de condiciones 
puede ser algo complicada, entre otras cosas porque los olvidos de los paréntesis se 
producen con más frecuencia de la deseada. De cualquier modo, la redacción de unas 
condiciones que incluyan recodificación siempre es menos trabajosa que la rectificación 
manual de las secuencias de datos. Como veremos, el programa GOLDVARB 2.0 es capaz 
de crear de forma automática este tipo de archivos, lo que libera al sociolingüista de un 
trabajo ciertamente engorroso. En VARBRUL 2S la redacción en LISP no es automática. 
 
2.3.3. Creación de celdas. 
 La creación de celdas se consigue con el recuento de la frecuencia hallada en la 
intersección de dos factores de grupos diferentes. Para hacer esto es imprescindible la 
información que se aporta en las secuencias de datos y en los archivos de condiciones. De 
hecho, estos últimos determinan cuántas celdas se van a construir y qué datos van a formar 
parte de cada una de las frecuencias. 
 Desde el punto de vista del sociolingüista, la fase de creación de celdas puede ser 
considerada como un trámite informático, puesto que la resuelve el ordenador 
automáticamente, una vez que conoce sobre qué archivos de datos y de condiciones tiene 
que realizar los cómputos. No obstante el investigador debe señalar previamente —ya 
explicaremos en qué lugar — cuál de los factores del grupo dependiente es el que se va a 
analizar (aplicar). 
 Al especificar qué factor o factores son pertinentes para la construcción de las celdas, 
también hay que decidir si se quiere hacer un análisis binomial o multinomial. Este último 
sólo se puede considerar en el caso de trabajar con VARBRUL 2S, puesto que 
GOLDVARB 2.0 no está preparado para ello. Si el sociolingüista trabaja con un grupo 
dependiente compuesto por cuatro factores (“1”, “2”, “3” y “4”) las posibilidades de análisis 
que tiene son las siguientes: 
a) Análisis binomial: considerar “1” como valor de aplicación y “2”, “3” y “4” como valores 
de no aplicación. 
b) Análisis binomial: considerar “1” como valor de aplicación, “2” como valor de no 
aplicación y omitir “3” y “4”. 
c) Análisis trinomial: analizar conjuntamente “1”, “2” y “3” y omitir “4”. 
 En el ejemplo sobre el comportamiento de /s/ implosiva (grupo dependiente con 
tres factores), sería posible analizar el mantenimiento de la sibilante frente a la aspiración y a 
la pérdida de la consonante, cuyos datos serían considerados como un todo, o la pérdida 
frente al mantenimiento y omitir los datos sobre la aspiración o cualquier otra combinación 
que se considere oportuna por el carácter del fenómeno lingüístico estudiado. 
 Cuando el ordenador dispone de toda esta información crea las celdas oportunas y 
las reproduce en un archivo. La Figura 7 muestra las celdas correspondientes a la aspiración 
de /s/ (aplicación) frente a mantenimiento y pérdida (no aplicación), obtenidas al combinar 
dos grupos explicativos (hablante y contexto fónico). 
 
19
_______________ 
AP. ~AP. Factores 
 63 82 1n 
 10 115 1p 
 62 238 1s 
 5 129 1v 
 76 64 2n 
 5 87 2p 
 134 88 2s 
 31 67 2v 
 66 48 3n 
 24 83 3p 
 164 54 3s 
 12 68 3v 
 55 58 4n 
 6 137 4p 
 21 201 4s 
 4 107 4v 
 59 71 5n 
 6 129 5p 
 82 189 5s 
 2 109 5v 
 39 26 6n 
 8 106 6p 
 134 102 6s 
 2 87 6v 
_________________ 
Figura 7.- Celdas de aspiración de /s/ implosiva (AP.) y de no aspiración (~AP.) 
 
 Una vez que las celdas están creadas y cargadas en la memoria del ordenador, se 
puede proceder al análisis estadístico de los materiales. 
 
2.4. GOLDVARB 2.0. 
 El manejo de GOLDVARB 2.0. se ajusta a las etapas que hemos presentado en los 
epígrafes anteriores.13 Cada una de estas fases requiere la creación de un archivo específico, 
que se van creando y memorizando progresivamente: archivo de secuencias de datos (Tok), 
archivo de condiciones (Con) y archivo de celdas (Cel). Por último, se crea un archivo de 
resultados (Res) en el que aparecen los recuentos estadísticos y los análisis probabilísticos. 
 No pretendemos que estas líneas sustituyan las instrucciones del programa, pero 
creemos conveniente comentar los aspectos más elementales del manejo. La verdad, no 
obstante, es que el uso de este programa es sumamente fácil, porque el ordenador ofrece 
para cada fase una “ventana” en la que la información se dispone de forma muy clara. 
 
 
2.4.1. Archivo de datos. 
 La primera “ventana” que se abre en la pantalla está preparada para incluir las 
secuencias de datos y para especificar los factores que se van a manejar en cada uno de los 
grupos de factores. Esta ventana está dividida en dos partes, una para cada uno de los fines 
que acabamos de exponer. La parte destinada a recoger las secuencias de datos funciona 
realmente como un programa de tratamiento de textos en el que se pueden activar, mover o 
borrar bloques. En la parte de “especificación de factores”, se anotan los datos necesarios 
en los lugares apropiados para ello, como se observa en la Figura 8.14 
 
 
 
20
 
Figura 8.- Ventana de archivo de datos (Tok) y de especificación de factores 
(GOLDVARB 2.0). 
 
 Una vez introducidos los datos, se puede comprobar si están correctamente 
dispuestos mediante la función “Check all” que aparece en la ventana de “especificación de 
factores” o en la ventana “Tokens” del menú principal del programa. 
 
2.4.2. Archivo de condiciones. 
 Se crea desde el menú principal (Tokens) y existe la posibilidad de hacerlo sin 
recodificación o con recodificación de las secuencias de datos. En el segundo caso, se abre 
una ventana destinada a la generación de condiciones (Figura 9). 
 
 
 
Figura 9.- Ventana para generación de condiciones con recodificación (GOLDVARB 2.0). 
 
 Como ya hemos comentado, las condiciones son redactadas de forma automática 
 
21
mediante el sistema LISP en el archivo que el ordenador crea a tal efecto, aunque es posible 
retocarlas o modificarlas manualmente. 
 
2.4.3. Creación de celdas. 
 En la entrada “Cells” del menú principal se encuentra la orden pertinente para cargar 
las celdas en el ordenador a partir de los archivos de datos y de condiciones que se 
especifiquen. Antes de que se creen las celdas, proceso que se realiza también 
automáticamente, es necesario anotar, en la ventana que se presenta con este fin, cuál o 
cuáles van a ser los valores de aplicación y de no aplicación, teniendo en cuenta las 
posibilidades explicadas en 2.3.3. 
 En este programa no existe la posibilidad de realizar un análisis multinomial. De 
todas formas, si se necesita considerar dos factores como valores de aplicación y otros dos 
como valores de no aplicación, es posible hacerlo mediante una recodificación, al crear el 
archivo de condiciones. Por otra parte, cuando contamoscon cuatro factores en el grupo 
dependiente, existe la posibilidad de crear celdas como si de un análisis multinomial se 
tratase, pero estas sólo servirán para construir “tabulaciones cruzadas” (véase Tabla 6), no 
para hacer el análisis propiamente dicho. 
 Después de que el ordenador haya hecho las celdas — a partir de los valores de 
aplicación que se le hayan indicado —, se crea, también automáticamente, un archivo de 
resultados en el que se ofrecen las frecuencias absolutas y relativas de los casos de aplicación 
para cada grupo explicativo estudiado y para cada uno de sus factores. La información que 
se proporciona aquí coincide con la que hemos reproducido en las Tablas 4 y 5. Estos datos 
se presentan antes de proceder a los análisis probabilísticos, porque en ellos se hace notar si 
los recuentos son adecuados. Si alguno de los grupos contiene un solo factor (“singleton”) o 
alguno de los factores muestra una frecuencia de 0% o 100% en los casos de aplicación 
(“knockout”), no es posible acceder al análisis de regresión (véase 2.3.1.) 
 
2.4.4. Análisis de regresión. 
 GOLDVARB 2.0 cuenta con dos posibilidades de análisis probabilístico. A ambas se 
accede desde el menú “Cells”: “Binomial, 1 level” y “ Binomilal, Up & Down”. Los 
resultados de estos análisis se escriben automáticamente dentro del archivo de resultados, a 
continuación de las frecuencias de cada factor. 
 Cuando se aplica el análisis binomial de 1 nivel, GOLDVARB 2.0 da la siguiente 
información: 
a) Número de iteraciones que han sido necesarias para encontrar la función de 
verosimilitud.15 
b) “Input” que se utiliza al aplicar el modelo logístico (véase 1.4) 
c) Efecto de cada uno de los factores de cada grupo sobre el factor dependiente (“Weight”). 
d) División del número de aplicaciones de cada factor entre el número de casos posibles 
(“App/Total”). 
e) Probabilidad resultante de combinar el efecto (“weight”) y el “input”. 
f) Factores utilizados en la creación de cada celda. 
g) Número total de datos por celda. 
h) Número de aplicaciones por celda. 
i) Valor esperado por celda. 
j) Proporción de error por celda. 
k) Ji- cuadrado (c2) total . 
l) Ji-cuadrado (c2) dividido por el número de celdas. 
m) Logaritmo de la función de verosimilitud. 
 
22
n) Diagrama de dispersión, en el que se compara la proporción de casos de aplicación del 
factor estudiado en cada una de las celdas, con las probabilidades creadas en el análisis. 
Estos dos tipos de valores se relacionan y disponen teniendo como referencia un eje central: 
cuando los datos observados se ajustan a las probabilidades del modelo, aparecen situados 
cerca del eje. La Figura 10 representa el diagrama de dispersión del mantenimiento de la 
sibilancia para /s/ implosiva. En él se observa que hay una correspondencia entre los 
valores observados y los valores predichos por el modelo, puesto que todas las celdas están 
cerca del eje. Los cuadrados que aparecen en la parte superior corresponden a las celdas que 
contienen un mayor número de aplicaciones. Los de la parte baja del diagrama representan 
las celdas que tienen menos aplicaciones.16 
 
“Lingüística.Cel”
• 19/12/93•18:11
• Token file: s.tkn
• Conditions: Lingüística.Cnd
1
P
r
o
b
a
b
i
l
i
t
y
0 Applications/Total 1 
 
Figura 10.- Diagrama de dispersión de mantenimiento de /s/ implosiva. 
 
 Además de esto, se puede pedir al ordenador que ofrezca la información necesaria 
para valorar la adecuación del modelo teórico: logaritmo de máxima verosimilitud y c2, con 
indicación de la significación, esto es, de la probabilidad de que los resultados del análisis se 
deban al azar.17 La significación nunca debe superar el umbral de 0.05, admitido de forma 
general en los estudios de Ciencias Sociales. El cálculo de c2 permite comparar el resultado 
del análisis de GOLDVARB con los que proporcionan las versiones anteriores de 
VARBRUL. 
 
23
 El análisis binomial de subida y bajada (“Binomial, Up & Down”) aporta una información 
en parte coincidente con los resultados del análisis de 1 nivel y en parte complementaria. Se 
trata de un análisis de regresión escalonada (paso a paso), compuesto por una sucesión de 
etapas. En primer lugar, se realiza el análisis de cada uno de los grupos de factores por 
separado: el análisis consiste en calcular las probabilidades de que aparezca una variante para 
cada factor del grupo. A continuación, se analizan los grupos tomados de dos en dos, 
después de tres en tres, y así hasta que no se encuentra ningún grupo cuya inclusión suponga 
un aumento del logaritmo de la función de verosimilitud, dentro siempre de una 
significación p < 0.05. El programa compara las verosimilitudes de las etapas sucesivas y 
señala cuál es el grupo, o la combinación de grupos, más adecuado, esto es, con mayor 
verosimilitud. 
 Concluida la primera fase, llamada de “ascenso” o de agrupación progresiva de 
grupos de factores, se pasa a la fase de “descenso” o de eliminación progresiva de grupos. 
Dentro de ella, en primer lugar se analizan conjuntamente todos los grupos explicativos; a 
continuación, las combinaciones de grupos que resultan tras eliminar uno de ellos 
alternativamente; después las combinaciones que resultan de eliminar dos grupos, y así 
sucesivamente hasta que no se encuentra un grupo cuya exclusión suponga una disminución 
del logaritmo de la función de verosimilitud, dentro de la significación adecuada. Al terminar 
esta segunda fase, el programa compara las verosimilitudes de las distintas etapas e indica 
cuál es la combinación de grupos con mayor verosimilitud. 
 El programa presenta, para cada una de las etapas de este análisis escalonado, la 
siguiente información: 
 
a) Número de iteraciones realizadas para encontrar la convergencia. 
b) “Input” que se utiliza al aplicar el modelo logístico (véase 1.4) 
c) Probabilidad de aparición del rasgo analizado atendiendo a cada factor de cada grupo (el 
número de grupos analizados varía según la etapa del análisis). 
d) Logaritmo de la función de verosimilitud. 
e) Significación. 
 
 El hecho de disponer de la información probabilística desgranada de esta manera 
(por cada grupo de factores, por cada combinación de dos grupos, por cada combinación de 
tres grupos, etc.) facilita al sociolingüista la labor de interpretación de los resultados y hace 
posible que esta tarea se realice con todo rigor. 
 
2.4.5. Tabulación cruzada. 
 Independientemente de que se haya procedido a cualquiera de los análisis 
binomiales, una vez construidas las celdas a partir de unos valores de aplicación 
determinados (casos binomial y multinomial), el menú “Cells” ofrece la posibilidad de crear 
tablas de frecuencias absolutas y relativas en las que se cruzan los datos de dos variables 
explicativas (véase Tabla 6). 
 
2.5. VARBRUL 2S. 
 Este programa se utiliza en ordenadores IBM-PC equipados con Coprocesador 
matemático o en VAX. También es necesario contar con un editor de textos. El manejo del 
programa requiere cumplir las fases explicadas en 2.3., de un modo similar al que hemos 
descrito para GOLDVARB. Ahora bien, VARBRUL no funciona en un entorno de 
“ventanas”, sino que está formado por una serie de programas, destinados, cada uno de 
ellos, a un fin específico. Estos programas parciales reciben los siguientes nombres: 
 
24
CHECKTOK, READTOK, MAKECELL, COUNTUP, CROSSTAB, IVARB, TVARB, 
MVARB, TSORT y TEXTSORT. Para hacer funcionar estos programas, hay que contar 
con una serie de archivos creados por medio del editor de textos: un archivo de datos (con 
extensión “.dat”)18, un archivo de especificación de factores (“.fac”) y un fichero de 
condiciones (“.con”). La aplicación de los programas parciales sobre los archivos 
correspondientes dará lugar a la creación de los archivos de secuencias de datos (“.tok”), de 
celdas (“.cel”) y de resultados (“.res”). 
 Tal y como hemos hecho a propósito de GOLDVARB 2.0, comentaremos de forma 
general los aspectos más elementales del manejo de VARBRUL 2s, puesto que no tenemosla intención de que estas notas ocupen el lugar que corresponde a las instrucciones del 
programa. 
 
2.5.1. Introducción de los datos en el ordenador. Archivos de especificación de factores y de 
condiciones. 
 La disposición y características de los datos para trabajar con este programa se ajusta 
exactamente a lo que hemos comentado en 2.3.1 y 2.4.1., excepto en lo que se refiere al 
número de grupos y factores admitidos para el análisis. Este número depende del programa 
parcial que se quiera aplicar. Para construir las celdas, los límites son los siguientes (Pintzuk 
1988: 20; 25-26): 
Máximo número de factores en el grupo dependiente: 9. 
Máximo número de grupos explicativos: 20. 
Máximo número de factores en los grupos explicativos: 30. 
 
 Para realizar un análisis binomial, el número máximo de factores admitido para el 
grupo dependiente es de dos y, entre todos los grupos explicativos, no puede haber más de 
49 factores, si se trabaja con IBM-PC, o de 100, si se trabaja con VAX. Como ya hemos 
apuntado, esta versión de VARBRUL puede hacer análisis multinomiales. En este caso, el 
número máximo de factores admitido para el grupo dependiente es de 3 ó 5, según el 
programa parcial que se aplique y, entre todos los grupos explicativos, no puede haber más 
de 100 factores. 
 En VARBRUL 2S el archivo de datos (“.dat”) hay que crearlo en un documento de 
un editor de textos (p.e. WordPerfect) que no contenga “caracteres de control”.19 Una vez 
que se ha creado ese primer archivo de datos, conviene utilizar el programa destinado a 
comprobar que las secuencias no contienen errores: CHECKTOK.20 Previamente, sin 
embargo, se ha tenido que crear un archivo de especificación de factores (“.fac”) por medio 
del editor de textos.21 Este archivo debe tener una configuración acorde con la que se 
reproduce en la Figura 11. 
_________ 
3 
/ 
012 
/ 
123456 
/ 
snvp 
/ 
_________ 
Figura 11.- Archivo de especificación de factores creado con editor de textos (VARBRUL 
2S). Factores para el análisis de /s/ implosiva. 
 
25
 
En la primera línea aparece el número de grupos de factores que van a ser analizados; en la 
segunda, el carácter con el que ha de completarse una secuencia incompleta; en las siguientes 
se anotan, por orden, los factores y los valores por defecto de cada grupo analizado. Cuando 
CHECKTOK dispone de la información que ha solicitado, crea un archivo en el que se 
localizan los errores que pueda contener el fichero de datos.22 
 Después de comprobar la configuración de los datos, hay que arrancar el programa 
parcial READTOK, para crear un archivo de secuencias de datos (“.tok) a partir de uno o 
más archivos de datos (“.dat”). Es importante llamar la atención sobre las diferencias que 
hay entre el primer archivo de datos — al que damos la extensión “.dat” — y el archivo de 
datos que va a ser utilizado por los distintos programas parciales —al que damos la 
extensión “.tok”, por paralelismo con GOLDVARB. Sólo los archivos de datos creados 
desde READTOK pueden ser utilizados en las siguientes fases de VARBRUL. 
 Antes de continuar con el proceso de aplicación, todavía es necesario crear un 
archivo más mediante el editor de textos: un archivo de condiciones, cuya redacción es 
idéntica a la que hemos explicado en 2.3.2 y 2.4.2. 
 
2.5.2. Creación de celdas y análisis probabilísticos. 
 Los archivos creados hasta este momento hacen ya posible la preparación de las 
celdas de frecuencias y los análisis de regresión. Para crear las celdas se utiliza el programa 
parcial MAKECELL, el cual solicita para su funcionamiento el nombre de los archivos de 
datos (“.tok”) y de condiciones (“.con), así como el valor de aplicación sobre el que se va a 
centrar el análisis (2.3.3.).23 
 El resultado se registra en un nuevo archivo, para el que se sugiere la extensión 
“.cel”. En él se dan las frecuencias absolutas y relativas de los casos de aplicación y de no 
aplicación — en una forma similar a la de las Tablas 4 y 5— y a continuación la frecuencia 
correspondiente a cada celda (véase Figura 7). Este archivo de celdas es necesario para la 
aplicación de otros programas específicos. 
 VARBRUL 2S cuenta con tres programas destinados al análisis de regresión: 
IVARB, TVARB y MVARB. El primero de ellos se utiliza para hacer análisis binomiales 
cuando el grupo dependiente está formado solamente por dos factores (véase nuestro 
ejemplo sobre marca de plural). Antes de realizar los análisis, el ordenador pide el nombre 
del archivo de celdas sobre el que van a hacer los cálculos;24 también se solicita un nombre 
para atribuírselo al archivo en el que van a quedar inscritos los resultados de los análisis 
(“.res”). 
 Como ocurre con GOLDVARB 2.0, IVARB ofrece dos posibilidades de análisis de 
regresión: análisis binomial de 1 nivel y análisis binomial de subida y bajada (“Up & Down”) 
(2.4.4.). La información que se proporciona en uno y en otro es prácticamente la misma que 
comentamos a propósito de GOLDVARB, si bien en el programa para IBM-PC no se da un 
diagrama de dispersión. 
 Por su parte, los programas TVARB y MVARB se encargan de realizar análisis 
multinomiales. La principal diferencia entre ellos está en que TVARB trabaja con un grupo 
dependiente de tres factores, mientras que MVARB puede analizar un grupo dependiente 
con cuatro o cinco factores. En ambos casos, tan sólo hay una posibilidad de regresión: 
análisis binomial de 1 nivel.25 
 VARBRUL 2S incluye otros programas parciales que permiten contar, ordenar y 
manipular los datos de diversas formas. Estos programas suelen ser un buen complemento 
para conseguir análisis refinados y rigurosos.26 Por otra parte, los errores que surgen en la 
aplicación de los diversos programas se anotan en archivos creados automáticamente. De 
 
26
esta forma, el investigador puede saber en cada momento cuáles son las dificultades a las que 
se enfrenta y el modo de resolverlas (Pintzuk 1988: 33). 
 
2.6. Interpretación de los análisis probabilísticos. 
 La interpretación de los resultados de los análisis es la etapa más importante de toda 
investigación. La calidad de un trabajo — en cuanto a validez, utilidad y comparabilidad — 
viene determinada por la forma en que se haya hecho la interpretación y en que se hayan 
aprovechado los datos disponibles. Puede haber análisis correctos, pero pobres; puede haber 
interpretaciones complejas y sugerentes, pero absolutamente incorrectas. 
 Ya hemos señalado qué informaciones proporcionan los programas creados para 
hacer análisis de regresión (2.4.4. y 2.5.2.). Esas informaciones se dan en los llamados 
archivos de resultados. Ahora nos interesa tratar con mayor detenimiento cómo hay que 
valorar esa información, para qué sirve cada dato y cómo se puede conseguir un 
aprovechamiento óptimo de los materiales. 
 La actitud general del investigador debe ser la de conseguir el máximo rendimiento 
de cada uno de las herramientas técnicas que la informática ha puesto a su disposición. Con 
esto queremos decir que, si el programa y las características de los datos permiten hacer dos 
tipos de análisis —p.e. binomial de 1 nivel y binomial de subida y bajada —, no es 
aconsejable dejar de lado uno de ellos; si el análisis plantea algún problema, es más fácil 
solucionarlo con una información completa — resultados completos, tablas cruzadas, 
etc. — que con una información parcial —p.e. solamente tablas cruzadas. Además de esto, 
la actitud del investigador debe estar siempre abierta a la posibilidad de analizar los datos 
varias veces: a menudo hay que reconsiderar los grupos y factores establecidos previamente, 
las condiciones del análisis, los valores de aplicación seleccionados. etc. En palabras 
sencillas, los análisis no siempre salen a la primera, si lo que se busca es un conocimiento 
detallado de los mecanismos de la variación. Las aproximaciones superficiales están al 
alcance de cualquiera. 
 Dado que VARBRUL 2S y GOLDVARB 2.0 ofrecen unos resultados de 
características muy similares (en su mayor

Continuar navegando

Materiales relacionados

111 pag.
estadistica-basica-con-R

User badge image

Contenidos Diversos

135 pag.
te-350

User badge image

Contenidos Diversos

29 pag.