Sociolinguistica_estadistica_e_informati

Informática Básica

•

Teodoro Olivares

Rihanna Torres

1/11/2023

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Informática Básica

5970 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

1
SOCIOLINGÜÍSTICA, ESTADÍSTICA E INFORMÁTICA

FRANCISCO MORENO FERNÁNDEZ
Universidad de Alcalá de Henares

Publicado en Lingüística, 6 (1994), pp. 95-154.

0.- Introducción.*
El “estado de la cuestión” que presentamos en estas páginas no va a pasar revista a
cada una de las corrientes que, con criterios más o menos estrictos, reciben el marbete de
“sociolingüística”, sino que estará referido específicamente a la sociolingüística de la
variación. Se pretende dar información sobre el empleo de la estadística y de la informática
en el ámbito de la sociolingüística variacionista.
Nuestro deseo es que los contenidos que aquí se van a desarrollar sean de alguna
utilidad tanto para los especialistas en sociolingüística como para aquellos lingüistas que no
trabajan en el estudio de la variación. Por este motivo, hemos dividido el trabajo en tres
apartados. En el primero se ofrece un panorama general de la cuantificación en los estudios
sociolingüísticos y una presentación del modelo estadístico más utilizado durante los últimos
años. El segundo apartado explica con algún detalle el funcionamiento de los programas
informáticos destinados a la aplicación de técnicas estadísticas. El tercero se detiene en las
fases más complicadas del análisis y en los problemas que suelen tener una solución menos
clara.

1.- Investigación sociolingüística y cuantificación.

1.1. Aportaciones de la sociolingüística a través de la cuantificación.
El nacimiento y desarrollo de la sociolingüística variacionista no puede entenderse
sin la cuantificación. De hecho, entre los factores “determinantes” de su impulso hay que
incluir, sin duda, la aplicación de las matemáticas en el tratamiento de grandes volúmenes de
datos y los avances de la informática durante los últimos quince años. El auxilio de otras
disciplinas y la mejora de los medios han hecho que la sociolingüística tenga una imagen
bien caracterizada y destacada en el conjunto de la llamada “lingüística cuantitativa”
(Tesitelová).
Nada de esto, sin embargo, es mérito que deba atribuirse de forma exclusiva a
nuestra disciplina. La sociolingüística es hija de su tiempo y continuadora de unas
experiencias acumuladas, principalmente, durante los últimos cincuenta años (Moreno
Fernández, 1997).
El uso de procedimientos cuantitativos en la sociolingüística está íntimamente ligado
a conflictos de naturaleza teórica que se han ido poniendo de manifiesto conforme nuestra
disciplina ha ido madurando. Pensamos en los contrastes de pareceres entre los partidarios
de los análisis cualitativos y de los análisis cuantitativos, en los problemas que presenta la
relación entre “gramáticas comunitarias” y “gramáticas individuales” o en las dificultades
para aceptar la existencia de un componente probabilístico dentro de la competencia. A esto
podríamos añadir que los diversos niveles de la lengua no son igualmente accesibles desde
unos planteamientos cuantitativos y que las categorías cuantificadas, especialmente las
sociales, no son siempre las más idóneas, por no entrar en el comentario de los lazos de
“amor-odio” entre generativistas y variacionistas.
Esta relación de conflictos sólo pretende poner de manifiesto la importancia que la

2
cuantificación puede llegar a tener en el campo de la lingüística teórica. Cada uno de esos
problemas ha sido largamente discutido, algunos han sido resueltos, otros están en
candelero, pero todos están contribuyendo a enriquecer, depurar y perfeccionar una línea de
investigación.
La sociolingüística ha hecho aportaciones de gran valor, merced, entre otras cosas, al
manejo de la cuantificación. Ha contribuido, por ejemplo, a ir más allá de los conceptos de
variación libre y de polimorfismo. No nos atrevemos a negar que existan fenómenos con
estas características, pero la sociolingüística ha demostrado que muchos de los que
tradicionalmente han sido considerados como tales simplemente han sido mal o
insuficientemente estudiados.
La existencia de una variación ordenada es un hecho (Weinreich, Labov y Herzog).
Cuando dentro de una comunidad de habla de lengua española encontramos casos de
debilitamiento de /s/ implosiva, de neutralización de líquidas, de yeísmo con diferentes
manifestaciones fonéticas, de morfemas verbales o formas pronominales equivalentes que
alternan en el uso, etc. es fácil descubrir que las distintas variantes de un mismo fenómeno
están íntimamente relacionadas con el estrato socio-cultural de los hablantes, con su edad,
con su sexo, con ciertos rasgos del contexto fónico o con la función que cumple el elemento
que varía. La sociolingüística tiene entre sus objetivos el de descubrir el orden que pueda
haber en la variación y el único medio de hacerlo, cuando los datos se cuentan por
centenares, es la cuantificación. La importancia de los análisis cualitativos, que nadie niega es
paralela al interés de los estudios cuantitativos: no se puede contar lo que no se ha
identificado.
Desde sus inicios, el variacionismo ha tenido dos preocupaciones principales: el
estudio de la lengua en su contexto social y el cambio lingüístico. El primero ha sido
especialmente significativo, porque ha cubierto una necesidad que las investigaciones
geolingüísticas llevaban poniendo de manifiesto y satisfaciendo parcialmente desde hacía
mucho tiempo: el análisis del habla de los grandes núcleos urbanos. En la actualidad es
posible describir con rigor hasta qué punto una variación viene determinada tanto por
factores lingüísticos, como por factores extralingüísticos (sociales y contextuales) en una
comunidad determinada. Por otra parte, la sociolingüística ha contribuido a difundir una
visión de la lengua en la que lo variable es el centro de atención, frente a la postura de las
corrientes más influyentes de la lingüística general, a la vez que ha convencido a muchos
sobre la conveniencia de trabajar con materiales de la lengua viva, obtenidos en cantidades
representativas de boca de unos hablantes representativos. El fracaso de algunos modelos
teóricos está precisamente en su falta de conformidad con los usos reales.
En cuanto al estudio del cambio, hay que destacar la atención prestada al terreno
específico del cambio lingüístico en marcha, donde se ha conseguido un nivel descriptivo
muy satisfactorio. Muchas lenguas, como el español, aún no se han visto suficientemente
beneficiadas por estos avances, pero todo se andará. Por el momento, parece claro que la
sociolingüística es parcialmente responsable del auge que en los últimos años ha cobrado el
estudio del cambio lingüístico desde una perspectiva teórica y general. Las obras de
Lehmann y Malkiel, Bynon, Anttila o Milroy son buena prueba de ello.
En todo lo que acabamos de comentar han estado y están presentes los análisis
cuantitativos. La sociolingüística ha tratado con un mimo especial el desarrollo y
perfeccionamiento de los medios técnicos necesarios para ello. Hasta tal punto es así que
algunos especialistas han reprochado a esta disciplina un interés por el ámbito metodológico
y técnico de la investigación, que podría haber ido en detrimento de algún que otro logro
teórico (Pisani). La preocupación por el método es conveniente y necesaria, especialmente
cuando se trabaja con datos de lengua hablada, y no es incompatible con una reflexión

3
teórica seria (la historia de la geografía lingüística es buena prueba de ello). El variacionismo
ha intentado conjugar los dos intereses, que en el fondo son uno solo, y ha creado una
metodología que sorprende por su refinamiento y por su eficacia, aunque no sea la panacea
universal.

1.2. Variación y teoría lingüística.
El análisis emblemático de la sociolingüística variacionista es, sin duda, el que se
conoce con el nombre de análisis de regla variable. Ese nombre recoge la esencia de su origen,
pero no se ajusta estrictamente al sentido que tiene el análisis en la actualidad. El
variacionismo ha dedicado parte desus energías a perfeccionar una prueba estadística capaz de
medir hasta qué punto una serie de factores lingüísticos (contextuales y funcionales) y extralingüísticos
(sociales y situacionales) determina la aparición de cada una de las variantes de un fenómeno lingüístico
variable.
Conviene dejar claro, antes de seguir adelante, que una estadística de corte
variacionista no tiene por qué vincularse de forma absoluta y necesaria a una corriente
teórica determinada. Sin embargo, es evidente que los variacionistas norteamericanos, desde
un primer momento, han estado condicionados por un entorno de naturaleza generativo-
transformacional. Frente a la propuesta de “regla opcional”, concepto teóricamente endeble,
la sociolingüística presenta una alternativa destinada a enriquecer el modelo generativista: la
regla variable (Labov 1969). Esta regla sería capaz de explicar en qué medida se cumple un
fenómeno y en qué condiciones lingüísticas y sociales. Frente a las propuestas de “hablante-
oyente ideal” y de “comunidad homogénea”, conceptos incompatibles con cualquier tipo de
empirismo, la sociolingüística propone la experiencia de unos usos reales y representativos.
Desde el momento en que el variacionismo convierte estas propuestas en axiomas, aparece
el choque dialéctico con el generativismo (Kay y McDaniel 1979, 1981; Sankoff y Labov
1979; Kiparsky 1979, 1982; Singh y Ford 1989; Moreno Fernández 1988: 128-130).
Sin embargo, el contraste de opiniones no ha hecho que los variacionistas
norteamericanos pierdan de vista el devenir del generativismo; es más, algunos han
intentado trabajar desde la “Teoría de la Rección y el Ligamiento” (Lefebvre; Lemieux) y
otros han visto en el “Modelo de Principios y Parámetros” la posibilidad de un acercamiento
formal (D’Introno). Una demostración de la importancia que tiene el generativismo para los
variacionistas norteamericanos está, por un lado, en la propuesta del concepto de regla
variable y, por otro, en el abandono silencioso que se ha ido haciendo, aproximadamente
desde 1978, de la misma regla variable en las publicaciones. No se han abandonado las
técnicas estadísticas, sino el uso formal de las reglas: se calculan y presentan en tablas los
factores estudiados y su peso cuantitativo, pero no se redactan las reglas derivadas de ellos.
Las causas de este cambio de orientación son varias: por una parte está la dificultad de
aplicar la regla variable en el campo de la sintaxis transformacional (Fasold 1990: 251-257);
por otra, una regla variable no explica los fenómenos, sino que simplemente los describe
(López Morales 1993: 189); finalmente, los sucesivos cambios en el seno del generativismo
han hecho que la elaboración de reglas no se ajuste a las necesidades teóricas más actuales.
En resumen, la renuncia a formular reglas variables está íntimamente ligada a la relación
entre variacionismo y generativismo.
Muy unido a este problema encontramos el del emplazamiento de la variación socio-
lingüística en el conjunto de la lengua; dicho de otra forma, la localización de la regla
variable en el sistema. La sociolingüística parte de la idea de que la regla variable está
vinculada a la competencia lingüística. En las explicaciones que se han hecho de esta
hipótesis pueden observarse distintos matices de intensidad. Para Labov, las reglas variables
son reglas de producción que en una gran mayoría pueden ser caracterizadas también como

4
“reglas de actuación” (1972: 225-226), aunque constituyen claramente un aspecto de la
competencia. Para Cedergren y Sankoff, la actuación es un reflejo estadístico — si bien
aproximado — de la competencia y las reglas variables incluyen un componente
probabilístico de lo lingüístico y de lo social. Podríamos decir que unos autores han
defendido más radicalmente un concepto de regla variable como patrimonio exclusivo de la
competencia, mientras otros no han descuidado los niveles de la lengua menos abstractos. El
debate sobre esta cuestión ha ido perdiendo fuerza al mismo ritmo que se abandonaba el
uso formal de las reglas, pero no ha dejado de despertar interés y es probable que en el
futuro se reavive.
Las dificultades y controversias teóricas no han impedido que se sigan haciendo
análisis estadísticos, con más fuerza y calidad que nunca, pero considerados como simple
herramienta descriptiva de la variación (Fasold 1990: 256). Esto prueba, como advertíamos
al principio, que se puede hacer variacionismo desde un modelo teórico no generativista
(Fasold 1984: 245-247). La sociolingüística exige de la teoría, sea la que sea, capacidad para
admitir la presencia ordenada de fenómenos variables.

1.3. Desarrollo de las técnicas cuantitativas en sociolingüística.
La cuantificación en el ámbito de la lingüística se ha hecho básicamente mediante los
recursos de la estadística, entendida como

ciencia del tratamiento de la información que contiene las series de datos procedentes
de observaciones de fenómenos colectivos. (Real Academia de Ciencias Exactas,
Físicas y Naturales)

La sociolingüística trabaja habitualmente con dos tipos de estadística: una estadística
descriptiva y una estadística de inferencias (inferencia estadística). La primera consiste
simplemente en contar y ordenar cuantitativamente un conjunto de datos; la segunda nos
permite aplicar de forma válida las conclusiones de esos análisis a entidades mayores que en
realidad no han sido investigadas en su totalidad.
La estadística descriptiva incluye pruebas simples de cuantificación, por otra parte muy
conocidas, como el recuento de frecuencias absolutas, su conversión en frecuencias relativas
y el cálculo de medias, medianas, modas, varianzas y desviaciones típicas (Moreno
Fernández 1990a). Este tipo de pruebas se aplican en lingüística desde hace muchos
decenios. Con el paso del tiempo hemos ido ganando en rapidez y fiabilidad en el manejo de
los datos, así como en calidad a la hora de presentarlos gráficamente. En este punto, el
desarrollo de la informática ha reportado grandes ventajas. Actualmente es posible aplicar la
estadística descriptiva por medio de programas llamados “Hojas de cálculo” que están al
alcance de cualquier mano. También existen programas estadísticos más completos de los
que se obtienen cálculos rápidos y gráficos de gran calidad (SPSS, Statgraphics, Statview).
Como se deduce de lo apuntado, la estadística descriptiva se ha utilizado desde los
inicios mismos de la sociolingüística moderna: ejemplo de ello es el trabajo de W. Labov
(1963) sobre la isla de Martha’s Vineyard. Sin embargo, su aplicación sigue siendo
inexcusable en cualquier análisis de la variación y los problemas que presenta son mínimos
desde un punto de vista técnico. El éxito está garantizado cuando el investigador cuantifica
las categorías pertinentes, cuando están bien delimitadas — sin solapamientos de datos — y
cuando se aprovechan al máximo sus posibilidades. No obstante, con cierta frecuencia se
encuentran publicaciones en las que no se pasa del cálculo de los tantos por ciento. Este
cálculo es tan necesario como básico, pero a menudo necesita ser complementado con

5
análisis que comprueben, por ejemplo, las desviaciones de los datos respecto de las medias
(varianza, desviación típica), para no llegar a conclusiones limitadas o equivocadas.
Una buena estadística descriptiva requiere, por lo general, un conocimiento previo
de la naturaleza cualitativa de los datos que se quieren cuantificar. Lo demás depende de la
idoneidad de los materiales recolectados. Para ello se debe contar
a) con estudios exploratorios,
b) con hipótesis pertinentes,
c) con variables y variantes bien caracterizadas y dispuestas en escalas y
d) con recuentos minuciosos.
Los primeros recuentos suelen hacerse de forma manual, por lo que se necesita,
además de la paciencia, material apropiado para la codificación (hojas cuadriculadas). La
información bien codificada puede ser trasladadaal ordenador sin mayores problemas.
Ahora bien, la importancia de la estadística descriptiva no la convierte en el único
procedimiento susceptible de aplicación. Estamos ante una fase necesaria, pero no
suficiente: por eso se la denomina pre-cuantificación. El variacionismo ha puesto en manos de
los investigadores unos recursos que conviene utilizar para que los análisis no resulten
pobres, en relación con lo que exige su tiempo. Tales recursos pertenecen al campo de la
estadística de inferencias y, concretamente, de los análisis multivariables. La estadística permite
llegar a conclusiones sobre la variación lingüística en una comunidad, partiendo del análisis
de los datos recogidos en unos pocos hablantes que se consideran representativos de esa
comunidad.
Los análisis de regla variable — también llamados análisis de regresión o análisis
probabilísticos — estudian la relación entre más de dos variables (grupos de factores) y
calculan las probabilidades de que aparezcan o no aparezcan las distintas variantes (factores)
en determinadas condiciones lingüísticas y sociales. Para hacer un análisis estadístico de esta
naturaleza se necesita
a) que el fenómeno analizado sea variable,
b) que la alternativas de la variación sean formas diferentes de decir lo mismo, esto es, que el
uso de una alternativa u otra (variantes o factores) por parte de un hablante no suponga
un cambio semántico o pragmático,
c) que la variación analizada tenga relación con las condiciones lingüísticas (contexto
fonético, contexto sintáctico, función, etc.) y extra-lingüísticas (características sociológicas
del hablante, tipo de contexto situacional, tipo de interlocutor, etc.) en que se produce.
El fenómeno estudiado puede pertenecer a cualquier nivel lingüístico, si bien existen
menos dificultades para el análisis cuando se trata de un rasgo fonético-fonológico. El
objeto principal del estudio se considera una variable dependiente (grupo de factores
dependientes); los elementos lingüísticos y socio-situacionales que se tienen en cuenta para
estudiar ese objeto se denominan variables independientes o explicativas (grupos de factores
independientes o explicativos). La forma de preparar los materiales para el análisis
probabilístico es prácticamente la misma que hemos señalado para la estadística descriptiva;
en otras palabras: se parte del recuento de las frecuencias absolutas del rasgo en cada una de
las condiciones previstas (grupos de factores explicativos) y en los discursos recogidos de
una muestra de hablantes.
Es necesario incidir en la idea de que la finalidad de este tipo de análisis es
eminentemente lingüística, por lo que los rasgos analizados deben ser elementos variables de
la lengua. En el momento de valorar el comportamiento de las variables explicativas y de
organizarlas en grupos coherentes es aconsejable anteponer un criterio lingüístico a otro tipo
de consideraciones. El sociolingüista no es un sociólogo, ni un matemático: debe pensar
como lingüista y actuar con los patrones derivados de su formación. De igual modo, los

6
resultados que aporten los análisis también han de ser interpretados desde y para la
lingüística.
La importancia del análisis probabilístico descansa en varios aspectos. Esta prueba
permite averiguar cuál es el grado en que los grupos de factores explicativos determinan la
variación de un elemento cuando todos ellos actúan conjuntamente; dicho de otro modo, el
cálculo permite conocer la probabilidad general de que apareza uno de los factores cuando
actúan simultáneamente diversos grupos de factores lingüísticos y extralingüísticos. Al
mismo tiempo, las probabilidades representan el comportamiento general de una comunidad
a propósito de ciertos fenómenos, aunque solo se hayan recogido los usos lingüísticos de
algunos hablantes.
El uso exclusivo de las frecuencias relativas (%) en la descripción sociolingüística
limita enormemente el alcance de las conclusiones del análisis e incluso puede conducir a
interpretaciones erróneas. Veamos un ejemplo creado por David Sankoff (1988).
Supongamos que estamos analizando la presencia o la ausencia de una marca de plural
teniendo en cuenta la clase de palabras en la que aparece o no aparece (adjetivos,
determinantes, nombres) y las funciones gramaticales de los sintagmas en los que se dan esas
palabras (objeto, sujeto). La Tabla 1 recoge los casos de expresión de la marca en las
condiciones previstas.
Objetos Sujetos Total_____

Adjetivos 6/10 = 60% 10/10 = 100% 16/20 = 80%
Determinantes 3/10 = 30% 7/10 = 70% 10/20 = 50%
Nombres 0/10 = 0% 4/10 = 40% 4/20 = 20%
__________________________________________________________
Total: 9/30 = 30% 21/30 = 70%
Tabla 1.- Frecuencias (absolutas y relativas) de presencia de una marca de plural según la
clase de palabras y la función gramatical. Totales válidos.

En esta tabla se indican los casos de presencia de la marca (aplicaciones) sobre un total de
apariciones posibles. Así, encontramos la marca de plural en seis de los diez casos de
adjetivos en sintagmas con función de objeto recogidos en los materiales; en tres de los diez
casos de determinantes en sintagmas con función de objeto y no la encontramos en ninguno
de los diez casos de nombres con esta misma función. La suma de los totales marginales, en
unos datos como estos, nos da una imagen real de cómo funciona la variación de plural: la
aparición de la marca viene claramente determinada por la función de sujeto y por la clase de
los adjetivos.
Ahora bien, hay que tener en cuenta que en las intersecciones de “categoría” y
“función” encontramos un mismo número de apariciones posibles del morfema (diez),
hecho que casi nunca se da en los materiales de carácter sociolingüístico. Lo normal es que
ese número varíe de forma notable y que la distribución de los datos no sea tan uniforme. La
Tabla 2 representa un ejemplo paralelo al anterior, en el que no coincide el número de
posibles aplicaciones por categoría y función, aunque las frecuencias relativas parciales sean
las mismas.
Objetos Sujetos Total_____

Adjetivos 42/70 = 60% 10/10 = 100% 52/80 = 65%
Determinantes 3/10 = 30% 49/70 = 70% 52/80 = 65%
Nombres 0/10 = 0% 76/190 = 40% 76/200 = 38%
_________________________________________________________
Total: 45/90 = 50% 135/270 = 50%
Tabla 2.- Frecuencias (absolutas y relativas) de presencia de una marca de plural según la

7
clase de palabras y la función gramatical. Totales inadecuados para el análisis.

En este caso, las frecuencias relativas totales no dan una imagen adecuada del
comportamiento variable del fenómeno, porque podríamos interpretar que el hecho de que
el morfema se utilice en una secuencia con función de sujeto o de objeto es absolutamente
indiferente. Pero, aun cuando los datos estén homogéneamente distribuidos, podemos
encontrar situaciones en las que los totales no son válidos para el análisis. Esto ocurre en la
Tabla 3.
Objetos Sujetos Total_____

Adjetivos 9/10 = 90% 7/10 = 70% 16/20 = 80%
Determinantes 0/10 = 0% 10/10 = 100% 10/20 = 50%
Nombres 0/10 = 0% 4/10 = 40% 4/20 = 20%
_________________________________________________________
Total: 9/30 = 30% 21/30 = 70%
Tabla 3.- Frecuencias (absolutas y relativas) de presencia de una marca de plural según la
clase de palabras y la función gramatical. Interacción de factores independientes.

Aquí comprobamos que los totales marginales coinciden con los de la Tabla 1. Pero
tampoco haríamos una interpretación adecuada si no prestáramos atención a la forma en
que están distribuidas las frecuencias parciales. Observamos, efectivamente, que la clase de
los adjetivos y la función de sujeto favorecen la aparición de la marca, sin embargo también
se aprecia que nuestros dos grupos de factores están interactuando, es decir, ofrecen una
información solapada, porque los adjetivos sólo admiten la marca cuando van en función de
objeto, y los determinantesy los nombres sólo favorecen la aplicación de la marca cuando
pertenecen a un sujeto. Los factores no tienen efectos independientes.
De todo ello se desprende que, para conseguir unos valores generales capaces de
indicar hasta qué punto unos factores u otros favorecen la aplicación de un elemento, hay
que recurrir a procedimientos matemáticos más seguros y complejos, como, por ejemplo, el
análisis probabilístico (Moreno Fernández 1990a: 149-151).
Los avances técnicos de la sociolingüística han respondido básicamente a una
búsqueda del modelo estadístico más adecuado para analizar un rasgo lingüístico cuya
variación depende de unos factores lingüísticos y extralingüísticos. Estos avances se han
dado principalmente entre 1969 y 1978. Los progresos matemáticos han ido acompañados
de la creación de programas informáticos que han aplicado los cálculos estadísticos. El
nombre genérico con que se conocen tales programas es VARBRUL. Las sucesivas
versiones han ido mejorando y adaptándose a las necesidades de cada momento, desde 1971
(primer VARBRUL) hasta 1990 (GOLDVARB 2.0).
La bibliografía sociolingüística cuenta con varios estudios en los que se da cuenta de
los modelos estadísticos y los programas informáticos que se han manejado. Los modelos
han sido, por este orden, el modelo aditivo (Labov 1969), el modelo multiplicativo (Cedergren y
Sankoff 1974) y los modelos logísticos (Sankoff 1975; Rousseau y Sankoff 1978). Los programas
utilizados han sido VARBRUL (Cedergren 1973), VARBRUL 2 (Sankoff 1975; Sankoff y
Thibault 1977; Labov y Labov 1978), VARBRUL 2S (Poplack 1979), VARBRUL 2S para
PC (Pintzuk 1986) y VARBRUL 3 (Rousseau y Sankoff 1978a; Rousseau 1989). Para
Macintosh, GOLDVARB 1.6 (Rand y Sankoff 1989) y GOLDVARB 2.0 (Rand y Sankoff
1990).
Dado que pretendemos ofrecer un “estado de la cuestión” actualizado, parece
preferible tratar con mayor detenimiento el modelo y los programas que hoy tienen más
difusión y remitir a los estudios pertinentes para conseguir información sobre las etapas

8
anteriores (Moreno Fernández 1988: 111-126; López Morales 1993).

1.4. El modelo estadístico.
El modelo estadístico con el que trabaja el variacionismo desde 1975 es el modelo
logístico de regresión, cuya segunda versión fue presentada en 1978 por Pascale Rousseau y
David Sankoff. Antes de comentar cuáles son sus características generales, creemos
necesario hacer algunas advertencias.
Hasta el momento, las explicaciones más detalladas que se han dado de este modelo
proceden, como es lógico, de sus creadores. Sankoff y Rousseau son investigadores de
formación matemática que han dedicado una parte muy importante de su trabajo a las
aplicaciones con fines lingüísticos. Ahora bien, estos autores no han dado las explicaciones
con la intención de que los sociolingüistas aprendan matemáticas o puedan calcular por ellos
mismos unas probabilidades de significación sociolingüística: han buscado la comprensión
general del modelo. Ni siquiera la publicación más “pedagógica” de este campo (Sankoff
1988) permite al lingüista seguir con facilidad los argumentos matemáticos. El modelo se ha
descrito para su comprensión y la de los resultados que proporcionan los programas
informáticos correspondientes, pero poco más: se ha dado prioridad al qué y al para qué
sobre el cómo.1
El modelo logístico estima la probabilidad de que un fenómeno variable se
manifieste en una de sus formas cuando concurren simultáneamente unas determinadas
condiciones. Para llegar a aplicar esto, es necesario tener en cuenta diversas informaciones.
En primer lugar, se necesita saber, a propósito de cada factor, cuántas veces se ha
manifestado — se ha aplicado — en relación con los casos posibles. Este dato se consigue
mediante el simple recuento de las frecuencias absolutas y el cálculo de las relativas. En la
Tabla 4 se muestran unos datos de aspiración de /s/ implosiva en lengua española cuando
en el contexto fónico siguiente aparece una consonante sorda (s), una consonante sonora
(n), una vocal (v) o pausa. Consideramos casos de aplicación (AP.) los que corresponden a la
variante aspirada; los casos de no aplicación (NO AP.) son los que no corresponden a la
aspiración.2
GRUPO AP. % NO AP. % TOTAL %
s 597 41 872 59 1469 42
n 358 51 349 49 707 20
v 56 9 567 91 623 18
p 59 8 657 92 716 20
_______________________________
Total 1070 30 2445 70 3515
Tabla 4.- Frecuencias de aspiración de /s/ implosiva, según contexto fónico siguiente.3

En la Tabla 5 se muestran unos datos de aspiración de /s/ implosiva recogidos en seis
hablantes. Aquí también consideramos casos de aplicación (AP.) los correspondientes a la
variante aspirada.

GRUPO AP. % NO AP. % TOTAL %
1 140 20 564 80 704 20
2 246 45 306 55 552 16
3 266 51 253 49 519 15
4 86 15 503 85 589 17
5 149 23 498 77 647 18
6 183 36 321 64 504 14
_______________________________ _
Total 1070 30 2445 70 3515
Tabla 5.- Frecuencias de aspiración de /s/ implosiva, según hablantes.

9
Una vez contados los casos particulares en que se manifiesta un factor, hay que
averiguar, de nuevo mediante un recuento, con qué frecuencia se da ese fenómeno cuando
coinciden varios factores explicativos. En nuestros ejemplos sobre la aspiración de /s/
según el contexto siguiente y el hablante, se trata de averiguar cuántas muestras de aspiración
se dan en el hablante 1 cuando el contexto siguiente es una consonante sorda, cuando es una
consonante sonora, ...y así sucesivamente con cada hablante y tipo de contexto.
Estos cruces de información dan lugar a la creación de celdas (puntos de
intersección de los factores) ocupadas por unas frecuencias. La Tabla 6 recoge las celdas
posibles de nuestro ejemplo, con indicación del número de aspiraciones que se encuentra en
cada una de ellas (AP.) y de su frecuencia relativa. Ésta es la configuración interna de los
materiales recogidos.

Tabla 6.- Frecuencias absolutas y relativas de aspiración de /s/ implosiva (AP.), según
contexto fónico siguiente (s, n, v, p) y hablante (1, 2, 3, 4, 5, 6).

Los datos de aspiración de /s/ implosiva así presentados parecen suficientes para
hacer un buen análisis, sin embargo no nos dicen qué importancia, qué peso tiene cada uno
de los factores de nuestros grupos, al coincidir con los demás, para determinar cada una de
las frecuencias. Así, en la primera celda tenemos 62 casos de aspiración de /s/ implosiva
recogidos en el hablante 1 y ante consonante sorda; con los datos de que disponemos no
podemos saber cuántos de esos casos se deben principalmente al hecho de pertenecer a tal
informante y cuántos se deben principalmente al hecho de que el fonema va ante
consonante sorda. Para conocer este extremo hay que crear un “modelo teórico” que nos
indique la probabilidad de que aparezca la aspiración en cada una de las circunstancias
previstas, teniendo en cuenta sus posibles combinaciones o cruces.
El “modelo teórico” de la sociolingüística de un fenómeno está formado por un
conjunto de probabilidades, no de frecuencias. La probabilidad de que aparezca un rasgo
lingüístico determinado se consigue mediante un cálculo de regresión, que combina las
probabilidades de que una variante se dé en cada circunstancia específica (factores i, j, ...)
con un valor constante (p0). Las probabilidades específicas se calculan a partir de las

10
frecuencias del “modelo observado”. p0, denominada también input, probabilidad de input, efecto
medio o media corregida, se consigue a partir de una media del peso de los diferentes grupos de
factores, que, a su vez, es proporcional al número de datos asociado a cada factor.4 El
recurso utilizado por el variacionismo con esta finalidad se denomina modelo logístico.

Figura 1.-Modelo logístico (Rousseau y Sankoff 1978).

Esta fórmula es el fruto del perfeccionamiento que ha conocido el análisis de la
variación a lo largo del tiempo. Por un lado, permite obtener unos valores “teóricos” o
“esperados” que no sobrepasan nunca los límites del 0 % y del 100% (0 y 1 en términos de
probabilidades). Por otro lado, la relación que se establece, dentro del “modelo teórico”,
entre los casos de aplicación y los de no aplicación es siempre simétrica: la probabilidad de
que aparezca un rasgo lingüístico variable (p = aplicación) siempre es complementaria de la
probabilidad de que no aparezca (1-p = no aplicación). Finalmente, tiene la virtud de reunir
todos los aspectos positivos de los diferentes modelos usados por la sociolingüística.5
En estadística es muy frecuente la utilización de ciertas técnicas para contrastrar
hipótesis y para conocer si la distribución interna de unos datos se debe a factores
accidentales o a errores. La hipótesis de partida en esta clase de análisis se denomina
“hipótesis nula”, según la cual ninguno de los factores estudiados tendría un efecto
sistemático sobre la aparición de un fenómeno. La creación de un “modelo teórico” sirve
para probar si la disposición de unos datos se debe al azar o se explica realmente por la
influencia de ciertos factores. Se trata, por lo tanto, de demostrar que la hipótesis nula es
falsa y que los factores analizados tienen algún poder de determinación, mayor o menor,
según los casos.
La sociolingüística variacionista utiliza una prueba para conocer hasta qué punto son
significativos los parámetros del “modelo teórico”, esto es, la bondad del ajuste entre el
modelo y los datos: la función de laverosimilitud (“likelihood”). La medida de ese ajuste se
consigue con los valores correspondientes al efecto que tiene cada factor sobre el rasgo
lingüístico estudiado. Según Sankoff (1988: 990), el principio de la máxima verosimilitud
proporciona una estimación de los efectos de los factores que consiste en elegir el conjunto
de valores que más probablemente ha generado los datos: el valor máximo de la función de
verosimilitud. Este principio puede tener aplicación en muy diversos campos. En medicina,
por ejemplo, permitiría seleccionar, entre todas las posibles causas del cáncer de pulmón,
cuál es la combinación de factores que debe ser considerada como la que más favorece la
enfermedad; en economía, ayudaría a conocer la probabilidad de ser o no ser un
desempleado en función de una serie de características individuales o sociales.
La verosimilitud es el producto de unos valores conseguidos para cada uno de los
factores, de la forma que se refleja en la Figura 2.

11
Figura 2.- Cálculo de la verosimilitud para cada factor.

donde pap. es la probabilidad de que un contexto haya influido sobre una variante lingüística,
elevada al número de aplicaciones (ocurrencias) en ese contexto, y (1 — p)~ap. es la
probabilidad de que un contexto no haya influido sobre una variante,6 elevada al número de
no aplicaciones en ese contexto. Laverosimilitud está relacionada, por tanto, con las
probabilidades calculadas para cada factor y estas probabilidades se obtienen mediante un
proceso de aproximación sucesiva (iteraciones), que conducen a la solución más exacta
(convergencia) y con una mayor verosimilitud.7
Así pues, la verosimilitud sirve tanto para indicar cuáles son las probabilidades más
adecuadas para los factores de un grupo, como para determinar cuál es la combinación de
factores que mejor se corresponde con los datos. Al comparar varias verosimilitudes, es
mejor aquella que tiene un valor más cercano a 0.

1.5. Recapitulación.
La sociolingüística variacionista ha dedicado una parte importante de sus esfuerzos al
perfeccionamiento de unas técnicas cuantitativas de análisis, encaminadas a determinar la
importancia de los contextos lingüísticos y socio-situacionales sobre la variación lingüística.
El método propuesto se denomina análisis probabilístico. Aunque el variacionismo
norteamericano siempre ha hecho sus consideraciones teóricas y metodológicas desde
posiciones cercanas al generativismo, lo cierto es que algunos de sus conceptos
fundamentales son difíciles de conciliar. Por otra parte, el análisis probabilístico se ha
convertido en una herramienta de estudio susceptible de ser utilizada desde diversos marcos
teóricos.
El método variacionista busca el cálculo de la probabilidad de que aparezca un rasgo
lingüístico determinado en unas circunstancias lingüísticas, sociológicas y contextuales
determinadas. A partir de los datos de frecuencia recogidos en un grupo de hablantes, se
crea un modelo teórico formado por las probabilidades de que se dé un fenómeno cuando
concurren diversas circunstancias. La estadística se encarga de precisar hasta qué punto las
probabilidades calculadas son verosímiles y cuáles son las circunstancias que, al darse
simultáneamente, pueden explicar mejor un hecho lingüístico.

2.- Informática y sociolingüística.

2.1. Los programas VARBRUL.
Sólo con tener en cuenta el cálculo de la verosimilitud, sería patente la necesidad de
usar medios informáticos para el análisis sociolingüístico. Esos medios los proporcionan los
programas VARBRUL. Existen en el mercado muchos programas estadísticos capaces de
realizar análisis similares a los que hacen los VARBRUL, pero estos últimos están
especialmente preparados para trabajar sobre unos datos como los que aparecen en la
variación lingüística y, además, presentan los resultados de una forma adecuada a los
intereses de los lingüistas (Sankoff 1988: 990-991).
Los programas de la familia VARBRUL no están comercializados y se consiguen de
forma gratuita de los propios autores o de otros investigadores que los aplican
habitualmente. En la actualidad se hacen los análisis con las versiones que aplican el modelo
logístico: VARBRUL 2, VARBRUL 2s, VARBRUL 3 y GOLDVARB 2.0. De todos ellos,
los más utilizados son VARBRUL 2s y GOLDVARB 2.0, debido a que son versiones para
ordenadores personales: el primero para IBM-PC o VAX y el segundo para Macintosh.

12
VARBRUL 2 tiene el inconveniente de ser un programa para macro-computadoras
— lo que lo hace menos accesible para algunos investigadores — y de no ofrecer
información que sí presentan otras versiones: por ejemplo, la función de verosimilitud de
cada una de las combinaciones de factores analizadas. En algunos aspectos, VARBRUL 2
ofrece ciertas ventajas. Esto ocurre a la hora de introducir los datos en el ordenador: el
programa no necesita que se le especifiquen cuáles son los grupos de factores analizados; tan
sólo hay que anotar cuántos casos de un rasgo lingüístico están asociados a los diversos
factores explicativos: en el ejemplo sobre la aspiración de /s/ implosiva, cuántos casos de
aspiración se dan en el informante 1 ante consonante sorda, ante sonora, ante vocal, ante
pausa, en el informante 2 ante sorda, sonora, etc. Naturalmente, esos datos han sido
contados antes de forma manual. El ordenador se encarga de reunir los factores de tal
manera que no puedan aparecer en un mismo contexto dos factores pertenecientes a un
mismo grupo; en otras palabras, se ocupa de encontrar a qué grupo pertenece cada factor
para aplicar, después, el modelo estadístico ya comentado.
VARBRUL 3 comparte con la versión 2 el inconveniente de estar preparado para
macro-computadoras, pero ofrece unas ventajas que lo convierten en la mejor y más
completa versión de la familia. Sin embargo, este programa tiene todavía una difusión muy
limitada.
La principal desventaja que ofrece GOLDVARB 2.0 respecto de VARBRUL 2S y
VARBRUL 3 está en que el primero realiza solamente análisis binomiales, mientras que los
últimos pueden hacer análisis multinomiales. Esto quiere decir que GOLDVARB sólo
puede considerar como valores de aplicación los procedentes de uno de los factores de la
variable dependiente, frente a los valoresde no aplicación, que corresponderían a una o más
variables explicativas. VARBRUL 2S y 3 pueden considerar como valores de aplicación los
pertenecientes a más de un factor dependiente, y esto permite estudiar mejor las relaciones
entre los factores que componen un grupo dependiente, cuando son más de dos. En el caso
de VARBRUL 3, se añaden otras ventajas —rapidez, capacidad de admisión de datos,
número de variables explicativas— que comentaremos después. Desde luego, cuando esta
última versión cubra su etapa experimental, será, sin duda, de obligada aplicación en el
variacionismo, aunque tenga que manejarse en centros de cálculo.
Poniendo en una balanza los pros y los contras, podemos decir que hoy día los
mejores programas para el análisis sociolingüístico son VARBRUL 2S Y GOLDVARB 2.0.
El primero fue creado por David Sankoff, mejorado en la Universidad de Pennsylvania y
preparado para IBM-PC por S. Pintzuk. El segundo está basado en programas de Sankoff,
Rousseau, Hindle y Pintzuk y fue adaptado para Macintosh por David Rand. En estas dos
versiones nos centraremos, explicando, en primer lugar, las características comunes y, más
adelante, sus respectivas peculiaridades.

2.2. Objetivos de los programas VARBRUL.
Hay que saber, desde un primer momento, que la aplicación de un análisis
sociolingüístico a menudo no es un proceso lineal del tipo “codificación de datos >
introducción de datos en el ordenador > análisis > interpretación de resultados”, sino que la
fase final exige muchas veces repetir algunos de los pasos anteriores. La causa de esto reside
en que no todos los conjuntos de datos han sido recogidos de la misma forma ni tienen la
misma distribución interna. Después de un primer análisis podemos descubrir algunos
detalles que desconocíamos al empezar la investigación. Lo importante no es aplicar un
programa informático, sino conseguir la mayor cantidad de información posible sobre el
rasgo lingüístico convertido en objeto de estudio.
La aplicación de los programas de análisis probabilístico tiene los siguientes

13
objetivos generales (Rousseau y Sankoff 1978a: 59-60):

1º.- Calcular la probabilidad de que un hecho variable se manifieste de una forma concreta
en un contexto determinado (lingüístico y extralingüístico), es decir, cuando una serie de
factores explicativos aparecen conjuntamente.
2º.- Decidir hasta qué punto da cuenta un “modelo teórico” de los datos recogidos y
determinar si los datos pueden ser divididos en varios subconjuntos que respondan a
modelos diferentes.
3º.- Comprobar si los grupos de factores contribuyen significativamente a explicar los datos
o si deben ser desestimados.8
4º.- Determinar la fiabilidad de los análisis.
Un análisis de naturaleza sociolingüística ha de proporcionar una información
concreta sobre cada uno de los objetivos generales. Todos ellos son importantes, porque
contribuyen a dar seguridad al investigador sobre la calidad de su estudio. Las conclusiones
que se deriven de esta información pueden obligar a reconsiderar las diversas etapas de la
investigación, desde la forma en que se ha seleccionado la muestra de hablantes y se ha
elegido el objeto de estudio, hasta el avance que puede suponer para el conocimiento de un
fenómeno. No obstante, excepto aquello que afecte a la recogida misma de los materiales,
prácticamente todos los problemas que surgen en el proceso analítico pueden ser tratados
— y en muchos casos solucionados — trabajando sobre la información disponible en el
ordenador. Es posible, por ejemplo, agrupar variables explicativas que en principio se habían
tratado de forma separada, prescindir de datos que se han revelado como inadecuados o
realizar análisis parciales para tener un conocimiento más profundo de algún aspecto.
El investigador debe poner un especial cuidado en valorar adecuadamente las
estimaciones de fiabilidad que proporciona el programa en cada fase del análisis. Solo así
puede saberse si las conclusiones obtenidas tienen solidez o si los materiales — datos y
análisis — deben sus características al azar. El sociolingüista tiene que estar seguro de que, al
realizar el mismo análisis con datos similares, los resultados prácticamente se van a repetir.
En esta seguridad descansa la comparabilidad de los estudios que se realicen sobre el mismo
fenómeno en comunidades de habla diferentes.

2.3. Manejo de los programas VARBRUL para ordenadores personales.
La aplicación de los programas VARBRUL 2s y GOLDVARB 2.0 tienen en común
muchos aspectos. En ambos casos hay que recorrer tres etapas antes de proceder al análisis
probabilístico propiamente dicho:

1º.- Introducción de los datos (tokens) y especificación de factores.
2º.- Especificación de condiciones.
3º.- Creación de celdas.

2.3.1. Introducción de los datos.
Los datos con los que trabajan estos programas consisten en una lista de
“secuencias” (tokens) donde queda reflejada la manifestación concreta de cada una de las
muestras encontradas en los materiales sociolingüísticos, con los rasgos lingüísticos y
extralingüísticos que configuran su contexto. Los datos se disponen, pues, de uno en uno,
caso a caso, en forma de lista.
Los factores que integran los distintos grupos deben establecer entre sí una relación
de escala nominal, preferentemente; esto es, cada variante recibe una etiqueta, sin que ello
implique un orden determinado (Moreno Fernández 1990a: 125-126). Cuando los factores

14
tienen un orden interno,9 el análisis puede plantear unos problemas que explicaremos más
adelante (Rousseau y Sankoff 1978a: 64).
Para introducir los datos en los programas es imprescindible atribuir a cada factor de
cada grupo un código específico de un carácter (número o letra, mayúscula o minúscula).10
En un caso como el de la aspiración de /s/ implosiva que antes hemos presentado,
podemos atribuir los siguientes códigos:

Grupo de factores dependiente :
- /s/ implosiva: [s] = 2; [h] = 1; ø = 0.

Grupos de factores explicativos:
- Contexto fónico siguiente: ante consonante sorda = s; ante consonante sonora = n; ante
vocal = v; ante pausa = p.
- Hablante: hablante 1 = 1; hablante 2 = 2; hablante 3 = 3; ... etc.11

En el ejemplo de la marca de plural, que utiliza David Sankoff para explicar el
funcionamiento de GOLDVARB, se atribuyen los siguientes códigos:

Grupo de factores dependiente:
- Marca de plural: aparición de marca de plural = 1; no aparición de marca de plural = 0.

Grupos de factores explicativos:
- Clase de palabra en la que puede aparecer la marca de plural: adjetivo = a; nombre = n;
determinante = d.
- Función del sintagma en el que puede aparecer la marca: sujeto = s; objeto = c.

Siguiendo este sistema de codificación, podemos representar en una secuencia de
tres caracteres — o más, dependiendo del estudio — los factores que concurren en cada uno
de los datos. Las secuencias se disponen en forma de lista en una parte del programa que
tiene las mismas características que un programa de tratamiento de textos y de la que
daremos algún detalle más abajo. Cada una de las secuencias debe ir precedida de un
paréntesis, que indica al ordenador que lo que va después de él es un dato que ha de ser
analizado. Tras el paréntesis, el primer carácter debe ser siempre un factor del grupo
dependiente. La secuencia debe ir seguida de una marca de fin de línea (retorno manual) o
de un espacio.

SECUENCIA DE CÓDIGOS PARA CADA DATO:

([código de factor dependientex] [código de factor explicativo i]
[código de factor explicativoj]... [código de factor explicativon]
fin de línea/espacio

En los ejemplos de marca de plural y de /s/ implosiva, los datos tendrían una
disposición como esta:

15
_________________________________________________________________
DATOS DE MARCA DE PLURAL DATOS DE /S/ IMPLOSIVA
(1as (2p1
(1as (2n1
(1as (1s2
(1ds (1n2
etc.
_________________________________________________________________Figura 3.- Disposición de los datos.

Al preparar los datos correspondientes a los distintos grupos, es posible hacer uso
del signo ‘.’ (punto) como si fuera un factor. Suele utilizarse, por ejemplo, cuando hay una
muestra, un contexto, etc. que no se ajusta estrictamente a los factores previstos o cuando se
piensa que un determinado dato puede ser considerado como cualquiera de los factores del
mismo grupo, según las circunstancias.
Los datos siempre deben cumplir dos requisitos mínimos para poder ser analizados:
cada grupo ha de incluir al menos dos factores (no se puede analizar un fenómeno
teóricamente variable cuando sólo se han recogido muestras de una de las variantes);
además, los datos tienen que incluir al menos un caso para cada uno de los factores
explicativos previstos (no se puede analizar el factor “ante pausa” si no hay ningún caso de
mantenimiento de /s/, de aspiración o de pérdida en ese contexto).
A la hora de introducir los datos no es imprescindible que la lista de secuencias
responda exactamente al orden en que los datos han aparecido en los textos transcritos, pero
se ha de respetar estrictamente el orden de los factores dentro de cada secuencia. La lista de
datos, dependiendo del fenómeno analizado, puede incluir unas decenas, unos centanares o
varios miles de secuencias. Aunque la introducción de esos datos lleva algún tiempo, este
puede acortarse notablemente si se cuenta manualmente el número de secuencias idénticas y
se trasladan al ordenador mediante las funciones de activar, copiar y mover bloques.12
Además de los datos codificados, el ordenador necesita saber cuántos son los grupos
de factores que van a ser analizados y cuáles son los factores válidos dentro de cada grupo.
Para ello es necesario cumplimentar una “especificación de factores” — veremos más
adelante el modo de hacerlo—, gracias a la cual el programa puede identificar cualquier dato
erróneo o que no se ajuste a lo previsto. Al especificar los factores, también hay que indicar
al ordenador cómo ha de leer el signo ‘.’ dentro de los datos: se trata de atribuir un “valor
por defecto”. Si queremos que sea leído como alguno de los otros factores, se especifica el
código correspondiente. Si simplemente se quiere eliminar esa información, se especifica el
código ‘/’ (barra inclinada), que significa ‘no se aplica’.

2.3.2. Especificación de condiciones.
Una vez introducidos los datos y especificados los factores, hay que cubrir la
segunda etapa: señalar al ordenador qué condiciones debe tener en cuenta para leer los
datos. Esta información ya se ha proporcionado en parte mediante la “especificación de
factores”; esto es, el ordenador ya sabe cuántos grupos de factores hay y qué factores
conforman cada grupo, pero desconoce, por ejemplo, cuál será considerado como
dependiente y cuáles como explicativos o independientes.
Las condiciones del análisis se especifican en un archivo creado especialmente para
ello (en los epígrafes dedicados a cada programa explicaremos el modo de crear ese archivo).
Si el investigador desea hacer su análisis con las condiciones marcadas en la “especificación
de factores” — pongamos como ejemplo el de la aspiración de /s/ implosiva — creará un

16
archivo con la forma reproducida en la Figura 4.
__________
(
(1)
(2)
(3)
)
__________
Figura 4.- Disposición de un archivo de condiciones.

Con esto se está diciendo que se van a analizar los tres grupos previstos y que el que
aparece en primer lugar (1) será la variable dependiente y los demás, las explicativas. Los
datos, por tanto, no se van a recodificar. La forma de dar esta información responde a un
sistema lógico llamado LISP. Cada una de las partes de un archivo de condiciones — la lista
completa de condiciones, cada elemento de la lista — debe ir entre parántesis. En la Figura
4, además de los paréntesis aparecen simplemente los números de los grupos de factores.
Ahora bien, el desarrollo del análisis puede revelar la necesidad de interpretar las
secuencias de datos iniciales (tokens) de una manera diferente: por ejemplo, fundir dos
factores de un grupo en uno solo, no tener en cuenta un factor determinado, prescindir de
un grupo de factores completo o, incluso, elegir otro grupo dependiente. Todo esto se
puede hacer desde un archivo de condiciones sin tener que alterar para nada la lista de
secuencias. En tal circunstancia, ese fichero servirá para recodificar las secuencias
automáticamente.
Para lograr una recodificación, el sistema LISP cuenta con cinco elementos básicos:
“AND”, “OR”, “NOT”, “COL” y “ELSEWHERE” (escritos con mayúsculas o con
minúsculas). Los tres primeros son unos operadores lógicos muy conocidos: “AND” y
“OR” toman hasta 20 argumentos; “NOT” tiene un solo argumento. Por su parte, “COL”
‘columna dentro de lista de secuencias’ se usa con dos argumentos: el número de un grupo
de factores y el código del factor que se va a recodificar. “ELSEWHERE” se utiliza como
último elemento dentro de un conjunto de cláusulas referidas a un grupo de factores y sirve
para recodificar los datos con un valor determinado, si no se encuentra ninguna de las
condiciones dadas previamente para ese grupo. La información referida a un grupo que
aparezca detrás de este operador no se tiene en cuenta para la recodificación. Además de
estos elementos, el sistema LISP utiliza “NIL” que indica la exclusión en el momento del
análisis del factor o los factores (argumentos) que lo acompañan.
En la Figura 5 se ofrece un ejemplo sencillo de archivo de condiciones dispuesto
para conseguir una recodificación. Supongamos que al hacer un primer análisis de la
aspiración de /s/ implosiva hemos observado que no es aconsejable, por las características
de los datos recogidos, mantener una distinción entre consonantes sordas y consonantes
sonoras para el contexto fónico siguiente y que tendría más sentido distinguir simplemente
entre consonantes, vocales y pausa. En ese caso hay que hacer que el ordenador considere
los datos referidos a las sordas y a las sonoras como elementos de una misma categoría. Para
ello se redactaría un archivo como el de la Figura 5.

(
(1)
(2 (c (COL 2 s))
(c (COL 2 n))
(v (COL 2 v))
(p (COL 2 p)))
(3)
)
_______________
Figura 5.- Disposición de un archivo de condiciones dispuesto para la recodificación
(muestra sencilla).

Obsérvese que el conjunto de la información y cada uno de sus componentes se
encierran entre paréntesis. Con este archivo estamos diciendo lo siguiente:
1º.- Que el grupo 1 será dependiente y que no se tienen que recodificar sus factores; los
demás grupos serán explicativos.
2º.- Que los factores del grupo 2 se tienen que recodificar de la siguiente forma: se va a leer
como “c” (consonante) lo que en la columna 2 de las secuencias (tokens) aparezca como “s”
(consonante sorda); también se va a leer como “c” lo que en la columna 2 aparezca como
“n” (consonante sonora); se va a seguir leyendo como “v” (vocal) lo que en la columna 2
aparece como “v”; y se va a seguir leyendo como “p” (pausa) lo que en la columna 2 aparece
como “p”.
3º.- Que los factores del grupo 3 no se tienen que recodificar.
Aunque nuestro ejemplo es bastante sencillo, las posibilidades de recodificación con
el sistema LISP son muy amplias, como se puede comprobar en una muestra que
proporcionan Rand y Sankoff (1990) para unos grupos de factores más complejos y que
reproducimos parcialmente en la Figura 6.

_________________________________
(
(4 (d (OR ( (COL 4 d) (COL 4 c)))
(s (ELSEWHERE)))
(5)
(3 (/ (OR (COL 3 s) (COL 3 t) (COL 3 u)))
(m (OR (OR (COL 3 n) (COL 3 h))
(OR (COL 3 1) (COL 3 2) (COL 3 3) (COL 3 w) (COL 3 u)
(COL 3 y) (COL 3 p) (COL 3 t) (COL 3 r) (COL 3 x))))
(x (AND (OR (COL 3 n) (COL 3 h)) (COL 7 n)))
(NIL (ELSEWHERE)))
)
___________________________________________

Figura 6.- Archivo de condiciones con recodificación (muestracompleja).

El desarrollo de la información contenida en este archivo podría ser el siguiente:
1º.- Considera el grupo 4 como dependiente y los demás como explicativos.
2º.- Recodifica el grupo 4 de esta forma: lee como “d” bien lo que en la columna 4 de las
secuencias (tokens) aparece como “d”, bien lo que en la columna 4 aparece como “c”, y lee
como “s” todo lo demás.
3º.- El grupo 5 no se recodifica.
4º.- Recodifica el grupo 3 de esta forma: no se aplica, bien lo que en la columna 3 aparece
como “s”, bien lo que aparece como “t” o bien lo que aparece como “u”; lee como “m”, por

18
un lado, bien lo que en la columna 3 aparece como “n” o bien lo que en la columna 3
aparece como “u” o, si no, bien lo que en la columna 3 aparece como “1” o como “2” o
como “3” o como “w” o como “u” o como “y” o como “p” o como “t” o como “r” o
como “x”; lee como “x” lo que en la columna 3 aparece, bien como “n”, bien como “h” y lo
que en la columna 7 aparece como “n”; por último, no se aplica todo lo demás que aparezca
en las secuencias de este grupo.
Como se puede apreciar, si la recodificación que se quiere hacer afecta seriamente a
la disposición inicial de las secuencias de datos, la elaboración de un archivo de condiciones
puede ser algo complicada, entre otras cosas porque los olvidos de los paréntesis se
producen con más frecuencia de la deseada. De cualquier modo, la redacción de unas
condiciones que incluyan recodificación siempre es menos trabajosa que la rectificación
manual de las secuencias de datos. Como veremos, el programa GOLDVARB 2.0 es capaz
de crear de forma automática este tipo de archivos, lo que libera al sociolingüista de un
trabajo ciertamente engorroso. En VARBRUL 2S la redacción en LISP no es automática.

2.3.3. Creación de celdas.
La creación de celdas se consigue con el recuento de la frecuencia hallada en la
intersección de dos factores de grupos diferentes. Para hacer esto es imprescindible la
información que se aporta en las secuencias de datos y en los archivos de condiciones. De
hecho, estos últimos determinan cuántas celdas se van a construir y qué datos van a formar
parte de cada una de las frecuencias.
Desde el punto de vista del sociolingüista, la fase de creación de celdas puede ser
considerada como un trámite informático, puesto que la resuelve el ordenador
automáticamente, una vez que conoce sobre qué archivos de datos y de condiciones tiene
que realizar los cómputos. No obstante el investigador debe señalar previamente —ya
explicaremos en qué lugar — cuál de los factores del grupo dependiente es el que se va a
analizar (aplicar).
Al especificar qué factor o factores son pertinentes para la construcción de las celdas,
también hay que decidir si se quiere hacer un análisis binomial o multinomial. Este último
sólo se puede considerar en el caso de trabajar con VARBRUL 2S, puesto que
GOLDVARB 2.0 no está preparado para ello. Si el sociolingüista trabaja con un grupo
dependiente compuesto por cuatro factores (“1”, “2”, “3” y “4”) las posibilidades de análisis
que tiene son las siguientes:
a) Análisis binomial: considerar “1” como valor de aplicación y “2”, “3” y “4” como valores
de no aplicación.
b) Análisis binomial: considerar “1” como valor de aplicación, “2” como valor de no
aplicación y omitir “3” y “4”.
c) Análisis trinomial: analizar conjuntamente “1”, “2” y “3” y omitir “4”.
En el ejemplo sobre el comportamiento de /s/ implosiva (grupo dependiente con
tres factores), sería posible analizar el mantenimiento de la sibilante frente a la aspiración y a
la pérdida de la consonante, cuyos datos serían considerados como un todo, o la pérdida
frente al mantenimiento y omitir los datos sobre la aspiración o cualquier otra combinación
que se considere oportuna por el carácter del fenómeno lingüístico estudiado.
Cuando el ordenador dispone de toda esta información crea las celdas oportunas y
las reproduce en un archivo. La Figura 7 muestra las celdas correspondientes a la aspiración
de /s/ (aplicación) frente a mantenimiento y pérdida (no aplicación), obtenidas al combinar
dos grupos explicativos (hablante y contexto fónico).

19
_______________
AP. ~AP. Factores
63 82 1n
10 115 1p
62 238 1s
5 129 1v
76 64 2n
5 87 2p
134 88 2s
31 67 2v
66 48 3n
24 83 3p
164 54 3s
12 68 3v
55 58 4n
6 137 4p
21 201 4s
4 107 4v
59 71 5n
6 129 5p
82 189 5s
2 109 5v
39 26 6n
8 106 6p
134 102 6s
2 87 6v
_________________
Figura 7.- Celdas de aspiración de /s/ implosiva (AP.) y de no aspiración (~AP.)

Una vez que las celdas están creadas y cargadas en la memoria del ordenador, se
puede proceder al análisis estadístico de los materiales.

2.4. GOLDVARB 2.0.
El manejo de GOLDVARB 2.0. se ajusta a las etapas que hemos presentado en los
epígrafes anteriores.13 Cada una de estas fases requiere la creación de un archivo específico,
que se van creando y memorizando progresivamente: archivo de secuencias de datos (Tok),
archivo de condiciones (Con) y archivo de celdas (Cel). Por último, se crea un archivo de
resultados (Res) en el que aparecen los recuentos estadísticos y los análisis probabilísticos.
No pretendemos que estas líneas sustituyan las instrucciones del programa, pero
creemos conveniente comentar los aspectos más elementales del manejo. La verdad, no
obstante, es que el uso de este programa es sumamente fácil, porque el ordenador ofrece
para cada fase una “ventana” en la que la información se dispone de forma muy clara.

2.4.1. Archivo de datos.
La primera “ventana” que se abre en la pantalla está preparada para incluir las
secuencias de datos y para especificar los factores que se van a manejar en cada uno de los
grupos de factores. Esta ventana está dividida en dos partes, una para cada uno de los fines
que acabamos de exponer. La parte destinada a recoger las secuencias de datos funciona
realmente como un programa de tratamiento de textos en el que se pueden activar, mover o
borrar bloques. En la parte de “especificación de factores”, se anotan los datos necesarios
en los lugares apropiados para ello, como se observa en la Figura 8.14

Figura 8.- Ventana de archivo de datos (Tok) y de especificación de factores
(GOLDVARB 2.0).

Una vez introducidos los datos, se puede comprobar si están correctamente
dispuestos mediante la función “Check all” que aparece en la ventana de “especificación de
factores” o en la ventana “Tokens” del menú principal del programa.

2.4.2. Archivo de condiciones.
Se crea desde el menú principal (Tokens) y existe la posibilidad de hacerlo sin
recodificación o con recodificación de las secuencias de datos. En el segundo caso, se abre
una ventana destinada a la generación de condiciones (Figura 9).

Figura 9.- Ventana para generación de condiciones con recodificación (GOLDVARB 2.0).

Como ya hemos comentado, las condiciones son redactadas de forma automática

21
mediante el sistema LISP en el archivo que el ordenador crea a tal efecto, aunque es posible
retocarlas o modificarlas manualmente.

2.4.3. Creación de celdas.
En la entrada “Cells” del menú principal se encuentra la orden pertinente para cargar
las celdas en el ordenador a partir de los archivos de datos y de condiciones que se
especifiquen. Antes de que se creen las celdas, proceso que se realiza también
automáticamente, es necesario anotar, en la ventana que se presenta con este fin, cuál o
cuáles van a ser los valores de aplicación y de no aplicación, teniendo en cuenta las
posibilidades explicadas en 2.3.3.
En este programa no existe la posibilidad de realizar un análisis multinomial. De
todas formas, si se necesita considerar dos factores como valores de aplicación y otros dos
como valores de no aplicación, es posible hacerlo mediante una recodificación, al crear el
archivo de condiciones. Por otra parte, cuando contamoscon cuatro factores en el grupo
dependiente, existe la posibilidad de crear celdas como si de un análisis multinomial se
tratase, pero estas sólo servirán para construir “tabulaciones cruzadas” (véase Tabla 6), no
para hacer el análisis propiamente dicho.
Después de que el ordenador haya hecho las celdas — a partir de los valores de
aplicación que se le hayan indicado —, se crea, también automáticamente, un archivo de
resultados en el que se ofrecen las frecuencias absolutas y relativas de los casos de aplicación
para cada grupo explicativo estudiado y para cada uno de sus factores. La información que
se proporciona aquí coincide con la que hemos reproducido en las Tablas 4 y 5. Estos datos
se presentan antes de proceder a los análisis probabilísticos, porque en ellos se hace notar si
los recuentos son adecuados. Si alguno de los grupos contiene un solo factor (“singleton”) o
alguno de los factores muestra una frecuencia de 0% o 100% en los casos de aplicación
(“knockout”), no es posible acceder al análisis de regresión (véase 2.3.1.)

2.4.4. Análisis de regresión.
GOLDVARB 2.0 cuenta con dos posibilidades de análisis probabilístico. A ambas se
accede desde el menú “Cells”: “Binomial, 1 level” y “ Binomilal, Up & Down”. Los
resultados de estos análisis se escriben automáticamente dentro del archivo de resultados, a
continuación de las frecuencias de cada factor.
Cuando se aplica el análisis binomial de 1 nivel, GOLDVARB 2.0 da la siguiente
información:
a) Número de iteraciones que han sido necesarias para encontrar la función de
verosimilitud.15
b) “Input” que se utiliza al aplicar el modelo logístico (véase 1.4)
c) Efecto de cada uno de los factores de cada grupo sobre el factor dependiente (“Weight”).
d) División del número de aplicaciones de cada factor entre el número de casos posibles
(“App/Total”).
e) Probabilidad resultante de combinar el efecto (“weight”) y el “input”.
f) Factores utilizados en la creación de cada celda.
g) Número total de datos por celda.
h) Número de aplicaciones por celda.
i) Valor esperado por celda.
j) Proporción de error por celda.
k) Ji- cuadrado (c2) total .
l) Ji-cuadrado (c2) dividido por el número de celdas.
m) Logaritmo de la función de verosimilitud.

22
n) Diagrama de dispersión, en el que se compara la proporción de casos de aplicación del
factor estudiado en cada una de las celdas, con las probabilidades creadas en el análisis.
Estos dos tipos de valores se relacionan y disponen teniendo como referencia un eje central:
cuando los datos observados se ajustan a las probabilidades del modelo, aparecen situados
cerca del eje. La Figura 10 representa el diagrama de dispersión del mantenimiento de la
sibilancia para /s/ implosiva. En él se observa que hay una correspondencia entre los
valores observados y los valores predichos por el modelo, puesto que todas las celdas están
cerca del eje. Los cuadrados que aparecen en la parte superior corresponden a las celdas que
contienen un mayor número de aplicaciones. Los de la parte baja del diagrama representan
las celdas que tienen menos aplicaciones.16

“Lingüística.Cel”
• 19/12/93•18:11
• Token file: s.tkn
• Conditions: Lingüística.Cnd
1
P
r
o
b
a
b
i
l
i
t
y
0 Applications/Total 1

Figura 10.- Diagrama de dispersión de mantenimiento de /s/ implosiva.

Además de esto, se puede pedir al ordenador que ofrezca la información necesaria
para valorar la adecuación del modelo teórico: logaritmo de máxima verosimilitud y c2, con
indicación de la significación, esto es, de la probabilidad de que los resultados del análisis se
deban al azar.17 La significación nunca debe superar el umbral de 0.05, admitido de forma
general en los estudios de Ciencias Sociales. El cálculo de c2 permite comparar el resultado
del análisis de GOLDVARB con los que proporcionan las versiones anteriores de
VARBRUL.

23
El análisis binomial de subida y bajada (“Binomial, Up & Down”) aporta una información
en parte coincidente con los resultados del análisis de 1 nivel y en parte complementaria. Se
trata de un análisis de regresión escalonada (paso a paso), compuesto por una sucesión de
etapas. En primer lugar, se realiza el análisis de cada uno de los grupos de factores por
separado: el análisis consiste en calcular las probabilidades de que aparezca una variante para
cada factor del grupo. A continuación, se analizan los grupos tomados de dos en dos,
después de tres en tres, y así hasta que no se encuentra ningún grupo cuya inclusión suponga
un aumento del logaritmo de la función de verosimilitud, dentro siempre de una
significación p < 0.05. El programa compara las verosimilitudes de las etapas sucesivas y
señala cuál es el grupo, o la combinación de grupos, más adecuado, esto es, con mayor
verosimilitud.
Concluida la primera fase, llamada de “ascenso” o de agrupación progresiva de
grupos de factores, se pasa a la fase de “descenso” o de eliminación progresiva de grupos.
Dentro de ella, en primer lugar se analizan conjuntamente todos los grupos explicativos; a
continuación, las combinaciones de grupos que resultan tras eliminar uno de ellos
alternativamente; después las combinaciones que resultan de eliminar dos grupos, y así
sucesivamente hasta que no se encuentra un grupo cuya exclusión suponga una disminución
del logaritmo de la función de verosimilitud, dentro de la significación adecuada. Al terminar
esta segunda fase, el programa compara las verosimilitudes de las distintas etapas e indica
cuál es la combinación de grupos con mayor verosimilitud.
El programa presenta, para cada una de las etapas de este análisis escalonado, la
siguiente información:

a) Número de iteraciones realizadas para encontrar la convergencia.
b) “Input” que se utiliza al aplicar el modelo logístico (véase 1.4)
c) Probabilidad de aparición del rasgo analizado atendiendo a cada factor de cada grupo (el
número de grupos analizados varía según la etapa del análisis).
d) Logaritmo de la función de verosimilitud.
e) Significación.

El hecho de disponer de la información probabilística desgranada de esta manera
(por cada grupo de factores, por cada combinación de dos grupos, por cada combinación de
tres grupos, etc.) facilita al sociolingüista la labor de interpretación de los resultados y hace
posible que esta tarea se realice con todo rigor.

2.4.5. Tabulación cruzada.
Independientemente de que se haya procedido a cualquiera de los análisis
binomiales, una vez construidas las celdas a partir de unos valores de aplicación
determinados (casos binomial y multinomial), el menú “Cells” ofrece la posibilidad de crear
tablas de frecuencias absolutas y relativas en las que se cruzan los datos de dos variables
explicativas (véase Tabla 6).

2.5. VARBRUL 2S.
Este programa se utiliza en ordenadores IBM-PC equipados con Coprocesador
matemático o en VAX. También es necesario contar con un editor de textos. El manejo del
programa requiere cumplir las fases explicadas en 2.3., de un modo similar al que hemos
descrito para GOLDVARB. Ahora bien, VARBRUL no funciona en un entorno de
“ventanas”, sino que está formado por una serie de programas, destinados, cada uno de
ellos, a un fin específico. Estos programas parciales reciben los siguientes nombres:

24
CHECKTOK, READTOK, MAKECELL, COUNTUP, CROSSTAB, IVARB, TVARB,
MVARB, TSORT y TEXTSORT. Para hacer funcionar estos programas, hay que contar
con una serie de archivos creados por medio del editor de textos: un archivo de datos (con
extensión “.dat”)18, un archivo de especificación de factores (“.fac”) y un fichero de
condiciones (“.con”). La aplicación de los programas parciales sobre los archivos
correspondientes dará lugar a la creación de los archivos de secuencias de datos (“.tok”), de
celdas (“.cel”) y de resultados (“.res”).
Tal y como hemos hecho a propósito de GOLDVARB 2.0, comentaremos de forma
general los aspectos más elementales del manejo de VARBRUL 2s, puesto que no tenemosla intención de que estas notas ocupen el lugar que corresponde a las instrucciones del
programa.

2.5.1. Introducción de los datos en el ordenador. Archivos de especificación de factores y de
condiciones.
La disposición y características de los datos para trabajar con este programa se ajusta
exactamente a lo que hemos comentado en 2.3.1 y 2.4.1., excepto en lo que se refiere al
número de grupos y factores admitidos para el análisis. Este número depende del programa
parcial que se quiera aplicar. Para construir las celdas, los límites son los siguientes (Pintzuk
1988: 20; 25-26):
Máximo número de factores en el grupo dependiente: 9.
Máximo número de grupos explicativos: 20.
Máximo número de factores en los grupos explicativos: 30.

Para realizar un análisis binomial, el número máximo de factores admitido para el
grupo dependiente es de dos y, entre todos los grupos explicativos, no puede haber más de
49 factores, si se trabaja con IBM-PC, o de 100, si se trabaja con VAX. Como ya hemos
apuntado, esta versión de VARBRUL puede hacer análisis multinomiales. En este caso, el
número máximo de factores admitido para el grupo dependiente es de 3 ó 5, según el
programa parcial que se aplique y, entre todos los grupos explicativos, no puede haber más
de 100 factores.
En VARBRUL 2S el archivo de datos (“.dat”) hay que crearlo en un documento de
un editor de textos (p.e. WordPerfect) que no contenga “caracteres de control”.19 Una vez
que se ha creado ese primer archivo de datos, conviene utilizar el programa destinado a
comprobar que las secuencias no contienen errores: CHECKTOK.20 Previamente, sin
embargo, se ha tenido que crear un archivo de especificación de factores (“.fac”) por medio
del editor de textos.21 Este archivo debe tener una configuración acorde con la que se
reproduce en la Figura 11.
_________
3
/
012
/
123456
/
snvp
/
_________
Figura 11.- Archivo de especificación de factores creado con editor de textos (VARBRUL
2S). Factores para el análisis de /s/ implosiva.

En la primera línea aparece el número de grupos de factores que van a ser analizados; en la
segunda, el carácter con el que ha de completarse una secuencia incompleta; en las siguientes
se anotan, por orden, los factores y los valores por defecto de cada grupo analizado. Cuando
CHECKTOK dispone de la información que ha solicitado, crea un archivo en el que se
localizan los errores que pueda contener el fichero de datos.22
Después de comprobar la configuración de los datos, hay que arrancar el programa
parcial READTOK, para crear un archivo de secuencias de datos (“.tok) a partir de uno o
más archivos de datos (“.dat”). Es importante llamar la atención sobre las diferencias que
hay entre el primer archivo de datos — al que damos la extensión “.dat” — y el archivo de
datos que va a ser utilizado por los distintos programas parciales —al que damos la
extensión “.tok”, por paralelismo con GOLDVARB. Sólo los archivos de datos creados
desde READTOK pueden ser utilizados en las siguientes fases de VARBRUL.
Antes de continuar con el proceso de aplicación, todavía es necesario crear un
archivo más mediante el editor de textos: un archivo de condiciones, cuya redacción es
idéntica a la que hemos explicado en 2.3.2 y 2.4.2.

2.5.2. Creación de celdas y análisis probabilísticos.
Los archivos creados hasta este momento hacen ya posible la preparación de las
celdas de frecuencias y los análisis de regresión. Para crear las celdas se utiliza el programa
parcial MAKECELL, el cual solicita para su funcionamiento el nombre de los archivos de
datos (“.tok”) y de condiciones (“.con), así como el valor de aplicación sobre el que se va a
centrar el análisis (2.3.3.).23
El resultado se registra en un nuevo archivo, para el que se sugiere la extensión
“.cel”. En él se dan las frecuencias absolutas y relativas de los casos de aplicación y de no
aplicación — en una forma similar a la de las Tablas 4 y 5— y a continuación la frecuencia
correspondiente a cada celda (véase Figura 7). Este archivo de celdas es necesario para la
aplicación de otros programas específicos.
VARBRUL 2S cuenta con tres programas destinados al análisis de regresión:
IVARB, TVARB y MVARB. El primero de ellos se utiliza para hacer análisis binomiales
cuando el grupo dependiente está formado solamente por dos factores (véase nuestro
ejemplo sobre marca de plural). Antes de realizar los análisis, el ordenador pide el nombre
del archivo de celdas sobre el que van a hacer los cálculos;24 también se solicita un nombre
para atribuírselo al archivo en el que van a quedar inscritos los resultados de los análisis
(“.res”).
Como ocurre con GOLDVARB 2.0, IVARB ofrece dos posibilidades de análisis de
regresión: análisis binomial de 1 nivel y análisis binomial de subida y bajada (“Up & Down”)
(2.4.4.). La información que se proporciona en uno y en otro es prácticamente la misma que
comentamos a propósito de GOLDVARB, si bien en el programa para IBM-PC no se da un
diagrama de dispersión.
Por su parte, los programas TVARB y MVARB se encargan de realizar análisis
multinomiales. La principal diferencia entre ellos está en que TVARB trabaja con un grupo
dependiente de tres factores, mientras que MVARB puede analizar un grupo dependiente
con cuatro o cinco factores. En ambos casos, tan sólo hay una posibilidad de regresión:
análisis binomial de 1 nivel.25
VARBRUL 2S incluye otros programas parciales que permiten contar, ordenar y
manipular los datos de diversas formas. Estos programas suelen ser un buen complemento
para conseguir análisis refinados y rigurosos.26 Por otra parte, los errores que surgen en la
aplicación de los diversos programas se anotan en archivos creados automáticamente. De

26
esta forma, el investigador puede saber en cada momento cuáles son las dificultades a las que
se enfrenta y el modo de resolverlas (Pintzuk 1988: 33).

2.6. Interpretación de los análisis probabilísticos.
La interpretación de los resultados de los análisis es la etapa más importante de toda
investigación. La calidad de un trabajo — en cuanto a validez, utilidad y comparabilidad —
viene determinada por la forma en que se haya hecho la interpretación y en que se hayan
aprovechado los datos disponibles. Puede haber análisis correctos, pero pobres; puede haber
interpretaciones complejas y sugerentes, pero absolutamente incorrectas.
Ya hemos señalado qué informaciones proporcionan los programas creados para
hacer análisis de regresión (2.4.4. y 2.5.2.). Esas informaciones se dan en los llamados
archivos de resultados. Ahora nos interesa tratar con mayor detenimiento cómo hay que
valorar esa información, para qué sirve cada dato y cómo se puede conseguir un
aprovechamiento óptimo de los materiales.
La actitud general del investigador debe ser la de conseguir el máximo rendimiento
de cada uno de las herramientas técnicas que la informática ha puesto a su disposición. Con
esto queremos decir que, si el programa y las características de los datos permiten hacer dos
tipos de análisis —p.e. binomial de 1 nivel y binomial de subida y bajada —, no es
aconsejable dejar de lado uno de ellos; si el análisis plantea algún problema, es más fácil
solucionarlo con una información completa — resultados completos, tablas cruzadas,
etc. — que con una información parcial —p.e. solamente tablas cruzadas. Además de esto,
la actitud del investigador debe estar siempre abierta a la posibilidad de analizar los datos
varias veces: a menudo hay que reconsiderar los grupos y factores establecidos previamente,
las condiciones del análisis, los valores de aplicación seleccionados. etc. En palabras
sencillas, los análisis no siempre salen a la primera, si lo que se busca es un conocimiento
detallado de los mecanismos de la variación. Las aproximaciones superficiales están al
alcance de cualquiera.
Dado que VARBRUL 2S y GOLDVARB 2.0 ofrecen unos resultados de
características muy similares (en su mayor