Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1 SOCIOLINGÜÍSTICA, ESTADÍSTICA E INFORMÁTICA FRANCISCO MORENO FERNÁNDEZ Universidad de Alcalá de Henares Publicado en Lingüística, 6 (1994), pp. 95-154. 0.- Introducción.* El “estado de la cuestión” que presentamos en estas páginas no va a pasar revista a cada una de las corrientes que, con criterios más o menos estrictos, reciben el marbete de “sociolingüística”, sino que estará referido específicamente a la sociolingüística de la variación. Se pretende dar información sobre el empleo de la estadística y de la informática en el ámbito de la sociolingüística variacionista. Nuestro deseo es que los contenidos que aquí se van a desarrollar sean de alguna utilidad tanto para los especialistas en sociolingüística como para aquellos lingüistas que no trabajan en el estudio de la variación. Por este motivo, hemos dividido el trabajo en tres apartados. En el primero se ofrece un panorama general de la cuantificación en los estudios sociolingüísticos y una presentación del modelo estadístico más utilizado durante los últimos años. El segundo apartado explica con algún detalle el funcionamiento de los programas informáticos destinados a la aplicación de técnicas estadísticas. El tercero se detiene en las fases más complicadas del análisis y en los problemas que suelen tener una solución menos clara. 1.- Investigación sociolingüística y cuantificación. 1.1. Aportaciones de la sociolingüística a través de la cuantificación. El nacimiento y desarrollo de la sociolingüística variacionista no puede entenderse sin la cuantificación. De hecho, entre los factores “determinantes” de su impulso hay que incluir, sin duda, la aplicación de las matemáticas en el tratamiento de grandes volúmenes de datos y los avances de la informática durante los últimos quince años. El auxilio de otras disciplinas y la mejora de los medios han hecho que la sociolingüística tenga una imagen bien caracterizada y destacada en el conjunto de la llamada “lingüística cuantitativa” (Tesitelová). Nada de esto, sin embargo, es mérito que deba atribuirse de forma exclusiva a nuestra disciplina. La sociolingüística es hija de su tiempo y continuadora de unas experiencias acumuladas, principalmente, durante los últimos cincuenta años (Moreno Fernández, 1997). El uso de procedimientos cuantitativos en la sociolingüística está íntimamente ligado a conflictos de naturaleza teórica que se han ido poniendo de manifiesto conforme nuestra disciplina ha ido madurando. Pensamos en los contrastes de pareceres entre los partidarios de los análisis cualitativos y de los análisis cuantitativos, en los problemas que presenta la relación entre “gramáticas comunitarias” y “gramáticas individuales” o en las dificultades para aceptar la existencia de un componente probabilístico dentro de la competencia. A esto podríamos añadir que los diversos niveles de la lengua no son igualmente accesibles desde unos planteamientos cuantitativos y que las categorías cuantificadas, especialmente las sociales, no son siempre las más idóneas, por no entrar en el comentario de los lazos de “amor-odio” entre generativistas y variacionistas. Esta relación de conflictos sólo pretende poner de manifiesto la importancia que la 2 cuantificación puede llegar a tener en el campo de la lingüística teórica. Cada uno de esos problemas ha sido largamente discutido, algunos han sido resueltos, otros están en candelero, pero todos están contribuyendo a enriquecer, depurar y perfeccionar una línea de investigación. La sociolingüística ha hecho aportaciones de gran valor, merced, entre otras cosas, al manejo de la cuantificación. Ha contribuido, por ejemplo, a ir más allá de los conceptos de variación libre y de polimorfismo. No nos atrevemos a negar que existan fenómenos con estas características, pero la sociolingüística ha demostrado que muchos de los que tradicionalmente han sido considerados como tales simplemente han sido mal o insuficientemente estudiados. La existencia de una variación ordenada es un hecho (Weinreich, Labov y Herzog). Cuando dentro de una comunidad de habla de lengua española encontramos casos de debilitamiento de /s/ implosiva, de neutralización de líquidas, de yeísmo con diferentes manifestaciones fonéticas, de morfemas verbales o formas pronominales equivalentes que alternan en el uso, etc. es fácil descubrir que las distintas variantes de un mismo fenómeno están íntimamente relacionadas con el estrato socio-cultural de los hablantes, con su edad, con su sexo, con ciertos rasgos del contexto fónico o con la función que cumple el elemento que varía. La sociolingüística tiene entre sus objetivos el de descubrir el orden que pueda haber en la variación y el único medio de hacerlo, cuando los datos se cuentan por centenares, es la cuantificación. La importancia de los análisis cualitativos, que nadie niega es paralela al interés de los estudios cuantitativos: no se puede contar lo que no se ha identificado. Desde sus inicios, el variacionismo ha tenido dos preocupaciones principales: el estudio de la lengua en su contexto social y el cambio lingüístico. El primero ha sido especialmente significativo, porque ha cubierto una necesidad que las investigaciones geolingüísticas llevaban poniendo de manifiesto y satisfaciendo parcialmente desde hacía mucho tiempo: el análisis del habla de los grandes núcleos urbanos. En la actualidad es posible describir con rigor hasta qué punto una variación viene determinada tanto por factores lingüísticos, como por factores extralingüísticos (sociales y contextuales) en una comunidad determinada. Por otra parte, la sociolingüística ha contribuido a difundir una visión de la lengua en la que lo variable es el centro de atención, frente a la postura de las corrientes más influyentes de la lingüística general, a la vez que ha convencido a muchos sobre la conveniencia de trabajar con materiales de la lengua viva, obtenidos en cantidades representativas de boca de unos hablantes representativos. El fracaso de algunos modelos teóricos está precisamente en su falta de conformidad con los usos reales. En cuanto al estudio del cambio, hay que destacar la atención prestada al terreno específico del cambio lingüístico en marcha, donde se ha conseguido un nivel descriptivo muy satisfactorio. Muchas lenguas, como el español, aún no se han visto suficientemente beneficiadas por estos avances, pero todo se andará. Por el momento, parece claro que la sociolingüística es parcialmente responsable del auge que en los últimos años ha cobrado el estudio del cambio lingüístico desde una perspectiva teórica y general. Las obras de Lehmann y Malkiel, Bynon, Anttila o Milroy son buena prueba de ello. En todo lo que acabamos de comentar han estado y están presentes los análisis cuantitativos. La sociolingüística ha tratado con un mimo especial el desarrollo y perfeccionamiento de los medios técnicos necesarios para ello. Hasta tal punto es así que algunos especialistas han reprochado a esta disciplina un interés por el ámbito metodológico y técnico de la investigación, que podría haber ido en detrimento de algún que otro logro teórico (Pisani). La preocupación por el método es conveniente y necesaria, especialmente cuando se trabaja con datos de lengua hablada, y no es incompatible con una reflexión 3 teórica seria (la historia de la geografía lingüística es buena prueba de ello). El variacionismo ha intentado conjugar los dos intereses, que en el fondo son uno solo, y ha creado una metodología que sorprende por su refinamiento y por su eficacia, aunque no sea la panacea universal. 1.2. Variación y teoría lingüística. El análisis emblemático de la sociolingüística variacionista es, sin duda, el que se conoce con el nombre de análisis de regla variable. Ese nombre recoge la esencia de su origen, pero no se ajusta estrictamente al sentido que tiene el análisis en la actualidad. El variacionismo ha dedicado parte desus energías a perfeccionar una prueba estadística capaz de medir hasta qué punto una serie de factores lingüísticos (contextuales y funcionales) y extralingüísticos (sociales y situacionales) determina la aparición de cada una de las variantes de un fenómeno lingüístico variable. Conviene dejar claro, antes de seguir adelante, que una estadística de corte variacionista no tiene por qué vincularse de forma absoluta y necesaria a una corriente teórica determinada. Sin embargo, es evidente que los variacionistas norteamericanos, desde un primer momento, han estado condicionados por un entorno de naturaleza generativo- transformacional. Frente a la propuesta de “regla opcional”, concepto teóricamente endeble, la sociolingüística presenta una alternativa destinada a enriquecer el modelo generativista: la regla variable (Labov 1969). Esta regla sería capaz de explicar en qué medida se cumple un fenómeno y en qué condiciones lingüísticas y sociales. Frente a las propuestas de “hablante- oyente ideal” y de “comunidad homogénea”, conceptos incompatibles con cualquier tipo de empirismo, la sociolingüística propone la experiencia de unos usos reales y representativos. Desde el momento en que el variacionismo convierte estas propuestas en axiomas, aparece el choque dialéctico con el generativismo (Kay y McDaniel 1979, 1981; Sankoff y Labov 1979; Kiparsky 1979, 1982; Singh y Ford 1989; Moreno Fernández 1988: 128-130). Sin embargo, el contraste de opiniones no ha hecho que los variacionistas norteamericanos pierdan de vista el devenir del generativismo; es más, algunos han intentado trabajar desde la “Teoría de la Rección y el Ligamiento” (Lefebvre; Lemieux) y otros han visto en el “Modelo de Principios y Parámetros” la posibilidad de un acercamiento formal (D’Introno). Una demostración de la importancia que tiene el generativismo para los variacionistas norteamericanos está, por un lado, en la propuesta del concepto de regla variable y, por otro, en el abandono silencioso que se ha ido haciendo, aproximadamente desde 1978, de la misma regla variable en las publicaciones. No se han abandonado las técnicas estadísticas, sino el uso formal de las reglas: se calculan y presentan en tablas los factores estudiados y su peso cuantitativo, pero no se redactan las reglas derivadas de ellos. Las causas de este cambio de orientación son varias: por una parte está la dificultad de aplicar la regla variable en el campo de la sintaxis transformacional (Fasold 1990: 251-257); por otra, una regla variable no explica los fenómenos, sino que simplemente los describe (López Morales 1993: 189); finalmente, los sucesivos cambios en el seno del generativismo han hecho que la elaboración de reglas no se ajuste a las necesidades teóricas más actuales. En resumen, la renuncia a formular reglas variables está íntimamente ligada a la relación entre variacionismo y generativismo. Muy unido a este problema encontramos el del emplazamiento de la variación socio- lingüística en el conjunto de la lengua; dicho de otra forma, la localización de la regla variable en el sistema. La sociolingüística parte de la idea de que la regla variable está vinculada a la competencia lingüística. En las explicaciones que se han hecho de esta hipótesis pueden observarse distintos matices de intensidad. Para Labov, las reglas variables son reglas de producción que en una gran mayoría pueden ser caracterizadas también como 4 “reglas de actuación” (1972: 225-226), aunque constituyen claramente un aspecto de la competencia. Para Cedergren y Sankoff, la actuación es un reflejo estadístico — si bien aproximado — de la competencia y las reglas variables incluyen un componente probabilístico de lo lingüístico y de lo social. Podríamos decir que unos autores han defendido más radicalmente un concepto de regla variable como patrimonio exclusivo de la competencia, mientras otros no han descuidado los niveles de la lengua menos abstractos. El debate sobre esta cuestión ha ido perdiendo fuerza al mismo ritmo que se abandonaba el uso formal de las reglas, pero no ha dejado de despertar interés y es probable que en el futuro se reavive. Las dificultades y controversias teóricas no han impedido que se sigan haciendo análisis estadísticos, con más fuerza y calidad que nunca, pero considerados como simple herramienta descriptiva de la variación (Fasold 1990: 256). Esto prueba, como advertíamos al principio, que se puede hacer variacionismo desde un modelo teórico no generativista (Fasold 1984: 245-247). La sociolingüística exige de la teoría, sea la que sea, capacidad para admitir la presencia ordenada de fenómenos variables. 1.3. Desarrollo de las técnicas cuantitativas en sociolingüística. La cuantificación en el ámbito de la lingüística se ha hecho básicamente mediante los recursos de la estadística, entendida como ciencia del tratamiento de la información que contiene las series de datos procedentes de observaciones de fenómenos colectivos. (Real Academia de Ciencias Exactas, Físicas y Naturales) La sociolingüística trabaja habitualmente con dos tipos de estadística: una estadística descriptiva y una estadística de inferencias (inferencia estadística). La primera consiste simplemente en contar y ordenar cuantitativamente un conjunto de datos; la segunda nos permite aplicar de forma válida las conclusiones de esos análisis a entidades mayores que en realidad no han sido investigadas en su totalidad. La estadística descriptiva incluye pruebas simples de cuantificación, por otra parte muy conocidas, como el recuento de frecuencias absolutas, su conversión en frecuencias relativas y el cálculo de medias, medianas, modas, varianzas y desviaciones típicas (Moreno Fernández 1990a). Este tipo de pruebas se aplican en lingüística desde hace muchos decenios. Con el paso del tiempo hemos ido ganando en rapidez y fiabilidad en el manejo de los datos, así como en calidad a la hora de presentarlos gráficamente. En este punto, el desarrollo de la informática ha reportado grandes ventajas. Actualmente es posible aplicar la estadística descriptiva por medio de programas llamados “Hojas de cálculo” que están al alcance de cualquier mano. También existen programas estadísticos más completos de los que se obtienen cálculos rápidos y gráficos de gran calidad (SPSS, Statgraphics, Statview). Como se deduce de lo apuntado, la estadística descriptiva se ha utilizado desde los inicios mismos de la sociolingüística moderna: ejemplo de ello es el trabajo de W. Labov (1963) sobre la isla de Martha’s Vineyard. Sin embargo, su aplicación sigue siendo inexcusable en cualquier análisis de la variación y los problemas que presenta son mínimos desde un punto de vista técnico. El éxito está garantizado cuando el investigador cuantifica las categorías pertinentes, cuando están bien delimitadas — sin solapamientos de datos — y cuando se aprovechan al máximo sus posibilidades. No obstante, con cierta frecuencia se encuentran publicaciones en las que no se pasa del cálculo de los tantos por ciento. Este cálculo es tan necesario como básico, pero a menudo necesita ser complementado con 5 análisis que comprueben, por ejemplo, las desviaciones de los datos respecto de las medias (varianza, desviación típica), para no llegar a conclusiones limitadas o equivocadas. Una buena estadística descriptiva requiere, por lo general, un conocimiento previo de la naturaleza cualitativa de los datos que se quieren cuantificar. Lo demás depende de la idoneidad de los materiales recolectados. Para ello se debe contar a) con estudios exploratorios, b) con hipótesis pertinentes, c) con variables y variantes bien caracterizadas y dispuestas en escalas y d) con recuentos minuciosos. Los primeros recuentos suelen hacerse de forma manual, por lo que se necesita, además de la paciencia, material apropiado para la codificación (hojas cuadriculadas). La información bien codificada puede ser trasladadaal ordenador sin mayores problemas. Ahora bien, la importancia de la estadística descriptiva no la convierte en el único procedimiento susceptible de aplicación. Estamos ante una fase necesaria, pero no suficiente: por eso se la denomina pre-cuantificación. El variacionismo ha puesto en manos de los investigadores unos recursos que conviene utilizar para que los análisis no resulten pobres, en relación con lo que exige su tiempo. Tales recursos pertenecen al campo de la estadística de inferencias y, concretamente, de los análisis multivariables. La estadística permite llegar a conclusiones sobre la variación lingüística en una comunidad, partiendo del análisis de los datos recogidos en unos pocos hablantes que se consideran representativos de esa comunidad. Los análisis de regla variable — también llamados análisis de regresión o análisis probabilísticos — estudian la relación entre más de dos variables (grupos de factores) y calculan las probabilidades de que aparezcan o no aparezcan las distintas variantes (factores) en determinadas condiciones lingüísticas y sociales. Para hacer un análisis estadístico de esta naturaleza se necesita a) que el fenómeno analizado sea variable, b) que la alternativas de la variación sean formas diferentes de decir lo mismo, esto es, que el uso de una alternativa u otra (variantes o factores) por parte de un hablante no suponga un cambio semántico o pragmático, c) que la variación analizada tenga relación con las condiciones lingüísticas (contexto fonético, contexto sintáctico, función, etc.) y extra-lingüísticas (características sociológicas del hablante, tipo de contexto situacional, tipo de interlocutor, etc.) en que se produce. El fenómeno estudiado puede pertenecer a cualquier nivel lingüístico, si bien existen menos dificultades para el análisis cuando se trata de un rasgo fonético-fonológico. El objeto principal del estudio se considera una variable dependiente (grupo de factores dependientes); los elementos lingüísticos y socio-situacionales que se tienen en cuenta para estudiar ese objeto se denominan variables independientes o explicativas (grupos de factores independientes o explicativos). La forma de preparar los materiales para el análisis probabilístico es prácticamente la misma que hemos señalado para la estadística descriptiva; en otras palabras: se parte del recuento de las frecuencias absolutas del rasgo en cada una de las condiciones previstas (grupos de factores explicativos) y en los discursos recogidos de una muestra de hablantes. Es necesario incidir en la idea de que la finalidad de este tipo de análisis es eminentemente lingüística, por lo que los rasgos analizados deben ser elementos variables de la lengua. En el momento de valorar el comportamiento de las variables explicativas y de organizarlas en grupos coherentes es aconsejable anteponer un criterio lingüístico a otro tipo de consideraciones. El sociolingüista no es un sociólogo, ni un matemático: debe pensar como lingüista y actuar con los patrones derivados de su formación. De igual modo, los 6 resultados que aporten los análisis también han de ser interpretados desde y para la lingüística. La importancia del análisis probabilístico descansa en varios aspectos. Esta prueba permite averiguar cuál es el grado en que los grupos de factores explicativos determinan la variación de un elemento cuando todos ellos actúan conjuntamente; dicho de otro modo, el cálculo permite conocer la probabilidad general de que apareza uno de los factores cuando actúan simultáneamente diversos grupos de factores lingüísticos y extralingüísticos. Al mismo tiempo, las probabilidades representan el comportamiento general de una comunidad a propósito de ciertos fenómenos, aunque solo se hayan recogido los usos lingüísticos de algunos hablantes. El uso exclusivo de las frecuencias relativas (%) en la descripción sociolingüística limita enormemente el alcance de las conclusiones del análisis e incluso puede conducir a interpretaciones erróneas. Veamos un ejemplo creado por David Sankoff (1988). Supongamos que estamos analizando la presencia o la ausencia de una marca de plural teniendo en cuenta la clase de palabras en la que aparece o no aparece (adjetivos, determinantes, nombres) y las funciones gramaticales de los sintagmas en los que se dan esas palabras (objeto, sujeto). La Tabla 1 recoge los casos de expresión de la marca en las condiciones previstas. Objetos Sujetos Total_____ Adjetivos 6/10 = 60% 10/10 = 100% 16/20 = 80% Determinantes 3/10 = 30% 7/10 = 70% 10/20 = 50% Nombres 0/10 = 0% 4/10 = 40% 4/20 = 20% __________________________________________________________ Total: 9/30 = 30% 21/30 = 70% Tabla 1.- Frecuencias (absolutas y relativas) de presencia de una marca de plural según la clase de palabras y la función gramatical. Totales válidos. En esta tabla se indican los casos de presencia de la marca (aplicaciones) sobre un total de apariciones posibles. Así, encontramos la marca de plural en seis de los diez casos de adjetivos en sintagmas con función de objeto recogidos en los materiales; en tres de los diez casos de determinantes en sintagmas con función de objeto y no la encontramos en ninguno de los diez casos de nombres con esta misma función. La suma de los totales marginales, en unos datos como estos, nos da una imagen real de cómo funciona la variación de plural: la aparición de la marca viene claramente determinada por la función de sujeto y por la clase de los adjetivos. Ahora bien, hay que tener en cuenta que en las intersecciones de “categoría” y “función” encontramos un mismo número de apariciones posibles del morfema (diez), hecho que casi nunca se da en los materiales de carácter sociolingüístico. Lo normal es que ese número varíe de forma notable y que la distribución de los datos no sea tan uniforme. La Tabla 2 representa un ejemplo paralelo al anterior, en el que no coincide el número de posibles aplicaciones por categoría y función, aunque las frecuencias relativas parciales sean las mismas. Objetos Sujetos Total_____ Adjetivos 42/70 = 60% 10/10 = 100% 52/80 = 65% Determinantes 3/10 = 30% 49/70 = 70% 52/80 = 65% Nombres 0/10 = 0% 76/190 = 40% 76/200 = 38% _________________________________________________________ Total: 45/90 = 50% 135/270 = 50% Tabla 2.- Frecuencias (absolutas y relativas) de presencia de una marca de plural según la 7 clase de palabras y la función gramatical. Totales inadecuados para el análisis. En este caso, las frecuencias relativas totales no dan una imagen adecuada del comportamiento variable del fenómeno, porque podríamos interpretar que el hecho de que el morfema se utilice en una secuencia con función de sujeto o de objeto es absolutamente indiferente. Pero, aun cuando los datos estén homogéneamente distribuidos, podemos encontrar situaciones en las que los totales no son válidos para el análisis. Esto ocurre en la Tabla 3. Objetos Sujetos Total_____ Adjetivos 9/10 = 90% 7/10 = 70% 16/20 = 80% Determinantes 0/10 = 0% 10/10 = 100% 10/20 = 50% Nombres 0/10 = 0% 4/10 = 40% 4/20 = 20% _________________________________________________________ Total: 9/30 = 30% 21/30 = 70% Tabla 3.- Frecuencias (absolutas y relativas) de presencia de una marca de plural según la clase de palabras y la función gramatical. Interacción de factores independientes. Aquí comprobamos que los totales marginales coinciden con los de la Tabla 1. Pero tampoco haríamos una interpretación adecuada si no prestáramos atención a la forma en que están distribuidas las frecuencias parciales. Observamos, efectivamente, que la clase de los adjetivos y la función de sujeto favorecen la aparición de la marca, sin embargo también se aprecia que nuestros dos grupos de factores están interactuando, es decir, ofrecen una información solapada, porque los adjetivos sólo admiten la marca cuando van en función de objeto, y los determinantesy los nombres sólo favorecen la aplicación de la marca cuando pertenecen a un sujeto. Los factores no tienen efectos independientes. De todo ello se desprende que, para conseguir unos valores generales capaces de indicar hasta qué punto unos factores u otros favorecen la aplicación de un elemento, hay que recurrir a procedimientos matemáticos más seguros y complejos, como, por ejemplo, el análisis probabilístico (Moreno Fernández 1990a: 149-151). Los avances técnicos de la sociolingüística han respondido básicamente a una búsqueda del modelo estadístico más adecuado para analizar un rasgo lingüístico cuya variación depende de unos factores lingüísticos y extralingüísticos. Estos avances se han dado principalmente entre 1969 y 1978. Los progresos matemáticos han ido acompañados de la creación de programas informáticos que han aplicado los cálculos estadísticos. El nombre genérico con que se conocen tales programas es VARBRUL. Las sucesivas versiones han ido mejorando y adaptándose a las necesidades de cada momento, desde 1971 (primer VARBRUL) hasta 1990 (GOLDVARB 2.0). La bibliografía sociolingüística cuenta con varios estudios en los que se da cuenta de los modelos estadísticos y los programas informáticos que se han manejado. Los modelos han sido, por este orden, el modelo aditivo (Labov 1969), el modelo multiplicativo (Cedergren y Sankoff 1974) y los modelos logísticos (Sankoff 1975; Rousseau y Sankoff 1978). Los programas utilizados han sido VARBRUL (Cedergren 1973), VARBRUL 2 (Sankoff 1975; Sankoff y Thibault 1977; Labov y Labov 1978), VARBRUL 2S (Poplack 1979), VARBRUL 2S para PC (Pintzuk 1986) y VARBRUL 3 (Rousseau y Sankoff 1978a; Rousseau 1989). Para Macintosh, GOLDVARB 1.6 (Rand y Sankoff 1989) y GOLDVARB 2.0 (Rand y Sankoff 1990). Dado que pretendemos ofrecer un “estado de la cuestión” actualizado, parece preferible tratar con mayor detenimiento el modelo y los programas que hoy tienen más difusión y remitir a los estudios pertinentes para conseguir información sobre las etapas 8 anteriores (Moreno Fernández 1988: 111-126; López Morales 1993). 1.4. El modelo estadístico. El modelo estadístico con el que trabaja el variacionismo desde 1975 es el modelo logístico de regresión, cuya segunda versión fue presentada en 1978 por Pascale Rousseau y David Sankoff. Antes de comentar cuáles son sus características generales, creemos necesario hacer algunas advertencias. Hasta el momento, las explicaciones más detalladas que se han dado de este modelo proceden, como es lógico, de sus creadores. Sankoff y Rousseau son investigadores de formación matemática que han dedicado una parte muy importante de su trabajo a las aplicaciones con fines lingüísticos. Ahora bien, estos autores no han dado las explicaciones con la intención de que los sociolingüistas aprendan matemáticas o puedan calcular por ellos mismos unas probabilidades de significación sociolingüística: han buscado la comprensión general del modelo. Ni siquiera la publicación más “pedagógica” de este campo (Sankoff 1988) permite al lingüista seguir con facilidad los argumentos matemáticos. El modelo se ha descrito para su comprensión y la de los resultados que proporcionan los programas informáticos correspondientes, pero poco más: se ha dado prioridad al qué y al para qué sobre el cómo.1 El modelo logístico estima la probabilidad de que un fenómeno variable se manifieste en una de sus formas cuando concurren simultáneamente unas determinadas condiciones. Para llegar a aplicar esto, es necesario tener en cuenta diversas informaciones. En primer lugar, se necesita saber, a propósito de cada factor, cuántas veces se ha manifestado — se ha aplicado — en relación con los casos posibles. Este dato se consigue mediante el simple recuento de las frecuencias absolutas y el cálculo de las relativas. En la Tabla 4 se muestran unos datos de aspiración de /s/ implosiva en lengua española cuando en el contexto fónico siguiente aparece una consonante sorda (s), una consonante sonora (n), una vocal (v) o pausa. Consideramos casos de aplicación (AP.) los que corresponden a la variante aspirada; los casos de no aplicación (NO AP.) son los que no corresponden a la aspiración.2 GRUPO AP. % NO AP. % TOTAL % s 597 41 872 59 1469 42 n 358 51 349 49 707 20 v 56 9 567 91 623 18 p 59 8 657 92 716 20 _______________________________ Total 1070 30 2445 70 3515 Tabla 4.- Frecuencias de aspiración de /s/ implosiva, según contexto fónico siguiente.3 En la Tabla 5 se muestran unos datos de aspiración de /s/ implosiva recogidos en seis hablantes. Aquí también consideramos casos de aplicación (AP.) los correspondientes a la variante aspirada. GRUPO AP. % NO AP. % TOTAL % 1 140 20 564 80 704 20 2 246 45 306 55 552 16 3 266 51 253 49 519 15 4 86 15 503 85 589 17 5 149 23 498 77 647 18 6 183 36 321 64 504 14 _______________________________ _ Total 1070 30 2445 70 3515 Tabla 5.- Frecuencias de aspiración de /s/ implosiva, según hablantes. 9 Una vez contados los casos particulares en que se manifiesta un factor, hay que averiguar, de nuevo mediante un recuento, con qué frecuencia se da ese fenómeno cuando coinciden varios factores explicativos. En nuestros ejemplos sobre la aspiración de /s/ según el contexto siguiente y el hablante, se trata de averiguar cuántas muestras de aspiración se dan en el hablante 1 cuando el contexto siguiente es una consonante sorda, cuando es una consonante sonora, ...y así sucesivamente con cada hablante y tipo de contexto. Estos cruces de información dan lugar a la creación de celdas (puntos de intersección de los factores) ocupadas por unas frecuencias. La Tabla 6 recoge las celdas posibles de nuestro ejemplo, con indicación del número de aspiraciones que se encuentra en cada una de ellas (AP.) y de su frecuencia relativa. Ésta es la configuración interna de los materiales recogidos. Tabla 6.- Frecuencias absolutas y relativas de aspiración de /s/ implosiva (AP.), según contexto fónico siguiente (s, n, v, p) y hablante (1, 2, 3, 4, 5, 6). Los datos de aspiración de /s/ implosiva así presentados parecen suficientes para hacer un buen análisis, sin embargo no nos dicen qué importancia, qué peso tiene cada uno de los factores de nuestros grupos, al coincidir con los demás, para determinar cada una de las frecuencias. Así, en la primera celda tenemos 62 casos de aspiración de /s/ implosiva recogidos en el hablante 1 y ante consonante sorda; con los datos de que disponemos no podemos saber cuántos de esos casos se deben principalmente al hecho de pertenecer a tal informante y cuántos se deben principalmente al hecho de que el fonema va ante consonante sorda. Para conocer este extremo hay que crear un “modelo teórico” que nos indique la probabilidad de que aparezca la aspiración en cada una de las circunstancias previstas, teniendo en cuenta sus posibles combinaciones o cruces. El “modelo teórico” de la sociolingüística de un fenómeno está formado por un conjunto de probabilidades, no de frecuencias. La probabilidad de que aparezca un rasgo lingüístico determinado se consigue mediante un cálculo de regresión, que combina las probabilidades de que una variante se dé en cada circunstancia específica (factores i, j, ...) con un valor constante (p0). Las probabilidades específicas se calculan a partir de las 10 frecuencias del “modelo observado”. p0, denominada también input, probabilidad de input, efecto medio o media corregida, se consigue a partir de una media del peso de los diferentes grupos de factores, que, a su vez, es proporcional al número de datos asociado a cada factor.4 El recurso utilizado por el variacionismo con esta finalidad se denomina modelo logístico. Figura 1.-Modelo logístico (Rousseau y Sankoff 1978). Esta fórmula es el fruto del perfeccionamiento que ha conocido el análisis de la variación a lo largo del tiempo. Por un lado, permite obtener unos valores “teóricos” o “esperados” que no sobrepasan nunca los límites del 0 % y del 100% (0 y 1 en términos de probabilidades). Por otro lado, la relación que se establece, dentro del “modelo teórico”, entre los casos de aplicación y los de no aplicación es siempre simétrica: la probabilidad de que aparezca un rasgo lingüístico variable (p = aplicación) siempre es complementaria de la probabilidad de que no aparezca (1-p = no aplicación). Finalmente, tiene la virtud de reunir todos los aspectos positivos de los diferentes modelos usados por la sociolingüística.5 En estadística es muy frecuente la utilización de ciertas técnicas para contrastrar hipótesis y para conocer si la distribución interna de unos datos se debe a factores accidentales o a errores. La hipótesis de partida en esta clase de análisis se denomina “hipótesis nula”, según la cual ninguno de los factores estudiados tendría un efecto sistemático sobre la aparición de un fenómeno. La creación de un “modelo teórico” sirve para probar si la disposición de unos datos se debe al azar o se explica realmente por la influencia de ciertos factores. Se trata, por lo tanto, de demostrar que la hipótesis nula es falsa y que los factores analizados tienen algún poder de determinación, mayor o menor, según los casos. La sociolingüística variacionista utiliza una prueba para conocer hasta qué punto son significativos los parámetros del “modelo teórico”, esto es, la bondad del ajuste entre el modelo y los datos: la función de laverosimilitud (“likelihood”). La medida de ese ajuste se consigue con los valores correspondientes al efecto que tiene cada factor sobre el rasgo lingüístico estudiado. Según Sankoff (1988: 990), el principio de la máxima verosimilitud proporciona una estimación de los efectos de los factores que consiste en elegir el conjunto de valores que más probablemente ha generado los datos: el valor máximo de la función de verosimilitud. Este principio puede tener aplicación en muy diversos campos. En medicina, por ejemplo, permitiría seleccionar, entre todas las posibles causas del cáncer de pulmón, cuál es la combinación de factores que debe ser considerada como la que más favorece la enfermedad; en economía, ayudaría a conocer la probabilidad de ser o no ser un desempleado en función de una serie de características individuales o sociales. La verosimilitud es el producto de unos valores conseguidos para cada uno de los factores, de la forma que se refleja en la Figura 2. 11 Figura 2.- Cálculo de la verosimilitud para cada factor. donde pap. es la probabilidad de que un contexto haya influido sobre una variante lingüística, elevada al número de aplicaciones (ocurrencias) en ese contexto, y (1 — p)~ap. es la probabilidad de que un contexto no haya influido sobre una variante,6 elevada al número de no aplicaciones en ese contexto. Laverosimilitud está relacionada, por tanto, con las probabilidades calculadas para cada factor y estas probabilidades se obtienen mediante un proceso de aproximación sucesiva (iteraciones), que conducen a la solución más exacta (convergencia) y con una mayor verosimilitud.7 Así pues, la verosimilitud sirve tanto para indicar cuáles son las probabilidades más adecuadas para los factores de un grupo, como para determinar cuál es la combinación de factores que mejor se corresponde con los datos. Al comparar varias verosimilitudes, es mejor aquella que tiene un valor más cercano a 0. 1.5. Recapitulación. La sociolingüística variacionista ha dedicado una parte importante de sus esfuerzos al perfeccionamiento de unas técnicas cuantitativas de análisis, encaminadas a determinar la importancia de los contextos lingüísticos y socio-situacionales sobre la variación lingüística. El método propuesto se denomina análisis probabilístico. Aunque el variacionismo norteamericano siempre ha hecho sus consideraciones teóricas y metodológicas desde posiciones cercanas al generativismo, lo cierto es que algunos de sus conceptos fundamentales son difíciles de conciliar. Por otra parte, el análisis probabilístico se ha convertido en una herramienta de estudio susceptible de ser utilizada desde diversos marcos teóricos. El método variacionista busca el cálculo de la probabilidad de que aparezca un rasgo lingüístico determinado en unas circunstancias lingüísticas, sociológicas y contextuales determinadas. A partir de los datos de frecuencia recogidos en un grupo de hablantes, se crea un modelo teórico formado por las probabilidades de que se dé un fenómeno cuando concurren diversas circunstancias. La estadística se encarga de precisar hasta qué punto las probabilidades calculadas son verosímiles y cuáles son las circunstancias que, al darse simultáneamente, pueden explicar mejor un hecho lingüístico. 2.- Informática y sociolingüística. 2.1. Los programas VARBRUL. Sólo con tener en cuenta el cálculo de la verosimilitud, sería patente la necesidad de usar medios informáticos para el análisis sociolingüístico. Esos medios los proporcionan los programas VARBRUL. Existen en el mercado muchos programas estadísticos capaces de realizar análisis similares a los que hacen los VARBRUL, pero estos últimos están especialmente preparados para trabajar sobre unos datos como los que aparecen en la variación lingüística y, además, presentan los resultados de una forma adecuada a los intereses de los lingüistas (Sankoff 1988: 990-991). Los programas de la familia VARBRUL no están comercializados y se consiguen de forma gratuita de los propios autores o de otros investigadores que los aplican habitualmente. En la actualidad se hacen los análisis con las versiones que aplican el modelo logístico: VARBRUL 2, VARBRUL 2s, VARBRUL 3 y GOLDVARB 2.0. De todos ellos, los más utilizados son VARBRUL 2s y GOLDVARB 2.0, debido a que son versiones para ordenadores personales: el primero para IBM-PC o VAX y el segundo para Macintosh. 12 VARBRUL 2 tiene el inconveniente de ser un programa para macro-computadoras — lo que lo hace menos accesible para algunos investigadores — y de no ofrecer información que sí presentan otras versiones: por ejemplo, la función de verosimilitud de cada una de las combinaciones de factores analizadas. En algunos aspectos, VARBRUL 2 ofrece ciertas ventajas. Esto ocurre a la hora de introducir los datos en el ordenador: el programa no necesita que se le especifiquen cuáles son los grupos de factores analizados; tan sólo hay que anotar cuántos casos de un rasgo lingüístico están asociados a los diversos factores explicativos: en el ejemplo sobre la aspiración de /s/ implosiva, cuántos casos de aspiración se dan en el informante 1 ante consonante sorda, ante sonora, ante vocal, ante pausa, en el informante 2 ante sorda, sonora, etc. Naturalmente, esos datos han sido contados antes de forma manual. El ordenador se encarga de reunir los factores de tal manera que no puedan aparecer en un mismo contexto dos factores pertenecientes a un mismo grupo; en otras palabras, se ocupa de encontrar a qué grupo pertenece cada factor para aplicar, después, el modelo estadístico ya comentado. VARBRUL 3 comparte con la versión 2 el inconveniente de estar preparado para macro-computadoras, pero ofrece unas ventajas que lo convierten en la mejor y más completa versión de la familia. Sin embargo, este programa tiene todavía una difusión muy limitada. La principal desventaja que ofrece GOLDVARB 2.0 respecto de VARBRUL 2S y VARBRUL 3 está en que el primero realiza solamente análisis binomiales, mientras que los últimos pueden hacer análisis multinomiales. Esto quiere decir que GOLDVARB sólo puede considerar como valores de aplicación los procedentes de uno de los factores de la variable dependiente, frente a los valoresde no aplicación, que corresponderían a una o más variables explicativas. VARBRUL 2S y 3 pueden considerar como valores de aplicación los pertenecientes a más de un factor dependiente, y esto permite estudiar mejor las relaciones entre los factores que componen un grupo dependiente, cuando son más de dos. En el caso de VARBRUL 3, se añaden otras ventajas —rapidez, capacidad de admisión de datos, número de variables explicativas— que comentaremos después. Desde luego, cuando esta última versión cubra su etapa experimental, será, sin duda, de obligada aplicación en el variacionismo, aunque tenga que manejarse en centros de cálculo. Poniendo en una balanza los pros y los contras, podemos decir que hoy día los mejores programas para el análisis sociolingüístico son VARBRUL 2S Y GOLDVARB 2.0. El primero fue creado por David Sankoff, mejorado en la Universidad de Pennsylvania y preparado para IBM-PC por S. Pintzuk. El segundo está basado en programas de Sankoff, Rousseau, Hindle y Pintzuk y fue adaptado para Macintosh por David Rand. En estas dos versiones nos centraremos, explicando, en primer lugar, las características comunes y, más adelante, sus respectivas peculiaridades. 2.2. Objetivos de los programas VARBRUL. Hay que saber, desde un primer momento, que la aplicación de un análisis sociolingüístico a menudo no es un proceso lineal del tipo “codificación de datos > introducción de datos en el ordenador > análisis > interpretación de resultados”, sino que la fase final exige muchas veces repetir algunos de los pasos anteriores. La causa de esto reside en que no todos los conjuntos de datos han sido recogidos de la misma forma ni tienen la misma distribución interna. Después de un primer análisis podemos descubrir algunos detalles que desconocíamos al empezar la investigación. Lo importante no es aplicar un programa informático, sino conseguir la mayor cantidad de información posible sobre el rasgo lingüístico convertido en objeto de estudio. La aplicación de los programas de análisis probabilístico tiene los siguientes 13 objetivos generales (Rousseau y Sankoff 1978a: 59-60): 1º.- Calcular la probabilidad de que un hecho variable se manifieste de una forma concreta en un contexto determinado (lingüístico y extralingüístico), es decir, cuando una serie de factores explicativos aparecen conjuntamente. 2º.- Decidir hasta qué punto da cuenta un “modelo teórico” de los datos recogidos y determinar si los datos pueden ser divididos en varios subconjuntos que respondan a modelos diferentes. 3º.- Comprobar si los grupos de factores contribuyen significativamente a explicar los datos o si deben ser desestimados.8 4º.- Determinar la fiabilidad de los análisis. Un análisis de naturaleza sociolingüística ha de proporcionar una información concreta sobre cada uno de los objetivos generales. Todos ellos son importantes, porque contribuyen a dar seguridad al investigador sobre la calidad de su estudio. Las conclusiones que se deriven de esta información pueden obligar a reconsiderar las diversas etapas de la investigación, desde la forma en que se ha seleccionado la muestra de hablantes y se ha elegido el objeto de estudio, hasta el avance que puede suponer para el conocimiento de un fenómeno. No obstante, excepto aquello que afecte a la recogida misma de los materiales, prácticamente todos los problemas que surgen en el proceso analítico pueden ser tratados — y en muchos casos solucionados — trabajando sobre la información disponible en el ordenador. Es posible, por ejemplo, agrupar variables explicativas que en principio se habían tratado de forma separada, prescindir de datos que se han revelado como inadecuados o realizar análisis parciales para tener un conocimiento más profundo de algún aspecto. El investigador debe poner un especial cuidado en valorar adecuadamente las estimaciones de fiabilidad que proporciona el programa en cada fase del análisis. Solo así puede saberse si las conclusiones obtenidas tienen solidez o si los materiales — datos y análisis — deben sus características al azar. El sociolingüista tiene que estar seguro de que, al realizar el mismo análisis con datos similares, los resultados prácticamente se van a repetir. En esta seguridad descansa la comparabilidad de los estudios que se realicen sobre el mismo fenómeno en comunidades de habla diferentes. 2.3. Manejo de los programas VARBRUL para ordenadores personales. La aplicación de los programas VARBRUL 2s y GOLDVARB 2.0 tienen en común muchos aspectos. En ambos casos hay que recorrer tres etapas antes de proceder al análisis probabilístico propiamente dicho: 1º.- Introducción de los datos (tokens) y especificación de factores. 2º.- Especificación de condiciones. 3º.- Creación de celdas. 2.3.1. Introducción de los datos. Los datos con los que trabajan estos programas consisten en una lista de “secuencias” (tokens) donde queda reflejada la manifestación concreta de cada una de las muestras encontradas en los materiales sociolingüísticos, con los rasgos lingüísticos y extralingüísticos que configuran su contexto. Los datos se disponen, pues, de uno en uno, caso a caso, en forma de lista. Los factores que integran los distintos grupos deben establecer entre sí una relación de escala nominal, preferentemente; esto es, cada variante recibe una etiqueta, sin que ello implique un orden determinado (Moreno Fernández 1990a: 125-126). Cuando los factores 14 tienen un orden interno,9 el análisis puede plantear unos problemas que explicaremos más adelante (Rousseau y Sankoff 1978a: 64). Para introducir los datos en los programas es imprescindible atribuir a cada factor de cada grupo un código específico de un carácter (número o letra, mayúscula o minúscula).10 En un caso como el de la aspiración de /s/ implosiva que antes hemos presentado, podemos atribuir los siguientes códigos: Grupo de factores dependiente : - /s/ implosiva: [s] = 2; [h] = 1; ø = 0. Grupos de factores explicativos: - Contexto fónico siguiente: ante consonante sorda = s; ante consonante sonora = n; ante vocal = v; ante pausa = p. - Hablante: hablante 1 = 1; hablante 2 = 2; hablante 3 = 3; ... etc.11 En el ejemplo de la marca de plural, que utiliza David Sankoff para explicar el funcionamiento de GOLDVARB, se atribuyen los siguientes códigos: Grupo de factores dependiente: - Marca de plural: aparición de marca de plural = 1; no aparición de marca de plural = 0. Grupos de factores explicativos: - Clase de palabra en la que puede aparecer la marca de plural: adjetivo = a; nombre = n; determinante = d. - Función del sintagma en el que puede aparecer la marca: sujeto = s; objeto = c. Siguiendo este sistema de codificación, podemos representar en una secuencia de tres caracteres — o más, dependiendo del estudio — los factores que concurren en cada uno de los datos. Las secuencias se disponen en forma de lista en una parte del programa que tiene las mismas características que un programa de tratamiento de textos y de la que daremos algún detalle más abajo. Cada una de las secuencias debe ir precedida de un paréntesis, que indica al ordenador que lo que va después de él es un dato que ha de ser analizado. Tras el paréntesis, el primer carácter debe ser siempre un factor del grupo dependiente. La secuencia debe ir seguida de una marca de fin de línea (retorno manual) o de un espacio. SECUENCIA DE CÓDIGOS PARA CADA DATO: ([código de factor dependientex] [código de factor explicativo i] [código de factor explicativoj]... [código de factor explicativon] fin de línea/espacio En los ejemplos de marca de plural y de /s/ implosiva, los datos tendrían una disposición como esta: 15 _________________________________________________________________ DATOS DE MARCA DE PLURAL DATOS DE /S/ IMPLOSIVA (1as (2p1 (1as (2n1 (1as (1s2 (1ds (1n2 etc. _________________________________________________________________Figura 3.- Disposición de los datos. Al preparar los datos correspondientes a los distintos grupos, es posible hacer uso del signo ‘.’ (punto) como si fuera un factor. Suele utilizarse, por ejemplo, cuando hay una muestra, un contexto, etc. que no se ajusta estrictamente a los factores previstos o cuando se piensa que un determinado dato puede ser considerado como cualquiera de los factores del mismo grupo, según las circunstancias. Los datos siempre deben cumplir dos requisitos mínimos para poder ser analizados: cada grupo ha de incluir al menos dos factores (no se puede analizar un fenómeno teóricamente variable cuando sólo se han recogido muestras de una de las variantes); además, los datos tienen que incluir al menos un caso para cada uno de los factores explicativos previstos (no se puede analizar el factor “ante pausa” si no hay ningún caso de mantenimiento de /s/, de aspiración o de pérdida en ese contexto). A la hora de introducir los datos no es imprescindible que la lista de secuencias responda exactamente al orden en que los datos han aparecido en los textos transcritos, pero se ha de respetar estrictamente el orden de los factores dentro de cada secuencia. La lista de datos, dependiendo del fenómeno analizado, puede incluir unas decenas, unos centanares o varios miles de secuencias. Aunque la introducción de esos datos lleva algún tiempo, este puede acortarse notablemente si se cuenta manualmente el número de secuencias idénticas y se trasladan al ordenador mediante las funciones de activar, copiar y mover bloques.12 Además de los datos codificados, el ordenador necesita saber cuántos son los grupos de factores que van a ser analizados y cuáles son los factores válidos dentro de cada grupo. Para ello es necesario cumplimentar una “especificación de factores” — veremos más adelante el modo de hacerlo—, gracias a la cual el programa puede identificar cualquier dato erróneo o que no se ajuste a lo previsto. Al especificar los factores, también hay que indicar al ordenador cómo ha de leer el signo ‘.’ dentro de los datos: se trata de atribuir un “valor por defecto”. Si queremos que sea leído como alguno de los otros factores, se especifica el código correspondiente. Si simplemente se quiere eliminar esa información, se especifica el código ‘/’ (barra inclinada), que significa ‘no se aplica’. 2.3.2. Especificación de condiciones. Una vez introducidos los datos y especificados los factores, hay que cubrir la segunda etapa: señalar al ordenador qué condiciones debe tener en cuenta para leer los datos. Esta información ya se ha proporcionado en parte mediante la “especificación de factores”; esto es, el ordenador ya sabe cuántos grupos de factores hay y qué factores conforman cada grupo, pero desconoce, por ejemplo, cuál será considerado como dependiente y cuáles como explicativos o independientes. Las condiciones del análisis se especifican en un archivo creado especialmente para ello (en los epígrafes dedicados a cada programa explicaremos el modo de crear ese archivo). Si el investigador desea hacer su análisis con las condiciones marcadas en la “especificación de factores” — pongamos como ejemplo el de la aspiración de /s/ implosiva — creará un 16 archivo con la forma reproducida en la Figura 4. __________ ( (1) (2) (3) ) __________ Figura 4.- Disposición de un archivo de condiciones. Con esto se está diciendo que se van a analizar los tres grupos previstos y que el que aparece en primer lugar (1) será la variable dependiente y los demás, las explicativas. Los datos, por tanto, no se van a recodificar. La forma de dar esta información responde a un sistema lógico llamado LISP. Cada una de las partes de un archivo de condiciones — la lista completa de condiciones, cada elemento de la lista — debe ir entre parántesis. En la Figura 4, además de los paréntesis aparecen simplemente los números de los grupos de factores. Ahora bien, el desarrollo del análisis puede revelar la necesidad de interpretar las secuencias de datos iniciales (tokens) de una manera diferente: por ejemplo, fundir dos factores de un grupo en uno solo, no tener en cuenta un factor determinado, prescindir de un grupo de factores completo o, incluso, elegir otro grupo dependiente. Todo esto se puede hacer desde un archivo de condiciones sin tener que alterar para nada la lista de secuencias. En tal circunstancia, ese fichero servirá para recodificar las secuencias automáticamente. Para lograr una recodificación, el sistema LISP cuenta con cinco elementos básicos: “AND”, “OR”, “NOT”, “COL” y “ELSEWHERE” (escritos con mayúsculas o con minúsculas). Los tres primeros son unos operadores lógicos muy conocidos: “AND” y “OR” toman hasta 20 argumentos; “NOT” tiene un solo argumento. Por su parte, “COL” ‘columna dentro de lista de secuencias’ se usa con dos argumentos: el número de un grupo de factores y el código del factor que se va a recodificar. “ELSEWHERE” se utiliza como último elemento dentro de un conjunto de cláusulas referidas a un grupo de factores y sirve para recodificar los datos con un valor determinado, si no se encuentra ninguna de las condiciones dadas previamente para ese grupo. La información referida a un grupo que aparezca detrás de este operador no se tiene en cuenta para la recodificación. Además de estos elementos, el sistema LISP utiliza “NIL” que indica la exclusión en el momento del análisis del factor o los factores (argumentos) que lo acompañan. En la Figura 5 se ofrece un ejemplo sencillo de archivo de condiciones dispuesto para conseguir una recodificación. Supongamos que al hacer un primer análisis de la aspiración de /s/ implosiva hemos observado que no es aconsejable, por las características de los datos recogidos, mantener una distinción entre consonantes sordas y consonantes sonoras para el contexto fónico siguiente y que tendría más sentido distinguir simplemente entre consonantes, vocales y pausa. En ese caso hay que hacer que el ordenador considere los datos referidos a las sordas y a las sonoras como elementos de una misma categoría. Para ello se redactaría un archivo como el de la Figura 5. 17 ( (1) (2 (c (COL 2 s)) (c (COL 2 n)) (v (COL 2 v)) (p (COL 2 p))) (3) ) _______________ Figura 5.- Disposición de un archivo de condiciones dispuesto para la recodificación (muestra sencilla). Obsérvese que el conjunto de la información y cada uno de sus componentes se encierran entre paréntesis. Con este archivo estamos diciendo lo siguiente: 1º.- Que el grupo 1 será dependiente y que no se tienen que recodificar sus factores; los demás grupos serán explicativos. 2º.- Que los factores del grupo 2 se tienen que recodificar de la siguiente forma: se va a leer como “c” (consonante) lo que en la columna 2 de las secuencias (tokens) aparezca como “s” (consonante sorda); también se va a leer como “c” lo que en la columna 2 aparezca como “n” (consonante sonora); se va a seguir leyendo como “v” (vocal) lo que en la columna 2 aparece como “v”; y se va a seguir leyendo como “p” (pausa) lo que en la columna 2 aparece como “p”. 3º.- Que los factores del grupo 3 no se tienen que recodificar. Aunque nuestro ejemplo es bastante sencillo, las posibilidades de recodificación con el sistema LISP son muy amplias, como se puede comprobar en una muestra que proporcionan Rand y Sankoff (1990) para unos grupos de factores más complejos y que reproducimos parcialmente en la Figura 6. _________________________________ ( (4 (d (OR ( (COL 4 d) (COL 4 c))) (s (ELSEWHERE))) (5) (3 (/ (OR (COL 3 s) (COL 3 t) (COL 3 u))) (m (OR (OR (COL 3 n) (COL 3 h)) (OR (COL 3 1) (COL 3 2) (COL 3 3) (COL 3 w) (COL 3 u) (COL 3 y) (COL 3 p) (COL 3 t) (COL 3 r) (COL 3 x)))) (x (AND (OR (COL 3 n) (COL 3 h)) (COL 7 n))) (NIL (ELSEWHERE))) ) ___________________________________________ Figura 6.- Archivo de condiciones con recodificación (muestracompleja). El desarrollo de la información contenida en este archivo podría ser el siguiente: 1º.- Considera el grupo 4 como dependiente y los demás como explicativos. 2º.- Recodifica el grupo 4 de esta forma: lee como “d” bien lo que en la columna 4 de las secuencias (tokens) aparece como “d”, bien lo que en la columna 4 aparece como “c”, y lee como “s” todo lo demás. 3º.- El grupo 5 no se recodifica. 4º.- Recodifica el grupo 3 de esta forma: no se aplica, bien lo que en la columna 3 aparece como “s”, bien lo que aparece como “t” o bien lo que aparece como “u”; lee como “m”, por 18 un lado, bien lo que en la columna 3 aparece como “n” o bien lo que en la columna 3 aparece como “u” o, si no, bien lo que en la columna 3 aparece como “1” o como “2” o como “3” o como “w” o como “u” o como “y” o como “p” o como “t” o como “r” o como “x”; lee como “x” lo que en la columna 3 aparece, bien como “n”, bien como “h” y lo que en la columna 7 aparece como “n”; por último, no se aplica todo lo demás que aparezca en las secuencias de este grupo. Como se puede apreciar, si la recodificación que se quiere hacer afecta seriamente a la disposición inicial de las secuencias de datos, la elaboración de un archivo de condiciones puede ser algo complicada, entre otras cosas porque los olvidos de los paréntesis se producen con más frecuencia de la deseada. De cualquier modo, la redacción de unas condiciones que incluyan recodificación siempre es menos trabajosa que la rectificación manual de las secuencias de datos. Como veremos, el programa GOLDVARB 2.0 es capaz de crear de forma automática este tipo de archivos, lo que libera al sociolingüista de un trabajo ciertamente engorroso. En VARBRUL 2S la redacción en LISP no es automática. 2.3.3. Creación de celdas. La creación de celdas se consigue con el recuento de la frecuencia hallada en la intersección de dos factores de grupos diferentes. Para hacer esto es imprescindible la información que se aporta en las secuencias de datos y en los archivos de condiciones. De hecho, estos últimos determinan cuántas celdas se van a construir y qué datos van a formar parte de cada una de las frecuencias. Desde el punto de vista del sociolingüista, la fase de creación de celdas puede ser considerada como un trámite informático, puesto que la resuelve el ordenador automáticamente, una vez que conoce sobre qué archivos de datos y de condiciones tiene que realizar los cómputos. No obstante el investigador debe señalar previamente —ya explicaremos en qué lugar — cuál de los factores del grupo dependiente es el que se va a analizar (aplicar). Al especificar qué factor o factores son pertinentes para la construcción de las celdas, también hay que decidir si se quiere hacer un análisis binomial o multinomial. Este último sólo se puede considerar en el caso de trabajar con VARBRUL 2S, puesto que GOLDVARB 2.0 no está preparado para ello. Si el sociolingüista trabaja con un grupo dependiente compuesto por cuatro factores (“1”, “2”, “3” y “4”) las posibilidades de análisis que tiene son las siguientes: a) Análisis binomial: considerar “1” como valor de aplicación y “2”, “3” y “4” como valores de no aplicación. b) Análisis binomial: considerar “1” como valor de aplicación, “2” como valor de no aplicación y omitir “3” y “4”. c) Análisis trinomial: analizar conjuntamente “1”, “2” y “3” y omitir “4”. En el ejemplo sobre el comportamiento de /s/ implosiva (grupo dependiente con tres factores), sería posible analizar el mantenimiento de la sibilante frente a la aspiración y a la pérdida de la consonante, cuyos datos serían considerados como un todo, o la pérdida frente al mantenimiento y omitir los datos sobre la aspiración o cualquier otra combinación que se considere oportuna por el carácter del fenómeno lingüístico estudiado. Cuando el ordenador dispone de toda esta información crea las celdas oportunas y las reproduce en un archivo. La Figura 7 muestra las celdas correspondientes a la aspiración de /s/ (aplicación) frente a mantenimiento y pérdida (no aplicación), obtenidas al combinar dos grupos explicativos (hablante y contexto fónico). 19 _______________ AP. ~AP. Factores 63 82 1n 10 115 1p 62 238 1s 5 129 1v 76 64 2n 5 87 2p 134 88 2s 31 67 2v 66 48 3n 24 83 3p 164 54 3s 12 68 3v 55 58 4n 6 137 4p 21 201 4s 4 107 4v 59 71 5n 6 129 5p 82 189 5s 2 109 5v 39 26 6n 8 106 6p 134 102 6s 2 87 6v _________________ Figura 7.- Celdas de aspiración de /s/ implosiva (AP.) y de no aspiración (~AP.) Una vez que las celdas están creadas y cargadas en la memoria del ordenador, se puede proceder al análisis estadístico de los materiales. 2.4. GOLDVARB 2.0. El manejo de GOLDVARB 2.0. se ajusta a las etapas que hemos presentado en los epígrafes anteriores.13 Cada una de estas fases requiere la creación de un archivo específico, que se van creando y memorizando progresivamente: archivo de secuencias de datos (Tok), archivo de condiciones (Con) y archivo de celdas (Cel). Por último, se crea un archivo de resultados (Res) en el que aparecen los recuentos estadísticos y los análisis probabilísticos. No pretendemos que estas líneas sustituyan las instrucciones del programa, pero creemos conveniente comentar los aspectos más elementales del manejo. La verdad, no obstante, es que el uso de este programa es sumamente fácil, porque el ordenador ofrece para cada fase una “ventana” en la que la información se dispone de forma muy clara. 2.4.1. Archivo de datos. La primera “ventana” que se abre en la pantalla está preparada para incluir las secuencias de datos y para especificar los factores que se van a manejar en cada uno de los grupos de factores. Esta ventana está dividida en dos partes, una para cada uno de los fines que acabamos de exponer. La parte destinada a recoger las secuencias de datos funciona realmente como un programa de tratamiento de textos en el que se pueden activar, mover o borrar bloques. En la parte de “especificación de factores”, se anotan los datos necesarios en los lugares apropiados para ello, como se observa en la Figura 8.14 20 Figura 8.- Ventana de archivo de datos (Tok) y de especificación de factores (GOLDVARB 2.0). Una vez introducidos los datos, se puede comprobar si están correctamente dispuestos mediante la función “Check all” que aparece en la ventana de “especificación de factores” o en la ventana “Tokens” del menú principal del programa. 2.4.2. Archivo de condiciones. Se crea desde el menú principal (Tokens) y existe la posibilidad de hacerlo sin recodificación o con recodificación de las secuencias de datos. En el segundo caso, se abre una ventana destinada a la generación de condiciones (Figura 9). Figura 9.- Ventana para generación de condiciones con recodificación (GOLDVARB 2.0). Como ya hemos comentado, las condiciones son redactadas de forma automática 21 mediante el sistema LISP en el archivo que el ordenador crea a tal efecto, aunque es posible retocarlas o modificarlas manualmente. 2.4.3. Creación de celdas. En la entrada “Cells” del menú principal se encuentra la orden pertinente para cargar las celdas en el ordenador a partir de los archivos de datos y de condiciones que se especifiquen. Antes de que se creen las celdas, proceso que se realiza también automáticamente, es necesario anotar, en la ventana que se presenta con este fin, cuál o cuáles van a ser los valores de aplicación y de no aplicación, teniendo en cuenta las posibilidades explicadas en 2.3.3. En este programa no existe la posibilidad de realizar un análisis multinomial. De todas formas, si se necesita considerar dos factores como valores de aplicación y otros dos como valores de no aplicación, es posible hacerlo mediante una recodificación, al crear el archivo de condiciones. Por otra parte, cuando contamoscon cuatro factores en el grupo dependiente, existe la posibilidad de crear celdas como si de un análisis multinomial se tratase, pero estas sólo servirán para construir “tabulaciones cruzadas” (véase Tabla 6), no para hacer el análisis propiamente dicho. Después de que el ordenador haya hecho las celdas — a partir de los valores de aplicación que se le hayan indicado —, se crea, también automáticamente, un archivo de resultados en el que se ofrecen las frecuencias absolutas y relativas de los casos de aplicación para cada grupo explicativo estudiado y para cada uno de sus factores. La información que se proporciona aquí coincide con la que hemos reproducido en las Tablas 4 y 5. Estos datos se presentan antes de proceder a los análisis probabilísticos, porque en ellos se hace notar si los recuentos son adecuados. Si alguno de los grupos contiene un solo factor (“singleton”) o alguno de los factores muestra una frecuencia de 0% o 100% en los casos de aplicación (“knockout”), no es posible acceder al análisis de regresión (véase 2.3.1.) 2.4.4. Análisis de regresión. GOLDVARB 2.0 cuenta con dos posibilidades de análisis probabilístico. A ambas se accede desde el menú “Cells”: “Binomial, 1 level” y “ Binomilal, Up & Down”. Los resultados de estos análisis se escriben automáticamente dentro del archivo de resultados, a continuación de las frecuencias de cada factor. Cuando se aplica el análisis binomial de 1 nivel, GOLDVARB 2.0 da la siguiente información: a) Número de iteraciones que han sido necesarias para encontrar la función de verosimilitud.15 b) “Input” que se utiliza al aplicar el modelo logístico (véase 1.4) c) Efecto de cada uno de los factores de cada grupo sobre el factor dependiente (“Weight”). d) División del número de aplicaciones de cada factor entre el número de casos posibles (“App/Total”). e) Probabilidad resultante de combinar el efecto (“weight”) y el “input”. f) Factores utilizados en la creación de cada celda. g) Número total de datos por celda. h) Número de aplicaciones por celda. i) Valor esperado por celda. j) Proporción de error por celda. k) Ji- cuadrado (c2) total . l) Ji-cuadrado (c2) dividido por el número de celdas. m) Logaritmo de la función de verosimilitud. 22 n) Diagrama de dispersión, en el que se compara la proporción de casos de aplicación del factor estudiado en cada una de las celdas, con las probabilidades creadas en el análisis. Estos dos tipos de valores se relacionan y disponen teniendo como referencia un eje central: cuando los datos observados se ajustan a las probabilidades del modelo, aparecen situados cerca del eje. La Figura 10 representa el diagrama de dispersión del mantenimiento de la sibilancia para /s/ implosiva. En él se observa que hay una correspondencia entre los valores observados y los valores predichos por el modelo, puesto que todas las celdas están cerca del eje. Los cuadrados que aparecen en la parte superior corresponden a las celdas que contienen un mayor número de aplicaciones. Los de la parte baja del diagrama representan las celdas que tienen menos aplicaciones.16 “Lingüística.Cel” • 19/12/93•18:11 • Token file: s.tkn • Conditions: Lingüística.Cnd 1 P r o b a b i l i t y 0 Applications/Total 1 Figura 10.- Diagrama de dispersión de mantenimiento de /s/ implosiva. Además de esto, se puede pedir al ordenador que ofrezca la información necesaria para valorar la adecuación del modelo teórico: logaritmo de máxima verosimilitud y c2, con indicación de la significación, esto es, de la probabilidad de que los resultados del análisis se deban al azar.17 La significación nunca debe superar el umbral de 0.05, admitido de forma general en los estudios de Ciencias Sociales. El cálculo de c2 permite comparar el resultado del análisis de GOLDVARB con los que proporcionan las versiones anteriores de VARBRUL. 23 El análisis binomial de subida y bajada (“Binomial, Up & Down”) aporta una información en parte coincidente con los resultados del análisis de 1 nivel y en parte complementaria. Se trata de un análisis de regresión escalonada (paso a paso), compuesto por una sucesión de etapas. En primer lugar, se realiza el análisis de cada uno de los grupos de factores por separado: el análisis consiste en calcular las probabilidades de que aparezca una variante para cada factor del grupo. A continuación, se analizan los grupos tomados de dos en dos, después de tres en tres, y así hasta que no se encuentra ningún grupo cuya inclusión suponga un aumento del logaritmo de la función de verosimilitud, dentro siempre de una significación p < 0.05. El programa compara las verosimilitudes de las etapas sucesivas y señala cuál es el grupo, o la combinación de grupos, más adecuado, esto es, con mayor verosimilitud. Concluida la primera fase, llamada de “ascenso” o de agrupación progresiva de grupos de factores, se pasa a la fase de “descenso” o de eliminación progresiva de grupos. Dentro de ella, en primer lugar se analizan conjuntamente todos los grupos explicativos; a continuación, las combinaciones de grupos que resultan tras eliminar uno de ellos alternativamente; después las combinaciones que resultan de eliminar dos grupos, y así sucesivamente hasta que no se encuentra un grupo cuya exclusión suponga una disminución del logaritmo de la función de verosimilitud, dentro de la significación adecuada. Al terminar esta segunda fase, el programa compara las verosimilitudes de las distintas etapas e indica cuál es la combinación de grupos con mayor verosimilitud. El programa presenta, para cada una de las etapas de este análisis escalonado, la siguiente información: a) Número de iteraciones realizadas para encontrar la convergencia. b) “Input” que se utiliza al aplicar el modelo logístico (véase 1.4) c) Probabilidad de aparición del rasgo analizado atendiendo a cada factor de cada grupo (el número de grupos analizados varía según la etapa del análisis). d) Logaritmo de la función de verosimilitud. e) Significación. El hecho de disponer de la información probabilística desgranada de esta manera (por cada grupo de factores, por cada combinación de dos grupos, por cada combinación de tres grupos, etc.) facilita al sociolingüista la labor de interpretación de los resultados y hace posible que esta tarea se realice con todo rigor. 2.4.5. Tabulación cruzada. Independientemente de que se haya procedido a cualquiera de los análisis binomiales, una vez construidas las celdas a partir de unos valores de aplicación determinados (casos binomial y multinomial), el menú “Cells” ofrece la posibilidad de crear tablas de frecuencias absolutas y relativas en las que se cruzan los datos de dos variables explicativas (véase Tabla 6). 2.5. VARBRUL 2S. Este programa se utiliza en ordenadores IBM-PC equipados con Coprocesador matemático o en VAX. También es necesario contar con un editor de textos. El manejo del programa requiere cumplir las fases explicadas en 2.3., de un modo similar al que hemos descrito para GOLDVARB. Ahora bien, VARBRUL no funciona en un entorno de “ventanas”, sino que está formado por una serie de programas, destinados, cada uno de ellos, a un fin específico. Estos programas parciales reciben los siguientes nombres: 24 CHECKTOK, READTOK, MAKECELL, COUNTUP, CROSSTAB, IVARB, TVARB, MVARB, TSORT y TEXTSORT. Para hacer funcionar estos programas, hay que contar con una serie de archivos creados por medio del editor de textos: un archivo de datos (con extensión “.dat”)18, un archivo de especificación de factores (“.fac”) y un fichero de condiciones (“.con”). La aplicación de los programas parciales sobre los archivos correspondientes dará lugar a la creación de los archivos de secuencias de datos (“.tok”), de celdas (“.cel”) y de resultados (“.res”). Tal y como hemos hecho a propósito de GOLDVARB 2.0, comentaremos de forma general los aspectos más elementales del manejo de VARBRUL 2s, puesto que no tenemosla intención de que estas notas ocupen el lugar que corresponde a las instrucciones del programa. 2.5.1. Introducción de los datos en el ordenador. Archivos de especificación de factores y de condiciones. La disposición y características de los datos para trabajar con este programa se ajusta exactamente a lo que hemos comentado en 2.3.1 y 2.4.1., excepto en lo que se refiere al número de grupos y factores admitidos para el análisis. Este número depende del programa parcial que se quiera aplicar. Para construir las celdas, los límites son los siguientes (Pintzuk 1988: 20; 25-26): Máximo número de factores en el grupo dependiente: 9. Máximo número de grupos explicativos: 20. Máximo número de factores en los grupos explicativos: 30. Para realizar un análisis binomial, el número máximo de factores admitido para el grupo dependiente es de dos y, entre todos los grupos explicativos, no puede haber más de 49 factores, si se trabaja con IBM-PC, o de 100, si se trabaja con VAX. Como ya hemos apuntado, esta versión de VARBRUL puede hacer análisis multinomiales. En este caso, el número máximo de factores admitido para el grupo dependiente es de 3 ó 5, según el programa parcial que se aplique y, entre todos los grupos explicativos, no puede haber más de 100 factores. En VARBRUL 2S el archivo de datos (“.dat”) hay que crearlo en un documento de un editor de textos (p.e. WordPerfect) que no contenga “caracteres de control”.19 Una vez que se ha creado ese primer archivo de datos, conviene utilizar el programa destinado a comprobar que las secuencias no contienen errores: CHECKTOK.20 Previamente, sin embargo, se ha tenido que crear un archivo de especificación de factores (“.fac”) por medio del editor de textos.21 Este archivo debe tener una configuración acorde con la que se reproduce en la Figura 11. _________ 3 / 012 / 123456 / snvp / _________ Figura 11.- Archivo de especificación de factores creado con editor de textos (VARBRUL 2S). Factores para el análisis de /s/ implosiva. 25 En la primera línea aparece el número de grupos de factores que van a ser analizados; en la segunda, el carácter con el que ha de completarse una secuencia incompleta; en las siguientes se anotan, por orden, los factores y los valores por defecto de cada grupo analizado. Cuando CHECKTOK dispone de la información que ha solicitado, crea un archivo en el que se localizan los errores que pueda contener el fichero de datos.22 Después de comprobar la configuración de los datos, hay que arrancar el programa parcial READTOK, para crear un archivo de secuencias de datos (“.tok) a partir de uno o más archivos de datos (“.dat”). Es importante llamar la atención sobre las diferencias que hay entre el primer archivo de datos — al que damos la extensión “.dat” — y el archivo de datos que va a ser utilizado por los distintos programas parciales —al que damos la extensión “.tok”, por paralelismo con GOLDVARB. Sólo los archivos de datos creados desde READTOK pueden ser utilizados en las siguientes fases de VARBRUL. Antes de continuar con el proceso de aplicación, todavía es necesario crear un archivo más mediante el editor de textos: un archivo de condiciones, cuya redacción es idéntica a la que hemos explicado en 2.3.2 y 2.4.2. 2.5.2. Creación de celdas y análisis probabilísticos. Los archivos creados hasta este momento hacen ya posible la preparación de las celdas de frecuencias y los análisis de regresión. Para crear las celdas se utiliza el programa parcial MAKECELL, el cual solicita para su funcionamiento el nombre de los archivos de datos (“.tok”) y de condiciones (“.con), así como el valor de aplicación sobre el que se va a centrar el análisis (2.3.3.).23 El resultado se registra en un nuevo archivo, para el que se sugiere la extensión “.cel”. En él se dan las frecuencias absolutas y relativas de los casos de aplicación y de no aplicación — en una forma similar a la de las Tablas 4 y 5— y a continuación la frecuencia correspondiente a cada celda (véase Figura 7). Este archivo de celdas es necesario para la aplicación de otros programas específicos. VARBRUL 2S cuenta con tres programas destinados al análisis de regresión: IVARB, TVARB y MVARB. El primero de ellos se utiliza para hacer análisis binomiales cuando el grupo dependiente está formado solamente por dos factores (véase nuestro ejemplo sobre marca de plural). Antes de realizar los análisis, el ordenador pide el nombre del archivo de celdas sobre el que van a hacer los cálculos;24 también se solicita un nombre para atribuírselo al archivo en el que van a quedar inscritos los resultados de los análisis (“.res”). Como ocurre con GOLDVARB 2.0, IVARB ofrece dos posibilidades de análisis de regresión: análisis binomial de 1 nivel y análisis binomial de subida y bajada (“Up & Down”) (2.4.4.). La información que se proporciona en uno y en otro es prácticamente la misma que comentamos a propósito de GOLDVARB, si bien en el programa para IBM-PC no se da un diagrama de dispersión. Por su parte, los programas TVARB y MVARB se encargan de realizar análisis multinomiales. La principal diferencia entre ellos está en que TVARB trabaja con un grupo dependiente de tres factores, mientras que MVARB puede analizar un grupo dependiente con cuatro o cinco factores. En ambos casos, tan sólo hay una posibilidad de regresión: análisis binomial de 1 nivel.25 VARBRUL 2S incluye otros programas parciales que permiten contar, ordenar y manipular los datos de diversas formas. Estos programas suelen ser un buen complemento para conseguir análisis refinados y rigurosos.26 Por otra parte, los errores que surgen en la aplicación de los diversos programas se anotan en archivos creados automáticamente. De 26 esta forma, el investigador puede saber en cada momento cuáles son las dificultades a las que se enfrenta y el modo de resolverlas (Pintzuk 1988: 33). 2.6. Interpretación de los análisis probabilísticos. La interpretación de los resultados de los análisis es la etapa más importante de toda investigación. La calidad de un trabajo — en cuanto a validez, utilidad y comparabilidad — viene determinada por la forma en que se haya hecho la interpretación y en que se hayan aprovechado los datos disponibles. Puede haber análisis correctos, pero pobres; puede haber interpretaciones complejas y sugerentes, pero absolutamente incorrectas. Ya hemos señalado qué informaciones proporcionan los programas creados para hacer análisis de regresión (2.4.4. y 2.5.2.). Esas informaciones se dan en los llamados archivos de resultados. Ahora nos interesa tratar con mayor detenimiento cómo hay que valorar esa información, para qué sirve cada dato y cómo se puede conseguir un aprovechamiento óptimo de los materiales. La actitud general del investigador debe ser la de conseguir el máximo rendimiento de cada uno de las herramientas técnicas que la informática ha puesto a su disposición. Con esto queremos decir que, si el programa y las características de los datos permiten hacer dos tipos de análisis —p.e. binomial de 1 nivel y binomial de subida y bajada —, no es aconsejable dejar de lado uno de ellos; si el análisis plantea algún problema, es más fácil solucionarlo con una información completa — resultados completos, tablas cruzadas, etc. — que con una información parcial —p.e. solamente tablas cruzadas. Además de esto, la actitud del investigador debe estar siempre abierta a la posibilidad de analizar los datos varias veces: a menudo hay que reconsiderar los grupos y factores establecidos previamente, las condiciones del análisis, los valores de aplicación seleccionados. etc. En palabras sencillas, los análisis no siempre salen a la primera, si lo que se busca es un conocimiento detallado de los mecanismos de la variación. Las aproximaciones superficiales están al alcance de cualquiera. Dado que VARBRUL 2S y GOLDVARB 2.0 ofrecen unos resultados de características muy similares (en su mayor
Compartir