Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Universidad de Buenos Aires Facultad de Ciencias Exactas y Naturales Departamento de Computación Uso de lenguaje inclusivo en Twitter Argentina Tesis de Licenciatura en Ciencias de la Computación Mat́ıas Carlos Guerson Directores: Agust́ın Gravano y Santiago Kalinowski Buenos Aires, 2021 USO DE LENGUAJE INCLUSIVO EN TWITTER ARGENTINA Dado el avance de la tecnoloǵıa y el uso cada vez más amplio de internet y de las redes sociales, entre otros factores, en los últimos años se ha producido un gran crecimiento en cuanto a la cantidad de datos que se pueden generar, recolectar, almacenar y procesar. Esto dio lugar a la posibilidad de investigar fenómenos lingǘısticos a gran escala, lo cual seŕıa dif́ıcilmente practicable de forma manual. Un fenómeno lingǘıstico que, si bien no es nuevo, ha cobrado relevancia en los últimos tiempos es la intervención que recibe el nombre de ((lenguaje inclusivo)). Plantea que el masculino genérico, presente en español y otras lenguas, es insuficiente para dar cuenta de la diversidad de géneros de la sociedad. Con esa premisa, la intervención consiste en desplegar diferentes estrategias para evitar el uso del masculino genérico, no exhaustiva- mente, según surge del análisis de los datos, sino en determinadas posiciones de ciertos enunciados. Dado que es un rasgo discursivo que emerge de profundas divisiones poĺıticas, sociales y culturales de la sociedad, su uso genera tanto adhesiones como rechazos. En este trabajo nos propusimos analizar, desde distintos enfoques, cómo ha sido la evolución del lenguaje inclusivo en los últimos años. Para esto, utilizamos datos de la red social Twitter. Recolectamos casi 130 millones de tweets escritos por más de 56 mil usuarios distribuidos en 23 provincias argentinas. Nuestros objetivos fueron: dimensionar la cantidad de personas que lo usan, identificar en qué momento surgió y cómo fue evo- lucionando diacrónicamente cada una de sus variantes (((@)), ((x)), ((e)), etc.), y analizar minuciosamente cuántas y cuáles son las palabras que resultan intervenidas. Pudimos observar que, si bien el lenguaje inclusivo no presenta un uso extendido o generalizado, tampoco es insignificante. A su vez, notamos que existen múltiples indicios que sugieren que el fenómeno se encuentra en crecimiento. Vimos, también, cómo su uso no parece requerir un cambio gramatical, sino que se actualiza a través del uso de un repertorio limitado de palabras que empiezan a funcionar como marcadores discursivos. Palabras claves: Procesamiento de Lenguaje Natural, Lingǘıstica Computacional, Len- guaje Inclusivo. i AGRADECIMIENTOS A la Universidad de Buenos Aires y, en especial, a cada persona que integra el Depar- tamento de Computación de la Facultad de Ciencias Exactas y Naturales. Es admirable y emocionante ver todo el esfuerzo que hacen por sostener la universidad pública y de excelencia. A Agust́ın Gravano, por su incansable acompañamiento, empuje, predisposición y en- señanza. A Santiago Kalinowski, por haberme ayudado durante todo el trabajo con su conoci- miento lingǘıstico. A Sergio Yovine y Mart́ın Urtasun, por haber aceptado ser jurados de esta tesis y por haberla léıdo en muy poco tiempo. A mis amigos de la vida, por haberme acompañado y alentado en todo momento. A mis amigos de la facultad, por tantas juntadas de estudio, y otras de no tanto estudio. A mis compañeros de trabajo, por haberme bancado en momentos intensos en la fa- cultad. A mi familia universitaria, Patricio, Solange y Augusto, por todo eso que hizo que se convirtieran en familia. A toda mi familia, por haberme acompañado, ayudado, alentado y tantas lindas ac- ciones más, en todo momento. A Flor, mi compañera en este viaje, por el incréıble apoyo y amor que me dio y me da. iii A mi vieja que lo vio, y a mi viejo que no llegó... Índice general 1.. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1. Lenguaje inclusivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2. Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3. Trabajo previo en el área . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.4. Objetivo del estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.. Recolección de datos y armado del Corpus . . . . . . . . . . . . . . . . . . . . . . 7 2.1. Recolección de datos de Twitter . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1.1. Análisis de las dificultades en la recolección de datos . . . . . . . . . 10 2.2. Armado del corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2.1. Tokenización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.2.2. Normalización de tokens . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.2.3. Caracterización del corpus . . . . . . . . . . . . . . . . . . . . . . . . 16 3.. Detección de uso del lenguaje inclusivo . . . . . . . . . . . . . . . . . . . . . . . . 23 3.1. Selección de lemas potencialmente intervenidos en el lenguaje inclusivo . . . 23 3.2. Conversión de los lemas al lenguaje inclusivo . . . . . . . . . . . . . . . . . 25 3.3. Búsqueda eficiente de palabras dentro del corpus . . . . . . . . . . . . . . . 32 4.. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.1. Análisis de tweets inclusivos . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.2. Análisis de usuarios inclusivos . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.3. Análisis anual de los tipos de intervenciones . . . . . . . . . . . . . . . . . . 54 4.4. Análisis de palabras intervenidas . . . . . . . . . . . . . . . . . . . . . . . . 56 4.4.1. Cobertura del inventario . . . . . . . . . . . . . . . . . . . . . . . . . 57 4.4.2. Análisis de frecuencia normalizada . . . . . . . . . . . . . . . . . . . 66 4.5. Análisis de los desdoblamientos - Masculino vs. Femenino . . . . . . . . . . 68 4.6. Análisis del número - Plural vs. Singular . . . . . . . . . . . . . . . . . . . . 70 5.. Conclusiones y trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 Apéndice 79 A.. Expresión regular nltk.TweetTokenizer . . . . . . . . . . . . . . . . . . . . . . . . 81 B.. Inventario para la letra ((e)) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 C.. Usuarios inclusivos - Problema asociado a la cantidad de tweets recolectados . . 85 Bibliograf́ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 vii 1. INTRODUCCIÓN 1.1. Lenguaje inclusivo En los últimos años algunos colectivos como el feminismo y las comunidades LGBTIQ+ (Lesbianas, Gays, Bisexuales, Transgéneros, Transexuales, Travestis, Intersexuales, Queer y colectivos que no se sienten representados por ninguno de los géneros anteriores) han ganado mayor visibilidad e instalaron debates acerca de cuestiones de género en la agenda pública. Estos colectivos han avanzado con muchas demandas de diferente tipo, como, por ejemplo, el derecho a la identidad de género, al matrimonio igualitario, al cupo laboral; la lucha contra la discriminación, la violencia de género, entre otras. En ese contexto, se agregó un nuevo caṕıtulo a la reflexión sobre los sesgos de género presentes en la lengua. Partiendo de premisas tales como ((el lenguaje nos constituye)) y ((lo que no se nombra no existe)), estos grupos denuncian la invisibilización de la mujer y de los géneros no binarios a través de la lengua. El eje central de este planteo reside en el uso del masculino genérico para referirse tanto a grupos conformados por personas de distintos géneros (por ejemplo, ((todos van a ganar))), como a una sola persona cuando se desconoce su género o no es informativamente relevante (((quien termine primero, gana))). Quienes adhieren a este cuestionamiento argumentan que esto constituye un factormás que promueve la relegación de las mujeres y personas no binarias en la sociedad. Como respuesta a esta problemática, surgen distintas propuestas que componen lo que recibió el nombre de lenguaje inclusivo. Una de las propuestas es el uso de los desdoblamientos con ((y/o)) y ((/)) (por ejemplo, ((todos y todas van a ganar)), ((quien termine primero o primera, gana)), ((todos/as van a ganar)) o ((quien termine primero/a, gana))). Por un lado, con estas alternativas, se incorpora al discurso únicamente el género femenino, y se dejan fuera de consideración los géneros no binarios. Por otro lado, el desdoblamiento con ((y/o)), a diferencia del que usa la ((/)), no incorpora palabras nuevas ni tampoco altera las existentes. Otra de las propuestas sugeridas es el uso del ((@)) (por ejemplo, ((tod@s van a ganar)) o ((quien termine primer@, gana))). Esta opción es más compacta que los desdoblamientos, puesto que evita la repetición, ya sea de la palabra completa o simplemente del sufijo. A su vez, el ((@)) es impronunciable, por lo que esta alternativa solo está disponible en la escritura. Por otro lado, es una variante que recibió cŕıticas porque, asumiendo que el ((@)) representa la unificación gráfica de la ((a)) con la ((o)), tampoco contempla a los géneros no binarios. Una variante que, en cambio, permite la inclusión de todos los géneros es la letra ((x)) (por ejemplo, ((todxs van a ganar)) o ((quien termine primerx, gana))). Sin embargo, esta alternativa tampoco es pronunciable en español y su uso también queda limitado únicamente a la escritura. Una propuesta que plantea solución a ambas problemáticas, ya sea considerar a todos los géneros como permitir su pronunciación, es el uso de la letra ((e)) (por ejemplo, ((todes van a ganar)) o ((quien termine primere, gana))). Por último, es necesario destacar que la discusión acerca de los sesgos de género pre- sentes en la lengua, no se está llevando a cabo únicamente en el español. Solo por citar un caso, actualmente en el inglés se está discutiendo el uso del pronombre they en singular. 1 2 1. Introducción 1.2. Twitter Twitter es un servicio de microblogging y red social creado en 2006. En él sus usuarios interactúan a través de publicaciones llamadas tweets o tuits. Los usuarios pueden estar registrados o no, pero únicamente tienen permiso para publicar aquellos que tengan una cuenta. Los otros solo se limitan a leer el contenido. Cada vez que un usuario escribe un tweet, éste se ve reflejado en su página principal o timeline (ĺınea de tiempo). Por defecto el timeline es público, es decir, cualquier persona tiene acceso a su contenido. Sin embargo, esta configuración puede modificarse para que la cuenta sea privada, restringiendo aśı el acceso a los tweets. La interacción entre usuarios se puede dar de diversas formas. En primer lugar un usuario puede elegir suscribirse al contenido de otro, convirtiéndose aśı en su seguidor. Esta relación no es necesariamente rećıproca; es decir, una persona puede decidir seguir a otro usuario sin necesidad de que este último también sea su seguidor. Al ingresar a la red social, que puede ser a través de su sitio web o aplicación móvil, a cada persona le aparecen tweets de los usuarios a los que sigue. Algunas de las acciones posibles sobre un tweet son: indicar ((Me gusta)), responderlo, hacer un retweet o retuit, o citarlo. Si se opta por indicar ((Me gusta)), esto se verá reflejado en la parte inferior del tweet en un contador que suma la cantidad de personas que tuvieron la misma reacción. En caso de que se responda un tweet, la respuesta aparecerá junto a las demás, y a su vez todas figurarán debajo del tweet original. Las acciones de hacer un retweet o citar un tweet son similares. En ambos casos un usuario A toma un tweet de un usuario B y lo publica en su propio timeline. De esta forma el tweet en cuestión queda visible para los seguidores del usuario A. Como única diferencia, al realizar una cita se puede agregar texto a la publicación. Por otro lado, los tweets pueden estar compuestos por texto y contenido multimedia (fotos, videos, enlaces, etc.). Existe una única limitación para el texto y es que éste no supere los 280 caracteres. Originalmente el ĺımite era de 140, pero a partir del año 2017 este valor se duplicó. En la actualidad Argentina tiene alrededor de 5 millones de usuarios alcanzables. Es decir, usuarios que en mayor o menor medida siguen utilizando esta red social. Esta infor- mación surge de los datos publicados por Statista [1] y Kepios [2], dos empresas dedicadas a analizar datos de negocios y de comportamiento en internet. Aún aśı, la tendencia de uso pareciera estar en decrecimiento dado que, por ejemplo, en 2016 este número alcanza- ba casi los 12 millones de usuarios. Sin embargo, es importante notar que no todas estas cuentas corresponden a personas f́ısicas. Partiendo de la premisa de que Twitter es una red social donde sus usuarios pueden interactuar, es también muy utilizado por empresas para publicitar productos o brindar atención al cliente, entes gubernamentales para dar información, etc. Por último, una caracteŕıstica muy importante a la hora de optar por utilizar esta red social para esta tesis, es que posee una interfaz pública que permite recolectar pu- blicaciones de forma automatizada de cualquier usuario, siempre y cuando éste no haya configurado su cuenta como privada. Esta recolección se puede realizar de diversas for- mas, ya sea solicitando tweets que contengan ciertas palabras claves, como indicando que se desea obtener todo el timeline de un usuario, entre otras. Al momento de realizar este estudio, esta última funcionalidad para recolectar los tweets del timeline de un usuario se encontraba limitada. La limitación permit́ıa extraer únicamente las últimas 3200 publica- 1.3. Trabajo previo en el área 3 ciones de un usuario, incluyendo retweets o citas. Es decir, el ĺımite no solo aplicaba a los tweets escritos por cada usuario, sino también a los que hubieran sido escritos por otros y luego compartidos por el usuario en cuestión. El hecho de poder recolectar tweets de forma automatizada permite generar una fuente de datos sobre la cual se pueden realizar diversos estudios. En los últimos años se han publicado numerosos trabajos que utilizaron datos de Twitter. Por ejemplo, en 2017 y como parte de su tesis de licenciatura, Aleman propuso un método para detectar palabras contrastivas basándose en un corpus generado a partir de tweets [3]. En 2019 Makse y Bovet publicaron un art́ıculo donde analizaron la influencia de las noticias falsas en Twitter sobre las elecciones presidenciales de EEUU en 2016 [4]. Recientemente, en Julio de 2021, se publicó un art́ıculo acerca del funcionamiento de la psicoloǵıa epidémica utilizando datos obtenidos de la misma red social [5]. Estos son sólo algunos ejemplos recientes que reflejan la tendencia creciente de usar Twitter como fuente de datos en estudios de toda ı́ndole. 1.3. Trabajo previo en el área Aunque el lenguaje inclusivo se viene discutiendo y analizando hace muchos años, es cierto que en los últimos tiempos ha tomado gran relevancia y visibilidad pública. Es cada vez más común encontrar notas en los medios, publicaciones en las redes sociales, art́ıculos, etc., donde se hable del tema. A su vez, este fenómeno también se viene analizando desde distintos enfoques como, por ejemplo, desde el punto de vista lingǘıstico, sociológico, poĺıtico e incluso estad́ıstico. En primer lugar es pertinente mencionar estudios y art́ıculos publicados por institu- ciones vinculadas a la lengua, como son la Real Academia Española (RAE) y la Academia Argentina de Letras (AAL). Éstas, probablemente, sean la mayor referencia en el tema para los argentinos. En el año 2012, Ignacio Bosque, miembro de la RAE y catedrático de Lengua Española de la Universidad Complutense de Madrid, publicó un estudio titu- lado((Sexismo lingǘıstico y visibilidad de la mujer)) [6]. Alĺı realiza un extenso análisis sobre algunas de las gúıas de lenguaje no sexista presentadas por universidades, comuni- dades autónomas, sindicatos, ayuntamientos y otras instituciones. En particular, presenta una serie de cŕıticas a estas gúıas. Solo por nombrar algunas, en primer lugar remarca la ausencia de lingüistas en su elaboración, aún cuando se analizan aspectos del léxico, la morfoloǵıa y la sintaxis. Por otro lado, indica que no todas las mujeres perciben discrimi- nación en el uso del masculino genérico. En este sentido, menciona que las gúıas son poco flexibles al respecto. Critica, también, que sus autores insinúan que las mujeres que no se sientan excluidas con el uso actual del lenguaje debeŕıan rever su postura. Por último, expresa que los significados de las palabras no pueden definirse o negociarse en asambleas y promulgarlos cual leyes, sino que éstos se modifican con su evolución. A este informe suscribieron las demás academias de la lengua nucleadas en la Asociación de Academias de la Lengua Española (ASALE). Años más tarde, en 2020, la RAE publicó un estudio titulado ((Informe de la Real Academia Española sobre el lenguaje inclusivo y cuestiones conexas)) [7]. Éste se compone de tres piezas: por un lado presenta un informe sobre el uso del lenguaje inclusivo en la Constitución Española. Por otro lado, realiza un análisis sobre sexismo lingǘıstico, femeninos de profesión y masculino genérico. Por último, expresa la posición de esta institución en relación a este tópico. En cuanto a la AAL, destacamos dos estudios. En primer lugar, su presidenta, Alicia Maŕıa Zorrilla, presentó un art́ıculo cuyo 4 1. Introducción t́ıtulo es ((El lenguaje inclusivo. Fundamentos de la posición académica)) [8]. En segundo lugar, el Departamento de Investigaciones Lingǘısticas y Filológicas de la propia institu- ción publicó otro art́ıculo titulado ((La lengua en el centro de un debate social: el caso del lenguaje inclusivo)) [9]. Como parte del análisis y de las ideas que se presentan en estos trabajos, se sugiere que el lenguaje inclusivo no es un fenómeno necesariamente lingǘıstico sino más bien poĺıtico o sociopoĺıtico. Plantean, aśı, que quienes lo utilizan “lo usan con el fin de crear un efecto, en quien lee o escucha, de toma de conciencia sobre un problema social y cultural” [9, p. 20]. Existen otros estudios que también abordan el tema con un enfoque lingǘıstico, o inclu- so desde puntos de vista sociológicos y/o poĺıticos. En primer lugar, podemos mencionar a Álvaro Garćıa Meseguer y su trabajo ((Sexismo y lenguaje)) de 1976 [10]. Alĺı el autor realiza un análisis de los géneros en el lenguaje. En ese estudio, propuso el uso de la le- tra ((e)) para reemplazar las vocales desinenciales ((a)) y ((o)), idea que él mismo rechazó tiempo después. Varias décadas más tarde, Sebastián Sayago presentó en el año 2019 un estudio titulado ((Apuntes sociolingǘısticos sobre el lenguaje inclusivo)) [11], donde refle- xiona acerca de la utilidad de la variante ((e)), y, además, expone criterios gramaticales que considera útiles en caso de una eventual estandarización de esta variante del español. En 2020, José Maŕıa Gil publicó su estudio denominado ((Las paradojas excluyentes del “lenguaje inclusivo” sobre el uso planificado del morfema flexivo -e)) [12], donde analiza en detalle el uso de la letra ((e)) y plantea eventuales limitaciones de esta variante. Desde un enfoque sociológico y/o poĺıtico, en 2018, Julia Moretti publicó su art́ıculo ((La RAE y el rechazo al lenguaje inclusivo)) [13]. Alĺı plantea que su art́ıculo “pretende demostrar cómo al lenguaje inclusivo todav́ıa le falta un largo trecho para recorrer y acomodarse a los cambios que la sociedad ya está experimentando” [13, p. 1]. En cuanto a los trabajos estad́ısticos, enfoque donde nos permitimos ubicar el presente estudio, en primer lugar, los corpus usados se basan principalmente en datos obtenidos de redes sociales. En el año 2019, Yarubi Dı́az, David Heap y Katie Slemp expusieron los resultados de un análisis utilizando 166 videos de Youtube [14]. Su objetivo principal fue analizar la dicotomı́a escritura-oralidad en los usos del lenguaje inclusivo. Este no fue el único trabajo sobre el tema realizado por Slemp. En 2020, junto a Martha Black y Giulia Cortiana, presentaron el estudio ((Reactions to gender-inclusive language in Spanish on Twitter and Youtube)) [15], para el cual tomaron 27 videos de Youtube y 20 tweets que cumplieran ciertas condiciones, con el fin de estudiar la reacción pública respecto del lenguaje inclusivo, y, aśı, compararla con las posiciones oficiales de la RAE y la AAL. Ese mismo año, publicó otro trabajo titulado ((Latin@s or latinxs? Innovation in Spanish gender inclusive oral expression)) [16]. En este caso, los datos utilizados fueron los resultados de encuestas que obtuvo, en mayor medida, por las redes sociales. El objetivo fue intentar responder cómo y en qué medida los hispanohablantes expresan la inclusión de género de forma oral y escrita. Como resultados principales y conclusiones de estos estudios, notaron la preferencia en lo oral por la ((e)) y los desdoblamientos, mientras que en lo escrito detectaron que se suele preferir la ((e)) y la ((x)). Aún aśı, vieron que la gente que utiliza el lenguaje inclusivo todav́ıa sostiene un uso considerable del masculino genérico en lo oral. Por otro lado, pudieron determinar que la reacción en Youtube, en general, es positiva, mientras que, si bien en Twitter no es tan buena, tampoco llega a ser completamente negativa. Incluso, observaron la existencia de correlación entre la cantidad de likes de una publicación y sus comentarios o respuestas positivas. Por último, en varias secciones de estos trabajos, mencionaron la necesidad de poder procesar una mayor cantidad de datos 1.4. Objetivo del estudio 5 para, aśı, obtener mayor cantidad de conclusiones y de mayor robustez. Por otro lado, es importante destacar la vasta cantidad de análisis realizados por distintos organismos en pos del armado de gúıas de lenguaje no sexista. Solo por men- cionar algunos de ellos, podemos nombrar la ((Gúıa para el uso de un lenguaje no sexista e igualitario en la Honorable Cámara de Diputados de la Nación Argentina (HCDN))) confeccionada por este organismo [17], (((Re)Nombrar. Gúıa para una comunicación con perspectiva de género)) propuesta por el Ministerio de las Mujeres, Géneros y Diversidad [18], la ((Gúıa para un lenguaje no sexista)) armada por el Consejo Interuniversitario Na- cional [19]. Vinculado a esto, Maŕıa Marta Garćıa Negroni y Beatriz Hall publicaron un análisis lingǘıstico-discursivo de las resoluciones emitidas por cuatro universidades argen- tinas que han aceptado el uso del lenguaje inclusivo en alguna de sus formas y en distintos tipos de producciones académicas escritas y orales [20]. Su objetivo fue “mostrar que el sentido de los discursos no es de naturaleza veritativa, ni depende de las elecciones vo- luntarias e intencionales de los sujetos; antes bien, los efectos de sentido se construyen dialógica y argumentativamente” [20, p. 1]. En el plano internacional, en primer lugar debemos mencionar la gúıa confeccionada por Naciones Unidas en 2019, la cual titularon ((Lista de verificación para usar el español de forma inclusiva en cuanto al género)) [21]. Por otro lado, en España, podemos destacar la ((Gúıa de uso para un lenguaje igualitario (castellano))) de la Universitat de Valencia [22], o las convenciones definidas por la Universitat de Barcelona, ((Uso no sexista del lenguaje)), tanto para el español como para el catalán [23]. Como se puede observar, el lenguaje inclusivo es un tema de interés tanto académico como de la sociedad en general, con fuertes opiniones a favor y en contra. Es por esto que surge una clara necesidad de contar con análisisestad́ısticos de grandes volúmenes de datos, que permitan dar una idea objetiva de cuál es su uso y cómo ha ido evolucionando diacrónicamente. 1.4. Objetivo del estudio El principal objetivo de este estudio consiste en aportar datos a la discusión sobre el uso del lenguaje inclusivo en Argentina. Para esto usamos datos de la red social Twitter. Si bien se escapa del alcance de este trabajo determinar si Twitter es un reflejo de la realidad o no, hemos visto que se han realizado (y se siguen realizando) una vasta y muy variada cantidad de trabajos utilizando esta red social como fuente de datos. A su vez, creemos que, por el momento, es realmente poco probable encontrar usos del lenguaje inclusivo en libros, portales de noticias, otras redes sociales, etc. Por lo tanto, teniendo en cuenta que Twitter no impone ninguna limitación en cuanto al contenido (más que la cantidad de caracteres de una publicación), y que brinda la posibilidad de recolectar publicaciones e información de los usuarios de forma automatizada, consideramos que es una fuente de datos realmente valiosa para nuestro estudio. En esta tesis tomamos alrededor de 130 millones de tweets realizados a lo largo de 14 años por más de 56 mil usuarios distribuidos en 23 provincias. Esta cantidad representa una muestra realmente considerable si tenemos en cuenta dos factores: por un lado, no todos los usuarios realizaron publicaciones durante este peŕıodo, lo cual implica que la cantidad de usuarios presentes en cada año fue variando. Por otro lado, sabemos que la cantidad de usuarios alcanzables de Twitter osciló entre los 5 y 12 millones en el último tiempo. En base a estos dos puntos podemos decir que contamos con aproximadamente el 6 1. Introducción 0.5 % de los usuarios de esta red social. Es debido a todo esto que creemos que nuestro aporte presenta una gran diferencia respecto al trabajo estad́ıstico previo en el área, dado que en este estudio procesamos grandes volúmenes de datos. El corpus que generamos está formado por más de mil millones de formas, y el inventario de palabras en inclusivo se basa en más de 25 mil lemas modificados para cada variante y número. En pos de poder comprender la forma en la que se usa el lenguaje inclusivo, a lo largo de este trabajo intentamos responder diversas preguntas. Por empezar, en la sección 4.2 exponemos cuántos usuarios han utilizado alguna variante del lenguaje inclusivo a través de los años y a lo largo y ancho del páıs. Luego, en la sección 4.3 analizamos cómo fue la evolución temporal de cada tipo de intervención en lenguaje inclusivo. Otras de las preguntas que planteamos son: ¿es un fenómeno que contempla una gran cantidad de palabras o se limita a un pequeño repertorio?, ¿cuántos son los lemas intervenidos?, una vez que se interviene un lema, ¿se mantiene su uso en el tiempo o sus usos son esporádicos?, ¿es considerable la cantidad de apariciones de palabras en lenguaje inclusivo?. Estos son algunos de los interrogantes que se abordan en la sección 4.4. Además del objetivo principal, este estudio tiene como propósito el armado de un cor- pus en español segmentado por provincia y la confección de un inventario con una extensa cantidad de palabras en lenguaje inclusivo para cada una de las variantes trabajadas. 2. RECOLECCIÓN DE DATOS Y ARMADO DEL CORPUS En este caṕıtulo explicaremos el proceso de armado del corpus que se utilizó durante todo este trabajo. Para esto, comenzaremos por describir la recolección de datos desde la red social Twitter, donde hablaremos acerca del corpus que se tomó de base y de cómo fueron las actualizaciones del mismo, brindando los datos técnicos del proceso de recolec- ción y comentando las limitaciones que nos encontramos. Seguiremos luego exponiendo la cantidad de tweets y usuarios obtenidos por año y por provincia. Finalizaremos esta primera sección del caṕıtulo haciendo un breve análisis de las dificultades en la recolección de datos. Por otro lado, utilizando los datos recolectados, ahondaremos en el proceso de armado del corpus. Hablaremos de la necesidad de definir a qué llamamos palabra y cómo se realizó la extracción de las mismas de los tweets. Explicaremos en detalle el proceso de tokenización y normalización, y finalizaremos exponiendo la caracterización de nuestro corpus. 2.1. Recolección de datos de Twitter Para el armado del corpus que utilizamos en este trabajo tomamos como punto de partida el que fuera utilizado en la tesis de licenciatura de Damián Aleman en 2017 [3], que presentó un método para detectar regionalismos en Twitter. Al mismo le realizamos dos actualizaciones, la primera de ellas en Febrero del 2019 y la segunda en Marzo del 2020. Comencemos por describir brevemente el corpus utilizado en la tesis de Aleman. Para éste se utilizaron todas las publicaciones, es decir los timelines completos, de 56.308 usua- rios. Dadas las necesidades de dicho estudio, se utilizó una cantidad similar de usuarios para cada provincia. Sin embargo, al no haber existido la necesidad de sostener la similitud entre los años, no dispońıa de una cantidad similar de usuarios para cada año. En cuanto a las dos actualizaciones que realizamos, teniendo en cuenta que el corpus hab́ıa sido generado a principios de 2017, el objetivo de las mismas fue obtener las pu- blicaciones más recientes del timeline de cada uno de los más de 56 mil usuarios. Para el proceso de recolección de datos fue necesario crear un programa desarrollado en el lenguaje de programación Python. En el mismo se utilizó una biblioteca llamada tweepy, diseñada espećıficamente para consumir la API (Application Programming Interface) de Twitter. La idea de este proceso fue básicamente tomar cada uno de los usuarios que dispońıamos y solicitar sus publicaciones bajo las siguientes condiciones: Se pidieron únicamente los tweets que fueran posteriores al último que se hab́ıa obtenido en la tesis de Aleman. Se indicó que no se tuvieran en cuenta los retweets. Nos interesaron únicamente los textos escritos por los usuarios de nuestro corpus. Por defecto, con cada publicación Twitter env́ıa la información del usuario que la realizó. En particular estamos hablando de casi 40 datos entre los que se encuentran el ID, el nombre de usuario, la locación, la descripción, la cantidad de seguidores y 7 8 2. Recolección de datos y armado del Corpus seguidos, etc. Dado que nosotros ya dispońıamos de esos datos en el corpus que se tomó de base, se evitó descargarlos nuevamente con cada publicación. Por otro lado, es necesario también mencionar que durante las actualizaciones nos encontramos con algunas limitaciones. En primer lugar, nos vimos condicionados por una restricción de Twitter que limita la cantidad de tweets por usuario que se pueden descargar. Este ĺımite es de 3200 publicaciones, incluyendo retweets. Es decir, si por ejemplo, de las últimas publicaciones de un usuario, 3000 fueron retweets y solo 200 fueron escritas por él, al descargar los datos solo se obtuvieron estos últimos cientos ya que no fue de nuestro interés utilizar los retweets, solo pretendimos contemplar los textos escritos por nuestros usuarios. Esto pudo haber generado huecos temporales donde no dispongamos de ningún tweet de algún usuario cuando en realidad si hayan existido. Más adelante en esta misma sección ahondaremos en esto. Otro punto importante a ser considerado es que muchas cuentas de usuarios fueron cerradas o dejaron de ser públicas. Por lo tanto, no pudimos recopilar más publicaciones de estas personas. Respecto a las limitaciones generales de la API de twitter, debemos mencionar en primer lugar que, por cada petición, la cantidad máxima de publicaciones que se permitió obtener fue de 200 tweets. Sumado a esto, existió otra restricción sustancial y fue que no permit́ıan realizar más de 900 peticiones por cada ventana de 15 minutos. Como última observación, es necesario aclararque la geolocalización de los usuarios no siempre es precisa. En algunos casos la información fue sacada del campo donde ellos mismos ingresan su locación. Esto pudo haber generado algunos errores para usuarios de La Rioja o Córdoba por ejemplo, ya que no existe una forma automatizada de distinguir si se trataba de usuarios de provincias argentinas o españolas. En cuanto a los tiempos requeridos para la recolección de datos, teniendo en cuenta las limitaciones recientemente mencionadas y las configuraciones que ayudaron a reducir los tiempos de descarga y volumen de datos a guardar, la primera actualización de 2019 necesitó 20 d́ıas de ejecución mientras que la segunda, en 2020, requirió 10 d́ıas. Habiendo explicado el proceso de recolección y las limitaciones que nos encontramos, veamos a continuación las figuras 2.1 y 2.2, donde podemos observar cómo están distribui- dos los usuarios y los tweets a lo largo de los años y las provincias. En total disponemos de 128.649.761 tweets generados por 56.308 usuarios. Observando la figura 2.1 podemos notar que la cantidad de usuarios está uniformemente distribuida respecto a las provincias, es decir, todas las localidades poseen una cantidad similar de usuarios. Esta distribución fue un factor deseado en la tesis de Aleman. A su vez, podemos ver que dicha uniformidad no se mantiene en cuanto a la cantidad de usuarios por año, ni tampoco con la cantidad de tweets, ya sea por año o por provincia, tal como se observa en la figura 2.2. En ningún caso esto representa un inconveniente dado que, siempre que aplique, los resultados de esta tesis serán presentados en sus valores normalizados. 2.1. Recolección de datos de Twitter 9 Fig. 2.1: Cantidad total de usuarios por año y provincia. En total disponemos de 56.308 usuarios. Fig. 2.2: Cantidad total de tweets por año y provincia. En total disponemos de 128.649.761 tweets. 10 2. Recolección de datos y armado del Corpus 2.1.1. Análisis de las dificultades en la recolección de datos Por último, finalizando esta sección, queremos ahondar en los inconvenientes generados por la limitación impuesta por Twitter en cuanto a la cantidad de tweets por usuario que permite descargar, aśı como también el hecho de que algunos usuarios hayan cerrado sus cuentas o las mismas hayan dejado de ser públicas. La suma de estos factores impactó negativamente en cuanto a la cantidad de publicaciones recolectadas. Observemos la figura 2.3 donde podemos ver la cantidad de tweets que disponemos con una granularidad mensual. Lo primero que podemos notar es que claramente la distribu- ción no es uniforme. En segundo lugar vemos un pico en Febrero de 2017, que es cuando se realizó la primera recolección de datos. Entrando en detalle, quizás lo más relevante sea notar que existen picos locales para los primeros meses de 2019 y de 2020. Estos fue- ron los momentos donde realizamos las actualizaciones. Como podemos observar, si nos paramos en estos picos y nos movemos para atrás en el tiempo, la cantidad de tweets cae hasta encontrarse con el pico inmediatamente anterior. Es aqúı donde, especulamos, afectaron contundentemente y de forma negativa los dos factores previamente menciona- dos, dado que de no haber existido ninguno de ellos, esperaŕıamos tener una distribución más uniforme en cuanto a la cantidad de tweets, al menos para los últimos años. Aún aśı, como dijimos recientemente, al exponer los resultados con valores normalizados, esto no representa ningún problema. Fig. 2.3: Cantidad total de tweets por mes en escala logaŕıtmica. Podemos observar el pico a principios de 2017, donde se realizó la primera recolección de datos. A su vez, vemos dos picos locales en los primeros meses de 2019 y 2020, que son los momentos donde se realizaron las actualizaciones. 2.2. Armado del corpus Una vez obtenidos los tweets, para el armado de nuestro corpus debemos definir qué partes del texto de las publicaciones consideramos que son palabras. Esto se debe a que probablemente nos encontremos con secuencias de caracteres que no sean de nuestro in- terés y por lo tanto no querramos que pertenezcan al corpus. Recordemos que estamos trabajando con una red social donde se puede escribir libremente, sin ningún tipo de res- tricción más que la cantidad de caracteres que se utilizan. Es por esto que en los textos 2.2. Armado del corpus 11 de los tweets podemos hallar tanto palabras conocidas y bien escritas, como palabras con errores de ortograf́ıa. También podŕıamos encontrar palabras en otros idiomas, e incluso algunas inexistentes en los diccionarios convencionales, como pueden llegar a ser nombres propios, regionalismos o, como es de nuestro interés, palabras correspondientes al lenguaje inclusivo. En śıntesis, nos podemos encontrar con cualquier secuencia de caracteres alfa- numéricos, śımbolos, signos ortográficos, etc. Dicho esto, surgen entonces los siguientes dos grandes interrogantes: ¿A qué llamamos palabra? ¿Cómo se hace para obtener las palabras a partir del texto de las publicaciones? Comencemos por ver algunas ideas posibles para ir comprendiendo y definiendo cuáles son las expresiones que vamos a considerar como palabras y de qué forma las vamos a extraer. Una primera idea muy simple es decir que las palabras son todas aquellas expresiones que están separadas por espacios en blanco. De esta forma ya podŕıamos definir qué es una palabra y a la vez sabŕıamos cómo obtenerlas del texto. Sin embargo, esto no es efectivo ya que se nos presentaŕıan problemas con, por ejemplo, los signos ortográficos. Veamos el siguiente caso: ‘‘Hola , ¿cómo est ás?’’ Si siguiéramos este enfoque, el resultado de obtener las palabras del texto seŕıa el conjunto formado por: {Hola,, ¿cómo, estás?}, incluyendo los signos de puntuación e interrogación, por lo tanto no nos seŕıa de utilidad. Sabemos entonces que debemos tener en consideración separar ciertos śımbolos, como ser los signos ortográficos, del resto de los caracteres alfabéticos. Por lo tanto, una segunda idea podŕıa ser definir que cualquier secuencia de caracteres de la a a la z, ya sea en mayúscula o minúscula, con o sin tilde, sea considerada una palabra. De esta forma, las expresiones hola y todes seŕıan contempladas, pero también lo seŕıa lsjddAMRqsádsú. Para atacar este problema podŕıamos filtrar las palabras que figuran en los diccionarios, pero siguiendo con el mismo ejemplo dejaŕıamos afuera lsjddAMRqsádsú y también todes, por ende, para nuestro caso, esta no es opción válida. Un factor muy importante a tener en cuenta, es que en nuestro estudio pretendemos considerar como palabras expresiones con ((@)) o con ((/)) en el medio, ya que quisiéramos incluir casos como tod@s o todos/as. Como podemos ver, el problema de definir cuáles son las expresiones que consideramos palabras y de qué forma podemos automatizar el proceso de extraerlas del texto, no parece ser trivial. Más aún teniendo en cuenta que pretendemos considerar expresiones que no figuran en los diccionarios convencionales y/o que contienen śımbolos que no son alfabéticos. Sin embargo, este problema no es nuevo e incluso ya existe mucho trabajo hecho para publicaciones de Twitter. Veamos cómo se puede utilizar esto para adaptarlo a nuestro estudio y aśı poder extraer las palabras que formarán parte del corpus. Para llevar a cabo este proceso se requieren las siguientes dos etapas de procesamiento: Tokenización Normalización de tokens 12 2. Recolección de datos y armado del Corpus 2.2.1. Tokenización El objetivo de esta primera etapa es separar el texto en unidades más pequeñas a las que llamamos tokens. Comencemos por ver algunos ejemplos para entender mejor qué es lo que deseamos obtener luego de realizar el proceso de tokenización. Tomemos el siguiente texto: ‘‘Todes son mis amigues ’’ En este caso, el resultado deseado seŕıan los tokens {todes, son, mis, amigues}. Hasta aqúı tendŕıasentido utilizar un enfoque similar al que mencionamos previamente, que separa el texto por espacios en blanco, lo cual vimos que para ciertos casos no serviŕıa, como por ejemplo: ‘‘Hola , ¿cómo est ás?’’ Aqúı, el resultado deseado seŕıa poder separar los signos de puntuación e interrogación de las palabras, es decir, generar el siguiente conjunto de tokens {hola, ,, ¿, cómo, estás, ?}. Esto nos da el indicio de que debemos considerar este tipo de caracteres como tokens separados. Por otro lado, debemos contemplar que existen expresiones particulares utilizadas en esta red social, como son los casos de los hashtags y las menciones de usuarios. Los hashtags son expresiones que comienzan con #, siguen con un texto y se utilizan para hacer referencias a distintos tópicos. A su vez, las menciones de usuarios se escriben con un @ seguido del nombre del usuario a referenciar. Analicemos estos casos en la siguiente publicación: ‘‘@manuginobili con la calidad y la magia de siempre #elPibeDe40 ’’ Para este caso deseaŕıamos que, luego de tokenizar, tanto @manuginobili como #elPi- beDe40 sean parte del conjunto de tokens resultante. No quisiéramos separar los caracteres @ ni # del resto del texto que les sigue. De esta forma, la lista de tokens para este tweet seŕıa {@manuginobili, con, la, calidad, y, la, magia, de, siempre, #elPibeDe40}. Otros casos a tener en cuenta son los links y las direcciones de correo electrónico. Analicemos estos casos en el siguiente texto: ‘‘Para participar ingres á a http :// sorteos -marca.com o escribinos a sorteos@marca.com ’’ Aqúı nos gustaŕıa que tanto http://sorteos-marca.com como sorteos@marca.com sean considerados tokens. No estaŕıa bien que sorteos, marca o com resultasen siendo unidades de texto por separado. Tampoco esperaŕıamos como resultado deseable, en el caso del mail, que @marca se confunda con una mención a un usuario. Sumado a los signos ortográficos, hashtags, menciones, links y direcciones de correo, existen otras expresiones que debemos contemplar para separar el texto en tokens, como pueden ser los emojis ASCII, por ejemplo :-) o ;-@, números de teléfono, tags HTML, etc. Hasta aqúı vimos ejemplos de los resultados esperados luego de realizar la tokenización sobre distintos textos, sin embargo debemos definir cómo llevar a cabo esto. Tal como diji- mos anteriormente, este problema no es nuevo y ya existe abundante trabajo y experiencia realizando este procesamiento. En particular, existe una biblioteca para Python llamada nltk (Natural Language Toolkit) que provee diversos tokenizadores, entre los cuales se encuentra TweetTokenizer que, tal como indica su nombre, es un tokenizador especial- mente diseñado para Twitter que contempla todos los tipos de tokens que mencionamos previamente. 2.2. Armado del corpus 13 Si bien esta herramienta es muy potente y de gran utilidad, para nuestro estudio es necesario realizarle algunas modificaciones. Veamos primero el porqué de las modificaciones para luego entender cómo llevarlas a cabo. Supongamos que ingresamos como entrada a esta herramienta el siguiente texto: ‘‘tod@s todos/as todes ’’ En particular para este caso obtendŕıamos los siguientes tokens {tod, @s, todos, /, as, todes}, pero a nosotros nos gustaŕıa que el resultado fuera {tod@s, todos/as, todes}. Esto se debe a que TweetTokenizer entiende que existe una mención de un usuario dentro de tod@s, por lo tanto lo interpreta como dos tokens separados, siendo el primero tod y el segundo una mención @s. Algo similar ocurre con todos/as donde, dado que no contempla tokens con una barra en medio, decide separar esta expresión en tres, todos, / y as. Este es el motivo por el cual debemos adaptar y modificar el tokenizador que provee nltk. Habiendo explicado el porqué de la modificación del TweetTokenizer , veamos cómo fun- ciona este tokenizador para poder adaptarlo a nuestras necesidades. La idea básicamente consiste en la utilización de una expresión regular con la cual podemos ir detectando y extrayendo los tokens del texto. En la expresión regular utilizada por TweetTokenizer (Ver expresión regular completa en el Apéndice A) básicamente se definen los patrones para extraer del texto distintos tipos de tokens. El orden en que se definen es importante dado que, por ejemplo, queremos que se extraigan las direcciones de correo electrónico antes que las menciones a usuarios, lo cual evita que se generen tokens como @gmail o @hotmail. Los tipos de tokens que se definen son los siguientes: URLs y direcciones de correo electrónico Números de teléfono Emoticones ASCII Tags HTML Flechas ASCII Menciones a usuarios Hashtags Palabras incluyendo opcionalmente apóstrofes o guiones medios Números, incluyendo fracciones y decimales Resto de las palabras sin apóstrofes ni guiones medios Puntos suspensivos Cualquier otra secuencia de caracteres que no contenga espacios en blanco En particular, debemos concentrarnos en las dos secciones resaltadas, que son en la cuales se trabaja con lo que llaman palabras con y sin apóstrofes o guiones medios. El resto de las expresiones que se detectan y extraen no requieren modificaciones ya que nos sirven tal como se plantean. La modificación consiste básicamente en reemplazar las dos 14 2. Recolección de datos y armado del Corpus secciones recientemente mencionadas de la expresión regular por una nueva que considere palabras con ((@)), ((/)) o con ((*))1 en el medio. A continuación podemos observar los patrones originales y el reemplazo. Patrones originales (?:[^\W\d_ ](?:[^\W\d_]|[’\-_])+[^\W\d_]) (?:[\w_]+) Patrón nuevo (?:[^\W\d_]+[’\-@\*/]?[^\W\d_]*) Con este nuevo patrón estamos indicando que queremos extraer expresiones que co- miencen con una letra, continúen opcionalmente con algún caracter como ser guión medio, apóstrofe, arroba, asterisco o una barra, y que pueden terminar alĺı o bien continuar, pero solo con más letras. A modo de aclaración, no pretendemos contemplar expresiones que contengan apóstrofe o guión medio, junto con alguno de los caracteres nuevos, es decir ((@)), ((/)) o ((*)). Teniendo el tokenizador adaptado a nuestro estudio, tenemos un primer acercamien- to a lo que queremos llamar palabras: nos quedaremos únicamente con los tokens que respeten el último patrón propuesto. Si bien algunos de los tipos de tokens mencionados previamente podŕıan llegar a sernos de utilidad, como por ejemplo los hashtags de donde podŕıamos extraer texto, la realidad es que no es una tarea sencilla separar un hashtag en varias palabras además de ser propenso a errores. Recordemos una vez más que estamos trabajando con texto libre, sin restricciones, y que no necesariamente hay indicadores que separen una palabra de otra. Como sostuvimos a lo largo de todo el trabajo, queremos evitar introducir falsos positivos, por lo cual excluimos de nuestro análisis cualquier token que no respete este último patrón propuesto. Teniendo los tokens de nuestro interés filtrados, para completar el armado del corpus aún hace falta una última etapa de procesamiento sobre éstos: la normalización. 2.2.2. Normalización de tokens Antes de comenzar a explicar el proceso de normalización repasemos qué tenemos hasta el momento. Sometimos el texto a un proceso de tokenización, el cual lo separa en unidades más pequeñas llamadas tokens. Para esto adaptamos un tokenizador existente, TweetTokenizer . En particular reemplazamos los patrones que detectan lo que sus autores llaman palabras con y sin apóstrofes y/o guiones medios, por un nuevo patrón que detecta estas mismas expresiones pero permitiendo que tengan en medio caracteres como el ((@)), la ((/)) o un ((*)). Por último, nos quedamos únicamente con los tokens que respeten el nuevo patrón propuesto, descartando el resto de los tokens como URLs, emails, hashtags, menciones, emojis, etc. Al finalizar esta última etapa donde someteremos a estos tokens al proceso de normalización,tendremos una definición de lo que consideramos como palabras. Para entender qué es y para qué sirve la normalización, es importante recordar una vez más que Twitter es una fuente de texto libre y que nos podemos encontrar con todo tipo de expresiones. En particular, queremos tomar una decisión para las siguientes situaciones: 1 Si bien debido a la pequeña cantidad de apariciones de palabras con ((*)) de nuestro interés, se decidió no analizar esta variante, para llegar a determinar esto fue necesario considerarla en el proceso de tokenización y por lo tanto se incluyó en la expresión regular. 2.2. Armado del corpus 15 Mayúsculas y minúsculas Alargamiento de palabras Falta de tildes o uso erróneo Mayúsculas y minúsculas Como venimos haciendo a lo largo de esta sección, comencemos por ver publicaciones de ejemplo para comprender nuestro objetivo. Supongamos los siguientes ejemplos: "Todes son mis amigues" "TODES son mis amigues" "todes son mis amigues" Luego de realizar la tokenización, obtendŕıamos en todos los casos los tokens {son, mis, amigues}, pero diferiŕıan en el primer token, obteniendo Todes, TODES y todes res- pectivamente. Sin embargo, está claro que en los tres casos estamos hablando de la misma palabra, por lo tanto, para evitar considerarlos como palabras diferentes, debemos tomar una primera decisión de normalización, y ésta es convertir todos los tokens a minúscula. De esta forma, las tres variantes de la palabra todes van a corresponderse con una única palabra. Alargamiento de palabras La segunda situación que queremos considerar se produce cuando se estiran algunas letras de las palabras. Por ejemplo: ‘‘GOOOOOOOOOOOOOOOL DE RIVER ’’ En este caso, está claro que GOOOOOOOOOOOOOOOL es una variación de la palabra gol, escrita en mayúscula y repitiendo muchas veces la vocal o. Aqúı, lo primero que estaŕıamos tentados a hacer es quitar todas las repeticiones de esa letra y dejar una sola. Sin embargo, esto podŕıa resultar en una decisión errónea. Veamos algunos ejemplos más. Supongamos el siguiente texto: ‘‘Tengo seeeeed ’’ Si tomáramos la idea planteada recientemente, convertiŕıamos ((seeeeed)) en ((sed)), lo cual parece ser correcto. Pero qué pasaŕıa si el texto ahora fuera: ‘‘I planted a tomato seeeeed ’’ Si bien trabajamos con publicaciones realizadas en Argentina, no hay ningún impedi- mento para que los usuarios escriban en otros idiomas, como ser el inglés en este caso. Por lo tanto, si aqúı aplicáramos la misma lógica, modificaŕıamos ((seeeeed)) por ((sed)), lo cual seŕıa erróneo. Si bien uno podŕıa plantear un intento de detección de idioma o alguna idea similar, esto tampoco garantizaŕıa un correcto funcionamiento. Veamos el siguiente caso: ‘‘No te peleeeeeees ’’ Aqúı no tenemos forma de determinar si debemos reducir las repeticiones de la letra e a una sola aparición o dos, ya que se podŕıa estar queriendo utilizar la palabra peles aśı como también pelees. Es decir, no sabemos si la intención es decirle a una persona que no se corte el pelo o que no tenga una pelea. 16 2. Recolección de datos y armado del Corpus Por lo tanto, y al no haber una forma consistente de determinar cuántas repeticiones de una letra tenemos que dejar, debemos tomar una decisión para estos casos. Como ya dijimos anteriormente, algunos de estos problemas no son nuevos y ya existe mucho trabajo al respecto. En general para estos casos la solución es que cualquier repetición de una letra tres o más veces, sea normalizada a tres. Aśı, la palabras GOOOOOOOOOOOOOOOL y GOOOOL seŕıan transformadas en una única palabra goool. Falta de tildes o uso erróneo Otro punto a considerar cuando trabajamos con este tipo de fuentes de datos, es el uso de las tildes. Twitter podŕıa no caracterizarse por ser un estricto ejemplo de cómo se deben acentuar las palabras, teniendo casos donde se omiten las tildes y casos donde podŕıan llegar a utilizarse erróneamente. Tengamos en consideración factores como los correctores automáticos de los celulares, donde muchas veces se acentúan palabras automáticamente cuando no es necesario. Veamos algunos ejemplos de esto: ‘‘Me pidi ó que abone el saldo restante ’’ ‘‘Ayer abone el saldo restante ’’ Aqúı esta claro que en el primer caso se utiliza la palabra abone correctamente, pero que en el segundo caso debeŕıa ir una tilde en la e. En este caso lo podemos deducir por contexto. Veamos ahora qué pasaŕıa si la publicación fuera: ‘‘abone el saldo restante ’’ ¿Cómo podŕıamos definir si se está queriendo decir que ya se abonó el saldo restante o si es una indicación para que se realice el pago? Podŕıa también aparecer una tilde en la e y haber sido producto de una corrección automática, cuando en verdad no se habŕıa querido utilizar, o simplemente se insertó por error. El contexto no nos permite saberlo. Por lo mencionado recientemente, es que debemos avanzar un paso más en el proceso de normalización y tomar la decisión de quitar todas las tildes del texto. 2.2.3. Caracterización del corpus Habiendo realizado la recolección de tweets seguida de los procesos de tokenización y normalización, finalmente podemos responder a los dos grandes interrogantes que plantea- mos al comienzo de esta sección: ¿A qué llamamos palabra? y ¿Cómo se hace para obtener las palabras a partir del texto de las publicaciones? y de esta forma poder definir nuestro corpus. Las palabras que componen nuestro corpus son aquellas expresiones ex- tráıdas por el proceso de tokenización que respetan el patrón: (?:[^\W\d_]+[’\-@\*/]?[^\W\d_]*) y que hayan sido sometidas al proceso de normalización, donde se convirtie- ron a minúscula, se le quitaron las tildes y se procesaron los alargamientos. Cualquier otra expresión existente dentro del texto de las publicaciones que recolectamos no forma parte del mismo. Para comprender mejor el resultado de este procesamiento, observemos la tabla 2.1 donde podemos ver a modo ilustrativo el listado de las 270 palabras más utilizadas de nuestra corpus junto a la cantidad de ocurrencias de cada una de ellas. 2.2. Armado del corpus 17 Posición Palabra Ocurrencias Posición Palabra Ocurrencias Posición Palabra Ocurrencias 1 que 45003237 91 tiene 1422912 181 e 629047 2 de 38068106 92 hasta 1393545 182 visto 627794 3 a 28651768 93 vez 1388255 183 madre 624234 4 la 28073239 94 cosas 1346768 184 viene 619903 5 me 25902177 95 noche 1309340 185 ojala 616936 6 no 24276338 96 casa 1309147 186 personas 616611 7 y 23140257 97 esto 1301406 187 veo 616069 8 el 21505169 98 gente 1283672 188 mil 611819 9 en 16671885 99 quien 1277928 189 sus 610793 10 se 11722519 100 amor 1268276 190 quiere 609999 11 te 10948071 101 vamos 1256899 191 espero 607545 12 un 10638618 102 alguien 1234969 192 ella 604065 13 con 10311434 103 feliz 1223172 193 persona 600869 14 mi 10282553 104 tanto 1211513 194 decir 597913 15 lo 10073765 105 esa 1207534 195 verdad 588418 16 es 9950524 106 perfil 1202049 196 parece 586052 17 por 8909181 107 mucho 1187762 197 todavia 585368 18 los 8452107 108 tener 1184234 198 amigos 579964 19 para 8050106 109 ese 1171891 199 falta 574139 20 mas 6960098 110 puede 1153435 200 momento 571429 21 si 6931112 111 estas 1119600 201 volver 565426 22 las 6871082 112 necesito 1081876 202 fin 561453 23 una 6701108 113 igual 1073966 203 jajajajajaja 560645 24 como 5774288 114 dias 1071895 204 hago 555559 25 yo 5333389 115 dos 1053137 205 hablar 554190 26 ya 5075629 116 jajajajaja 1035214 206 cara 553871 27 del 4840960 117 despues 1028195 207 estudiar 549827 28 esta 4828828 118 puta 973873 208 dale 548527 29 al 4460082 119 tambien 970847 209 vieja 543454 30 pero 4448461 120 nadie 970339 210 comer 540899 31 todo 4351557 121 extraño 949413 211 viernes 538723 32 q 4161119 122 era 934868 212 dijo 533567 33 quiero 3790132 123 menos 933559 213 tus 532137 34 tengo 3647441 124 año 920862 214 nomas 531895 35 le 3487428 125 dios 916318 215 cosa 525611 36 voy 3470636126 creo 910758 216 ultimas 520044 37 cuando 3315825 127 da 908316 217 peor 515488 38 vos 3227457 128 años 898036 218 estamos 515446 39 estoy 3215463 129 buen 888050 219 sigo 514006 40 dia 3172943 130 otra 886671 220 tenia 511824 41 hoy 2876213 131 buena 882800 221 onda 505453 42 jajaja 2848462 132 donde 882604 222 d 504635 43 tu 2756278 133 tiempo 863026 223 tienen 503024 44 o 2747284 134 pessoas 861245 224 corazon 494670 45 asi 2646726 135 odio 860331 225 saber 490981 46 ni 2532823 136 aca 855677 226 argentina 490491 47 re 2470043 137 cada 855585 227 hermoso 490337 48 nada 2428363 138 sea 854886 228 estos 489980 49 bien 2411388 139 pasa 851987 229 hermosa 489265 50 este 2396613 140 mama 843088 230 i 488306 51 ser 2351710 141 hora 829621 231 siesta 488213 52 siempre 2268977 142 salir 821888 232 jajaj 487981 53 porque 2238941 143 lpm 818018 233 boca 487483 54 hay 2158735 144 horas 803527 234 favor 486978 55 hace 2112568 145 paso 801686 235 papa 485914 56 amo 2090243 146 les 799325 236 unico 480075 57 ganas 2064452 147 ahi 795282 237 sabado 479666 58 tan 2059959 148 vas 794558 238 ay 478590 59 todos 2019236 149 linda 779210 239 final 477220 60 eso 2000936 150 desde 769997 240 deja 476653 61 va 1996843 151 video 757178 241 sabes 475799 62 mejor 1979891 152 amiga 757091 242 tomar 474426 63 ahora 1947830 153 seu 754620 243 x 473651 64 jajajaja 1940118 154 semana 747913 244 ahre 473534 65 vida 1848153 155 estan 735289 245 jajajaj 471133 66 nos 1844906 156 uno 735101 246 poder 462177 67 mal 1842150 157 tenes 730399 247 recien 455063 68 mañana 1822990 158 toda 724221 248 seguir 453398 69 soy 1813258 159 amigo 711910 249 che 452918 70 hacer 1796094 160 poco 709943 250 entre 451572 71 jaja 1777170 161 mundo 706246 251 mira 451335 72 ver 1768508 162 otro 706238 252 encima 449151 73 son 1745241 163 van 693615 253 grande 449104 74 nunca 1734698 164 ah 691090 254 anda 448768 75 sos 1716126 165 mismo 688011 255 finde 448564 76 dormir 1686428 166 siento 687890 256 fotos 448400 77 ir 1682776 167 sueño 681419 257 hizo 447920 78 sin 1646132 168 todas 680329 258 sola 446795 79 mis 1631486 169 gusta 661917 259 unos 446129 80 su 1609486 170 cabeza 661042 260 hacen 444727 81 gracias 1598480 171 dice 656398 261 partido 442662 82 puedo 1598353 172 tarde 652111 262 conmigo 438431 83 lindo 1585849 173 via 651992 263 pasar 436162 84 muy 1580365 174 veces 646928 264 sale 436133 85 algo 1554759 175 cuenta 644497 265 foi 433158 86 bueno 1545759 176 estaba 643784 266 the 432961 87 solo 1486967 177 foto 643047 267 suerte 425223 88 fue 1486206 178 loco 641460 268 iba 424204 89 estar 1476336 179 nuevo 638969 269 pedo 423436 90 mierda 1433306 180 antes 635749 270 dejar 423048 Tab. 2.1: Listado con las 270 palabras más utilizadas en nuestro corpus basado en publicaciones de Twitter junto con la cantidad de ocurrencias de cada una de ellas. 18 2. Recolección de datos y armado del Corpus En las figuras 2.4 y 2.5 podemos ver la cantidad de palabras distintas y totales por provincia y año. Existen casos con grandes diferencias en cuanto a la cantidad de pala- bras, ya sean distintas o totales. Por ejemplo, Mendoza tiene alrededor de un 50 % más de palabras distintas que Misiones. También podemos ver que en 2016 tenemos una cantidad de palabras distintas y totales sustancialmente mayor que todos sus años previos. Recor- demos una vez más que esto no es un inconveniente dado que siempre que corresponda los resultados se mostrarán normalizados por año y/o por provincia. Por último, podemos ver a modo de resumen general de los datos que disponemos, las tablas 2.2 y 2.3 donde se observan la cantidad de usuarios, tweets, palabras distintas y totales por provincia y año respectivamente. 2.2. Armado del corpus 19 Fig. 2.4: Cantidad de palabras distintas y totales por provincia. 20 2. Recolección de datos y armado del Corpus Fig. 2.5: Cantidad de palabras distintas y totales por año. 2.2. Armado del corpus 21 Provincia #Usuarios #Tweets #Palabras Distintas #Palabras Totales Buenos Aires 2430 5578631 464212 47030503 Catamarca 2450 5480704 385031 43381467 Chaco 2456 5272002 371362 42525716 Chubut 2456 6023655 449007 52443609 Córdoba 2470 6689416 510897 57291855 Corrientes 2436 5739415 425833 47650440 Entre Rios 2443 6610549 462556 54999296 Formosa 2449 5471078 394192 43420164 Jujuy 2484 3855380 383823 33786382 La Pampa 2438 5676440 425920 47837603 La Rioja 2419 4036574 418940 38342888 Mendoza 2469 6723953 511025 60046671 Misiones 2458 4830252 349671 39721846 Neuquén 2421 6405036 471182 54194147 Ŕıo Negro 2441 6669275 453245 56274927 Salta 2411 5043739 460594 46269820 San Juan 2454 6094976 468016 52439752 San Luis 2463 5464760 383542 46444158 Santa Cruz 2426 4381686 392552 39212046 Santa Fe 2461 5666355 489009 52224368 Santiago del estero 2445 5992847 428008 47216927 Tierra del Fuego 2446 4871099 443752 43382299 Tucumán 2482 6071939 463467 52728935 Tab. 2.2: Cantidad de usuarios, tweets y palabras distintas y totales por provincia. Año #Usuarios #Tweets #Palabras Distintas #Palabras Totales 2007 4 199 774 1641 2008 6 333 1412 3482 2009 124 4079 10011 43922 2010 1154 38251 37804 397462 2011 2242 201352 103188 2097386 2012 3984 646690 185202 6414659 2013 8235 2457892 371745 21796421 2014 15287 6256060 550230 51236417 2015 27463 12983106 760052 103819884 2016 52387 43767354 1477271 345923063 2017 56198 25051779 1096827 205023495 2018 34667 17223764 927791 164783005 2019 37882 17885487 993883 175908376 2020 29706 2133415 290132 21416606 Tab. 2.3: Cantidad de usuarios, tweets y palabras totales y distintas por año. En total son 128.649.761 tweets, 56.308 usuarios, 3.328.981 palabras distintas y 1.098.865.819 pala- bras totales. 22 2. Recolección de datos y armado del Corpus 3. DETECCIÓN DE USO DEL LENGUAJE INCLUSIVO En este caṕıtulo pretendemos explicar cómo detectamos el uso del lenguaje inclusivo dentro del corpus. Comencemos por mencionar que no existe una formalización acerca de cuáles son las palabras utilizadas en el lenguaje inclusivo, ni tampoco de cómo se las puede generar a partir de lemas. Por lo tanto, el enfoque que escogimos consistió en generar un inventario de palabras que sabemos que se utilizan o que potencialmente se podŕıan utilizar dentro del lenguaje inclusivo, para luego buscarlas en nuestro corpus. Para esto, en primer lugar debimos definir qué palabras o clases de palabras son utili- zadas dentro del lenguaje inclusivo. Cabe aclarar que cuando decimos clases de palabras nos referimos a los adjetivos, sustantivos, pronombres, etc. Una vez seleccionadas estas pa- labras, nos interesó quedarnos con sus lemas asociados dado que el segundo paso consistió en convertir éstos a todos los tipos de inclusivo que pretendimos buscar. De esta forma, el inventario se compuso de un conjunto de lemas junto con sus conversiones a cada tipo de inclusivo, derivadas tanto en plural como en singular. Por último, una vez generado el inventario, el tercer paso consistió en realizar la búsque- da de cada una de sus palabras dentro del corpus. Dada la gran cantidad de palabras, tanto del inventario como del corpus, tuvimos que implementar una forma eficiente de llevar a cabo esta tarea. Pasando en limpio, a lo largo de este caṕıtulo explicaremos en detalle cada una de las siguientes tres etapas necesarias para detectar usos del lenguaje inclusivo: Selección de los lemas que potencialmente podŕıan ser intervenidos para utilizar en el lenguaje inclusivo Conversión de los lemas seleccionados a todos los tipos de intervenciones del lenguaje inclusivo (por simplicidad, nos referiremos a ellos como “tipos de inclusivo”). Búsqueda eficiente de todo el inventario dentro del corpus 3.1. Selección de lemas potencialmente intervenidos en el lenguaje in- clusivo Como primera etapa para el armado del inventario de palabras del lenguaje inclusivo debimos seleccionar las palabras o clases de palabras que ya sab́ıamos que eran utilizadas o que créıamos que potencialmente podŕıanserlo. A partir de alĺı la idea consistió en quedarnos con el conjunto de lemas asociados a estas palabras, ya que son éstos los que luego convertimos a todos los tipos de inclusivo. El proceso de selección se dividió en dos partes. Por un lado tomamos casos de palabras que sab́ıamos que eran utilizadas en el lenguaje inclusivo y con ellas intentamos generalizar y descubrir cuáles eran algunas de las clases de palabras que teńıan sentido incorporar a nuestro inventario. Por ejemplo, sab́ıamos que chico era un lema que se soĺıa intervenir ya que hab́ıamos visto usos de chicxs o de chiques, entre otros. Por lo tanto, sabiendo que chico es tanto un adjetivo calificativo como un sustantivo común, en ambos casos de cuatro terminaciones (chico, chica, chicos, chicas), determinamos que deb́ıamos considerar los lemas correspondientes a ambas clases de palabras. Otro ejemplo es el del lema los. 23 24 3. Detección de uso del lenguaje inclusivo En este caso estamos hablando de un determinante art́ıculo (Los chicos jugaron todo el d́ıa), como también de un pronombre personal (Su mamá los ayudó con la idea), por ende decidimos incorporar todos los lemas correspondientes a estas dos clases. La fuente que utilizamos para obtenerlos fue el diccionario provisto por FreeLing, una herramienta desarrollada para análisis del lenguaje. Éste cuenta con casi 600.000 palabras, todas con su correspondiente etiqueta que indican clase de palabra (también definida como categoŕıa de palabra), tipo, género, número, etc. El listado completo de etiquetas junto con su explicación se detallan en la documentación oficial de FreeLing [24]. Continuando con el mismo proceso de búsqueda de palabras intervenidas e incorpora- ción de los lemas correspondientes a sus clases de palabras, hallamos casos que no figuraban en el diccionario utilizado. Tal es el caso de los gentilicios de las localidades argentinas. Para poder incorporarlos a nuestro conjunto de lemas obtuvimos un extenso listado utili- zando Wikipedia como fuente [25]. Por último, decidimos incorporar también lemas sueltos que tampoco se encontraban en el diccionario, como ser pibe, boludo y fachero. Como segunda parte del proceso de selección, optamos por realizar el proceso inverso al recientemente mencionado. En este caso tomamos todas las clases de palabras existentes en el diccionario y analizamos casos particulares de cada una de ellas con el fin de ver si era necesaria incluir sus lemas o no. Por ejemplo, cuando tomamos los verbos, vimos que en sus modos indicativo o imperativo, entre otros, no teńıa sentido contemplarlos. Sin embargo, los verbos participios podŕıan ser utilizados dentro del lenguaje inclusivo y por ende los incorporamos. Habiendo realizado los dos procesos de selección, el listado completo de clases de pa- labras que consideramos se puede observar en la tabla 3.1. Clase Ejemplos Lema Fem. Sing. Masc. Sing. Fem. Plu. Masc. Plu. Adjetivos de 4 terminaciones lindo linda lindo lindas lindos Adjetivos ordinales 1 primera primero primeras primeros Determinantes art́ıculos el la el las los Determinantes demostrativos ese esa ese esas esos Determinantes interrogativos cuánto cuánta cuánto cuántas cuántos Determinantes posesivos nuestro nuestra nuestro nuestras nuestros Pronombres demostrativos éste ésta éste éstas éstos Pronombres indefinidos otro otra otro otras otros Pronombres interrogativos cuánto cuánta cuánto cuántas cuántos Pronombres personales el ella él ellas ellos Sustantivos de 4 terminaciones dueño dueña dueño dueñas dueños Verbos participios acompañar acompañada acompañado acompañadas acompañados Gentilicios jujeño jujeña jujeño jujeñas jujeños Tab. 3.1: Clases de palabras consideras para el armado del inventario de palabras del lenguaje inclusivo. Notar que los lemas de los adjetivos ordinales son números. Esto es una decisión de FreeLing que sostuvimos. Una vez incorporadas todas estas clases de palabras, obtuvimos un conjunto de 25.337 lemas que consideramos que potencialmente podŕıan ser intervenidos para utilizarse en el lenguaje inclusivo. Sin embargo, antes de obtener el conjunto definitivo, fue necesario realizar algunos refinamientos. En primer lugar, notemos que podŕıan haber casos de lemas repetidos. Por un lado, podŕıan existir palabras que, sin un contexto adecuado, correŕıan el riesgo de ser clasifi- cadas por más de una clase. Por ejemplo, virtuoso puede ser interpretada como adjetivo pero también como sustantivo. 3.2. Conversión de los lemas al lenguaje inclusivo 25 Por otro lado, recordemos que en el proceso de normalización de tokens decidimos eliminar las tildes. Para mantener la consistencia, debimos replicar esta decisión en las palabras a buscar. Esto generó que, por ejemplo, casos como el pronombre interrogativo cuántos se convirtiera a cuantos, solapándose aśı con el pronombre relativo. Debido a estos dos factores, decidimos eliminar todos los lemas repetidos. Es importante comprender que para el alcance de nuestro estudio esto no es un problema ya que no se quiso analizar el fenómeno del lenguaje inclusivo en cuanto a las clases de palabras. Es decir, no pretendimos mostrar, por ejemplo, si los sustantivos son más utilizados que los adjetivos o análisis similares. Luego de aplicar este primer filtro, el conjunto se redujo a 22.513 lemas. En segundo lugar, nos planteamos si teńıa sentido considerar la totalidad de estos lemas, teniendo en cuenta que partimos de un extenso diccionario donde exist́ıa la posi- bilidad de que algunas de las palabras filtradas no tengan uso dentro de nuestro corpus. Por esta razón, tomamos la decisión de considerar solo aquellos lemas que hayan sido uti- lizados en nuestro corpus en alguna de sus variantes de género y número. Por ejemplo, no registramos usos de ninguna de las 4 combinaciones de masculino y femenino, singular y plural, de la palabra zurriagar, es decir, no tenemos en nuestro corpus apariciones de los verbos participios zurriagada, zurriagado, zurriagadas ni zurriagados, por ende se descartó este lema. Al finalizar todo el proceso de filtrado y refinamiento, nuestro conjunto de lemas que eventualmente podŕıan ser utilizados dentro del lenguaje inclusivo quedó compuesto por 13.874 lemas. 3.2. Conversión de los lemas al lenguaje inclusivo Una vez obtenido el conjunto de lemas que potencialmente se podŕıan intervenir para utilizar en el lenguaje inclusivo, fue necesario completar el inventario con las conversiones a cada uno de los tipos de inclusivo, tanto para el plural como para el singular. En la tabla 3.2 podemos observar el listado de tipos de inclusivo que se consideraron en un primer momento. Junto a ellos vemos un ejemplo para cada número, es decir, uno para el plural y otro para el singular. Tipo de inclusivo Ejemplos Singular Plural ((@)) lind@ lind@s ((x)) lindx lindxs ((e)) linde lindes ((/)) lindo/a lindos/as ((y/o)) lindo o linda lindos y lindas ((*)) lind* lind*s Tab. 3.2: Tipos de inclusivo que consideramos en un primer momento junto con un ejemplo para cada uno de ellos. Dado que el proceso de conversión y conjugación no fue el mismo para cada tipo de inclusivo, veamos a continuación el detalle de cómo se llevó a cabo este proceso para cada uno de ellos. Tipos de inclusivo: ((@)) y ((x)) 26 3. Detección de uso del lenguaje inclusivo La conversión y conjugación de estos dos tipos de inclusivo fueron similares. Por lo tan- to, las explicaremos en conjunto. Al revisar los lemas que teńıamos que convertir notamos que deb́ıamos separar el proceso en dos casos. El primero de ellos, y más simple de procesar, fue el caso de las palabras que terminan con una vocal, como por ejemplo lindo o nene. Para estos casos simplemente tomamos de cada lema la versión del masculino en singular y plural y les reemplazamos la última vocal por un ((@)) o una ((x)) según correspondiera. Aśı por ejemplo, para el lema lindo tomamos lindo y lindos y, reemplazandola última vocal, obtuvimos por un lado lind@ y lind@s, y por otro lado lindx y lindxs. El segundo escenario se basó en los lemas cuyas terminaciones fueran con una vocal seguida de una consonante, como por ejemplo terminaciones en ón, or, es, ol, etc. El problema para realizar la conversión del singular en estos casos fue que teńıamos distintas alternativas para tomar de base, ya que pod́ıamos partir tanto del masculino como del femenino y ambas opciones eran válidas. Veamos un ejemplo para clarificar estos casos. Tomemos las palabras campeón y agresor y observemos que según la versión que tomáramos de base, ya sea el singular masculino o el femenino, podŕıamos obtener campe@n o campeon@, y agres@r o agresor@. Ambas versiones eran válidas y por lo tanto optamos por utilizar las dos. Por otro lado, notemos que para el plural esto no sucede ya que tomando de base las versiones de ambos géneros, la palabra resultante es la misma. Es decir, estaŕıamos partiendo de palabras cuyos sufijos son es y as, como por ejemplo campeones, campeonas, agresores y agresoras, y en cualquiera de los dos casos, el resultado seŕıa el mismo. En nuestro ejemplo obtendŕıamos campeon@s y agresor@s. En conclusión, para los tipos de inclusivo con ((@)) y ((x)), dependiendo de la terminación de los lemas, tenemos casos para los cuales disponemos de dos versiones en singular y casos para los cuales disponemos de una sola versión. En cuanto al plural, para todos los lemas tenemos una única versión. En la tabla 3.3 podemos observar los ejemplos expuestos recientemente a modo de resumen. Lema Singular versión 1 Singular versión 2 Plural única versión lindo lind@ - lindx - lind@s - lindxs agresor agres@r - agresxr agresor@ - agresorx agresor@s - agresorxs Tab. 3.3: Ejemplos de conversiones a los tipos de inclusivo ((@)) y ((x)). Observemos que dependiendo de la terminación del lema podemos disponer de una o dos versiones en singular. Para el plural contamos con una única versión para todos los casos. Tipos de inclusivo: Desdoblamientos con ((y/o)) y con ((/)) La conversión y conjugación de estos dos tipos de inclusivo también las explicaremos en conjunto dado que fueron similares, aunque hubo algunas diferencias que detallaremos por separado. Comencemos por ver los puntos particulares de cada tipo de inclusivo. Por empezar, para los desdoblamientos con ((y/o)) decidimos utilizar como conector para el plural la palabra ((y)) y para el singular la palabra ((o)). Esto se debe a que si alguien quiere hacer referencia a una única persona y desconoce su género, o simplemente no quiere asumirlo, probablemente utilice expresiones como el o la, o también ganador o ganadora. Para el caso de los desdoblamientos con ((/)), la principal decisión que debimos tomar se basó en determinar de qué forma compońıamos las palabras intervenidas. Algunas de 3.2. Conversión de los lemas al lenguaje inclusivo 27 las opciones eran, por ejemplo, todos/todas o todos/as. En particular decidimos utilizar solo la última versión, es decir, la que no duplica la palabra completa sino que solo agrega el sufijo del género opuesto. En el ejemplo reciente, estaŕıamos hablando de la alternativa todos/as. Pasemos ahora a mencionar el procesamiento en común de los dos desdoblamientos. Para empezar, en ambos tipos de inclusivo decidimos generar cuatro versiones, dos en sin- gular y dos en plural. Sabiendo que es un tipo de inclusivo que contempla únicamente dos géneros, el masculino y el femenino, en particular se quiso ver cuál de los dos se antepone con mayor frecuencia. Por lo tanto, para cada lema de nuestro inventario incorporamos dos versiones de cada número. Es decir, generamos una versión en singular anteponiendo el masculino y otra versión anteponiendo el femenino. Lo mismo hicimos para el plural, completando aśı las cuatro versiones. Tomando como ejemplo el lema todo, veamos la tabla 3.4 donde exponemos las cuatro versiones de cada desdoblamiento. Singular versión 1 Singular versión 2 Plural versión 1 Plural versión 2 ((y/o)) todo o toda toda o todo todos y todas todas y todos ((/)) todo/a toda/o todos/as todas/os Tab. 3.4: Ejemplos de conversiones a los tipos de inclusivo desdoblamientos con ((y/o)) y ((/)). Obser- vemos que disponemos de dos versiones para cada número: una anteponiendo el masculino y otra el femenino. Tipo de inclusivo: ((e)) La conversión y conjugación de los lemas al tipo de inclusivo con la letra ((e)) no fue trivial ya que requirió iterar por varios enfoques hasta llegar a la solución que finalmente utilizamos. El primer enfoque consistió en llevar adelante el mismo proceso realizado con el ((@)) y la ((x)), teniendo especial consideración con los lemas que terminaran en co y go, los cuales deb́ıan ser modificados de tal forma que finalizaran con que y gue respectivamente. A modo de ejemplo, si tomáramos los lemas loco y amigo, las versiones intervenidas para el singular debeŕıan ser loque y amigue. Luego de modificar todos los lemas del inventario de esta forma, realizamos una ex- ploración preliminar buscando las palabras intervenidas en el corpus. Alĺı notamos que exist́ıa una gran cantidad de falsos positivos. Es decir, hab́ıamos identificado como usos del lenguaje inclusivo palabras que por el contexto sab́ıamos que no se estaban utilizando de tal modo. En este punto detectamos un primer problema de este enfoque: al realizar la conversión, las palabras resultantes pertenećıan al lenguaje. Un claro ejemplo de esto es el caso de la palabra amigos, que luego de ser intervenida resulta en el verbo subjuntivo amigues, que podŕıa ser utilizado en frases como no te amigues con esa persona. Como primera medida, y para poder seguir adelante con la exploración preliminar, decidimos descartar aquellas palabras que al ser convertidas a este tipo de inclusivo resul- tasen en palabras pertenecientes al diccionario. Sin embargo, esto tampoco fue suficiente, dado que segúıamos encontrando falsos positivos como los siguientes: argentino −→ argentine gentilicio de argentino en inglés. solo −→ sole en referencia al nombre Soledad. viejo −→ vieje typo al escribir viaje. loco −→ loque typo al escribir lo que donde faltaŕıa el espacio. 28 3. Detección de uso del lenguaje inclusivo memo −→ meme en referencia al chiste gráfico. Como último punto a mencionar de este enfoque, decidimos descartar una de las dos versiones de las palabras intervenidas en singular. En un principio hab́ıamos optado por replicar la idea utilizada en los tipos de inclusivo ((@)) y ((x)), donde para los lemas con terminaciones en vocal seguida de consonante, como por ejemplo ón, or, es, ol, etc., ge- neramos dos versiones del singular. Veamos un ejemplo para comprender el porqué de esta decisión. Cuando tomamos el lema trabajador, las dos posibles versiones en singular resultaban en trabajader y trabajadore. Sin embargo, durante esta exploración preliminar, notamos que los casos donde se utilizaba esta segunda forma, trabajadore, en general pa- rećıan corresponder a typos donde se hab́ıa querido escribir trabajadores y hab́ıa faltado la letra s. Por este motivo decidimos quedarnos únicamente con la primera versión. Ante estos casos fallidos, nos dimos cuenta que este enfoque no nos estaba condu- ciendo a buen puerto. Avanzamos entonces en un segundo enfoque, donde intentamos hacer un análisis según la cantidad de usuarios diferentes que usaban cada palabra y otro basándonos en la longitud de las mismas, pero en ninguno de los dos casos llegamos a algo consistente y confiable. En este punto asumimos que no iba a ser viable encontrar una solución completamente automatizada para detectar en nuestro corpus los más de 13 mil lemas intervenidos del inventario con el tipo de inclusivo ((e)), sin obtener una gran cantidad de falsos positivos. Todo esto sumado a que el objetivo del trabajo es dar una idea de la presencia del fenómeno del lenguaje inclusivo en Twitter y por
Compartir