Logo Studenta

tesis-MG-frqbowD

¡Este material tiene más páginas!

Vista previa del material en texto

Universidad de Buenos Aires
Facultad de Ciencias Exactas y Naturales
Departamento de Computación
Uso de lenguaje inclusivo
en Twitter Argentina
Tesis de Licenciatura en Ciencias de la Computación
Mat́ıas Carlos Guerson
Directores: Agust́ın Gravano y Santiago Kalinowski
Buenos Aires, 2021
USO DE LENGUAJE INCLUSIVO EN TWITTER ARGENTINA
Dado el avance de la tecnoloǵıa y el uso cada vez más amplio de internet y de las redes
sociales, entre otros factores, en los últimos años se ha producido un gran crecimiento en
cuanto a la cantidad de datos que se pueden generar, recolectar, almacenar y procesar.
Esto dio lugar a la posibilidad de investigar fenómenos lingǘısticos a gran escala, lo cual
seŕıa dif́ıcilmente practicable de forma manual.
Un fenómeno lingǘıstico que, si bien no es nuevo, ha cobrado relevancia en los últimos
tiempos es la intervención que recibe el nombre de ((lenguaje inclusivo)). Plantea que el
masculino genérico, presente en español y otras lenguas, es insuficiente para dar cuenta
de la diversidad de géneros de la sociedad. Con esa premisa, la intervención consiste en
desplegar diferentes estrategias para evitar el uso del masculino genérico, no exhaustiva-
mente, según surge del análisis de los datos, sino en determinadas posiciones de ciertos
enunciados. Dado que es un rasgo discursivo que emerge de profundas divisiones poĺıticas,
sociales y culturales de la sociedad, su uso genera tanto adhesiones como rechazos.
En este trabajo nos propusimos analizar, desde distintos enfoques, cómo ha sido la
evolución del lenguaje inclusivo en los últimos años. Para esto, utilizamos datos de la
red social Twitter. Recolectamos casi 130 millones de tweets escritos por más de 56 mil
usuarios distribuidos en 23 provincias argentinas. Nuestros objetivos fueron: dimensionar
la cantidad de personas que lo usan, identificar en qué momento surgió y cómo fue evo-
lucionando diacrónicamente cada una de sus variantes (((@)), ((x)), ((e)), etc.), y analizar
minuciosamente cuántas y cuáles son las palabras que resultan intervenidas.
Pudimos observar que, si bien el lenguaje inclusivo no presenta un uso extendido o
generalizado, tampoco es insignificante. A su vez, notamos que existen múltiples indicios
que sugieren que el fenómeno se encuentra en crecimiento. Vimos, también, cómo su uso
no parece requerir un cambio gramatical, sino que se actualiza a través del uso de un
repertorio limitado de palabras que empiezan a funcionar como marcadores discursivos.
Palabras claves: Procesamiento de Lenguaje Natural, Lingǘıstica Computacional, Len-
guaje Inclusivo.
i
AGRADECIMIENTOS
A la Universidad de Buenos Aires y, en especial, a cada persona que integra el Depar-
tamento de Computación de la Facultad de Ciencias Exactas y Naturales. Es admirable
y emocionante ver todo el esfuerzo que hacen por sostener la universidad pública y de
excelencia.
A Agust́ın Gravano, por su incansable acompañamiento, empuje, predisposición y en-
señanza.
A Santiago Kalinowski, por haberme ayudado durante todo el trabajo con su conoci-
miento lingǘıstico.
A Sergio Yovine y Mart́ın Urtasun, por haber aceptado ser jurados de esta tesis y por
haberla léıdo en muy poco tiempo.
A mis amigos de la vida, por haberme acompañado y alentado en todo momento.
A mis amigos de la facultad, por tantas juntadas de estudio, y otras de no tanto estudio.
A mis compañeros de trabajo, por haberme bancado en momentos intensos en la fa-
cultad.
A mi familia universitaria, Patricio, Solange y Augusto, por todo eso que hizo que se
convirtieran en familia.
A toda mi familia, por haberme acompañado, ayudado, alentado y tantas lindas ac-
ciones más, en todo momento.
A Flor, mi compañera en este viaje, por el incréıble apoyo y amor que me dio y me
da.
iii
A mi vieja que lo vio, y a mi viejo que no llegó...
Índice general
1.. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1. Lenguaje inclusivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3. Trabajo previo en el área . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4. Objetivo del estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.. Recolección de datos y armado del Corpus . . . . . . . . . . . . . . . . . . . . . . 7
2.1. Recolección de datos de Twitter . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.1. Análisis de las dificultades en la recolección de datos . . . . . . . . . 10
2.2. Armado del corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1. Tokenización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.2. Normalización de tokens . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.3. Caracterización del corpus . . . . . . . . . . . . . . . . . . . . . . . . 16
3.. Detección de uso del lenguaje inclusivo . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1. Selección de lemas potencialmente intervenidos en el lenguaje inclusivo . . . 23
3.2. Conversión de los lemas al lenguaje inclusivo . . . . . . . . . . . . . . . . . 25
3.3. Búsqueda eficiente de palabras dentro del corpus . . . . . . . . . . . . . . . 32
4.. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.1. Análisis de tweets inclusivos . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2. Análisis de usuarios inclusivos . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3. Análisis anual de los tipos de intervenciones . . . . . . . . . . . . . . . . . . 54
4.4. Análisis de palabras intervenidas . . . . . . . . . . . . . . . . . . . . . . . . 56
4.4.1. Cobertura del inventario . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.4.2. Análisis de frecuencia normalizada . . . . . . . . . . . . . . . . . . . 66
4.5. Análisis de los desdoblamientos - Masculino vs. Femenino . . . . . . . . . . 68
4.6. Análisis del número - Plural vs. Singular . . . . . . . . . . . . . . . . . . . . 70
5.. Conclusiones y trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Apéndice 79
A.. Expresión regular nltk.TweetTokenizer . . . . . . . . . . . . . . . . . . . . . . . . 81
B.. Inventario para la letra ((e)) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
C.. Usuarios inclusivos - Problema asociado a la cantidad de tweets recolectados . . 85
Bibliograf́ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
vii
1. INTRODUCCIÓN
1.1. Lenguaje inclusivo
En los últimos años algunos colectivos como el feminismo y las comunidades LGBTIQ+
(Lesbianas, Gays, Bisexuales, Transgéneros, Transexuales, Travestis, Intersexuales, Queer
y colectivos que no se sienten representados por ninguno de los géneros anteriores) han
ganado mayor visibilidad e instalaron debates acerca de cuestiones de género en la agenda
pública. Estos colectivos han avanzado con muchas demandas de diferente tipo, como, por
ejemplo, el derecho a la identidad de género, al matrimonio igualitario, al cupo laboral; la
lucha contra la discriminación, la violencia de género, entre otras.
En ese contexto, se agregó un nuevo caṕıtulo a la reflexión sobre los sesgos de género
presentes en la lengua. Partiendo de premisas tales como ((el lenguaje nos constituye)) y
((lo que no se nombra no existe)), estos grupos denuncian la invisibilización de la mujer y
de los géneros no binarios a través de la lengua. El eje central de este planteo reside en
el uso del masculino genérico para referirse tanto a grupos conformados por personas de
distintos géneros (por ejemplo, ((todos van a ganar))), como a una sola persona cuando se
desconoce su género o no es informativamente relevante (((quien termine primero, gana))).
Quienes adhieren a este cuestionamiento argumentan que esto constituye un factormás
que promueve la relegación de las mujeres y personas no binarias en la sociedad. Como
respuesta a esta problemática, surgen distintas propuestas que componen lo que recibió el
nombre de lenguaje inclusivo.
Una de las propuestas es el uso de los desdoblamientos con ((y/o)) y ((/)) (por ejemplo,
((todos y todas van a ganar)), ((quien termine primero o primera, gana)), ((todos/as van
a ganar)) o ((quien termine primero/a, gana))). Por un lado, con estas alternativas, se
incorpora al discurso únicamente el género femenino, y se dejan fuera de consideración los
géneros no binarios. Por otro lado, el desdoblamiento con ((y/o)), a diferencia del que usa
la ((/)), no incorpora palabras nuevas ni tampoco altera las existentes.
Otra de las propuestas sugeridas es el uso del ((@)) (por ejemplo, ((tod@s van a ganar))
o ((quien termine primer@, gana))). Esta opción es más compacta que los desdoblamientos,
puesto que evita la repetición, ya sea de la palabra completa o simplemente del sufijo. A
su vez, el ((@)) es impronunciable, por lo que esta alternativa solo está disponible en la
escritura. Por otro lado, es una variante que recibió cŕıticas porque, asumiendo que el ((@))
representa la unificación gráfica de la ((a)) con la ((o)), tampoco contempla a los géneros no
binarios.
Una variante que, en cambio, permite la inclusión de todos los géneros es la letra
((x)) (por ejemplo, ((todxs van a ganar)) o ((quien termine primerx, gana))). Sin embargo,
esta alternativa tampoco es pronunciable en español y su uso también queda limitado
únicamente a la escritura.
Una propuesta que plantea solución a ambas problemáticas, ya sea considerar a todos
los géneros como permitir su pronunciación, es el uso de la letra ((e)) (por ejemplo, ((todes
van a ganar)) o ((quien termine primere, gana))).
Por último, es necesario destacar que la discusión acerca de los sesgos de género pre-
sentes en la lengua, no se está llevando a cabo únicamente en el español. Solo por citar un
caso, actualmente en el inglés se está discutiendo el uso del pronombre they en singular.
1
2 1. Introducción
1.2. Twitter
Twitter es un servicio de microblogging y red social creado en 2006. En él sus usuarios
interactúan a través de publicaciones llamadas tweets o tuits. Los usuarios pueden estar
registrados o no, pero únicamente tienen permiso para publicar aquellos que tengan una
cuenta. Los otros solo se limitan a leer el contenido. Cada vez que un usuario escribe un
tweet, éste se ve reflejado en su página principal o timeline (ĺınea de tiempo). Por defecto
el timeline es público, es decir, cualquier persona tiene acceso a su contenido. Sin embargo,
esta configuración puede modificarse para que la cuenta sea privada, restringiendo aśı el
acceso a los tweets.
La interacción entre usuarios se puede dar de diversas formas. En primer lugar un
usuario puede elegir suscribirse al contenido de otro, convirtiéndose aśı en su seguidor.
Esta relación no es necesariamente rećıproca; es decir, una persona puede decidir seguir
a otro usuario sin necesidad de que este último también sea su seguidor. Al ingresar a la
red social, que puede ser a través de su sitio web o aplicación móvil, a cada persona le
aparecen tweets de los usuarios a los que sigue.
Algunas de las acciones posibles sobre un tweet son: indicar ((Me gusta)), responderlo,
hacer un retweet o retuit, o citarlo. Si se opta por indicar ((Me gusta)), esto se verá reflejado
en la parte inferior del tweet en un contador que suma la cantidad de personas que tuvieron
la misma reacción. En caso de que se responda un tweet, la respuesta aparecerá junto a
las demás, y a su vez todas figurarán debajo del tweet original. Las acciones de hacer un
retweet o citar un tweet son similares. En ambos casos un usuario A toma un tweet de
un usuario B y lo publica en su propio timeline. De esta forma el tweet en cuestión queda
visible para los seguidores del usuario A. Como única diferencia, al realizar una cita se
puede agregar texto a la publicación.
Por otro lado, los tweets pueden estar compuestos por texto y contenido multimedia
(fotos, videos, enlaces, etc.). Existe una única limitación para el texto y es que éste no
supere los 280 caracteres. Originalmente el ĺımite era de 140, pero a partir del año 2017
este valor se duplicó.
En la actualidad Argentina tiene alrededor de 5 millones de usuarios alcanzables. Es
decir, usuarios que en mayor o menor medida siguen utilizando esta red social. Esta infor-
mación surge de los datos publicados por Statista [1] y Kepios [2], dos empresas dedicadas
a analizar datos de negocios y de comportamiento en internet. Aún aśı, la tendencia de
uso pareciera estar en decrecimiento dado que, por ejemplo, en 2016 este número alcanza-
ba casi los 12 millones de usuarios. Sin embargo, es importante notar que no todas estas
cuentas corresponden a personas f́ısicas. Partiendo de la premisa de que Twitter es una
red social donde sus usuarios pueden interactuar, es también muy utilizado por empresas
para publicitar productos o brindar atención al cliente, entes gubernamentales para dar
información, etc.
Por último, una caracteŕıstica muy importante a la hora de optar por utilizar esta
red social para esta tesis, es que posee una interfaz pública que permite recolectar pu-
blicaciones de forma automatizada de cualquier usuario, siempre y cuando éste no haya
configurado su cuenta como privada. Esta recolección se puede realizar de diversas for-
mas, ya sea solicitando tweets que contengan ciertas palabras claves, como indicando que
se desea obtener todo el timeline de un usuario, entre otras. Al momento de realizar este
estudio, esta última funcionalidad para recolectar los tweets del timeline de un usuario se
encontraba limitada. La limitación permit́ıa extraer únicamente las últimas 3200 publica-
1.3. Trabajo previo en el área 3
ciones de un usuario, incluyendo retweets o citas. Es decir, el ĺımite no solo aplicaba a los
tweets escritos por cada usuario, sino también a los que hubieran sido escritos por otros y
luego compartidos por el usuario en cuestión.
El hecho de poder recolectar tweets de forma automatizada permite generar una fuente
de datos sobre la cual se pueden realizar diversos estudios. En los últimos años se han
publicado numerosos trabajos que utilizaron datos de Twitter. Por ejemplo, en 2017 y
como parte de su tesis de licenciatura, Aleman propuso un método para detectar palabras
contrastivas basándose en un corpus generado a partir de tweets [3]. En 2019 Makse y
Bovet publicaron un art́ıculo donde analizaron la influencia de las noticias falsas en Twitter
sobre las elecciones presidenciales de EEUU en 2016 [4]. Recientemente, en Julio de 2021,
se publicó un art́ıculo acerca del funcionamiento de la psicoloǵıa epidémica utilizando
datos obtenidos de la misma red social [5]. Estos son sólo algunos ejemplos recientes que
reflejan la tendencia creciente de usar Twitter como fuente de datos en estudios de toda
ı́ndole.
1.3. Trabajo previo en el área
Aunque el lenguaje inclusivo se viene discutiendo y analizando hace muchos años, es
cierto que en los últimos tiempos ha tomado gran relevancia y visibilidad pública. Es cada
vez más común encontrar notas en los medios, publicaciones en las redes sociales, art́ıculos,
etc., donde se hable del tema. A su vez, este fenómeno también se viene analizando desde
distintos enfoques como, por ejemplo, desde el punto de vista lingǘıstico, sociológico,
poĺıtico e incluso estad́ıstico.
En primer lugar es pertinente mencionar estudios y art́ıculos publicados por institu-
ciones vinculadas a la lengua, como son la Real Academia Española (RAE) y la Academia
Argentina de Letras (AAL). Éstas, probablemente, sean la mayor referencia en el tema
para los argentinos. En el año 2012, Ignacio Bosque, miembro de la RAE y catedrático
de Lengua Española de la Universidad Complutense de Madrid, publicó un estudio titu-
lado((Sexismo lingǘıstico y visibilidad de la mujer)) [6]. Alĺı realiza un extenso análisis
sobre algunas de las gúıas de lenguaje no sexista presentadas por universidades, comuni-
dades autónomas, sindicatos, ayuntamientos y otras instituciones. En particular, presenta
una serie de cŕıticas a estas gúıas. Solo por nombrar algunas, en primer lugar remarca la
ausencia de lingüistas en su elaboración, aún cuando se analizan aspectos del léxico, la
morfoloǵıa y la sintaxis. Por otro lado, indica que no todas las mujeres perciben discrimi-
nación en el uso del masculino genérico. En este sentido, menciona que las gúıas son poco
flexibles al respecto. Critica, también, que sus autores insinúan que las mujeres que no
se sientan excluidas con el uso actual del lenguaje debeŕıan rever su postura. Por último,
expresa que los significados de las palabras no pueden definirse o negociarse en asambleas
y promulgarlos cual leyes, sino que éstos se modifican con su evolución. A este informe
suscribieron las demás academias de la lengua nucleadas en la Asociación de Academias
de la Lengua Española (ASALE). Años más tarde, en 2020, la RAE publicó un estudio
titulado ((Informe de la Real Academia Española sobre el lenguaje inclusivo y cuestiones
conexas)) [7]. Éste se compone de tres piezas: por un lado presenta un informe sobre el uso
del lenguaje inclusivo en la Constitución Española. Por otro lado, realiza un análisis sobre
sexismo lingǘıstico, femeninos de profesión y masculino genérico. Por último, expresa la
posición de esta institución en relación a este tópico. En cuanto a la AAL, destacamos dos
estudios. En primer lugar, su presidenta, Alicia Maŕıa Zorrilla, presentó un art́ıculo cuyo
4 1. Introducción
t́ıtulo es ((El lenguaje inclusivo. Fundamentos de la posición académica)) [8]. En segundo
lugar, el Departamento de Investigaciones Lingǘısticas y Filológicas de la propia institu-
ción publicó otro art́ıculo titulado ((La lengua en el centro de un debate social: el caso del
lenguaje inclusivo)) [9]. Como parte del análisis y de las ideas que se presentan en estos
trabajos, se sugiere que el lenguaje inclusivo no es un fenómeno necesariamente lingǘıstico
sino más bien poĺıtico o sociopoĺıtico. Plantean, aśı, que quienes lo utilizan “lo usan con
el fin de crear un efecto, en quien lee o escucha, de toma de conciencia sobre un problema
social y cultural” [9, p. 20].
Existen otros estudios que también abordan el tema con un enfoque lingǘıstico, o inclu-
so desde puntos de vista sociológicos y/o poĺıticos. En primer lugar, podemos mencionar
a Álvaro Garćıa Meseguer y su trabajo ((Sexismo y lenguaje)) de 1976 [10]. Alĺı el autor
realiza un análisis de los géneros en el lenguaje. En ese estudio, propuso el uso de la le-
tra ((e)) para reemplazar las vocales desinenciales ((a)) y ((o)), idea que él mismo rechazó
tiempo después. Varias décadas más tarde, Sebastián Sayago presentó en el año 2019 un
estudio titulado ((Apuntes sociolingǘısticos sobre el lenguaje inclusivo)) [11], donde refle-
xiona acerca de la utilidad de la variante ((e)), y, además, expone criterios gramaticales
que considera útiles en caso de una eventual estandarización de esta variante del español.
En 2020, José Maŕıa Gil publicó su estudio denominado ((Las paradojas excluyentes del
“lenguaje inclusivo” sobre el uso planificado del morfema flexivo -e)) [12], donde analiza
en detalle el uso de la letra ((e)) y plantea eventuales limitaciones de esta variante. Desde
un enfoque sociológico y/o poĺıtico, en 2018, Julia Moretti publicó su art́ıculo ((La RAE
y el rechazo al lenguaje inclusivo)) [13]. Alĺı plantea que su art́ıculo “pretende demostrar
cómo al lenguaje inclusivo todav́ıa le falta un largo trecho para recorrer y acomodarse a
los cambios que la sociedad ya está experimentando” [13, p. 1].
En cuanto a los trabajos estad́ısticos, enfoque donde nos permitimos ubicar el presente
estudio, en primer lugar, los corpus usados se basan principalmente en datos obtenidos
de redes sociales. En el año 2019, Yarubi Dı́az, David Heap y Katie Slemp expusieron
los resultados de un análisis utilizando 166 videos de Youtube [14]. Su objetivo principal
fue analizar la dicotomı́a escritura-oralidad en los usos del lenguaje inclusivo. Este no
fue el único trabajo sobre el tema realizado por Slemp. En 2020, junto a Martha Black y
Giulia Cortiana, presentaron el estudio ((Reactions to gender-inclusive language in Spanish
on Twitter and Youtube)) [15], para el cual tomaron 27 videos de Youtube y 20 tweets
que cumplieran ciertas condiciones, con el fin de estudiar la reacción pública respecto del
lenguaje inclusivo, y, aśı, compararla con las posiciones oficiales de la RAE y la AAL. Ese
mismo año, publicó otro trabajo titulado ((Latin@s or latinxs? Innovation in Spanish gender
inclusive oral expression)) [16]. En este caso, los datos utilizados fueron los resultados de
encuestas que obtuvo, en mayor medida, por las redes sociales. El objetivo fue intentar
responder cómo y en qué medida los hispanohablantes expresan la inclusión de género de
forma oral y escrita. Como resultados principales y conclusiones de estos estudios, notaron
la preferencia en lo oral por la ((e)) y los desdoblamientos, mientras que en lo escrito
detectaron que se suele preferir la ((e)) y la ((x)). Aún aśı, vieron que la gente que utiliza el
lenguaje inclusivo todav́ıa sostiene un uso considerable del masculino genérico en lo oral.
Por otro lado, pudieron determinar que la reacción en Youtube, en general, es positiva,
mientras que, si bien en Twitter no es tan buena, tampoco llega a ser completamente
negativa. Incluso, observaron la existencia de correlación entre la cantidad de likes de una
publicación y sus comentarios o respuestas positivas. Por último, en varias secciones de
estos trabajos, mencionaron la necesidad de poder procesar una mayor cantidad de datos
1.4. Objetivo del estudio 5
para, aśı, obtener mayor cantidad de conclusiones y de mayor robustez.
Por otro lado, es importante destacar la vasta cantidad de análisis realizados por
distintos organismos en pos del armado de gúıas de lenguaje no sexista. Solo por men-
cionar algunos de ellos, podemos nombrar la ((Gúıa para el uso de un lenguaje no sexista
e igualitario en la Honorable Cámara de Diputados de la Nación Argentina (HCDN)))
confeccionada por este organismo [17], (((Re)Nombrar. Gúıa para una comunicación con
perspectiva de género)) propuesta por el Ministerio de las Mujeres, Géneros y Diversidad
[18], la ((Gúıa para un lenguaje no sexista)) armada por el Consejo Interuniversitario Na-
cional [19]. Vinculado a esto, Maŕıa Marta Garćıa Negroni y Beatriz Hall publicaron un
análisis lingǘıstico-discursivo de las resoluciones emitidas por cuatro universidades argen-
tinas que han aceptado el uso del lenguaje inclusivo en alguna de sus formas y en distintos
tipos de producciones académicas escritas y orales [20]. Su objetivo fue “mostrar que el
sentido de los discursos no es de naturaleza veritativa, ni depende de las elecciones vo-
luntarias e intencionales de los sujetos; antes bien, los efectos de sentido se construyen
dialógica y argumentativamente” [20, p. 1].
En el plano internacional, en primer lugar debemos mencionar la gúıa confeccionada
por Naciones Unidas en 2019, la cual titularon ((Lista de verificación para usar el español
de forma inclusiva en cuanto al género)) [21]. Por otro lado, en España, podemos destacar
la ((Gúıa de uso para un lenguaje igualitario (castellano))) de la Universitat de Valencia
[22], o las convenciones definidas por la Universitat de Barcelona, ((Uso no sexista del
lenguaje)), tanto para el español como para el catalán [23].
Como se puede observar, el lenguaje inclusivo es un tema de interés tanto académico
como de la sociedad en general, con fuertes opiniones a favor y en contra. Es por esto
que surge una clara necesidad de contar con análisisestad́ısticos de grandes volúmenes de
datos, que permitan dar una idea objetiva de cuál es su uso y cómo ha ido evolucionando
diacrónicamente.
1.4. Objetivo del estudio
El principal objetivo de este estudio consiste en aportar datos a la discusión sobre el
uso del lenguaje inclusivo en Argentina. Para esto usamos datos de la red social Twitter. Si
bien se escapa del alcance de este trabajo determinar si Twitter es un reflejo de la realidad
o no, hemos visto que se han realizado (y se siguen realizando) una vasta y muy variada
cantidad de trabajos utilizando esta red social como fuente de datos. A su vez, creemos
que, por el momento, es realmente poco probable encontrar usos del lenguaje inclusivo
en libros, portales de noticias, otras redes sociales, etc. Por lo tanto, teniendo en cuenta
que Twitter no impone ninguna limitación en cuanto al contenido (más que la cantidad
de caracteres de una publicación), y que brinda la posibilidad de recolectar publicaciones
e información de los usuarios de forma automatizada, consideramos que es una fuente de
datos realmente valiosa para nuestro estudio.
En esta tesis tomamos alrededor de 130 millones de tweets realizados a lo largo de 14
años por más de 56 mil usuarios distribuidos en 23 provincias. Esta cantidad representa
una muestra realmente considerable si tenemos en cuenta dos factores: por un lado, no
todos los usuarios realizaron publicaciones durante este peŕıodo, lo cual implica que la
cantidad de usuarios presentes en cada año fue variando. Por otro lado, sabemos que la
cantidad de usuarios alcanzables de Twitter osciló entre los 5 y 12 millones en el último
tiempo. En base a estos dos puntos podemos decir que contamos con aproximadamente el
6 1. Introducción
0.5 % de los usuarios de esta red social. Es debido a todo esto que creemos que nuestro
aporte presenta una gran diferencia respecto al trabajo estad́ıstico previo en el área, dado
que en este estudio procesamos grandes volúmenes de datos. El corpus que generamos está
formado por más de mil millones de formas, y el inventario de palabras en inclusivo se
basa en más de 25 mil lemas modificados para cada variante y número.
En pos de poder comprender la forma en la que se usa el lenguaje inclusivo, a lo largo
de este trabajo intentamos responder diversas preguntas. Por empezar, en la sección 4.2
exponemos cuántos usuarios han utilizado alguna variante del lenguaje inclusivo a través
de los años y a lo largo y ancho del páıs. Luego, en la sección 4.3 analizamos cómo fue
la evolución temporal de cada tipo de intervención en lenguaje inclusivo. Otras de las
preguntas que planteamos son: ¿es un fenómeno que contempla una gran cantidad de
palabras o se limita a un pequeño repertorio?, ¿cuántos son los lemas intervenidos?, una
vez que se interviene un lema, ¿se mantiene su uso en el tiempo o sus usos son esporádicos?,
¿es considerable la cantidad de apariciones de palabras en lenguaje inclusivo?. Estos son
algunos de los interrogantes que se abordan en la sección 4.4.
Además del objetivo principal, este estudio tiene como propósito el armado de un cor-
pus en español segmentado por provincia y la confección de un inventario con una extensa
cantidad de palabras en lenguaje inclusivo para cada una de las variantes trabajadas.
2. RECOLECCIÓN DE DATOS Y ARMADO DEL CORPUS
En este caṕıtulo explicaremos el proceso de armado del corpus que se utilizó durante
todo este trabajo. Para esto, comenzaremos por describir la recolección de datos desde la
red social Twitter, donde hablaremos acerca del corpus que se tomó de base y de cómo
fueron las actualizaciones del mismo, brindando los datos técnicos del proceso de recolec-
ción y comentando las limitaciones que nos encontramos. Seguiremos luego exponiendo
la cantidad de tweets y usuarios obtenidos por año y por provincia. Finalizaremos esta
primera sección del caṕıtulo haciendo un breve análisis de las dificultades en la recolección
de datos.
Por otro lado, utilizando los datos recolectados, ahondaremos en el proceso de armado
del corpus. Hablaremos de la necesidad de definir a qué llamamos palabra y cómo se
realizó la extracción de las mismas de los tweets. Explicaremos en detalle el proceso de
tokenización y normalización, y finalizaremos exponiendo la caracterización de nuestro
corpus.
2.1. Recolección de datos de Twitter
Para el armado del corpus que utilizamos en este trabajo tomamos como punto de
partida el que fuera utilizado en la tesis de licenciatura de Damián Aleman en 2017 [3],
que presentó un método para detectar regionalismos en Twitter. Al mismo le realizamos
dos actualizaciones, la primera de ellas en Febrero del 2019 y la segunda en Marzo del
2020.
Comencemos por describir brevemente el corpus utilizado en la tesis de Aleman. Para
éste se utilizaron todas las publicaciones, es decir los timelines completos, de 56.308 usua-
rios. Dadas las necesidades de dicho estudio, se utilizó una cantidad similar de usuarios
para cada provincia. Sin embargo, al no haber existido la necesidad de sostener la similitud
entre los años, no dispońıa de una cantidad similar de usuarios para cada año.
En cuanto a las dos actualizaciones que realizamos, teniendo en cuenta que el corpus
hab́ıa sido generado a principios de 2017, el objetivo de las mismas fue obtener las pu-
blicaciones más recientes del timeline de cada uno de los más de 56 mil usuarios. Para el
proceso de recolección de datos fue necesario crear un programa desarrollado en el lenguaje
de programación Python. En el mismo se utilizó una biblioteca llamada tweepy, diseñada
espećıficamente para consumir la API (Application Programming Interface) de Twitter.
La idea de este proceso fue básicamente tomar cada uno de los usuarios que dispońıamos
y solicitar sus publicaciones bajo las siguientes condiciones:
Se pidieron únicamente los tweets que fueran posteriores al último que se hab́ıa
obtenido en la tesis de Aleman.
Se indicó que no se tuvieran en cuenta los retweets. Nos interesaron únicamente los
textos escritos por los usuarios de nuestro corpus.
Por defecto, con cada publicación Twitter env́ıa la información del usuario que la
realizó. En particular estamos hablando de casi 40 datos entre los que se encuentran
el ID, el nombre de usuario, la locación, la descripción, la cantidad de seguidores y
7
8 2. Recolección de datos y armado del Corpus
seguidos, etc. Dado que nosotros ya dispońıamos de esos datos en el corpus que se
tomó de base, se evitó descargarlos nuevamente con cada publicación.
Por otro lado, es necesario también mencionar que durante las actualizaciones nos
encontramos con algunas limitaciones. En primer lugar, nos vimos condicionados por una
restricción de Twitter que limita la cantidad de tweets por usuario que se pueden descargar.
Este ĺımite es de 3200 publicaciones, incluyendo retweets. Es decir, si por ejemplo, de las
últimas publicaciones de un usuario, 3000 fueron retweets y solo 200 fueron escritas por
él, al descargar los datos solo se obtuvieron estos últimos cientos ya que no fue de nuestro
interés utilizar los retweets, solo pretendimos contemplar los textos escritos por nuestros
usuarios. Esto pudo haber generado huecos temporales donde no dispongamos de ningún
tweet de algún usuario cuando en realidad si hayan existido. Más adelante en esta misma
sección ahondaremos en esto.
Otro punto importante a ser considerado es que muchas cuentas de usuarios fueron
cerradas o dejaron de ser públicas. Por lo tanto, no pudimos recopilar más publicaciones
de estas personas.
Respecto a las limitaciones generales de la API de twitter, debemos mencionar en
primer lugar que, por cada petición, la cantidad máxima de publicaciones que se permitió
obtener fue de 200 tweets. Sumado a esto, existió otra restricción sustancial y fue que no
permit́ıan realizar más de 900 peticiones por cada ventana de 15 minutos.
Como última observación, es necesario aclararque la geolocalización de los usuarios
no siempre es precisa. En algunos casos la información fue sacada del campo donde ellos
mismos ingresan su locación. Esto pudo haber generado algunos errores para usuarios de
La Rioja o Córdoba por ejemplo, ya que no existe una forma automatizada de distinguir
si se trataba de usuarios de provincias argentinas o españolas.
En cuanto a los tiempos requeridos para la recolección de datos, teniendo en cuenta
las limitaciones recientemente mencionadas y las configuraciones que ayudaron a reducir
los tiempos de descarga y volumen de datos a guardar, la primera actualización de 2019
necesitó 20 d́ıas de ejecución mientras que la segunda, en 2020, requirió 10 d́ıas.
Habiendo explicado el proceso de recolección y las limitaciones que nos encontramos,
veamos a continuación las figuras 2.1 y 2.2, donde podemos observar cómo están distribui-
dos los usuarios y los tweets a lo largo de los años y las provincias. En total disponemos
de 128.649.761 tweets generados por 56.308 usuarios.
Observando la figura 2.1 podemos notar que la cantidad de usuarios está uniformemente
distribuida respecto a las provincias, es decir, todas las localidades poseen una cantidad
similar de usuarios. Esta distribución fue un factor deseado en la tesis de Aleman. A su vez,
podemos ver que dicha uniformidad no se mantiene en cuanto a la cantidad de usuarios
por año, ni tampoco con la cantidad de tweets, ya sea por año o por provincia, tal como se
observa en la figura 2.2. En ningún caso esto representa un inconveniente dado que, siempre
que aplique, los resultados de esta tesis serán presentados en sus valores normalizados.
2.1. Recolección de datos de Twitter 9
Fig. 2.1: Cantidad total de usuarios por año y provincia. En total disponemos de 56.308 usuarios.
Fig. 2.2: Cantidad total de tweets por año y provincia. En total disponemos de 128.649.761 tweets.
10 2. Recolección de datos y armado del Corpus
2.1.1. Análisis de las dificultades en la recolección de datos
Por último, finalizando esta sección, queremos ahondar en los inconvenientes generados
por la limitación impuesta por Twitter en cuanto a la cantidad de tweets por usuario que
permite descargar, aśı como también el hecho de que algunos usuarios hayan cerrado sus
cuentas o las mismas hayan dejado de ser públicas. La suma de estos factores impactó
negativamente en cuanto a la cantidad de publicaciones recolectadas.
Observemos la figura 2.3 donde podemos ver la cantidad de tweets que disponemos con
una granularidad mensual. Lo primero que podemos notar es que claramente la distribu-
ción no es uniforme. En segundo lugar vemos un pico en Febrero de 2017, que es cuando
se realizó la primera recolección de datos. Entrando en detalle, quizás lo más relevante
sea notar que existen picos locales para los primeros meses de 2019 y de 2020. Estos fue-
ron los momentos donde realizamos las actualizaciones. Como podemos observar, si nos
paramos en estos picos y nos movemos para atrás en el tiempo, la cantidad de tweets
cae hasta encontrarse con el pico inmediatamente anterior. Es aqúı donde, especulamos,
afectaron contundentemente y de forma negativa los dos factores previamente menciona-
dos, dado que de no haber existido ninguno de ellos, esperaŕıamos tener una distribución
más uniforme en cuanto a la cantidad de tweets, al menos para los últimos años. Aún aśı,
como dijimos recientemente, al exponer los resultados con valores normalizados, esto no
representa ningún problema.
Fig. 2.3: Cantidad total de tweets por mes en escala logaŕıtmica. Podemos observar el pico a
principios de 2017, donde se realizó la primera recolección de datos. A su vez, vemos
dos picos locales en los primeros meses de 2019 y 2020, que son los momentos donde se
realizaron las actualizaciones.
2.2. Armado del corpus
Una vez obtenidos los tweets, para el armado de nuestro corpus debemos definir qué
partes del texto de las publicaciones consideramos que son palabras. Esto se debe a que
probablemente nos encontremos con secuencias de caracteres que no sean de nuestro in-
terés y por lo tanto no querramos que pertenezcan al corpus. Recordemos que estamos
trabajando con una red social donde se puede escribir libremente, sin ningún tipo de res-
tricción más que la cantidad de caracteres que se utilizan. Es por esto que en los textos
2.2. Armado del corpus 11
de los tweets podemos hallar tanto palabras conocidas y bien escritas, como palabras con
errores de ortograf́ıa. También podŕıamos encontrar palabras en otros idiomas, e incluso
algunas inexistentes en los diccionarios convencionales, como pueden llegar a ser nombres
propios, regionalismos o, como es de nuestro interés, palabras correspondientes al lenguaje
inclusivo. En śıntesis, nos podemos encontrar con cualquier secuencia de caracteres alfa-
numéricos, śımbolos, signos ortográficos, etc. Dicho esto, surgen entonces los siguientes
dos grandes interrogantes:
¿A qué llamamos palabra?
¿Cómo se hace para obtener las palabras a partir del texto de las publicaciones?
Comencemos por ver algunas ideas posibles para ir comprendiendo y definiendo cuáles
son las expresiones que vamos a considerar como palabras y de qué forma las vamos a
extraer.
Una primera idea muy simple es decir que las palabras son todas aquellas expresiones
que están separadas por espacios en blanco. De esta forma ya podŕıamos definir qué es una
palabra y a la vez sabŕıamos cómo obtenerlas del texto. Sin embargo, esto no es efectivo
ya que se nos presentaŕıan problemas con, por ejemplo, los signos ortográficos. Veamos el
siguiente caso:
‘‘Hola , ¿cómo est ás?’’
Si siguiéramos este enfoque, el resultado de obtener las palabras del texto seŕıa el
conjunto formado por: {Hola,, ¿cómo, estás?}, incluyendo los signos de puntuación e
interrogación, por lo tanto no nos seŕıa de utilidad.
Sabemos entonces que debemos tener en consideración separar ciertos śımbolos, como
ser los signos ortográficos, del resto de los caracteres alfabéticos. Por lo tanto, una segunda
idea podŕıa ser definir que cualquier secuencia de caracteres de la a a la z, ya sea en
mayúscula o minúscula, con o sin tilde, sea considerada una palabra. De esta forma, las
expresiones hola y todes seŕıan contempladas, pero también lo seŕıa lsjddAMRqsádsú. Para
atacar este problema podŕıamos filtrar las palabras que figuran en los diccionarios, pero
siguiendo con el mismo ejemplo dejaŕıamos afuera lsjddAMRqsádsú y también todes, por
ende, para nuestro caso, esta no es opción válida.
Un factor muy importante a tener en cuenta, es que en nuestro estudio pretendemos
considerar como palabras expresiones con ((@)) o con ((/)) en el medio, ya que quisiéramos
incluir casos como tod@s o todos/as.
Como podemos ver, el problema de definir cuáles son las expresiones que consideramos
palabras y de qué forma podemos automatizar el proceso de extraerlas del texto, no
parece ser trivial. Más aún teniendo en cuenta que pretendemos considerar expresiones
que no figuran en los diccionarios convencionales y/o que contienen śımbolos que no son
alfabéticos. Sin embargo, este problema no es nuevo e incluso ya existe mucho trabajo
hecho para publicaciones de Twitter. Veamos cómo se puede utilizar esto para adaptarlo
a nuestro estudio y aśı poder extraer las palabras que formarán parte del corpus. Para
llevar a cabo este proceso se requieren las siguientes dos etapas de procesamiento:
Tokenización
Normalización de tokens
12 2. Recolección de datos y armado del Corpus
2.2.1. Tokenización
El objetivo de esta primera etapa es separar el texto en unidades más pequeñas a las
que llamamos tokens. Comencemos por ver algunos ejemplos para entender mejor qué es
lo que deseamos obtener luego de realizar el proceso de tokenización. Tomemos el siguiente
texto:
‘‘Todes son mis amigues ’’
En este caso, el resultado deseado seŕıan los tokens {todes, son, mis, amigues}. Hasta
aqúı tendŕıasentido utilizar un enfoque similar al que mencionamos previamente, que
separa el texto por espacios en blanco, lo cual vimos que para ciertos casos no serviŕıa,
como por ejemplo:
‘‘Hola , ¿cómo est ás?’’
Aqúı, el resultado deseado seŕıa poder separar los signos de puntuación e interrogación
de las palabras, es decir, generar el siguiente conjunto de tokens {hola, ,, ¿, cómo, estás,
?}. Esto nos da el indicio de que debemos considerar este tipo de caracteres como tokens
separados.
Por otro lado, debemos contemplar que existen expresiones particulares utilizadas en
esta red social, como son los casos de los hashtags y las menciones de usuarios. Los
hashtags son expresiones que comienzan con #, siguen con un texto y se utilizan para
hacer referencias a distintos tópicos. A su vez, las menciones de usuarios se escriben con
un @ seguido del nombre del usuario a referenciar. Analicemos estos casos en la siguiente
publicación:
‘‘@manuginobili con la calidad y la magia de siempre #elPibeDe40 ’’
Para este caso deseaŕıamos que, luego de tokenizar, tanto @manuginobili como #elPi-
beDe40 sean parte del conjunto de tokens resultante. No quisiéramos separar los caracteres
@ ni # del resto del texto que les sigue. De esta forma, la lista de tokens para este tweet
seŕıa {@manuginobili, con, la, calidad, y, la, magia, de, siempre, #elPibeDe40}.
Otros casos a tener en cuenta son los links y las direcciones de correo electrónico.
Analicemos estos casos en el siguiente texto:
‘‘Para participar ingres á a http :// sorteos -marca.com o escribinos a
sorteos@marca.com ’’
Aqúı nos gustaŕıa que tanto http://sorteos-marca.com como sorteos@marca.com sean
considerados tokens. No estaŕıa bien que sorteos, marca o com resultasen siendo unidades
de texto por separado. Tampoco esperaŕıamos como resultado deseable, en el caso del
mail, que @marca se confunda con una mención a un usuario.
Sumado a los signos ortográficos, hashtags, menciones, links y direcciones de correo,
existen otras expresiones que debemos contemplar para separar el texto en tokens, como
pueden ser los emojis ASCII, por ejemplo :-) o ;-@, números de teléfono, tags HTML, etc.
Hasta aqúı vimos ejemplos de los resultados esperados luego de realizar la tokenización
sobre distintos textos, sin embargo debemos definir cómo llevar a cabo esto. Tal como diji-
mos anteriormente, este problema no es nuevo y ya existe abundante trabajo y experiencia
realizando este procesamiento. En particular, existe una biblioteca para Python llamada
nltk (Natural Language Toolkit) que provee diversos tokenizadores, entre los cuales se
encuentra TweetTokenizer que, tal como indica su nombre, es un tokenizador especial-
mente diseñado para Twitter que contempla todos los tipos de tokens que mencionamos
previamente.
2.2. Armado del corpus 13
Si bien esta herramienta es muy potente y de gran utilidad, para nuestro estudio es
necesario realizarle algunas modificaciones. Veamos primero el porqué de las modificaciones
para luego entender cómo llevarlas a cabo. Supongamos que ingresamos como entrada a
esta herramienta el siguiente texto:
‘‘tod@s todos/as todes ’’
En particular para este caso obtendŕıamos los siguientes tokens {tod, @s, todos, /, as,
todes}, pero a nosotros nos gustaŕıa que el resultado fuera {tod@s, todos/as, todes}. Esto
se debe a que TweetTokenizer entiende que existe una mención de un usuario dentro de
tod@s, por lo tanto lo interpreta como dos tokens separados, siendo el primero tod y el
segundo una mención @s. Algo similar ocurre con todos/as donde, dado que no contempla
tokens con una barra en medio, decide separar esta expresión en tres, todos, / y as. Este
es el motivo por el cual debemos adaptar y modificar el tokenizador que provee nltk.
Habiendo explicado el porqué de la modificación del TweetTokenizer , veamos cómo fun-
ciona este tokenizador para poder adaptarlo a nuestras necesidades. La idea básicamente
consiste en la utilización de una expresión regular con la cual podemos ir detectando y
extrayendo los tokens del texto.
En la expresión regular utilizada por TweetTokenizer (Ver expresión regular completa
en el Apéndice A) básicamente se definen los patrones para extraer del texto distintos tipos
de tokens. El orden en que se definen es importante dado que, por ejemplo, queremos que
se extraigan las direcciones de correo electrónico antes que las menciones a usuarios, lo
cual evita que se generen tokens como @gmail o @hotmail. Los tipos de tokens que se
definen son los siguientes:
URLs y direcciones de correo electrónico
Números de teléfono
Emoticones ASCII
Tags HTML
Flechas ASCII
Menciones a usuarios
Hashtags
Palabras incluyendo opcionalmente apóstrofes o guiones medios
Números, incluyendo fracciones y decimales
Resto de las palabras sin apóstrofes ni guiones medios
Puntos suspensivos
Cualquier otra secuencia de caracteres que no contenga espacios en blanco
En particular, debemos concentrarnos en las dos secciones resaltadas, que son en la
cuales se trabaja con lo que llaman palabras con y sin apóstrofes o guiones medios. El
resto de las expresiones que se detectan y extraen no requieren modificaciones ya que nos
sirven tal como se plantean. La modificación consiste básicamente en reemplazar las dos
14 2. Recolección de datos y armado del Corpus
secciones recientemente mencionadas de la expresión regular por una nueva que considere
palabras con ((@)), ((/)) o con ((*))1 en el medio. A continuación podemos observar los
patrones originales y el reemplazo.
Patrones originales
(?:[^\W\d_ ](?:[^\W\d_]|[’\-_])+[^\W\d_])
(?:[\w_]+)
Patrón nuevo
(?:[^\W\d_]+[’\-@\*/]?[^\W\d_]*)
Con este nuevo patrón estamos indicando que queremos extraer expresiones que co-
miencen con una letra, continúen opcionalmente con algún caracter como ser guión medio,
apóstrofe, arroba, asterisco o una barra, y que pueden terminar alĺı o bien continuar, pero
solo con más letras. A modo de aclaración, no pretendemos contemplar expresiones que
contengan apóstrofe o guión medio, junto con alguno de los caracteres nuevos, es decir
((@)), ((/)) o ((*)).
Teniendo el tokenizador adaptado a nuestro estudio, tenemos un primer acercamien-
to a lo que queremos llamar palabras: nos quedaremos únicamente con los tokens que
respeten el último patrón propuesto. Si bien algunos de los tipos de tokens mencionados
previamente podŕıan llegar a sernos de utilidad, como por ejemplo los hashtags de donde
podŕıamos extraer texto, la realidad es que no es una tarea sencilla separar un hashtag en
varias palabras además de ser propenso a errores. Recordemos una vez más que estamos
trabajando con texto libre, sin restricciones, y que no necesariamente hay indicadores que
separen una palabra de otra. Como sostuvimos a lo largo de todo el trabajo, queremos
evitar introducir falsos positivos, por lo cual excluimos de nuestro análisis cualquier token
que no respete este último patrón propuesto.
Teniendo los tokens de nuestro interés filtrados, para completar el armado del corpus
aún hace falta una última etapa de procesamiento sobre éstos: la normalización.
2.2.2. Normalización de tokens
Antes de comenzar a explicar el proceso de normalización repasemos qué tenemos
hasta el momento. Sometimos el texto a un proceso de tokenización, el cual lo separa en
unidades más pequeñas llamadas tokens. Para esto adaptamos un tokenizador existente,
TweetTokenizer . En particular reemplazamos los patrones que detectan lo que sus autores
llaman palabras con y sin apóstrofes y/o guiones medios, por un nuevo patrón que detecta
estas mismas expresiones pero permitiendo que tengan en medio caracteres como el ((@)),
la ((/)) o un ((*)). Por último, nos quedamos únicamente con los tokens que respeten el
nuevo patrón propuesto, descartando el resto de los tokens como URLs, emails, hashtags,
menciones, emojis, etc. Al finalizar esta última etapa donde someteremos a estos tokens al
proceso de normalización,tendremos una definición de lo que consideramos como palabras.
Para entender qué es y para qué sirve la normalización, es importante recordar una vez
más que Twitter es una fuente de texto libre y que nos podemos encontrar con todo tipo
de expresiones. En particular, queremos tomar una decisión para las siguientes situaciones:
1 Si bien debido a la pequeña cantidad de apariciones de palabras con ((*)) de nuestro interés, se decidió no
analizar esta variante, para llegar a determinar esto fue necesario considerarla en el proceso de tokenización
y por lo tanto se incluyó en la expresión regular.
2.2. Armado del corpus 15
Mayúsculas y minúsculas
Alargamiento de palabras
Falta de tildes o uso erróneo
Mayúsculas y minúsculas
Como venimos haciendo a lo largo de esta sección, comencemos por ver publicaciones
de ejemplo para comprender nuestro objetivo. Supongamos los siguientes ejemplos:
"Todes son mis amigues"
"TODES son mis amigues"
"todes son mis amigues"
Luego de realizar la tokenización, obtendŕıamos en todos los casos los tokens {son,
mis, amigues}, pero diferiŕıan en el primer token, obteniendo Todes, TODES y todes res-
pectivamente. Sin embargo, está claro que en los tres casos estamos hablando de la misma
palabra, por lo tanto, para evitar considerarlos como palabras diferentes, debemos tomar
una primera decisión de normalización, y ésta es convertir todos los tokens a minúscula.
De esta forma, las tres variantes de la palabra todes van a corresponderse con una única
palabra.
Alargamiento de palabras
La segunda situación que queremos considerar se produce cuando se estiran algunas
letras de las palabras. Por ejemplo:
‘‘GOOOOOOOOOOOOOOOL DE RIVER ’’
En este caso, está claro que GOOOOOOOOOOOOOOOL es una variación de la palabra
gol, escrita en mayúscula y repitiendo muchas veces la vocal o. Aqúı, lo primero que
estaŕıamos tentados a hacer es quitar todas las repeticiones de esa letra y dejar una sola.
Sin embargo, esto podŕıa resultar en una decisión errónea. Veamos algunos ejemplos más.
Supongamos el siguiente texto:
‘‘Tengo seeeeed ’’
Si tomáramos la idea planteada recientemente, convertiŕıamos ((seeeeed)) en ((sed)), lo
cual parece ser correcto. Pero qué pasaŕıa si el texto ahora fuera:
‘‘I planted a tomato seeeeed ’’
Si bien trabajamos con publicaciones realizadas en Argentina, no hay ningún impedi-
mento para que los usuarios escriban en otros idiomas, como ser el inglés en este caso. Por
lo tanto, si aqúı aplicáramos la misma lógica, modificaŕıamos ((seeeeed)) por ((sed)), lo cual
seŕıa erróneo.
Si bien uno podŕıa plantear un intento de detección de idioma o alguna idea similar,
esto tampoco garantizaŕıa un correcto funcionamiento. Veamos el siguiente caso:
‘‘No te peleeeeeees ’’
Aqúı no tenemos forma de determinar si debemos reducir las repeticiones de la letra
e a una sola aparición o dos, ya que se podŕıa estar queriendo utilizar la palabra peles aśı
como también pelees. Es decir, no sabemos si la intención es decirle a una persona que no
se corte el pelo o que no tenga una pelea.
16 2. Recolección de datos y armado del Corpus
Por lo tanto, y al no haber una forma consistente de determinar cuántas repeticiones
de una letra tenemos que dejar, debemos tomar una decisión para estos casos. Como ya
dijimos anteriormente, algunos de estos problemas no son nuevos y ya existe mucho trabajo
al respecto. En general para estos casos la solución es que cualquier repetición de una letra
tres o más veces, sea normalizada a tres. Aśı, la palabras GOOOOOOOOOOOOOOOL y
GOOOOL seŕıan transformadas en una única palabra goool.
Falta de tildes o uso erróneo
Otro punto a considerar cuando trabajamos con este tipo de fuentes de datos, es el uso
de las tildes. Twitter podŕıa no caracterizarse por ser un estricto ejemplo de cómo se deben
acentuar las palabras, teniendo casos donde se omiten las tildes y casos donde podŕıan
llegar a utilizarse erróneamente. Tengamos en consideración factores como los correctores
automáticos de los celulares, donde muchas veces se acentúan palabras automáticamente
cuando no es necesario. Veamos algunos ejemplos de esto:
‘‘Me pidi ó que abone el saldo restante ’’
‘‘Ayer abone el saldo restante ’’
Aqúı esta claro que en el primer caso se utiliza la palabra abone correctamente, pero
que en el segundo caso debeŕıa ir una tilde en la e. En este caso lo podemos deducir por
contexto. Veamos ahora qué pasaŕıa si la publicación fuera:
‘‘abone el saldo restante ’’
¿Cómo podŕıamos definir si se está queriendo decir que ya se abonó el saldo restante
o si es una indicación para que se realice el pago? Podŕıa también aparecer una tilde en
la e y haber sido producto de una corrección automática, cuando en verdad no se habŕıa
querido utilizar, o simplemente se insertó por error. El contexto no nos permite saberlo.
Por lo mencionado recientemente, es que debemos avanzar un paso más en el proceso
de normalización y tomar la decisión de quitar todas las tildes del texto.
2.2.3. Caracterización del corpus
Habiendo realizado la recolección de tweets seguida de los procesos de tokenización y
normalización, finalmente podemos responder a los dos grandes interrogantes que plantea-
mos al comienzo de esta sección: ¿A qué llamamos palabra? y ¿Cómo se hace para obtener
las palabras a partir del texto de las publicaciones? y de esta forma poder definir nuestro
corpus.
Las palabras que componen nuestro corpus son aquellas expresiones ex-
tráıdas por el proceso de tokenización que respetan el patrón:
(?:[^\W\d_]+[’\-@\*/]?[^\W\d_]*)
y que hayan sido sometidas al proceso de normalización, donde se convirtie-
ron a minúscula, se le quitaron las tildes y se procesaron los alargamientos.
Cualquier otra expresión existente dentro del texto de las publicaciones que
recolectamos no forma parte del mismo.
Para comprender mejor el resultado de este procesamiento, observemos la tabla 2.1
donde podemos ver a modo ilustrativo el listado de las 270 palabras más utilizadas de
nuestra corpus junto a la cantidad de ocurrencias de cada una de ellas.
2.2. Armado del corpus 17
Posición Palabra Ocurrencias Posición Palabra Ocurrencias Posición Palabra Ocurrencias
1 que 45003237 91 tiene 1422912 181 e 629047
2 de 38068106 92 hasta 1393545 182 visto 627794
3 a 28651768 93 vez 1388255 183 madre 624234
4 la 28073239 94 cosas 1346768 184 viene 619903
5 me 25902177 95 noche 1309340 185 ojala 616936
6 no 24276338 96 casa 1309147 186 personas 616611
7 y 23140257 97 esto 1301406 187 veo 616069
8 el 21505169 98 gente 1283672 188 mil 611819
9 en 16671885 99 quien 1277928 189 sus 610793
10 se 11722519 100 amor 1268276 190 quiere 609999
11 te 10948071 101 vamos 1256899 191 espero 607545
12 un 10638618 102 alguien 1234969 192 ella 604065
13 con 10311434 103 feliz 1223172 193 persona 600869
14 mi 10282553 104 tanto 1211513 194 decir 597913
15 lo 10073765 105 esa 1207534 195 verdad 588418
16 es 9950524 106 perfil 1202049 196 parece 586052
17 por 8909181 107 mucho 1187762 197 todavia 585368
18 los 8452107 108 tener 1184234 198 amigos 579964
19 para 8050106 109 ese 1171891 199 falta 574139
20 mas 6960098 110 puede 1153435 200 momento 571429
21 si 6931112 111 estas 1119600 201 volver 565426
22 las 6871082 112 necesito 1081876 202 fin 561453
23 una 6701108 113 igual 1073966 203 jajajajajaja 560645
24 como 5774288 114 dias 1071895 204 hago 555559
25 yo 5333389 115 dos 1053137 205 hablar 554190
26 ya 5075629 116 jajajajaja 1035214 206 cara 553871
27 del 4840960 117 despues 1028195 207 estudiar 549827
28 esta 4828828 118 puta 973873 208 dale 548527
29 al 4460082 119 tambien 970847 209 vieja 543454
30 pero 4448461 120 nadie 970339 210 comer 540899
31 todo 4351557 121 extraño 949413 211 viernes 538723
32 q 4161119 122 era 934868 212 dijo 533567
33 quiero 3790132 123 menos 933559 213 tus 532137
34 tengo 3647441 124 año 920862 214 nomas 531895
35 le 3487428 125 dios 916318 215 cosa 525611
36 voy 3470636126 creo 910758 216 ultimas 520044
37 cuando 3315825 127 da 908316 217 peor 515488
38 vos 3227457 128 años 898036 218 estamos 515446
39 estoy 3215463 129 buen 888050 219 sigo 514006
40 dia 3172943 130 otra 886671 220 tenia 511824
41 hoy 2876213 131 buena 882800 221 onda 505453
42 jajaja 2848462 132 donde 882604 222 d 504635
43 tu 2756278 133 tiempo 863026 223 tienen 503024
44 o 2747284 134 pessoas 861245 224 corazon 494670
45 asi 2646726 135 odio 860331 225 saber 490981
46 ni 2532823 136 aca 855677 226 argentina 490491
47 re 2470043 137 cada 855585 227 hermoso 490337
48 nada 2428363 138 sea 854886 228 estos 489980
49 bien 2411388 139 pasa 851987 229 hermosa 489265
50 este 2396613 140 mama 843088 230 i 488306
51 ser 2351710 141 hora 829621 231 siesta 488213
52 siempre 2268977 142 salir 821888 232 jajaj 487981
53 porque 2238941 143 lpm 818018 233 boca 487483
54 hay 2158735 144 horas 803527 234 favor 486978
55 hace 2112568 145 paso 801686 235 papa 485914
56 amo 2090243 146 les 799325 236 unico 480075
57 ganas 2064452 147 ahi 795282 237 sabado 479666
58 tan 2059959 148 vas 794558 238 ay 478590
59 todos 2019236 149 linda 779210 239 final 477220
60 eso 2000936 150 desde 769997 240 deja 476653
61 va 1996843 151 video 757178 241 sabes 475799
62 mejor 1979891 152 amiga 757091 242 tomar 474426
63 ahora 1947830 153 seu 754620 243 x 473651
64 jajajaja 1940118 154 semana 747913 244 ahre 473534
65 vida 1848153 155 estan 735289 245 jajajaj 471133
66 nos 1844906 156 uno 735101 246 poder 462177
67 mal 1842150 157 tenes 730399 247 recien 455063
68 mañana 1822990 158 toda 724221 248 seguir 453398
69 soy 1813258 159 amigo 711910 249 che 452918
70 hacer 1796094 160 poco 709943 250 entre 451572
71 jaja 1777170 161 mundo 706246 251 mira 451335
72 ver 1768508 162 otro 706238 252 encima 449151
73 son 1745241 163 van 693615 253 grande 449104
74 nunca 1734698 164 ah 691090 254 anda 448768
75 sos 1716126 165 mismo 688011 255 finde 448564
76 dormir 1686428 166 siento 687890 256 fotos 448400
77 ir 1682776 167 sueño 681419 257 hizo 447920
78 sin 1646132 168 todas 680329 258 sola 446795
79 mis 1631486 169 gusta 661917 259 unos 446129
80 su 1609486 170 cabeza 661042 260 hacen 444727
81 gracias 1598480 171 dice 656398 261 partido 442662
82 puedo 1598353 172 tarde 652111 262 conmigo 438431
83 lindo 1585849 173 via 651992 263 pasar 436162
84 muy 1580365 174 veces 646928 264 sale 436133
85 algo 1554759 175 cuenta 644497 265 foi 433158
86 bueno 1545759 176 estaba 643784 266 the 432961
87 solo 1486967 177 foto 643047 267 suerte 425223
88 fue 1486206 178 loco 641460 268 iba 424204
89 estar 1476336 179 nuevo 638969 269 pedo 423436
90 mierda 1433306 180 antes 635749 270 dejar 423048
Tab. 2.1: Listado con las 270 palabras más utilizadas en nuestro corpus basado en publicaciones
de Twitter junto con la cantidad de ocurrencias de cada una de ellas.
18 2. Recolección de datos y armado del Corpus
En las figuras 2.4 y 2.5 podemos ver la cantidad de palabras distintas y totales por
provincia y año. Existen casos con grandes diferencias en cuanto a la cantidad de pala-
bras, ya sean distintas o totales. Por ejemplo, Mendoza tiene alrededor de un 50 % más de
palabras distintas que Misiones. También podemos ver que en 2016 tenemos una cantidad
de palabras distintas y totales sustancialmente mayor que todos sus años previos. Recor-
demos una vez más que esto no es un inconveniente dado que siempre que corresponda los
resultados se mostrarán normalizados por año y/o por provincia.
Por último, podemos ver a modo de resumen general de los datos que disponemos, las
tablas 2.2 y 2.3 donde se observan la cantidad de usuarios, tweets, palabras distintas y
totales por provincia y año respectivamente.
2.2. Armado del corpus 19
Fig. 2.4: Cantidad de palabras distintas y totales por provincia.
20 2. Recolección de datos y armado del Corpus
Fig. 2.5: Cantidad de palabras distintas y totales por año.
2.2. Armado del corpus 21
Provincia #Usuarios #Tweets #Palabras Distintas #Palabras Totales
Buenos Aires 2430 5578631 464212 47030503
Catamarca 2450 5480704 385031 43381467
Chaco 2456 5272002 371362 42525716
Chubut 2456 6023655 449007 52443609
Córdoba 2470 6689416 510897 57291855
Corrientes 2436 5739415 425833 47650440
Entre Rios 2443 6610549 462556 54999296
Formosa 2449 5471078 394192 43420164
Jujuy 2484 3855380 383823 33786382
La Pampa 2438 5676440 425920 47837603
La Rioja 2419 4036574 418940 38342888
Mendoza 2469 6723953 511025 60046671
Misiones 2458 4830252 349671 39721846
Neuquén 2421 6405036 471182 54194147
Ŕıo Negro 2441 6669275 453245 56274927
Salta 2411 5043739 460594 46269820
San Juan 2454 6094976 468016 52439752
San Luis 2463 5464760 383542 46444158
Santa Cruz 2426 4381686 392552 39212046
Santa Fe 2461 5666355 489009 52224368
Santiago del estero 2445 5992847 428008 47216927
Tierra del Fuego 2446 4871099 443752 43382299
Tucumán 2482 6071939 463467 52728935
Tab. 2.2: Cantidad de usuarios, tweets y palabras distintas y totales por provincia.
Año #Usuarios #Tweets #Palabras Distintas #Palabras Totales
2007 4 199 774 1641
2008 6 333 1412 3482
2009 124 4079 10011 43922
2010 1154 38251 37804 397462
2011 2242 201352 103188 2097386
2012 3984 646690 185202 6414659
2013 8235 2457892 371745 21796421
2014 15287 6256060 550230 51236417
2015 27463 12983106 760052 103819884
2016 52387 43767354 1477271 345923063
2017 56198 25051779 1096827 205023495
2018 34667 17223764 927791 164783005
2019 37882 17885487 993883 175908376
2020 29706 2133415 290132 21416606
Tab. 2.3: Cantidad de usuarios, tweets y palabras totales y distintas por año. En total son
128.649.761 tweets, 56.308 usuarios, 3.328.981 palabras distintas y 1.098.865.819 pala-
bras totales.
22 2. Recolección de datos y armado del Corpus
3. DETECCIÓN DE USO DEL LENGUAJE INCLUSIVO
En este caṕıtulo pretendemos explicar cómo detectamos el uso del lenguaje inclusivo
dentro del corpus. Comencemos por mencionar que no existe una formalización acerca de
cuáles son las palabras utilizadas en el lenguaje inclusivo, ni tampoco de cómo se las puede
generar a partir de lemas. Por lo tanto, el enfoque que escogimos consistió en generar un
inventario de palabras que sabemos que se utilizan o que potencialmente se podŕıan utilizar
dentro del lenguaje inclusivo, para luego buscarlas en nuestro corpus.
Para esto, en primer lugar debimos definir qué palabras o clases de palabras son utili-
zadas dentro del lenguaje inclusivo. Cabe aclarar que cuando decimos clases de palabras
nos referimos a los adjetivos, sustantivos, pronombres, etc. Una vez seleccionadas estas pa-
labras, nos interesó quedarnos con sus lemas asociados dado que el segundo paso consistió
en convertir éstos a todos los tipos de inclusivo que pretendimos buscar. De esta forma, el
inventario se compuso de un conjunto de lemas junto con sus conversiones a cada tipo de
inclusivo, derivadas tanto en plural como en singular.
Por último, una vez generado el inventario, el tercer paso consistió en realizar la búsque-
da de cada una de sus palabras dentro del corpus. Dada la gran cantidad de palabras, tanto
del inventario como del corpus, tuvimos que implementar una forma eficiente de llevar a
cabo esta tarea.
Pasando en limpio, a lo largo de este caṕıtulo explicaremos en detalle cada una de las
siguientes tres etapas necesarias para detectar usos del lenguaje inclusivo:
Selección de los lemas que potencialmente podŕıan ser intervenidos para utilizar en
el lenguaje inclusivo
Conversión de los lemas seleccionados a todos los tipos de intervenciones del lenguaje
inclusivo (por simplicidad, nos referiremos a ellos como “tipos de inclusivo”).
Búsqueda eficiente de todo el inventario dentro del corpus
3.1. Selección de lemas potencialmente intervenidos en el lenguaje in-
clusivo
Como primera etapa para el armado del inventario de palabras del lenguaje inclusivo
debimos seleccionar las palabras o clases de palabras que ya sab́ıamos que eran utilizadas
o que créıamos que potencialmente podŕıanserlo. A partir de alĺı la idea consistió en
quedarnos con el conjunto de lemas asociados a estas palabras, ya que son éstos los que
luego convertimos a todos los tipos de inclusivo.
El proceso de selección se dividió en dos partes. Por un lado tomamos casos de palabras
que sab́ıamos que eran utilizadas en el lenguaje inclusivo y con ellas intentamos generalizar
y descubrir cuáles eran algunas de las clases de palabras que teńıan sentido incorporar a
nuestro inventario. Por ejemplo, sab́ıamos que chico era un lema que se soĺıa intervenir
ya que hab́ıamos visto usos de chicxs o de chiques, entre otros. Por lo tanto, sabiendo
que chico es tanto un adjetivo calificativo como un sustantivo común, en ambos casos de
cuatro terminaciones (chico, chica, chicos, chicas), determinamos que deb́ıamos considerar
los lemas correspondientes a ambas clases de palabras. Otro ejemplo es el del lema los.
23
24 3. Detección de uso del lenguaje inclusivo
En este caso estamos hablando de un determinante art́ıculo (Los chicos jugaron todo el
d́ıa), como también de un pronombre personal (Su mamá los ayudó con la idea), por ende
decidimos incorporar todos los lemas correspondientes a estas dos clases.
La fuente que utilizamos para obtenerlos fue el diccionario provisto por FreeLing, una
herramienta desarrollada para análisis del lenguaje. Éste cuenta con casi 600.000 palabras,
todas con su correspondiente etiqueta que indican clase de palabra (también definida como
categoŕıa de palabra), tipo, género, número, etc. El listado completo de etiquetas junto
con su explicación se detallan en la documentación oficial de FreeLing [24].
Continuando con el mismo proceso de búsqueda de palabras intervenidas e incorpora-
ción de los lemas correspondientes a sus clases de palabras, hallamos casos que no figuraban
en el diccionario utilizado. Tal es el caso de los gentilicios de las localidades argentinas.
Para poder incorporarlos a nuestro conjunto de lemas obtuvimos un extenso listado utili-
zando Wikipedia como fuente [25]. Por último, decidimos incorporar también lemas sueltos
que tampoco se encontraban en el diccionario, como ser pibe, boludo y fachero.
Como segunda parte del proceso de selección, optamos por realizar el proceso inverso al
recientemente mencionado. En este caso tomamos todas las clases de palabras existentes
en el diccionario y analizamos casos particulares de cada una de ellas con el fin de ver
si era necesaria incluir sus lemas o no. Por ejemplo, cuando tomamos los verbos, vimos
que en sus modos indicativo o imperativo, entre otros, no teńıa sentido contemplarlos. Sin
embargo, los verbos participios podŕıan ser utilizados dentro del lenguaje inclusivo y por
ende los incorporamos.
Habiendo realizado los dos procesos de selección, el listado completo de clases de pa-
labras que consideramos se puede observar en la tabla 3.1.
Clase
Ejemplos
Lema Fem. Sing. Masc. Sing. Fem. Plu. Masc. Plu.
Adjetivos de 4 terminaciones lindo linda lindo lindas lindos
Adjetivos ordinales 1 primera primero primeras primeros
Determinantes art́ıculos el la el las los
Determinantes demostrativos ese esa ese esas esos
Determinantes interrogativos cuánto cuánta cuánto cuántas cuántos
Determinantes posesivos nuestro nuestra nuestro nuestras nuestros
Pronombres demostrativos éste ésta éste éstas éstos
Pronombres indefinidos otro otra otro otras otros
Pronombres interrogativos cuánto cuánta cuánto cuántas cuántos
Pronombres personales el ella él ellas ellos
Sustantivos de 4 terminaciones dueño dueña dueño dueñas dueños
Verbos participios acompañar acompañada acompañado acompañadas acompañados
Gentilicios jujeño jujeña jujeño jujeñas jujeños
Tab. 3.1: Clases de palabras consideras para el armado del inventario de palabras del lenguaje
inclusivo. Notar que los lemas de los adjetivos ordinales son números. Esto es una decisión
de FreeLing que sostuvimos.
Una vez incorporadas todas estas clases de palabras, obtuvimos un conjunto de 25.337
lemas que consideramos que potencialmente podŕıan ser intervenidos para utilizarse en
el lenguaje inclusivo. Sin embargo, antes de obtener el conjunto definitivo, fue necesario
realizar algunos refinamientos.
En primer lugar, notemos que podŕıan haber casos de lemas repetidos. Por un lado,
podŕıan existir palabras que, sin un contexto adecuado, correŕıan el riesgo de ser clasifi-
cadas por más de una clase. Por ejemplo, virtuoso puede ser interpretada como adjetivo
pero también como sustantivo.
3.2. Conversión de los lemas al lenguaje inclusivo 25
Por otro lado, recordemos que en el proceso de normalización de tokens decidimos
eliminar las tildes. Para mantener la consistencia, debimos replicar esta decisión en las
palabras a buscar. Esto generó que, por ejemplo, casos como el pronombre interrogativo
cuántos se convirtiera a cuantos, solapándose aśı con el pronombre relativo. Debido a estos
dos factores, decidimos eliminar todos los lemas repetidos. Es importante comprender que
para el alcance de nuestro estudio esto no es un problema ya que no se quiso analizar el
fenómeno del lenguaje inclusivo en cuanto a las clases de palabras. Es decir, no pretendimos
mostrar, por ejemplo, si los sustantivos son más utilizados que los adjetivos o análisis
similares. Luego de aplicar este primer filtro, el conjunto se redujo a 22.513 lemas.
En segundo lugar, nos planteamos si teńıa sentido considerar la totalidad de estos
lemas, teniendo en cuenta que partimos de un extenso diccionario donde exist́ıa la posi-
bilidad de que algunas de las palabras filtradas no tengan uso dentro de nuestro corpus.
Por esta razón, tomamos la decisión de considerar solo aquellos lemas que hayan sido uti-
lizados en nuestro corpus en alguna de sus variantes de género y número. Por ejemplo, no
registramos usos de ninguna de las 4 combinaciones de masculino y femenino, singular y
plural, de la palabra zurriagar, es decir, no tenemos en nuestro corpus apariciones de los
verbos participios zurriagada, zurriagado, zurriagadas ni zurriagados, por ende se descartó
este lema.
Al finalizar todo el proceso de filtrado y refinamiento, nuestro conjunto de lemas que
eventualmente podŕıan ser utilizados dentro del lenguaje inclusivo quedó compuesto por
13.874 lemas.
3.2. Conversión de los lemas al lenguaje inclusivo
Una vez obtenido el conjunto de lemas que potencialmente se podŕıan intervenir para
utilizar en el lenguaje inclusivo, fue necesario completar el inventario con las conversiones
a cada uno de los tipos de inclusivo, tanto para el plural como para el singular. En la tabla
3.2 podemos observar el listado de tipos de inclusivo que se consideraron en un primer
momento. Junto a ellos vemos un ejemplo para cada número, es decir, uno para el plural
y otro para el singular.
Tipo de inclusivo
Ejemplos
Singular Plural
((@)) lind@ lind@s
((x)) lindx lindxs
((e)) linde lindes
((/)) lindo/a lindos/as
((y/o)) lindo o linda lindos y lindas
((*)) lind* lind*s
Tab. 3.2: Tipos de inclusivo que consideramos en un primer momento junto con un ejemplo para
cada uno de ellos.
Dado que el proceso de conversión y conjugación no fue el mismo para cada tipo de
inclusivo, veamos a continuación el detalle de cómo se llevó a cabo este proceso para cada
uno de ellos.
Tipos de inclusivo: ((@)) y ((x))
26 3. Detección de uso del lenguaje inclusivo
La conversión y conjugación de estos dos tipos de inclusivo fueron similares. Por lo tan-
to, las explicaremos en conjunto. Al revisar los lemas que teńıamos que convertir notamos
que deb́ıamos separar el proceso en dos casos.
El primero de ellos, y más simple de procesar, fue el caso de las palabras que terminan
con una vocal, como por ejemplo lindo o nene. Para estos casos simplemente tomamos de
cada lema la versión del masculino en singular y plural y les reemplazamos la última vocal
por un ((@)) o una ((x)) según correspondiera. Aśı por ejemplo, para el lema lindo tomamos
lindo y lindos y, reemplazandola última vocal, obtuvimos por un lado lind@ y lind@s, y
por otro lado lindx y lindxs.
El segundo escenario se basó en los lemas cuyas terminaciones fueran con una vocal
seguida de una consonante, como por ejemplo terminaciones en ón, or, es, ol, etc. El
problema para realizar la conversión del singular en estos casos fue que teńıamos distintas
alternativas para tomar de base, ya que pod́ıamos partir tanto del masculino como del
femenino y ambas opciones eran válidas.
Veamos un ejemplo para clarificar estos casos. Tomemos las palabras campeón y agresor
y observemos que según la versión que tomáramos de base, ya sea el singular masculino
o el femenino, podŕıamos obtener campe@n o campeon@, y agres@r o agresor@. Ambas
versiones eran válidas y por lo tanto optamos por utilizar las dos.
Por otro lado, notemos que para el plural esto no sucede ya que tomando de base
las versiones de ambos géneros, la palabra resultante es la misma. Es decir, estaŕıamos
partiendo de palabras cuyos sufijos son es y as, como por ejemplo campeones, campeonas,
agresores y agresoras, y en cualquiera de los dos casos, el resultado seŕıa el mismo. En
nuestro ejemplo obtendŕıamos campeon@s y agresor@s.
En conclusión, para los tipos de inclusivo con ((@)) y ((x)), dependiendo de la terminación
de los lemas, tenemos casos para los cuales disponemos de dos versiones en singular y
casos para los cuales disponemos de una sola versión. En cuanto al plural, para todos los
lemas tenemos una única versión. En la tabla 3.3 podemos observar los ejemplos expuestos
recientemente a modo de resumen.
Lema Singular versión 1 Singular versión 2 Plural única versión
lindo lind@ - lindx - lind@s - lindxs
agresor agres@r - agresxr agresor@ - agresorx agresor@s - agresorxs
Tab. 3.3: Ejemplos de conversiones a los tipos de inclusivo ((@)) y ((x)). Observemos que dependiendo
de la terminación del lema podemos disponer de una o dos versiones en singular. Para el
plural contamos con una única versión para todos los casos.
Tipos de inclusivo: Desdoblamientos con ((y/o)) y con ((/))
La conversión y conjugación de estos dos tipos de inclusivo también las explicaremos
en conjunto dado que fueron similares, aunque hubo algunas diferencias que detallaremos
por separado.
Comencemos por ver los puntos particulares de cada tipo de inclusivo. Por empezar,
para los desdoblamientos con ((y/o)) decidimos utilizar como conector para el plural la
palabra ((y)) y para el singular la palabra ((o)). Esto se debe a que si alguien quiere hacer
referencia a una única persona y desconoce su género, o simplemente no quiere asumirlo,
probablemente utilice expresiones como el o la, o también ganador o ganadora.
Para el caso de los desdoblamientos con ((/)), la principal decisión que debimos tomar
se basó en determinar de qué forma compońıamos las palabras intervenidas. Algunas de
3.2. Conversión de los lemas al lenguaje inclusivo 27
las opciones eran, por ejemplo, todos/todas o todos/as. En particular decidimos utilizar
solo la última versión, es decir, la que no duplica la palabra completa sino que solo agrega
el sufijo del género opuesto. En el ejemplo reciente, estaŕıamos hablando de la alternativa
todos/as.
Pasemos ahora a mencionar el procesamiento en común de los dos desdoblamientos.
Para empezar, en ambos tipos de inclusivo decidimos generar cuatro versiones, dos en sin-
gular y dos en plural. Sabiendo que es un tipo de inclusivo que contempla únicamente dos
géneros, el masculino y el femenino, en particular se quiso ver cuál de los dos se antepone
con mayor frecuencia. Por lo tanto, para cada lema de nuestro inventario incorporamos
dos versiones de cada número. Es decir, generamos una versión en singular anteponiendo
el masculino y otra versión anteponiendo el femenino. Lo mismo hicimos para el plural,
completando aśı las cuatro versiones.
Tomando como ejemplo el lema todo, veamos la tabla 3.4 donde exponemos las cuatro
versiones de cada desdoblamiento.
Singular versión 1 Singular versión 2 Plural versión 1 Plural versión 2
((y/o)) todo o toda toda o todo todos y todas todas y todos
((/)) todo/a toda/o todos/as todas/os
Tab. 3.4: Ejemplos de conversiones a los tipos de inclusivo desdoblamientos con ((y/o)) y ((/)). Obser-
vemos que disponemos de dos versiones para cada número: una anteponiendo el masculino
y otra el femenino.
Tipo de inclusivo: ((e))
La conversión y conjugación de los lemas al tipo de inclusivo con la letra ((e)) no fue
trivial ya que requirió iterar por varios enfoques hasta llegar a la solución que finalmente
utilizamos.
El primer enfoque consistió en llevar adelante el mismo proceso realizado con el ((@))
y la ((x)), teniendo especial consideración con los lemas que terminaran en co y go, los
cuales deb́ıan ser modificados de tal forma que finalizaran con que y gue respectivamente.
A modo de ejemplo, si tomáramos los lemas loco y amigo, las versiones intervenidas para
el singular debeŕıan ser loque y amigue.
Luego de modificar todos los lemas del inventario de esta forma, realizamos una ex-
ploración preliminar buscando las palabras intervenidas en el corpus. Alĺı notamos que
exist́ıa una gran cantidad de falsos positivos. Es decir, hab́ıamos identificado como usos
del lenguaje inclusivo palabras que por el contexto sab́ıamos que no se estaban utilizando
de tal modo. En este punto detectamos un primer problema de este enfoque: al realizar la
conversión, las palabras resultantes pertenećıan al lenguaje. Un claro ejemplo de esto es
el caso de la palabra amigos, que luego de ser intervenida resulta en el verbo subjuntivo
amigues, que podŕıa ser utilizado en frases como no te amigues con esa persona.
Como primera medida, y para poder seguir adelante con la exploración preliminar,
decidimos descartar aquellas palabras que al ser convertidas a este tipo de inclusivo resul-
tasen en palabras pertenecientes al diccionario. Sin embargo, esto tampoco fue suficiente,
dado que segúıamos encontrando falsos positivos como los siguientes:
argentino −→ argentine gentilicio de argentino en inglés.
solo −→ sole en referencia al nombre Soledad.
viejo −→ vieje typo al escribir viaje.
loco −→ loque typo al escribir lo que donde faltaŕıa el espacio.
28 3. Detección de uso del lenguaje inclusivo
memo −→ meme en referencia al chiste gráfico.
Como último punto a mencionar de este enfoque, decidimos descartar una de las dos
versiones de las palabras intervenidas en singular. En un principio hab́ıamos optado por
replicar la idea utilizada en los tipos de inclusivo ((@)) y ((x)), donde para los lemas con
terminaciones en vocal seguida de consonante, como por ejemplo ón, or, es, ol, etc., ge-
neramos dos versiones del singular. Veamos un ejemplo para comprender el porqué de
esta decisión. Cuando tomamos el lema trabajador, las dos posibles versiones en singular
resultaban en trabajader y trabajadore. Sin embargo, durante esta exploración preliminar,
notamos que los casos donde se utilizaba esta segunda forma, trabajadore, en general pa-
rećıan corresponder a typos donde se hab́ıa querido escribir trabajadores y hab́ıa faltado
la letra s. Por este motivo decidimos quedarnos únicamente con la primera versión.
Ante estos casos fallidos, nos dimos cuenta que este enfoque no nos estaba condu-
ciendo a buen puerto. Avanzamos entonces en un segundo enfoque, donde intentamos
hacer un análisis según la cantidad de usuarios diferentes que usaban cada palabra y otro
basándonos en la longitud de las mismas, pero en ninguno de los dos casos llegamos a algo
consistente y confiable.
En este punto asumimos que no iba a ser viable encontrar una solución completamente
automatizada para detectar en nuestro corpus los más de 13 mil lemas intervenidos del
inventario con el tipo de inclusivo ((e)), sin obtener una gran cantidad de falsos positivos.
Todo esto sumado a que el objetivo del trabajo es dar una idea de la presencia del fenómeno
del lenguaje inclusivo en Twitter y por

Continuar navegando