tesis-MG-frqbowD

•
UNCA

Contenidos y mucho más
27/12/2022
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Administración

601.774 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Universidad de Buenos Aires
Facultad de Ciencias Exactas y Naturales
Departamento de Computación
Uso de lenguaje inclusivo
en Twitter Argentina
Tesis de Licenciatura en Ciencias de la Computación
Mat́ıas Carlos Guerson
Directores: Agust́ın Gravano y Santiago Kalinowski
Buenos Aires, 2021
USO DE LENGUAJE INCLUSIVO EN TWITTER ARGENTINA
Dado el avance de la tecnoloǵıa y el uso cada vez más amplio de internet y de las redes
sociales, entre otros factores, en los últimos años se ha producido un gran crecimiento en
cuanto a la cantidad de datos que se pueden generar, recolectar, almacenar y procesar.
Esto dio lugar a la posibilidad de investigar fenómenos lingǘısticos a gran escala, lo cual
seŕıa dif́ıcilmente practicable de forma manual.
Un fenómeno lingǘıstico que, si bien no es nuevo, ha cobrado relevancia en los últimos
tiempos es la intervención que recibe el nombre de ((lenguaje inclusivo)). Plantea que el
masculino genérico, presente en español y otras lenguas, es insuficiente para dar cuenta
de la diversidad de géneros de la sociedad. Con esa premisa, la intervención consiste en
desplegar diferentes estrategias para evitar el uso del masculino genérico, no exhaustiva-
mente, según surge del análisis de los datos, sino en determinadas posiciones de ciertos
enunciados. Dado que es un rasgo discursivo que emerge de profundas divisiones poĺıticas,
sociales y culturales de la sociedad, su uso genera tanto adhesiones como rechazos.
En este trabajo nos propusimos analizar, desde distintos enfoques, cómo ha sido la
evolución del lenguaje inclusivo en los últimos años. Para esto, utilizamos datos de la
red social Twitter. Recolectamos casi 130 millones de tweets escritos por más de 56 mil
usuarios distribuidos en 23 provincias argentinas. Nuestros objetivos fueron: dimensionar
la cantidad de personas que lo usan, identificar en qué momento surgió y cómo fue evo-
lucionando diacrónicamente cada una de sus variantes (((@)), ((x)), ((e)), etc.), y analizar
minuciosamente cuántas y cuáles son las palabras que resultan intervenidas.
Pudimos observar que, si bien el lenguaje inclusivo no presenta un uso extendido o
generalizado, tampoco es insignificante. A su vez, notamos que existen múltiples indicios
que sugieren que el fenómeno se encuentra en crecimiento. Vimos, también, cómo su uso
no parece requerir un cambio gramatical, sino que se actualiza a través del uso de un
repertorio limitado de palabras que empiezan a funcionar como marcadores discursivos.
Palabras claves: Procesamiento de Lenguaje Natural, Lingǘıstica Computacional, Len-
guaje Inclusivo.
i
AGRADECIMIENTOS
A la Universidad de Buenos Aires y, en especial, a cada persona que integra el Depar-
tamento de Computación de la Facultad de Ciencias Exactas y Naturales. Es admirable
y emocionante ver todo el esfuerzo que hacen por sostener la universidad pública y de
excelencia.
A Agust́ın Gravano, por su incansable acompañamiento, empuje, predisposición y en-
señanza.
A Santiago Kalinowski, por haberme ayudado durante todo el trabajo con su conoci-
miento lingǘıstico.
A Sergio Yovine y Mart́ın Urtasun, por haber aceptado ser jurados de esta tesis y por
haberla léıdo en muy poco tiempo.
A mis amigos de la vida, por haberme acompañado y alentado en todo momento.
A mis amigos de la facultad, por tantas juntadas de estudio, y otras de no tanto estudio.
A mis compañeros de trabajo, por haberme bancado en momentos intensos en la fa-
cultad.
A mi familia universitaria, Patricio, Solange y Augusto, por todo eso que hizo que se
convirtieran en familia.
A toda mi familia, por haberme acompañado, ayudado, alentado y tantas lindas ac-
ciones más, en todo momento.
A Flor, mi compañera en este viaje, por el incréıble apoyo y amor que me dio y me
da.
iii
A mi vieja que lo vio, y a mi viejo que no llegó...
Índice general
1.. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1. Lenguaje inclusivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3. Trabajo previo en el área . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4. Objetivo del estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.. Recolección de datos y armado del Corpus . . . . . . . . . . . . . . . . . . . . . . 7
2.1. Recolección de datos de Twitter . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.1. Análisis de las dificultades en la recolección de datos . . . . . . . . . 10
2.2. Armado del corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1. Tokenización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.2. Normalización de tokens . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.3. Caracterización del corpus . . . . . . . . . . . . . . . . . . . . . . . . 16
3.. Detección de uso del lenguaje inclusivo . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1. Selección de lemas potencialmente intervenidos en el lenguaje inclusivo . . . 23
3.2. Conversión de los lemas al lenguaje inclusivo . . . . . . . . . . . . . . . . . 25
3.3. Búsqueda eficiente de palabras dentro del corpus . . . . . . . . . . . . . . . 32
4.. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.1. Análisis de tweets inclusivos . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2. Análisis de usuarios inclusivos . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3. Análisis anual de los tipos de intervenciones . . . . . . . . . . . . . . . . . . 54
4.4. Análisis de palabras intervenidas . . . . . . . . . . . . . . . . . . . . . . . . 56
4.4.1. Cobertura del inventario . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.4.2. Análisis de frecuencia normalizada . . . . . . . . . . . . . . . . . . . 66
4.5. Análisis de los desdoblamientos - Masculino vs. Femenino . . . . . . . . . . 68
4.6. Análisis del número - Plural vs. Singular . . . . . . . . . . . . . . . . . . . . 70
5.. Conclusiones y trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Apéndice 79
A.. Expresión regular nltk.TweetTokenizer . . . . . . . . . . . . . . . . . . . . . . . . 81
B.. Inventario para la letra ((e)) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
C.. Usuarios inclusivos - Problema asociado a la cantidad de tweets recolectados . . 85
Bibliograf́ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
vii
1. INTRODUCCIÓN
1.1. Lenguaje inclusivo
En los últimos años algunos colectivos como el feminismo y las comunidades LGBTIQ+
(Lesbianas, Gays, Bisexuales, Transgéneros, Transexuales, Travestis, Intersexuales, Queer
y colectivos que no se sienten representados por ninguno de los géneros anteriores) han
ganado mayor visibilidad e instalaron debates acerca de cuestiones de género en la agenda
pública. Estos colectivos han avanzado con muchas demandas de diferente tipo, como, por
ejemplo, el derecho a la identidad de género, al matrimonio igualitario, al cupo laboral; la
lucha contra la discriminación, la violencia de género, entre otras.
En ese contexto, se agregó un nuevo caṕıtulo a la reflexión sobre los sesgos de género
presentes en la lengua. Partiendo de premisas tales como ((el lenguaje nos constituye)) y
((lo que no se nombra no existe)), estos grupos denuncian la invisibilización de la mujer y
de los géneros no binarios a través de la lengua. El eje central de este planteo reside en
el uso del masculino genérico para referirse tanto a grupos conformados por personas de
distintos géneros (por ejemplo, ((todos van a ganar))), como a una sola persona cuando se
desconoce su género o no es informativamente relevante (((quien termine primero, gana))).
Quienes adhieren a este cuestionamiento argumentan que esto constituye un factormás
que promueve la relegación de las mujeres y personas no binarias en la sociedad. Como
respuesta a esta problemática, surgen distintas propuestas que componen lo que recibió el
nombre de lenguaje inclusivo.
Una de las propuestas es el uso de los desdoblamientos con ((y/o)) y ((/)) (por ejemplo,
((todos y todas van a ganar)), ((quien termine primero o primera, gana)), ((todos/as van
a ganar)) o ((quien termine primero/a, gana))). Por un lado, con estas alternativas, se
incorpora al discurso únicamente el género femenino, y se dejan fuera de consideración los
géneros no binarios. Por otro lado, el desdoblamiento con ((y/o)), a diferencia del que usa
la ((/)), no incorpora palabras nuevas ni tampoco altera las existentes.
Otra de las propuestas sugeridas es el uso del ((@)) (por ejemplo, ((tod@s van a ganar))
o ((quien termine primer@, gana))). Esta opción es más compacta que los desdoblamientos,
puesto que evita la repetición, ya sea de la palabra completa o simplemente del sufijo. A
su vez, el ((@)) es impronunciable, por lo que esta alternativa solo está disponible en la
escritura. Por otro lado, es una variante que recibió cŕıticas porque, asumiendo que el ((@))
representa la unificación gráfica de la ((a)) con la ((o)), tampoco contempla a los géneros no
binarios.
Una variante que, en cambio, permite la inclusión de todos los géneros es la letra
((x)) (por ejemplo, ((todxs van a ganar)) o ((quien termine primerx, gana))). Sin embargo,
esta alternativa tampoco es pronunciable en español y su uso también queda limitado
únicamente a la escritura.
Una propuesta que plantea solución a ambas problemáticas, ya sea considerar a todos
los géneros como permitir su pronunciación, es el uso de la letra ((e)) (por ejemplo, ((todes
van a ganar)) o ((quien termine primere, gana))).
Por último, es necesario destacar que la discusión acerca de los sesgos de género pre-
sentes en la lengua, no se está llevando a cabo únicamente en el español. Solo por citar un
caso, actualmente en el inglés se está discutiendo el uso del pronombre they en singular.
1
2 1. Introducción
1.2. Twitter
Twitter es un servicio de microblogging y red social creado en 2006. En él sus usuarios
interactúan a través de publicaciones llamadas tweets o tuits. Los usuarios pueden estar
registrados o no, pero únicamente tienen permiso para publicar aquellos que tengan una
cuenta. Los otros solo se limitan a leer el contenido. Cada vez que un usuario escribe un
tweet, éste se ve reflejado en su página principal o timeline (ĺınea de tiempo). Por defecto
el timeline es público, es decir, cualquier persona tiene acceso a su contenido. Sin embargo,
esta configuración puede modificarse para que la cuenta sea privada, restringiendo aśı el
acceso a los tweets.
La interacción entre usuarios se puede dar de diversas formas. En primer lugar un
usuario puede elegir suscribirse al contenido de otro, convirtiéndose aśı en su seguidor.
Esta relación no es necesariamente rećıproca; es decir, una persona puede decidir seguir
a otro usuario sin necesidad de que este último también sea su seguidor. Al ingresar a la
red social, que puede ser a través de su sitio web o aplicación móvil, a cada persona le
aparecen tweets de los usuarios a los que sigue.
Algunas de las acciones posibles sobre un tweet son: indicar ((Me gusta)), responderlo,
hacer un retweet o retuit, o citarlo. Si se opta por indicar ((Me gusta)), esto se verá reflejado
en la parte inferior del tweet en un contador que suma la cantidad de personas que tuvieron
la misma reacción. En caso de que se responda un tweet, la respuesta aparecerá junto a
las demás, y a su vez todas figurarán debajo del tweet original. Las acciones de hacer un
retweet o citar un tweet son similares. En ambos casos un usuario A toma un tweet de
un usuario B y lo publica en su propio timeline. De esta forma el tweet en cuestión queda
visible para los seguidores del usuario A. Como única diferencia, al realizar una cita se
puede agregar texto a la publicación.
Por otro lado, los tweets pueden estar compuestos por texto y contenido multimedia
(fotos, videos, enlaces, etc.). Existe una única limitación para el texto y es que éste no
supere los 280 caracteres. Originalmente el ĺımite era de 140, pero a partir del año 2017
este valor se duplicó.
En la actualidad Argentina tiene alrededor de 5 millones de usuarios alcanzables. Es
decir, usuarios que en mayor o menor medida siguen utilizando esta red social. Esta infor-
mación surge de los datos publicados por Statista [1] y Kepios [2], dos empresas dedicadas
a analizar datos de negocios y de comportamiento en internet. Aún aśı, la tendencia de
uso pareciera estar en decrecimiento dado que, por ejemplo, en 2016 este número alcanza-
ba casi los 12 millones de usuarios. Sin embargo, es importante notar que no todas estas
cuentas corresponden a personas f́ısicas. Partiendo de la premisa de que Twitter es una
red social donde sus usuarios pueden interactuar, es también muy utilizado por empresas
para publicitar productos o brindar atención al cliente, entes gubernamentales para dar
información, etc.
Por último, una caracteŕıstica muy importante a la hora de optar por utilizar esta
red social para esta tesis, es que posee una interfaz pública que permite recolectar pu-
blicaciones de forma automatizada de cualquier usuario, siempre y cuando éste no haya
configurado su cuenta como privada. Esta recolección se puede realizar de diversas for-
mas, ya sea solicitando tweets que contengan ciertas palabras claves, como indicando que
se desea obtener todo el timeline de un usuario, entre otras. Al momento de realizar este
estudio, esta última funcionalidad para recolectar los tweets del timeline de un usuario se
encontraba limitada. La limitación permit́ıa extraer únicamente las últimas 3200 publica-
1.3. Trabajo previo en el área 3
ciones de un usuario, incluyendo retweets o citas. Es decir, el ĺımite no solo aplicaba a los
tweets escritos por cada usuario, sino también a los que hubieran sido escritos por otros y
luego compartidos por el usuario en cuestión.
El hecho de poder recolectar tweets de forma automatizada permite generar una fuente
de datos sobre la cual se pueden realizar diversos estudios. En los últimos años se han
publicado numerosos trabajos que utilizaron datos de Twitter. Por ejemplo, en 2017 y
como parte de su tesis de licenciatura, Aleman propuso un método para detectar palabras
contrastivas basándose en un corpus generado a partir de tweets [3]. En 2019 Makse y
Bovet publicaron un art́ıculo donde analizaron la influencia de las noticias falsas en Twitter
sobre las elecciones presidenciales de EEUU en 2016 [4]. Recientemente, en Julio de 2021,
se publicó un art́ıculo acerca del funcionamiento de la psicoloǵıa epidémica utilizando
datos obtenidos de la misma red social [5]. Estos son sólo algunos ejemplos recientes que
reflejan la tendencia creciente de usar Twitter como fuente de datos en estudios de toda
ı́ndole.
1.3. Trabajo previo en el área
Aunque el lenguaje inclusivo se viene discutiendo y analizando hace muchos años, es
cierto que en los últimos tiempos ha tomado gran relevancia y visibilidad pública. Es cada
vez más común encontrar notas en los medios, publicaciones en las redes sociales, art́ıculos,
etc., donde se hable del tema. A su vez, este fenómeno también se viene analizando desde
distintos enfoques como, por ejemplo, desde el punto de vista lingǘıstico, sociológico,
poĺıtico e incluso estad́ıstico.
En primer lugar es pertinente mencionar estudios y art́ıculos publicados por institu-
ciones vinculadas a la lengua, como son la Real Academia Española (RAE) y la Academia
Argentina de Letras (AAL). Éstas, probablemente, sean la mayor referencia en el tema
para los argentinos. En el año 2012, Ignacio Bosque, miembro de la RAE y catedrático
de Lengua Española de la Universidad Complutense de Madrid, publicó un estudio titu-
lado((Sexismo lingǘıstico y visibilidad de la mujer)) [6]. Alĺı realiza un extenso análisis
sobre algunas de las gúıas de lenguaje no sexista presentadas por universidades, comuni-
dades autónomas, sindicatos, ayuntamientos y otras instituciones. En particular, presenta
una serie de cŕıticas a estas gúıas. Solo por nombrar algunas, en primer lugar remarca la
ausencia de lingüistas en su elaboración, aún cuando se analizan aspectos del léxico, la
morfoloǵıa y la sintaxis. Por otro lado, indica que no todas las mujeres perciben discrimi-
nación en el uso del masculino genérico. En este sentido, menciona que las gúıas son poco
flexibles al respecto. Critica, también, que sus autores insinúan que las mujeres que no
se sientan excluidas con el uso actual del lenguaje debeŕıan rever su postura. Por último,
expresa que los significados de las palabras no pueden definirse o negociarse en asambleas
y promulgarlos cual leyes, sino que éstos se modifican con su evolución. A este informe
suscribieron las demás academias de la lengua nucleadas en la Asociación de Academias
de la Lengua Española (ASALE). Años más tarde, en 2020, la RAE publicó un estudio
titulado ((Informe de la Real Academia Española sobre el lenguaje inclusivo y cuestiones
conexas)) [7]. Éste se compone de tres piezas: por un lado presenta un informe sobre el uso
del lenguaje inclusivo en la Constitución Española. Por otro lado, realiza un análisis sobre
sexismo lingǘıstico, femeninos de profesión y masculino genérico. Por último, expresa la
posición de esta institución en relación a este tópico. En cuanto a la AAL, destacamos dos
estudios. En primer lugar, su presidenta, Alicia Maŕıa Zorrilla, presentó un art́ıculo cuyo
4 1. Introducción
t́ıtulo es ((El lenguaje inclusivo. Fundamentos de la posición académica)) [8]. En segundo
lugar, el Departamento de Investigaciones Lingǘısticas y Filológicas de la propia institu-
ción publicó otro art́ıculo titulado ((La lengua en el centro de un debate social: el caso del
lenguaje inclusivo)) [9]. Como parte del análisis y de las ideas que se presentan en estos
trabajos, se sugiere que el lenguaje inclusivo no es un fenómeno necesariamente lingǘıstico
sino más bien poĺıtico o sociopoĺıtico. Plantean, aśı, que quienes lo utilizan “lo usan con
el fin de crear un efecto, en quien lee o escucha, de toma de conciencia sobre un problema
social y cultural” [9, p. 20].
Existen otros estudios que también abordan el tema con un enfoque lingǘıstico, o inclu-
so desde puntos de vista sociológicos y/o poĺıticos. En primer lugar, podemos mencionar
a Álvaro Garćıa Meseguer y su trabajo ((Sexismo y lenguaje)) de 1976 [10]. Alĺı el autor
realiza un análisis de los géneros en el lenguaje. En ese estudio, propuso el uso de la le-
tra ((e)) para reemplazar las vocales desinenciales ((a)) y ((o)), idea que él mismo rechazó
tiempo después. Varias décadas más tarde, Sebastián Sayago presentó en el año 2019 un
estudio titulado ((Apuntes sociolingǘısticos sobre el lenguaje inclusivo)) [11], donde refle-
xiona acerca de la utilidad de la variante ((e)), y, además, expone criterios gramaticales
que considera útiles en caso de una eventual estandarización de esta variante del español.
En 2020, José Maŕıa Gil publicó su estudio denominado ((Las paradojas excluyentes del
“lenguaje inclusivo” sobre el uso planificado del morfema flexivo -e)) [12], donde analiza
en detalle el uso de la letra ((e)) y plantea eventuales limitaciones de esta variante. Desde
un enfoque sociológico y/o poĺıtico, en 2018, Julia Moretti publicó su art́ıculo ((La RAE
y el rechazo al lenguaje inclusivo)) [13]. Alĺı plantea que su art́ıculo “pretende demostrar
cómo al lenguaje inclusivo todav́ıa le falta un largo trecho para recorrer y acomodarse a
los cambios que la sociedad ya está experimentando” [13, p. 1].
En cuanto a los trabajos estad́ısticos, enfoque donde nos permitimos ubicar el presente
estudio, en primer lugar, los corpus usados se basan principalmente en datos obtenidos
de redes sociales. En el año 2019, Yarubi Dı́az, David Heap y Katie Slemp expusieron
los resultados de un análisis utilizando 166 videos de Youtube [14]. Su objetivo principal
fue analizar la dicotomı́a escritura-oralidad en los usos del lenguaje inclusivo. Este no
fue el único trabajo sobre el tema realizado por Slemp. En 2020, junto a Martha Black y
Giulia Cortiana, presentaron el estudio ((Reactions to gender-inclusive language in Spanish
on Twitter and Youtube)) [15], para el cual tomaron 27 videos de Youtube y 20 tweets
que cumplieran ciertas condiciones, con el fin de estudiar la reacción pública respecto del
lenguaje inclusivo, y, aśı, compararla con las posiciones oficiales de la RAE y la AAL. Ese
mismo año, publicó otro trabajo titulado ((Latin@s or latinxs? Innovation in Spanish gender
inclusive oral expression)) [16]. En este caso, los datos utilizados fueron los resultados de
encuestas que obtuvo, en mayor medida, por las redes sociales. El objetivo fue intentar
responder cómo y en qué medida los hispanohablantes expresan la inclusión de género de
forma oral y escrita. Como resultados principales y conclusiones de estos estudios, notaron
la preferencia en lo oral por la ((e)) y los desdoblamientos, mientras que en lo escrito
detectaron que se suele preferir la ((e)) y la ((x)). Aún aśı, vieron que la gente que utiliza el
lenguaje inclusivo todav́ıa sostiene un uso considerable del masculino genérico en lo oral.
Por otro lado, pudieron determinar que la reacción en Youtube, en general, es positiva,
mientras que, si bien en Twitter no es tan buena, tampoco llega a ser completamente
negativa. Incluso, observaron la existencia de correlación entre la cantidad de likes de una
publicación y sus comentarios o respuestas positivas. Por último, en varias secciones de
estos trabajos, mencionaron la necesidad de poder procesar una mayor cantidad de datos
1.4. Objetivo del estudio 5
para, aśı, obtener mayor cantidad de conclusiones y de mayor robustez.
Por otro lado, es importante destacar la vasta cantidad de análisis realizados por
distintos organismos en pos del armado de gúıas de lenguaje no sexista. Solo por men-
cionar algunos de ellos, podemos nombrar la ((Gúıa para el uso de un lenguaje no sexista
e igualitario en la Honorable Cámara de Diputados de la Nación Argentina (HCDN)))
confeccionada por este organismo [17], (((Re)Nombrar. Gúıa para una comunicación con
perspectiva de género)) propuesta por el Ministerio de las Mujeres, Géneros y Diversidad
[18], la ((Gúıa para un lenguaje no sexista)) armada por el Consejo Interuniversitario Na-
cional [19]. Vinculado a esto, Maŕıa Marta Garćıa Negroni y Beatriz Hall publicaron un
análisis lingǘıstico-discursivo de las resoluciones emitidas por cuatro universidades argen-
tinas que han aceptado el uso del lenguaje inclusivo en alguna de sus formas y en distintos
tipos de producciones académicas escritas y orales [20]. Su objetivo fue “mostrar que el
sentido de los discursos no es de naturaleza veritativa, ni depende de las elecciones vo-
luntarias e intencionales de los sujetos; antes bien, los efectos de sentido se construyen
dialógica y argumentativamente” [20, p. 1].
En el plano internacional, en primer lugar debemos mencionar la gúıa confeccionada
por Naciones Unidas en 2019, la cual titularon ((Lista de verificación para usar el español
de forma inclusiva en cuanto al género)) [21]. Por otro lado, en España, podemos destacar
la ((Gúıa de uso para un lenguaje igualitario (castellano))) de la Universitat de Valencia
[22], o las convenciones definidas por la Universitat de Barcelona, ((Uso no sexista del
lenguaje)), tanto para el español como para el catalán [23].
Como se puede observar, el lenguaje inclusivo es un tema de interés tanto académico
como de la sociedad en general, con fuertes opiniones a favor y en contra. Es por esto
que surge una clara necesidad de contar con análisisestad́ısticos de grandes volúmenes de
datos, que permitan dar una idea objetiva de cuál es su uso y cómo ha ido evolucionando
diacrónicamente.
1.4. Objetivo del estudio
El principal objetivo de este estudio consiste en aportar datos a la discusión sobre el
uso del lenguaje inclusivo en Argentina. Para esto usamos datos de la red social Twitter. Si
bien se escapa del alcance de este trabajo determinar si Twitter es un reflejo de la realidad
o no, hemos visto que se han realizado (y se siguen realizando) una vasta y muy variada
cantidad de trabajos utilizando esta red social como fuente de datos. A su vez, creemos
que, por el momento, es realmente poco probable encontrar usos del lenguaje inclusivo
en libros, portales de noticias, otras redes sociales, etc. Por lo tanto, teniendo en cuenta
que Twitter no impone ninguna limitación en cuanto al contenido (más que la cantidad
de caracteres de una publicación), y que brinda la posibilidad de recolectar publicaciones
e información de los usuarios de forma automatizada, consideramos que es una fuente de
datos realmente valiosa para nuestro estudio.
En esta tesis tomamos alrededor de 130 millones de tweets realizados a lo largo de 14
años por más de 56 mil usuarios distribuidos en 23 provincias. Esta cantidad representa
una muestra realmente considerable si tenemos en cuenta dos factores: por un lado, no
todos los usuarios realizaron publicaciones durante este peŕıodo, lo cual implica que la
cantidad de usuarios presentes en cada año fue variando. Por otro lado, sabemos que la
cantidad de usuarios alcanzables de Twitter osciló entre los 5 y 12 millones en el último
tiempo. En base a estos dos puntos podemos decir que contamos con aproximadamente el
6 1. Introducción
0.5 % de los usuarios de esta red social. Es debido a todo esto que creemos que nuestro
aporte presenta una gran diferencia respecto al trabajo estad́ıstico previo en el área, dado
que en este estudio procesamos grandes volúmenes de datos. El corpus que generamos está
formado por más de mil millones de formas, y el inventario de palabras en inclusivo se
basa en más de 25 mil lemas modificados para cada variante y número.
En pos de poder comprender la forma en la que se usa el lenguaje inclusivo, a lo largo
de este trabajo intentamos responder diversas preguntas. Por empezar, en la sección 4.2
exponemos cuántos usuarios han utilizado alguna variante del lenguaje inclusivo a través
de los años y a lo largo y ancho del páıs. Luego, en la sección 4.3 analizamos cómo fue
la evolución temporal de cada tipo de intervención en lenguaje inclusivo. Otras de las
preguntas que planteamos son: ¿es un fenómeno que contempla una gran cantidad de
palabras o se limita a un pequeño repertorio?, ¿cuántos son los lemas intervenidos?, una
vez que se interviene un lema, ¿se mantiene su uso en el tiempo o sus usos son esporádicos?,
¿es considerable la cantidad de apariciones de palabras en lenguaje inclusivo?. Estos son
algunos de los interrogantes que se abordan en la sección 4.4.
Además del objetivo principal, este estudio tiene como propósito el armado de un cor-
pus en español segmentado por provincia y la confección de un inventario con una extensa
cantidad de palabras en lenguaje inclusivo para cada una de las variantes trabajadas.
2. RECOLECCIÓN DE DATOS Y ARMADO DEL CORPUS
En este caṕıtulo explicaremos el proceso de armado del corpus que se utilizó durante
todo este trabajo. Para esto, comenzaremos por describir la recolección de datos desde la
red social Twitter, donde hablaremos acerca del corpus que se tomó de base y de cómo
fueron las actualizaciones del mismo, brindando los datos técnicos del proceso de recolec-
ción y comentando las limitaciones que nos encontramos. Seguiremos luego exponiendo
la cantidad de tweets y usuarios obtenidos por año y por provincia. Finalizaremos esta
primera sección del caṕıtulo haciendo un breve análisis de las dificultades en la recolección
de datos.
Por otro lado, utilizando los datos recolectados, ahondaremos en el proceso de armado
del corpus. Hablaremos de la necesidad de definir a qué llamamos palabra y cómo se
realizó la extracción de las mismas de los tweets. Explicaremos en detalle el proceso de
tokenización y normalización, y finalizaremos exponiendo la caracterización de nuestro
corpus.
2.1. Recolección de datos de Twitter
Para el armado del corpus que utilizamos en este trabajo tomamos como punto de
partida el que fuera utilizado en la tesis de licenciatura de Damián Aleman en 2017 [3],
que presentó un método para detectar regionalismos en Twitter. Al mismo le realizamos
dos actualizaciones, la primera de ellas en Febrero del 2019 y la segunda en Marzo del
2020.
Comencemos por describir brevemente el corpus utilizado en la tesis de Aleman. Para
éste se utilizaron todas las publicaciones, es decir los timelines completos, de 56.308 usua-
rios. Dadas las necesidades de dicho estudio, se utilizó una cantidad similar de usuarios
para cada provincia. Sin embargo, al no haber existido la necesidad de sostener la similitud
entre los años, no dispońıa de una cantidad similar de usuarios para cada año.
En cuanto a las dos actualizaciones que realizamos, teniendo en cuenta que el corpus
hab́ıa sido generado a principios de 2017, el objetivo de las mismas fue obtener las pu-
blicaciones más recientes del timeline de cada uno de los más de 56 mil usuarios. Para el
proceso de recolección de datos fue necesario crear un programa desarrollado en el lenguaje
de programación Python. En el mismo se utilizó una biblioteca llamada tweepy, diseñada
espećıficamente para consumir la API (Application Programming Interface) de Twitter.
La idea de este proceso fue básicamente tomar cada uno de los usuarios que dispońıamos
y solicitar sus publicaciones bajo las siguientes condiciones:
Se pidieron únicamente los tweets que fueran posteriores al último que se hab́ıa
obtenido en la tesis de Aleman.
Se indicó que no se tuvieran en cuenta los retweets. Nos interesaron únicamente los
textos escritos por los usuarios de nuestro corpus.
Por defecto, con cada publicación Twitter env́ıa la información del usuario que la
realizó. En particular estamos hablando de casi 40 datos entre los que se encuentran
el ID, el nombre de usuario, la locación, la descripción, la cantidad de seguidores y
7
8 2. Recolección de datos y armado del Corpus
seguidos, etc. Dado que nosotros ya dispońıamos de esos datos en el corpus que se
tomó de base, se evitó descargarlos nuevamente con cada publicación.
Por otro lado, es necesario también mencionar que durante las actualizaciones nos
encontramos con algunas limitaciones. En primer lugar, nos vimos condicionados por una
restricción de Twitter que limita la cantidad de tweets por usuario que se pueden descargar.
Este ĺımite es de 3200 publicaciones, incluyendo retweets. Es decir, si por ejemplo, de las
últimas publicaciones de un usuario, 3000 fueron retweets y solo 200 fueron escritas por
él, al descargar los datos solo se obtuvieron estos últimos cientos ya que no fue de nuestro
interés utilizar los retweets, solo pretendimos contemplar los textos escritos por nuestros
usuarios. Esto pudo haber generado huecos temporales donde no dispongamos de ningún
tweet de algún usuario cuando en realidad si hayan existido. Más adelante en esta misma
sección ahondaremos en esto.
Otro punto importante a ser considerado es que muchas cuentas de usuarios fueron
cerradas o dejaron de ser públicas. Por lo tanto, no pudimos recopilar más publicaciones
de estas personas.
Respecto a las limitaciones generales de la API de twitter, debemos mencionar en
primer lugar que, por cada petición, la cantidad máxima de publicaciones que se permitió
obtener fue de 200 tweets. Sumado a esto, existió otra restricción sustancial y fue que no
permit́ıan realizar más de 900 peticiones por cada ventana de 15 minutos.
Como última observación, es necesario aclararque la geolocalización de los usuarios
no siempre es precisa. En algunos casos la información fue sacada del campo donde ellos
mismos ingresan su locación. Esto pudo haber generado algunos errores para usuarios de
La Rioja o Córdoba por ejemplo, ya que no existe una forma automatizada de distinguir
si se trataba de usuarios de provincias argentinas o españolas.
En cuanto a los tiempos requeridos para la recolección de datos, teniendo en cuenta
las limitaciones recientemente mencionadas y las configuraciones que ayudaron a reducir
los tiempos de descarga y volumen de datos a guardar, la primera actualización de 2019
necesitó 20 d́ıas de ejecución mientras que la segunda, en 2020, requirió 10 d́ıas.
Habiendo explicado el proceso de recolección y las limitaciones que nos encontramos,
veamos a continuación las figuras 2.1 y 2.2, donde podemos observar cómo están distribui-
dos los usuarios y los tweets a lo largo de los años y las provincias. En total disponemos
de 128.649.761 tweets generados por 56.308 usuarios.
Observando la figura 2.1 podemos notar que la cantidad de usuarios está uniformemente
distribuida respecto a las provincias, es decir, todas las localidades poseen una cantidad
similar de usuarios. Esta distribución fue un factor deseado en la tesis de Aleman. A su vez,
podemos ver que dicha uniformidad no se mantiene en cuanto a la cantidad de usuarios
por año, ni tampoco con la cantidad de tweets, ya sea por año o por provincia, tal como se
observa en la figura 2.2. En ningún caso esto representa un inconveniente dado que, siempre
que aplique, los resultados de esta tesis serán presentados en sus valores normalizados.
2.1. Recolección de datos de Twitter 9
Fig. 2.1: Cantidad total de usuarios por año y provincia. En total disponemos de 56.308 usuarios.
Fig. 2.2: Cantidad total de tweets por año y provincia. En total disponemos de 128.649.761 tweets.
10 2. Recolección de datos y armado del Corpus
2.1.1. Análisis de las dificultades en la recolección de datos
Por último, finalizando esta sección, queremos ahondar en los inconvenientes generados
por la limitación impuesta por Twitter en cuanto a la cantidad de tweets por usuario que
permite descargar, aśı como también el hecho de que algunos usuarios hayan cerrado sus
cuentas o las mismas hayan dejado de ser públicas. La suma de estos factores impactó
negativamente en cuanto a la cantidad de publicaciones recolectadas.
Observemos la figura 2.3 donde podemos ver la cantidad de tweets que disponemos con
una granularidad mensual. Lo primero que podemos notar es que claramente la distribu-
ción no es uniforme. En segundo lugar vemos un pico en Febrero de 2017, que es cuando
se realizó la primera recolección de datos. Entrando en detalle, quizás lo más relevante
sea notar que existen picos locales para los primeros meses de 2019 y de 2020. Estos fue-
ron los momentos donde realizamos las actualizaciones. Como podemos observar, si nos
paramos en estos picos y nos movemos para atrás en el tiempo, la cantidad de tweets
cae hasta encontrarse con el pico inmediatamente anterior. Es aqúı donde, especulamos,
afectaron contundentemente y de forma negativa los dos factores previamente menciona-
dos, dado que de no haber existido ninguno de ellos, esperaŕıamos tener una distribución
más uniforme en cuanto a la cantidad de tweets, al menos para los últimos años. Aún aśı,
como dijimos recientemente, al exponer los resultados con valores normalizados, esto no
representa ningún problema.
Fig. 2.3: Cantidad total de tweets por mes en escala logaŕıtmica. Podemos observar el pico a
principios de 2017, donde se realizó la primera recolección de datos. A su vez, vemos
dos picos locales en los primeros meses de 2019 y 2020, que son los momentos donde se
realizaron las actualizaciones.
2.2. Armado del corpus
Una vez obtenidos los tweets, para el armado de nuestro corpus debemos definir qué
partes del texto de las publicaciones consideramos que son palabras. Esto se debe a que
probablemente nos encontremos con secuencias de caracteres que no sean de nuestro in-
terés y por lo tanto no querramos que pertenezcan al corpus. Recordemos que estamos
trabajando con una red social donde se puede escribir libremente, sin ningún tipo de res-
tricción más que la cantidad de caracteres que se utilizan. Es por esto que en los textos
2.2. Armado del corpus 11
de los tweets podemos hallar tanto palabras conocidas y bien escritas, como palabras con
errores de ortograf́ıa. También podŕıamos encontrar palabras en otros idiomas, e incluso
algunas inexistentes en los diccionarios convencionales, como pueden llegar a ser nombres
propios, regionalismos o, como es de nuestro interés, palabras correspondientes al lenguaje
inclusivo. En śıntesis, nos podemos encontrar con cualquier secuencia de caracteres alfa-
numéricos, śımbolos, signos ortográficos, etc. Dicho esto, surgen entonces los siguientes
dos grandes interrogantes:
¿A qué llamamos palabra?
¿Cómo se hace para obtener las palabras a partir del texto de las publicaciones?
Comencemos por ver algunas ideas posibles para ir comprendiendo y definiendo cuáles
son las expresiones que vamos a considerar como palabras y de qué forma las vamos a
extraer.
Una primera idea muy simple es decir que las palabras son todas aquellas expresiones
que están separadas por espacios en blanco. De esta forma ya podŕıamos definir qué es una
palabra y a la vez sabŕıamos cómo obtenerlas del texto. Sin embargo, esto no es efectivo
ya que se nos presentaŕıan problemas con, por ejemplo, los signos ortográficos. Veamos el
siguiente caso:
‘‘Hola , ¿cómo est ás?’’
Si siguiéramos este enfoque, el resultado de obtener las palabras del texto seŕıa el
conjunto formado por: {Hola,, ¿cómo, estás?}, incluyendo los signos de puntuación e
interrogación, por lo tanto no nos seŕıa de utilidad.
Sabemos entonces que debemos tener en consideración separar ciertos śımbolos, como
ser los signos ortográficos, del resto de los caracteres alfabéticos. Por lo tanto, una segunda
idea podŕıa ser definir que cualquier secuencia de caracteres de la a a la z, ya sea en
mayúscula o minúscula, con o sin tilde, sea considerada una palabra. De esta forma, las
expresiones hola y todes seŕıan contempladas, pero también lo seŕıa lsjddAMRqsádsú. Para
atacar este problema podŕıamos filtrar las palabras que figuran en los diccionarios, pero
siguiendo con el mismo ejemplo dejaŕıamos afuera lsjddAMRqsádsú y también todes, por
ende, para nuestro caso, esta no es opción válida.
Un factor muy importante a tener en cuenta, es que en nuestro estudio pretendemos
considerar como palabras expresiones con ((@)) o con ((/)) en el medio, ya que quisiéramos
incluir casos como tod@s o todos/as.
Como podemos ver, el problema de definir cuáles son las expresiones que consideramos
palabras y de qué forma podemos automatizar el proceso de extraerlas del texto, no
parece ser trivial. Más aún teniendo en cuenta que pretendemos considerar expresiones
que no figuran en los diccionarios convencionales y/o que contienen śımbolos que no son
alfabéticos. Sin embargo, este problema no es nuevo e incluso ya existe mucho trabajo
hecho para publicaciones de Twitter. Veamos cómo se puede utilizar esto para adaptarlo
a nuestro estudio y aśı poder extraer las palabras que formarán parte del corpus. Para
llevar a cabo este proceso se requieren las siguientes dos etapas de procesamiento:
Tokenización
Normalización de tokens
12 2. Recolección de datos y armado del Corpus
2.2.1. Tokenización
El objetivo de esta primera etapa es separar el texto en unidades más pequeñas a las
que llamamos tokens. Comencemos por ver algunos ejemplos para entender mejor qué es
lo que deseamos obtener luego de realizar el proceso de tokenización. Tomemos el siguiente
texto:
‘‘Todes son mis amigues ’’
En este caso, el resultado deseado seŕıan los tokens {todes, son, mis, amigues}. Hasta
aqúı tendŕıasentido utilizar un enfoque similar al que mencionamos previamente, que
separa el texto por espacios en blanco, lo cual vimos que para ciertos casos no serviŕıa,
como por ejemplo:
‘‘Hola , ¿cómo est ás?’’
Aqúı, el resultado deseado seŕıa poder separar los signos de puntuación e interrogación
de las palabras, es decir, generar el siguiente conjunto de tokens {hola, ,, ¿, cómo, estás,
?}. Esto nos da el indicio de que debemos considerar este tipo de caracteres como tokens
separados.
Por otro lado, debemos contemplar que existen expresiones particulares utilizadas en
esta red social, como son los casos de los hashtags y las menciones de usuarios. Los
hashtags son expresiones que comienzan con #, siguen con un texto y se utilizan para
hacer referencias a distintos tópicos. A su vez, las menciones de usuarios se escriben con
un @ seguido del nombre del usuario a referenciar. Analicemos estos casos en la siguiente
publicación:
‘‘@manuginobili con la calidad y la magia de siempre #elPibeDe40 ’’
Para este caso deseaŕıamos que, luego de tokenizar, tanto @manuginobili como #elPi-
beDe40 sean parte del conjunto de tokens resultante. No quisiéramos separar los caracteres
@ ni # del resto del texto que les sigue. De esta forma, la lista de tokens para este tweet
seŕıa {@manuginobili, con, la, calidad, y, la, magia, de, siempre, #elPibeDe40}.
Otros casos a tener en cuenta son los links y las direcciones de correo electrónico.
Analicemos estos casos en el siguiente texto:
‘‘Para participar ingres á a http :// sorteos -marca.com o escribinos a
sorteos@marca.com ’’
Aqúı nos gustaŕıa que tanto http://sorteos-marca.com como sorteos@marca.com sean
considerados tokens. No estaŕıa bien que sorteos, marca o com resultasen siendo unidades
de texto por separado. Tampoco esperaŕıamos como resultado deseable, en el caso del
mail, que @marca se confunda con una mención a un usuario.
Sumado a los signos ortográficos, hashtags, menciones, links y direcciones de correo,
existen otras expresiones que debemos contemplar para separar el texto en tokens, como
pueden ser los emojis ASCII, por ejemplo :-) o ;-@, números de teléfono, tags HTML, etc.
Hasta aqúı vimos ejemplos de los resultados esperados luego de realizar la tokenización
sobre distintos textos, sin embargo debemos definir cómo llevar a cabo esto. Tal como diji-
mos anteriormente, este problema no es nuevo y ya existe abundante trabajo y experiencia
realizando este procesamiento. En particular, existe una biblioteca para Python llamada
nltk (Natural Language Toolkit) que provee diversos tokenizadores, entre los cuales se
encuentra TweetTokenizer que, tal como indica su nombre, es un tokenizador especial-
mente diseñado para Twitter que contempla todos los tipos de tokens que mencionamos
previamente.
2.2. Armado del corpus 13
Si bien esta herramienta es muy potente y de gran utilidad, para nuestro estudio es
necesario realizarle algunas modificaciones. Veamos primero el porqué de las modificaciones
para luego entender cómo llevarlas a cabo. Supongamos que ingresamos como entrada a
esta herramienta el siguiente texto:
‘‘tod@s todos/as todes ’’
En particular para este caso obtendŕıamos los siguientes tokens {tod, @s, todos, /, as,
todes}, pero a nosotros nos gustaŕıa que el resultado fuera {tod@s, todos/as, todes}. Esto
se debe a que TweetTokenizer entiende que existe una mención de un usuario dentro de
tod@s, por lo tanto lo interpreta como dos tokens separados, siendo el primero tod y el
segundo una mención @s. Algo similar ocurre con todos/as donde, dado que no contempla
tokens con una barra en medio, decide separar esta expresión en tres, todos, / y as. Este
es el motivo por el cual debemos adaptar y modificar el tokenizador que provee nltk.
Habiendo explicado el porqué de la modificación del TweetTokenizer , veamos cómo fun-
ciona este tokenizador para poder adaptarlo a nuestras necesidades. La idea básicamente
consiste en la utilización de una expresión regular con la cual podemos ir detectando y
extrayendo los tokens del texto.
En la expresión regular utilizada por TweetTokenizer (Ver expresión regular completa
en el Apéndice A) básicamente se definen los patrones para extraer del texto distintos tipos
de tokens. El orden en que se definen es importante dado que, por ejemplo, queremos que
se extraigan las direcciones de correo electrónico antes que las menciones a usuarios, lo
cual evita que se generen tokens como @gmail o @hotmail. Los tipos de tokens que se
definen son los siguientes:
URLs y direcciones de correo electrónico
Números de teléfono
Emoticones ASCII
Tags HTML
Flechas ASCII
Menciones a usuarios
Hashtags
Palabras incluyendo opcionalmente apóstrofes o guiones medios
Números, incluyendo fracciones y decimales
Resto de las palabras sin apóstrofes ni guiones medios
Puntos suspensivos
Cualquier otra secuencia de caracteres que no contenga espacios en blanco
En particular, debemos concentrarnos en las dos secciones resaltadas, que son en la
cuales se trabaja con lo que llaman palabras con y sin apóstrofes o guiones medios. El
resto de las expresiones que se detectan y extraen no requieren modificaciones ya que nos
sirven tal como se plantean. La modificación consiste básicamente en reemplazar las dos
14 2. Recolección de datos y armado del Corpus
secciones recientemente mencionadas de la expresión regular por una nueva que considere
palabras con ((@)), ((/)) o con ((*))1 en el medio. A continuación podemos observar los
patrones originales y el reemplazo.
Patrones originales
(?:[^\W\d_ ](?:[^\W\d_]|[’\-_])+[^\W\d_])
(?:[\w_]+)
Patrón nuevo
(?:[^\W\d_]+[’\-@\*/]?[^\W\d_]*)
Con este nuevo patrón estamos indicando que queremos extraer expresiones que co-
miencen con una letra, continúen opcionalmente con algún caracter como ser guión medio,
apóstrofe, arroba, asterisco o una barra, y que pueden terminar alĺı o bien continuar, pero
solo con más letras. A modo de aclaración, no pretendemos contemplar expresiones que
contengan apóstrofe o guión medio, junto con alguno de los caracteres nuevos, es decir
((@)), ((/)) o ((*)).
Teniendo el tokenizador adaptado a nuestro estudio, tenemos un primer acercamien-
to a lo que queremos llamar palabras: nos quedaremos únicamente con los tokens que
respeten el último patrón propuesto. Si bien algunos de los tipos de tokens mencionados
previamente podŕıan llegar a sernos de utilidad, como por ejemplo los hashtags de donde
podŕıamos extraer texto, la realidad es que no es una tarea sencilla separar un hashtag en
varias palabras además de ser propenso a errores. Recordemos una vez más que estamos
trabajando con texto libre, sin restricciones, y que no necesariamente hay indicadores que
separen una palabra de otra. Como sostuvimos a lo largo de todo el trabajo, queremos
evitar introducir falsos positivos, por lo cual excluimos de nuestro análisis cualquier token
que no respete este último patrón propuesto.
Teniendo los tokens de nuestro interés filtrados, para completar el armado del corpus
aún hace falta una última etapa de procesamiento sobre éstos: la normalización.
2.2.2. Normalización de tokens
Antes de comenzar a explicar el proceso de normalización repasemos qué tenemos
hasta el momento. Sometimos el texto a un proceso de tokenización, el cual lo separa en
unidades más pequeñas llamadas tokens. Para esto adaptamos un tokenizador existente,
TweetTokenizer . En particular reemplazamos los patrones que detectan lo que sus autores
llaman palabras con y sin apóstrofes y/o guiones medios, por un nuevo patrón que detecta
estas mismas expresiones pero permitiendo que tengan en medio caracteres como el ((@)),
la ((/)) o un ((*)). Por último, nos quedamos únicamente con los tokens que respeten el
nuevo patrón propuesto, descartando el resto de los tokens como URLs, emails, hashtags,
menciones, emojis, etc. Al finalizar esta última etapa donde someteremos a estos tokens al
proceso de normalización,tendremos una definición de lo que consideramos como palabras.
Para entender qué es y para qué sirve la normalización, es importante recordar una vez
más que Twitter es una fuente de texto libre y que nos podemos encontrar con todo tipo
de expresiones. En particular, queremos tomar una decisión para las siguientes situaciones:
1 Si bien debido a la pequeña cantidad de apariciones de palabras con ((*)) de nuestro interés, se decidió no
analizar esta variante, para llegar a determinar esto fue necesario considerarla en el proceso de tokenización
y por lo tanto se incluyó en la expresión regular.
2.2. Armado del corpus 15
Mayúsculas y minúsculas
Alargamiento de palabras
Falta de tildes o uso erróneo
Mayúsculas y minúsculas
Como venimos haciendo a lo largo de esta sección, comencemos por ver publicaciones
de ejemplo para comprender nuestro objetivo. Supongamos los siguientes ejemplos:
"Todes son mis amigues"
"TODES son mis amigues"
"todes son mis amigues"
Luego de realizar la tokenización, obtendŕıamos en todos los casos los tokens {son,
mis, amigues}, pero diferiŕıan en el primer token, obteniendo Todes, TODES y todes res-
pectivamente. Sin embargo, está claro que en los tres casos estamos hablando de la misma
palabra, por lo tanto, para evitar considerarlos como palabras diferentes, debemos tomar
una primera decisión de normalización, y ésta es convertir todos los tokens a minúscula.
De esta forma, las tres variantes de la palabra todes van a corresponderse con una única
palabra.
Alargamiento de palabras
La segunda situación que queremos considerar se produce cuando se estiran algunas
letras de las palabras. Por ejemplo:
‘‘GOOOOOOOOOOOOOOOL DE RIVER ’’
En este caso, está claro que GOOOOOOOOOOOOOOOL es una variación de la palabra
gol, escrita en mayúscula y repitiendo muchas veces la vocal o. Aqúı, lo primero que
estaŕıamos tentados a hacer es quitar todas las repeticiones de esa letra y dejar una sola.
Sin embargo, esto podŕıa resultar en una decisión errónea. Veamos algunos ejemplos más.
Supongamos el siguiente texto:
‘‘Tengo seeeeed ’’
Si tomáramos la idea planteada recientemente, convertiŕıamos ((seeeeed)) en ((sed)), lo
cual parece ser correcto. Pero qué pasaŕıa si el texto ahora fuera:
‘‘I planted a tomato seeeeed ’’
Si bien trabajamos con publicaciones realizadas en Argentina, no hay ningún impedi-
mento para que los usuarios escriban en otros idiomas, como ser el inglés en este caso. Por
lo tanto, si aqúı aplicáramos la misma lógica, modificaŕıamos ((seeeeed)) por ((sed)), lo cual
seŕıa erróneo.
Si bien uno podŕıa plantear un intento de detección de idioma o alguna idea similar,
esto tampoco garantizaŕıa un correcto funcionamiento. Veamos el siguiente caso:
‘‘No te peleeeeeees ’’
Aqúı no tenemos forma de determinar si debemos reducir las repeticiones de la letra
e a una sola aparición o dos, ya que se podŕıa estar queriendo utilizar la palabra peles aśı
como también pelees. Es decir, no sabemos si la intención es decirle a una persona que no
se corte el pelo o que no tenga una pelea.
16 2. Recolección de datos y armado del Corpus
Por lo tanto, y al no haber una forma consistente de determinar cuántas repeticiones
de una letra tenemos que dejar, debemos tomar una decisión para estos casos. Como ya
dijimos anteriormente, algunos de estos problemas no son nuevos y ya existe mucho trabajo
al respecto. En general para estos casos la solución es que cualquier repetición de una letra
tres o más veces, sea normalizada a tres. Aśı, la palabras GOOOOOOOOOOOOOOOL y
GOOOOL seŕıan transformadas en una única palabra goool.
Falta de tildes o uso erróneo
Otro punto a considerar cuando trabajamos con este tipo de fuentes de datos, es el uso
de las tildes. Twitter podŕıa no caracterizarse por ser un estricto ejemplo de cómo se deben
acentuar las palabras, teniendo casos donde se omiten las tildes y casos donde podŕıan
llegar a utilizarse erróneamente. Tengamos en consideración factores como los correctores
automáticos de los celulares, donde muchas veces se acentúan palabras automáticamente
cuando no es necesario. Veamos algunos ejemplos de esto:
‘‘Me pidi ó que abone el saldo restante ’’
‘‘Ayer abone el saldo restante ’’
Aqúı esta claro que en el primer caso se utiliza la palabra abone correctamente, pero
que en el segundo caso debeŕıa ir una tilde en la e. En este caso lo podemos deducir por
contexto. Veamos ahora qué pasaŕıa si la publicación fuera:
‘‘abone el saldo restante ’’
¿Cómo podŕıamos definir si se está queriendo decir que ya se abonó el saldo restante
o si es una indicación para que se realice el pago? Podŕıa también aparecer una tilde en
la e y haber sido producto de una corrección automática, cuando en verdad no se habŕıa
querido utilizar, o simplemente se insertó por error. El contexto no nos permite saberlo.
Por lo mencionado recientemente, es que debemos avanzar un paso más en el proceso
de normalización y tomar la decisión de quitar todas las tildes del texto.
2.2.3. Caracterización del corpus
Habiendo realizado la recolección de tweets seguida de los procesos de tokenización y
normalización, finalmente podemos responder a los dos grandes interrogantes que plantea-
mos al comienzo de esta sección: ¿A qué llamamos palabra? y ¿Cómo se hace para obtener
las palabras a partir del texto de las publicaciones? y de esta forma poder definir nuestro
corpus.
Las palabras que componen nuestro corpus son aquellas expresiones ex-
tráıdas por el proceso de tokenización que respetan el patrón:
(?:[^\W\d_]+[’\-@\*/]?[^\W\d_]*)
y que hayan sido sometidas al proceso de normalización, donde se convirtie-
ron a minúscula, se le quitaron las tildes y se procesaron los alargamientos.
Cualquier otra expresión existente dentro del texto de las publicaciones que
recolectamos no forma parte del mismo.
Para comprender mejor el resultado de este procesamiento, observemos la tabla 2.1
donde podemos ver a modo ilustrativo el listado de las 270 palabras más utilizadas de
nuestra corpus junto a la cantidad de ocurrencias de cada una de ellas.
2.2. Armado del corpus 17
Posición Palabra Ocurrencias Posición Palabra Ocurrencias Posición Palabra Ocurrencias
1 que 45003237 91 tiene 1422912 181 e 629047
2 de 38068106 92 hasta 1393545 182 visto 627794
3 a 28651768 93 vez 1388255 183 madre 624234
4 la 28073239 94 cosas 1346768 184 viene 619903
5 me 25902177 95 noche 1309340 185 ojala 616936
6 no 24276338 96 casa 1309147 186 personas 616611
7 y 23140257 97 esto 1301406 187 veo 616069
8 el 21505169 98 gente 1283672 188 mil 611819
9 en 16671885 99 quien 1277928 189 sus 610793
10 se 11722519 100 amor 1268276 190 quiere 609999
11 te 10948071 101 vamos 1256899 191 espero 607545
12 un 10638618 102 alguien 1234969 192 ella 604065
13 con 10311434 103 feliz 1223172 193 persona 600869
14 mi 10282553 104 tanto 1211513 194 decir 597913
15 lo 10073765 105 esa 1207534 195 verdad 588418
16 es 9950524 106 perfil 1202049 196 parece 586052
17 por 8909181 107 mucho 1187762 197 todavia 585368
18 los 8452107 108 tener 1184234 198 amigos 579964
19 para 8050106 109 ese 1171891 199 falta 574139
20 mas 6960098 110 puede 1153435 200 momento 571429
21 si 6931112 111 estas 1119600 201 volver 565426
22 las 6871082 112 necesito 1081876 202 fin 561453
23 una 6701108 113 igual 1073966 203 jajajajajaja 560645
24 como 5774288 114 dias 1071895 204 hago 555559
25 yo 5333389 115 dos 1053137 205 hablar 554190
26 ya 5075629 116 jajajajaja 1035214 206 cara 553871
27 del 4840960 117 despues 1028195 207 estudiar 549827
28 esta 4828828 118 puta 973873 208 dale 548527
29 al 4460082 119 tambien 970847 209 vieja 543454
30 pero 4448461 120 nadie 970339 210 comer 540899
31 todo 4351557 121 extraño 949413 211 viernes 538723
32 q 4161119 122 era 934868 212 dijo 533567
33 quiero 3790132 123 menos 933559 213 tus 532137
34 tengo 3647441 124 año 920862 214 nomas 531895
35 le 3487428 125 dios 916318 215 cosa 525611
36 voy 3470636126 creo 910758 216 ultimas 520044
37 cuando 3315825 127 da 908316 217 peor 515488
38 vos 3227457 128 años 898036 218 estamos 515446
39 estoy 3215463 129 buen 888050 219 sigo 514006
40 dia 3172943 130 otra 886671 220 tenia 511824
41 hoy 2876213 131 buena 882800 221 onda 505453
42 jajaja 2848462 132 donde 882604 222 d 504635
43 tu 2756278 133 tiempo 863026 223 tienen 503024
44 o 2747284 134 pessoas 861245 224 corazon 494670
45 asi 2646726 135 odio 860331 225 saber 490981
46 ni 2532823 136 aca 855677 226 argentina 490491
47 re 2470043 137 cada 855585 227 hermoso 490337
48 nada 2428363 138 sea 854886 228 estos 489980
49 bien 2411388 139 pasa 851987 229 hermosa 489265
50 este 2396613 140 mama 843088 230 i 488306
51 ser 2351710 141 hora 829621 231 siesta 488213
52 siempre 2268977 142 salir 821888 232 jajaj 487981
53 porque 2238941 143 lpm 818018 233 boca 487483
54 hay 2158735 144 horas 803527 234 favor 486978
55 hace 2112568 145 paso 801686 235 papa 485914
56 amo 2090243 146 les 799325 236 unico 480075
57 ganas 2064452 147 ahi 795282 237 sabado 479666
58 tan 2059959 148 vas 794558 238 ay 478590
59 todos 2019236 149 linda 779210 239 final 477220
60 eso 2000936 150 desde 769997 240 deja 476653
61 va 1996843 151 video 757178 241 sabes 475799
62 mejor 1979891 152 amiga 757091 242 tomar 474426
63 ahora 1947830 153 seu 754620 243 x 473651
64 jajajaja 1940118 154 semana 747913 244 ahre 473534
65 vida 1848153 155 estan 735289 245 jajajaj 471133
66 nos 1844906 156 uno 735101 246 poder 462177
67 mal 1842150 157 tenes 730399 247 recien 455063
68 mañana 1822990 158 toda 724221 248 seguir 453398
69 soy 1813258 159 amigo 711910 249 che 452918
70 hacer 1796094 160 poco 709943 250 entre 451572
71 jaja 1777170 161 mundo 706246 251 mira 451335
72 ver 1768508 162 otro 706238 252 encima 449151
73 son 1745241 163 van 693615 253 grande 449104
74 nunca 1734698 164 ah 691090 254 anda 448768
75 sos 1716126 165 mismo 688011 255 finde 448564
76 dormir 1686428 166 siento 687890 256 fotos 448400
77 ir 1682776 167 sueño 681419 257 hizo 447920
78 sin 1646132 168 todas 680329 258 sola 446795
79 mis 1631486 169 gusta 661917 259 unos 446129
80 su 1609486 170 cabeza 661042 260 hacen 444727
81 gracias 1598480 171 dice 656398 261 partido 442662
82 puedo 1598353 172 tarde 652111 262 conmigo 438431
83 lindo 1585849 173 via 651992 263 pasar 436162
84 muy 1580365 174 veces 646928 264 sale 436133
85 algo 1554759 175 cuenta 644497 265 foi 433158
86 bueno 1545759 176 estaba 643784 266 the 432961
87 solo 1486967 177 foto 643047 267 suerte 425223
88 fue 1486206 178 loco 641460 268 iba 424204
89 estar 1476336 179 nuevo 638969 269 pedo 423436
90 mierda 1433306 180 antes 635749 270 dejar 423048
Tab. 2.1: Listado con las 270 palabras más utilizadas en nuestro corpus basado en publicaciones
de Twitter junto con la cantidad de ocurrencias de cada una de ellas.
18 2. Recolección de datos y armado del Corpus
En las figuras 2.4 y 2.5 podemos ver la cantidad de palabras distintas y totales por
provincia y año. Existen casos con grandes diferencias en cuanto a la cantidad de pala-
bras, ya sean distintas o totales. Por ejemplo, Mendoza tiene alrededor de un 50 % más de
palabras distintas que Misiones. También podemos ver que en 2016 tenemos una cantidad
de palabras distintas y totales sustancialmente mayor que todos sus años previos. Recor-
demos una vez más que esto no es un inconveniente dado que siempre que corresponda los
resultados se mostrarán normalizados por año y/o por provincia.
Por último, podemos ver a modo de resumen general de los datos que disponemos, las
tablas 2.2 y 2.3 donde se observan la cantidad de usuarios, tweets, palabras distintas y
totales por provincia y año respectivamente.
2.2. Armado del corpus 19
Fig. 2.4: Cantidad de palabras distintas y totales por provincia.
20 2. Recolección de datos y armado del Corpus
Fig. 2.5: Cantidad de palabras distintas y totales por año.
2.2. Armado del corpus 21
Provincia #Usuarios #Tweets #Palabras Distintas #Palabras Totales
Buenos Aires 2430 5578631 464212 47030503
Catamarca 2450 5480704 385031 43381467
Chaco 2456 5272002 371362 42525716
Chubut 2456 6023655 449007 52443609
Córdoba 2470 6689416 510897 57291855
Corrientes 2436 5739415 425833 47650440
Entre Rios 2443 6610549 462556 54999296
Formosa 2449 5471078 394192 43420164
Jujuy 2484 3855380 383823 33786382
La Pampa 2438 5676440 425920 47837603
La Rioja 2419 4036574 418940 38342888
Mendoza 2469 6723953 511025 60046671
Misiones 2458 4830252 349671 39721846
Neuquén 2421 6405036 471182 54194147
Ŕıo Negro 2441 6669275 453245 56274927
Salta 2411 5043739 460594 46269820
San Juan 2454 6094976 468016 52439752
San Luis 2463 5464760 383542 46444158
Santa Cruz 2426 4381686 392552 39212046
Santa Fe 2461 5666355 489009 52224368
Santiago del estero 2445 5992847 428008 47216927
Tierra del Fuego 2446 4871099 443752 43382299
Tucumán 2482 6071939 463467 52728935
Tab. 2.2: Cantidad de usuarios, tweets y palabras distintas y totales por provincia.
Año #Usuarios #Tweets #Palabras Distintas #Palabras Totales
2007 4 199 774 1641
2008 6 333 1412 3482
2009 124 4079 10011 43922
2010 1154 38251 37804 397462
2011 2242 201352 103188 2097386
2012 3984 646690 185202 6414659
2013 8235 2457892 371745 21796421
2014 15287 6256060 550230 51236417
2015 27463 12983106 760052 103819884
2016 52387 43767354 1477271 345923063
2017 56198 25051779 1096827 205023495
2018 34667 17223764 927791 164783005
2019 37882 17885487 993883 175908376
2020 29706 2133415 290132 21416606
Tab. 2.3: Cantidad de usuarios, tweets y palabras totales y distintas por año. En total son
128.649.761 tweets, 56.308 usuarios, 3.328.981 palabras distintas y 1.098.865.819 pala-
bras totales.
22 2. Recolección de datos y armado del Corpus
3. DETECCIÓN DE USO DEL LENGUAJE INCLUSIVO
En este caṕıtulo pretendemos explicar cómo detectamos el uso del lenguaje inclusivo
dentro del corpus. Comencemos por mencionar que no existe una formalización acerca de
cuáles son las palabras utilizadas en el lenguaje inclusivo, ni tampoco de cómo se las puede
generar a partir de lemas. Por lo tanto, el enfoque que escogimos consistió en generar un
inventario de palabras que sabemos que se utilizan o que potencialmente se podŕıan utilizar
dentro del lenguaje inclusivo, para luego buscarlas en nuestro corpus.
Para esto, en primer lugar debimos definir qué palabras o clases de palabras son utili-
zadas dentro del lenguaje inclusivo. Cabe aclarar que cuando decimos clases de palabras
nos referimos a los adjetivos, sustantivos, pronombres, etc. Una vez seleccionadas estas pa-
labras, nos interesó quedarnos con sus lemas asociados dado que el segundo paso consistió
en convertir éstos a todos los tipos de inclusivo que pretendimos buscar. De esta forma, el
inventario se compuso de un conjunto de lemas junto con sus conversiones a cada tipo de
inclusivo, derivadas tanto en plural como en singular.
Por último, una vez generado el inventario, el tercer paso consistió en realizar la búsque-
da de cada una de sus palabras dentro del corpus. Dada la gran cantidad de palabras, tanto
del inventario como del corpus, tuvimos que implementar una forma eficiente de llevar a
cabo esta tarea.
Pasando en limpio, a lo largo de este caṕıtulo explicaremos en detalle cada una de las
siguientes tres etapas necesarias para detectar usos del lenguaje inclusivo:
Selección de los lemas que potencialmente podŕıan ser intervenidos para utilizar en
el lenguaje inclusivo
Conversión de los lemas seleccionados a todos los tipos de intervenciones del lenguaje
inclusivo (por simplicidad, nos referiremos a ellos como “tipos de inclusivo”).
Búsqueda eficiente de todo el inventario dentro del corpus
3.1. Selección de lemas potencialmente intervenidos en el lenguaje in-
clusivo
Como primera etapa para el armado del inventario de palabras del lenguaje inclusivo
debimos seleccionar las palabras o clases de palabras que ya sab́ıamos que eran utilizadas
o que créıamos que potencialmente podŕıanserlo. A partir de alĺı la idea consistió en
quedarnos con el conjunto de lemas asociados a estas palabras, ya que son éstos los que
luego convertimos a todos los tipos de inclusivo.
El proceso de selección se dividió en dos partes. Por un lado tomamos casos de palabras
que sab́ıamos que eran utilizadas en el lenguaje inclusivo y con ellas intentamos generalizar
y descubrir cuáles eran algunas de las clases de palabras que teńıan sentido incorporar a
nuestro inventario. Por ejemplo, sab́ıamos que chico era un lema que se soĺıa intervenir
ya que hab́ıamos visto usos de chicxs o de chiques, entre otros. Por lo tanto, sabiendo
que chico es tanto un adjetivo calificativo como un sustantivo común, en ambos casos de
cuatro terminaciones (chico, chica, chicos, chicas), determinamos que deb́ıamos considerar
los lemas correspondientes a ambas clases de palabras. Otro ejemplo es el del lema los.
23
24 3. Detección de uso del lenguaje inclusivo
En este caso estamos hablando de un determinante art́ıculo (Los chicos jugaron todo el
d́ıa), como también de un pronombre personal (Su mamá los ayudó con la idea), por ende
decidimos incorporar todos los lemas correspondientes a estas dos clases.
La fuente que utilizamos para obtenerlos fue el diccionario provisto por FreeLing, una
herramienta desarrollada para análisis del lenguaje. Éste cuenta con casi 600.000 palabras,
todas con su correspondiente etiqueta que indican clase de palabra (también definida como
categoŕıa de palabra), tipo, género, número, etc. El listado completo de etiquetas junto
con su explicación se detallan en la documentación oficial de FreeLing [24].
Continuando con el mismo proceso de búsqueda de palabras intervenidas e incorpora-
ción de los lemas correspondientes a sus clases de palabras, hallamos casos que no figuraban
en el diccionario utilizado. Tal es el caso de los gentilicios de las localidades argentinas.
Para poder incorporarlos a nuestro conjunto de lemas obtuvimos un extenso listado utili-
zando Wikipedia como fuente [25]. Por último, decidimos incorporar también lemas sueltos
que tampoco se encontraban en el diccionario, como ser pibe, boludo y fachero.
Como segunda parte del proceso de selección, optamos por realizar el proceso inverso al
recientemente mencionado. En este caso tomamos todas las clases de palabras existentes
en el diccionario y analizamos casos particulares de cada una de ellas con el fin de ver
si era necesaria incluir sus lemas o no. Por ejemplo, cuando tomamos los verbos, vimos
que en sus modos indicativo o imperativo, entre otros, no teńıa sentido contemplarlos. Sin
embargo, los verbos participios podŕıan ser utilizados dentro del lenguaje inclusivo y por
ende los incorporamos.
Habiendo realizado los dos procesos de selección, el listado completo de clases de pa-
labras que consideramos se puede observar en la tabla 3.1.
Clase
Ejemplos
Lema Fem. Sing. Masc. Sing. Fem. Plu. Masc. Plu.
Adjetivos de 4 terminaciones lindo linda lindo lindas lindos
Adjetivos ordinales 1 primera primero primeras primeros
Determinantes art́ıculos el la el las los
Determinantes demostrativos ese esa ese esas esos
Determinantes interrogativos cuánto cuánta cuánto cuántas cuántos
Determinantes posesivos nuestro nuestra nuestro nuestras nuestros
Pronombres demostrativos éste ésta éste éstas éstos
Pronombres indefinidos otro otra otro otras otros
Pronombres interrogativos cuánto cuánta cuánto cuántas cuántos
Pronombres personales el ella él ellas ellos
Sustantivos de 4 terminaciones dueño dueña dueño dueñas dueños
Verbos participios acompañar acompañada acompañado acompañadas acompañados
Gentilicios jujeño jujeña jujeño jujeñas jujeños
Tab. 3.1: Clases de palabras consideras para el armado del inventario de palabras del lenguaje
inclusivo. Notar que los lemas de los adjetivos ordinales son números. Esto es una decisión
de FreeLing que sostuvimos.
Una vez incorporadas todas estas clases de palabras, obtuvimos un conjunto de 25.337
lemas que consideramos que potencialmente podŕıan ser intervenidos para utilizarse en
el lenguaje inclusivo. Sin embargo, antes de obtener el conjunto definitivo, fue necesario
realizar algunos refinamientos.
En primer lugar, notemos que podŕıan haber casos de lemas repetidos. Por un lado,
podŕıan existir palabras que, sin un contexto adecuado, correŕıan el riesgo de ser clasifi-
cadas por más de una clase. Por ejemplo, virtuoso puede ser interpretada como adjetivo
pero también como sustantivo.
3.2. Conversión de los lemas al lenguaje inclusivo 25
Por otro lado, recordemos que en el proceso de normalización de tokens decidimos
eliminar las tildes. Para mantener la consistencia, debimos replicar esta decisión en las
palabras a buscar. Esto generó que, por ejemplo, casos como el pronombre interrogativo
cuántos se convirtiera a cuantos, solapándose aśı con el pronombre relativo. Debido a estos
dos factores, decidimos eliminar todos los lemas repetidos. Es importante comprender que
para el alcance de nuestro estudio esto no es un problema ya que no se quiso analizar el
fenómeno del lenguaje inclusivo en cuanto a las clases de palabras. Es decir, no pretendimos
mostrar, por ejemplo, si los sustantivos son más utilizados que los adjetivos o análisis
similares. Luego de aplicar este primer filtro, el conjunto se redujo a 22.513 lemas.
En segundo lugar, nos planteamos si teńıa sentido considerar la totalidad de estos
lemas, teniendo en cuenta que partimos de un extenso diccionario donde exist́ıa la posi-
bilidad de que algunas de las palabras filtradas no tengan uso dentro de nuestro corpus.
Por esta razón, tomamos la decisión de considerar solo aquellos lemas que hayan sido uti-
lizados en nuestro corpus en alguna de sus variantes de género y número. Por ejemplo, no
registramos usos de ninguna de las 4 combinaciones de masculino y femenino, singular y
plural, de la palabra zurriagar, es decir, no tenemos en nuestro corpus apariciones de los
verbos participios zurriagada, zurriagado, zurriagadas ni zurriagados, por ende se descartó
este lema.
Al finalizar todo el proceso de filtrado y refinamiento, nuestro conjunto de lemas que
eventualmente podŕıan ser utilizados dentro del lenguaje inclusivo quedó compuesto por
13.874 lemas.
3.2. Conversión de los lemas al lenguaje inclusivo
Una vez obtenido el conjunto de lemas que potencialmente se podŕıan intervenir para
utilizar en el lenguaje inclusivo, fue necesario completar el inventario con las conversiones
a cada uno de los tipos de inclusivo, tanto para el plural como para el singular. En la tabla
3.2 podemos observar el listado de tipos de inclusivo que se consideraron en un primer
momento. Junto a ellos vemos un ejemplo para cada número, es decir, uno para el plural
y otro para el singular.
Tipo de inclusivo
Ejemplos
Singular Plural
((@)) lind@ lind@s
((x)) lindx lindxs
((e)) linde lindes
((/)) lindo/a lindos/as
((y/o)) lindo o linda lindos y lindas
((*)) lind* lind*s
Tab. 3.2: Tipos de inclusivo que consideramos en un primer momento junto con un ejemplo para
cada uno de ellos.
Dado que el proceso de conversión y conjugación no fue el mismo para cada tipo de
inclusivo, veamos a continuación el detalle de cómo se llevó a cabo este proceso para cada
uno de ellos.
Tipos de inclusivo: ((@)) y ((x))
26 3. Detección de uso del lenguaje inclusivo
La conversión y conjugación de estos dos tipos de inclusivo fueron similares. Por lo tan-
to, las explicaremos en conjunto. Al revisar los lemas que teńıamos que convertir notamos
que deb́ıamos separar el proceso en dos casos.
El primero de ellos, y más simple de procesar, fue el caso de las palabras que terminan
con una vocal, como por ejemplo lindo o nene. Para estos casos simplemente tomamos de
cada lema la versión del masculino en singular y plural y les reemplazamos la última vocal
por un ((@)) o una ((x)) según correspondiera. Aśı por ejemplo, para el lema lindo tomamos
lindo y lindos y, reemplazandola última vocal, obtuvimos por un lado lind@ y lind@s, y
por otro lado lindx y lindxs.
El segundo escenario se basó en los lemas cuyas terminaciones fueran con una vocal
seguida de una consonante, como por ejemplo terminaciones en ón, or, es, ol, etc. El
problema para realizar la conversión del singular en estos casos fue que teńıamos distintas
alternativas para tomar de base, ya que pod́ıamos partir tanto del masculino como del
femenino y ambas opciones eran válidas.
Veamos un ejemplo para clarificar estos casos. Tomemos las palabras campeón y agresor
y observemos que según la versión que tomáramos de base, ya sea el singular masculino
o el femenino, podŕıamos obtener campe@n o campeon@, y agres@r o agresor@. Ambas
versiones eran válidas y por lo tanto optamos por utilizar las dos.
Por otro lado, notemos que para el plural esto no sucede ya que tomando de base
las versiones de ambos géneros, la palabra resultante es la misma. Es decir, estaŕıamos
partiendo de palabras cuyos sufijos son es y as, como por ejemplo campeones, campeonas,
agresores y agresoras, y en cualquiera de los dos casos, el resultado seŕıa el mismo. En
nuestro ejemplo obtendŕıamos campeon@s y agresor@s.
En conclusión, para los tipos de inclusivo con ((@)) y ((x)), dependiendo de la terminación
de los lemas, tenemos casos para los cuales disponemos de dos versiones en singular y
casos para los cuales disponemos de una sola versión. En cuanto al plural, para todos los
lemas tenemos una única versión. En la tabla 3.3 podemos observar los ejemplos expuestos
recientemente a modo de resumen.
Lema Singular versión 1 Singular versión 2 Plural única versión
lindo lind@ - lindx - lind@s - lindxs
agresor agres@r - agresxr agresor@ - agresorx agresor@s - agresorxs
Tab. 3.3: Ejemplos de conversiones a los tipos de inclusivo ((@)) y ((x)). Observemos que dependiendo
de la terminación del lema podemos disponer de una o dos versiones en singular. Para el
plural contamos con una única versión para todos los casos.
Tipos de inclusivo: Desdoblamientos con ((y/o)) y con ((/))
La conversión y conjugación de estos dos tipos de inclusivo también las explicaremos
en conjunto dado que fueron similares, aunque hubo algunas diferencias que detallaremos
por separado.
Comencemos por ver los puntos particulares de cada tipo de inclusivo. Por empezar,
para los desdoblamientos con ((y/o)) decidimos utilizar como conector para el plural la
palabra ((y)) y para el singular la palabra ((o)). Esto se debe a que si alguien quiere hacer
referencia a una única persona y desconoce su género, o simplemente no quiere asumirlo,
probablemente utilice expresiones como el o la, o también ganador o ganadora.
Para el caso de los desdoblamientos con ((/)), la principal decisión que debimos tomar
se basó en determinar de qué forma compońıamos las palabras intervenidas. Algunas de
3.2. Conversión de los lemas al lenguaje inclusivo 27
las opciones eran, por ejemplo, todos/todas o todos/as. En particular decidimos utilizar
solo la última versión, es decir, la que no duplica la palabra completa sino que solo agrega
el sufijo del género opuesto. En el ejemplo reciente, estaŕıamos hablando de la alternativa
todos/as.
Pasemos ahora a mencionar el procesamiento en común de los dos desdoblamientos.
Para empezar, en ambos tipos de inclusivo decidimos generar cuatro versiones, dos en sin-
gular y dos en plural. Sabiendo que es un tipo de inclusivo que contempla únicamente dos
géneros, el masculino y el femenino, en particular se quiso ver cuál de los dos se antepone
con mayor frecuencia. Por lo tanto, para cada lema de nuestro inventario incorporamos
dos versiones de cada número. Es decir, generamos una versión en singular anteponiendo
el masculino y otra versión anteponiendo el femenino. Lo mismo hicimos para el plural,
completando aśı las cuatro versiones.
Tomando como ejemplo el lema todo, veamos la tabla 3.4 donde exponemos las cuatro
versiones de cada desdoblamiento.
Singular versión 1 Singular versión 2 Plural versión 1 Plural versión 2
((y/o)) todo o toda toda o todo todos y todas todas y todos
((/)) todo/a toda/o todos/as todas/os
Tab. 3.4: Ejemplos de conversiones a los tipos de inclusivo desdoblamientos con ((y/o)) y ((/)). Obser-
vemos que disponemos de dos versiones para cada número: una anteponiendo el masculino
y otra el femenino.
Tipo de inclusivo: ((e))
La conversión y conjugación de los lemas al tipo de inclusivo con la letra ((e)) no fue
trivial ya que requirió iterar por varios enfoques hasta llegar a la solución que finalmente
utilizamos.
El primer enfoque consistió en llevar adelante el mismo proceso realizado con el ((@))
y la ((x)), teniendo especial consideración con los lemas que terminaran en co y go, los
cuales deb́ıan ser modificados de tal forma que finalizaran con que y gue respectivamente.
A modo de ejemplo, si tomáramos los lemas loco y amigo, las versiones intervenidas para
el singular debeŕıan ser loque y amigue.
Luego de modificar todos los lemas del inventario de esta forma, realizamos una ex-
ploración preliminar buscando las palabras intervenidas en el corpus. Alĺı notamos que
exist́ıa una gran cantidad de falsos positivos. Es decir, hab́ıamos identificado como usos
del lenguaje inclusivo palabras que por el contexto sab́ıamos que no se estaban utilizando
de tal modo. En este punto detectamos un primer problema de este enfoque: al realizar la
conversión, las palabras resultantes pertenećıan al lenguaje. Un claro ejemplo de esto es
el caso de la palabra amigos, que luego de ser intervenida resulta en el verbo subjuntivo
amigues, que podŕıa ser utilizado en frases como no te amigues con esa persona.
Como primera medida, y para poder seguir adelante con la exploración preliminar,
decidimos descartar aquellas palabras que al ser convertidas a este tipo de inclusivo resul-
tasen en palabras pertenecientes al diccionario. Sin embargo, esto tampoco fue suficiente,
dado que segúıamos encontrando falsos positivos como los siguientes:
argentino −→ argentine gentilicio de argentino en inglés.
solo −→ sole en referencia al nombre Soledad.
viejo −→ vieje typo al escribir viaje.
loco −→ loque typo al escribir lo que donde faltaŕıa el espacio.
28 3. Detección de uso del lenguaje inclusivo
memo −→ meme en referencia al chiste gráfico.
Como último punto a mencionar de este enfoque, decidimos descartar una de las dos
versiones de las palabras intervenidas en singular. En un principio hab́ıamos optado por
replicar la idea utilizada en los tipos de inclusivo ((@)) y ((x)), donde para los lemas con
terminaciones en vocal seguida de consonante, como por ejemplo ón, or, es, ol, etc., ge-
neramos dos versiones del singular. Veamos un ejemplo para comprender el porqué de
esta decisión. Cuando tomamos el lema trabajador, las dos posibles versiones en singular
resultaban en trabajader y trabajadore. Sin embargo, durante esta exploración preliminar,
notamos que los casos donde se utilizaba esta segunda forma, trabajadore, en general pa-
rećıan corresponder a typos donde se hab́ıa querido escribir trabajadores y hab́ıa faltado
la letra s. Por este motivo decidimos quedarnos únicamente con la primera versión.
Ante estos casos fallidos, nos dimos cuenta que este enfoque no nos estaba condu-
ciendo a buen puerto. Avanzamos entonces en un segundo enfoque, donde intentamos
hacer un análisis según la cantidad de usuarios diferentes que usaban cada palabra y otro
basándonos en la longitud de las mismas, pero en ninguno de los dos casos llegamos a algo
consistente y confiable.
En este punto asumimos que no iba a ser viable encontrar una solución completamente
automatizada para detectar en nuestro corpus los más de 13 mil lemas intervenidos del
inventario con el tipo de inclusivo ((e)), sin obtener una gran cantidad de falsos positivos.
Todo esto sumado a que el objetivo del trabajo es dar una idea de la presencia del fenómeno
del lenguaje inclusivo en Twitter y por