n10a2

Pedagogía

Karen De hoyos

14/9/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Pedagogía

677.740 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Detection of bilingual plagiarism

Detección de Plagio Bilingüe

Frank Zamora R.1, Daniel Castro C.2, Elizabeth Labrada D.3
1 Universidad de Granma. Cuba. fzamorar(AT)udg.co.cu
2, 3 Desarrollo de Aplicaciones, Tecnologías y Sistemas (DATYS). Cuba. daniel.castro(AT)cerpamid.co.cu; elabrada(AT)csd.edu.cu

INFORMACIÓN DEL ARTÍCULO

Artículo de Investigación

Historia
Recibido: 09-01-2016
Correcciones: 22-04-2016
Aceptado: 19-05-2016

Keywords
Plagiarism, monolingual, bilingual

Palabras clave
Plagio, bilingüe, monolingüe

ABSTRACT
In this paper a computational algorithm for text alignment in the task of automatically
detecting bilingual plagiarism is proposed. The method of detecting bilingual plagiarism uses
machine translation services, in order to have the documents in question a base language, and
apply techniques of monolingual plagiarism. The algorithm was tested with The corpus
belonging to the International Competition Plagiarism 2013, with the objective of evaluating
the step of detecting monolingual plagiarism. Besides it’s experimented with the collection of
texts EUROPARL, a collection of documents pertaining to the meeting the European
Parliament, specifically it´s to English and Spanish documents.

RESUMEN
En este trabajo se construyó un algoritmo computacional para la alineación de textos en la
tarea de detección de plagio bilingüe. El método de detección de plagio bilingüe hace uso del
servicio de traductores automáticos, con la finalidad de tener los documentos en cuestión en
un idioma base, para después aplicar técnicas de plagio monolingüe. El algoritmo fue probado
con el corpus perteneciente a la Competencia Internacional de Detección de Plagio del año
2013, para evaluar la etapa de detección de plagio monolingüe. Además, se experimentó con
la colección de textos EUROPARL, una colección de documentos pertenecientes a la reunión
del parlamento europeo, de los que se tomaron los documentos en inglés y español, con la
finalidad de probar la etapa bilingüe.

7. Introducción
Las nuevas facilidades de acceso a la información han
creado un ambiente amplio para que estudiantes e
investigadores accedan a una vasta cantidad de
documentos, artículos y otras publicaciones, con las que
pueden fortalecer su preparación y enriquecer sus
conocimientos. Lamentablemente, estas facilidades han
creado la presentación de trabajos pocos originales en
escuelas y universidades, como consecuencia del plagio de
obras previamente publicadas, convirtiéndose esta falta en
un problema para la educación y la investigación. En la
literatura existen disímiles definiciones de plagio, tales
como:
 Copiar en lo sustancial obras ajenas, presentándolas
como propias [1].
 Utilizar cualquier fuente publicada o no sin el debido
reconocimiento a la fuente [2].
 Apropiación de palabras e ideas de otros [2].
El plagio se puede presentar en música, imágenes,
documentos escritos e incluso ideas. El presente trabajo se
enfoca en el plagio escrito, es decir, el plagio de
documentos. En este ámbito, el acto de plagiar significa
incorporar fragmentos de un documento escrito por otro
autor sin darle el crédito correspondiente.
La detección manual de plagio se ha convertido en una
tarea prácticamente imposible, debido a la cantidad de
información disponible en medios digitales: base de datos,
internet o dispositivos de almacenamiento masivo. Esta
problemática se ha intentado solucionar creando sistemas
que asisten en la toma de decisiones acerca del posible
plagio de un documento, pero la tarea es titánica. De
acuerdo con Iyer y Singh [3], se pueden distinguir varios
tipos de plagio:
 Literal o exacto. Se basa en la copia exacta de
fragmentos de un documento sin incluir su fuente.
 De referencias. Ocurre cuando una referencia está en un
documento y se incluye en otro documento sin haber
leído el origen.
 De autoría. Ocurre cuando un autor afirma ser creador
de un trabajo que fue realizado por otro.
El análisis automático de plagio en documentos se puede
abordar a través del análisis con referencia. Esta técnica
consiste en encontrar los casos de plagio mediante la
comparación del documento sospechoso con las posibles
fuentes de los fragmentos plagiados. El documento
sospechoso y los documentos fuentes pueden haber sido
escritos en un mismo idioma (análisis monolingüe) o en
diferentes idiomas (análisis multilingüe). La detección de
Revista Antioqueña de las
Ciencias Computacionales y la Ingeniería de Software

ISSN: 2248-7441

www.fundacioniai.org/raccis
raccis(AT)fundacioniai.org

(2016). RACCIS 6(1), pp. 15-19.
16

plagio multilingüe ha sido poco tratada con referencia a la
monolingüe. Este tipo de plagio consiste en traducir un
fragmento de un documento de manera manual o
automática y atribuirse la autoría de dicho texto.
El objetivo principal de este trabajo es implementar un
método que permita detectar fragmentos de plagio entre
dos textos que se encuentran en diferentes idiomas, inglés
y español en este caso, haciendo uso de traductores
automáticos. Entre los objetivos específicos se encuentra
crear un módulo configurable que permita la traducción de
textos mediante el uso de traductores existentes. Además,
implementar un módulo de detección de plagio
monolingüe que permita, dado un documento sospechoso
y una posible fuente, encontrar todos los pasajes de
máxima longitud reutilizados.
8. Metodología
En esta sección se expone el algoritmo implementado para
la detección de plagio bilingüe, así como una descripción
de las principales etapas del mismo.
8.1 Detección de plagio monolingüe
Dado dos documentos, uno fuente y otro sospechoso,
escritos en un mismo idioma, la tarea de detección de
plagio monolingüe consiste en recuperar aquellos
fragmentos del documento sospechoso que han sido
plagiados del documento fuente. Para Potthast et al. [4], un
sistema de detección de plagio monolingüe para
alineamientos de textos consta generalmente de:
1. Pre-procesamiento. Con el objetivo de mejorar los
resultados y emplear determinados enfoques en la
tarea de detección de plagio, inicialmente se aplican
técnicas de pre-procesamiento a los documentos. A
continuación, se enumeran algunas de ellas:
 Normalización de los caracteres: transformar todos
los caracteres a minúsculas y eliminar los signos
diacríticos tales como tildes, diéresis y otros.
 Segmentación de los documentos en tokens
(secuencia de unidades léxicas significativas, tales
como números, palabras, signos de puntuación,
fechas, etc.).
 Identificación de oraciones y párrafos.
 Hallar la raíz o el lema de las palabras.
 Eliminar signos de puntuación y espacios en blanco.
 Eliminar palabras auxiliares [5]. Por lo general,
estas palabras aparecen con frecuencia en un
idioma y carecen de significado, tales artículos,
pronombres, preposiciones, …
 Unir oraciones pequeñas consecutivas hasta que el
fragmento formado alcance cierta longitud.
2. Selección (detección de semillas). Dado un documento
sospechoso y un documento fuente, el objetivo de esta
etapa es obtener un conjunto de candidatos de longitud
pequeña, llamados semillas. Cada caso consiste en un
par conformado por un fragmento pequeño del
documento sospechoso y un fragmento pequeño del
documento fuente, los cuales son similares en algún
sentido [6].
3. Integración (extensión). Dado un conjunto de semillas
identificadas, esta etapa tiene como propósito extender
cada una convirtiéndolas en fragmentos de textos
continuos de longitud máxima, que se alineen entre los
documentos sospechoso y fuente, los cuales, después
del proceso de filtrado, se reportan como plagio.
4. Post-procesamiento (filtrado). En esta etapa, dado un
conjunto de pasajes alineados, se remueven los que no
cumplan con cierto criterio. Generalmente se descartan
los pequeños oaquellos que tienen solapamiento.
En este sentido, Rodríguez y Martín [7, 8] buscan
correspondencias en los textos extrayendo n-gramas de
contexto (CTnG) y algunas variaciones de estos, a los que
denominan n-gramas de contexto cercano (SCnG) y odd-
even n-gramas (OEnG). El objetivo es encontrar las mismas
características en ambos documentos. Los 𝑛-gramas de
contexto permiten mejorar la detección de los casos de
plagio donde se varía el orden de las palabras, y los 𝑛-
gramas de contexto cercano resultan útiles en los casos de
plagio donde se varían las palabras por sinónimos, o se
eliminan palabras o insertan nuevas palabras.
El método toma como semillas las oraciones de los
documentos [6] y cada oración del sospechoso y el fuente
es representada con el modelo de espacio vectorial (VSM
por sus siglas en inglés) y el esquema de pesado tf-idf,
donde la frecuencia (tf) de cada término se calcula con
respecto a la oración a la que pertenece, y para el cálculo
de la frecuencia inversa de documento (idf) se toma como
colección de documentos el conjunto de oraciones que se
obtiene entre los documentos sospechoso y fuente. Luego
se incluyen un par de oraciones, una del documento
sospechoso y otra del fuente, para analizar si sus
semejanzas superan los umbrales (0.33 en ambos casos).
8.2 Detección multilingüe de plagio
En esta tarea el objetivo es recuperar aquellos fragmentos
del documento sospechoso que han sido plagiados desde
el documento fuente. Es decir, los fragmentos que fueron
traducidos y reusados de alguna forma sin proporcionar la
referencia. Existen varios enfoques utilizados en el cálculo
de la semejanza de textos en diferentes idiomas, que han
sido utilizados en la tarea de la detección multilingüe de
plagio y que presentan a continuación.
 Traducción automática. En este enfoque se traducen los
textos a un mismo idioma, por lo general al inglés,
porque es el idioma que cuenta con más herramientas
para su procesamiento. Cuando los documentos se
encuentran en un mismo idioma se aplican técnicas de
detección de plagio monolingüe. El funcionamiento y el
buen desempeño de este enfoque están sujetos a la
disponibilidad de un sistema de traducción automática
y de su calidad.
Pereira et al. [9] dividen el documento sospechoso y el
fuente en párrafos y luego traducen cada párrafo a un
mismo idioma, que por defecto es el inglés. Los párrafos
son indexados por las raíces de sus palabras después de
eliminar las auxiliares. Luego se aplica un algoritmo de
clasificación para determinar si una pareja de
fragmentos, uno sospechoso y otro fuente, constituyen
un caso de plagio. En el proceso se utilizan como rasgos
la longitud de cada fragmento y la semejanza coseno
entre los fragmentos, entre otros.
17

Trifan [10] traduce los textos a inglés, devolviendo para
cada palabra las tres mejores traducciones;
posteriormente aplica el método Winnowing [11] para
extraer los fingerprints (huellas dactilares) mediante la
división de los textos en 5-gramas de palabras.
 Basados en sintaxis. Estos enfoques se basan en la
semejanza léxico-sintáctica que existen entre algunos
idiomas, la cual se observa al utilizar términos cortos
como n-gramas de caracteres, prefijos, etc. [12].
Los cognados son palabras similares entre lenguajes,
tales como curioso (ES) y curious (EN). De acuerdo con
Simard y sus colegas [13], la representación de
documentos utilizando esta característica resulta útil
en la alineación de textos en diferentes idiomas, por lo
que se puede utilizar en la detección multilingüe de
plagio. Dados dos textos en diferentes idiomas cada,
uno se representa como un vector de términos, donde
se utilizan las primeras cuatro letras de cada palabra o
la palabra completa, en caso de contener números.
Luego, la semejanza entre los vectores se calcula con
alguna unidad de medida, como el coseno. Este método
es llamado CL-COG [12].
 Basado en tesauros Multilingües. En este enfoque se
utilizan tesauros multilingües para indexar
documentos escritos en diferentes idiomas en un
espacio de comparación común. Los términos en estos
tesauros están conectados con sus sinónimos en los
diferentes lenguajes (synsets multilingües), por lo que
los textos pueden ser comparados indexándolos por
sus índices interlinguas [14]. Una de las dificultades de
este enfoque es que la mayoría de tesauros son
incompletos, por lo que no se obtienen buenos
resultados.
9. Método propuesto

Figura 1. Método propuesto para la detección de plagio bilingüe
En la Figura 1 se muestra un ejemplo del funcionamiento
del algoritmo implementado cuando la entrada son dos
documentos, uno en español y otro en inglés, que es el
documento fuente. El algoritmo está compuesto por dos
etapas: 1) traducción, que involucra de manera opcional la
traducción por párrafos, y 2) detección de plagio
monolingüe. La primera tiene como propósito llevar los
documentos de entrada a un mismo idioma. Luego se
procede a detectar los fragmentos de plagio a través de la

1 https://www.apertium.org/index.spa.html?dir=epo-eng#translation
etapa de detección de plagio monolingüe. Después de
obtenidos los fragmentos de plagios, se presentan en
formato XML.
9.1 Etapa de traducción
Esta etapa es la encargada de traducir documentos a un
idioma seleccionado y, para lograrlo, el método cuenta con
dos traductores incorporados: Apertium1 que se encuentra
en los repositorios del sistema operativo Linux y que se
utiliza en ambientes donde no existe conectividad a
Internet, y Freetranslator2, empleado cuando hay acceso a
Internet. Estos traductores cuentan con un archivo
configurable, en el que se especifica el idioma al que se
quiere traducir el documento. En el caso del traductor
online, se añade al archivo el usuario y la contraseña de la
persona que quiere utilizar el servicio, lo mismo que la
dirección IP predeterminada para la navegación.
9.2 Detección de plagio monolingüe
Esta etapa de detección está dividida en cuatro fases: pre-
procesamiento, selección, integración y post-
procesamiento. La tarea general del pre-procesamiento es
segmentar el texto en n-gramas contextuales y de contexto
cercano, lo que se convierte en la salida de esta fase. La
selección toma como entrada la salida de la fase anterior
con el objetivo de buscar todas las coincidencias de n-
gramas que se encuentran en ambos textos. La salida de
esta fase son todos los pares de n-gramas hallados en el
documento sospechoso y en el documento fuente. La
integración recibe como entrada todas las coincidencias de
n-gramas encontradas en la fase anterior, para extender
cada n-grama y convertirlo en fragmentos de textos
continuos de longitud máxima. Dado el conjunto de
fragmentos de textos alineados, el propósito del post-
procesamiento es remover los que no cumplan con ciertos
criterios, en este caso los de longitud pequeña.
9.3 Salida del algoritmo

Figura 2. Salida del algoritmo
En la Figura 2 se muestra la salida que debe tener un
algoritmo de detección de plagio para la tarea de
alineamiento de texto de la Competencia Internacional de
Detección de Plagio. Se aprecia que el XML agrupa
información sobre dos documentos: la primera línea
corresponde al nombre del documento sospechoso que se
está analizando; la tercera al nombre de la tarea que se está
llevando a cabo, que es la detección de plagio; la cuarta al
caracter de inicio del fragmento que fue copiado del
documento fuente; y la quinta indica la longitud total del
2 http://www.freetranslator.com
https://www.apertium.org/index.spa.html?dir=epo-eng#translation
http://www.freetranslator.com/
18

pasaje. La sexta línea hace referencia al nombre del
documento fuente con el que se está comparando el
documento sospechoso; la séptima al inicio del caracter del
fragmento que fue objeto de copia; y la octava indica la
longitud total del pasaje.
10.Experimentación y análisis de resultados
Para realizar los experimentos se utilizaron dos corpus de
prueba: 1) Competencia Internacional de Detección de
Plagio de 2013, para evaluar la componente de detección
de plagio monolingüe del método propuesto. Este corpus
está compuesto por cinco sub-corpus:
1. No-plagio
2. Plagio no ofuscado
3. Plagio con ofuscación
4. Plagio con traducción ofuscado
5. Plagio con resumen ofuscado
2) EUROPARL, que es una colección de documentos del
Parlamento Europeo en 2000, los cuales se encuentran en
inglés y español. Este corpus se empleó para determinar la
efectividad del algoritmo, y su principal característica es
que las traducciones fueron realizadas manualmente.
Los resultados de los experimentos se evaluaron con la
medida plagdet score, que depende de las medidas de
granularidad y F1, utilizadas en el primer corpus para
evaluar el desempeño de los sistemas detectores de plagio,
cuya fórmula se detalla en la siguiente ecuación.
𝑝𝑙𝑎𝑑𝑔𝑒𝑡(𝑆, 𝑅) =
𝐹1
log2(1 + 𝑔𝑟𝑎𝑛𝑢𝑙𝑎𝑟𝑖𝑑𝑎𝑑(𝑆, 𝑅))

𝐹1 = 2x
𝑝𝑟𝑒𝑐(𝑆, 𝑅) 𝑥 𝑟𝑒𝑙(𝑆, 𝑅)
𝑝𝑟𝑒𝑐(𝑆, 𝑅) + 𝑟𝑒𝑙(𝑆, 𝑅)

𝑔𝑟𝑎𝑛𝑢𝑙𝑎𝑟𝑖𝑑𝑎𝑑(𝑆, 𝑅) =
1
|𝑆𝑟|
∑ |𝑅𝑠|
𝑠є𝑆𝑟

Donde S es el conjunto de plagio reportado en el corpus y
R el conjunto de plagio detectado por el sistema.
10.1 Experimentación con el corpus monolingüe
Estos experimentos se utilizan para comprobar la
efectividad de la etapa de detección de plagio monolingüe.
Además, se presentan diferentes comparaciones en cuanto
a la eficacia del método, atendiendo parámetros tales como
la longitud de los n-gramas y el umbral de adyacencia.
Después de varios experimentos en la búsqueda de
umbrales de adyacencia que ofrecieran buenos resultados,
se determinó que los mejores resultados se obtienen
cuando los umbrales de adyacencia son λ = 170 y λ = 300.
Es importante destacar que en los experimentos no se
trabajó con el sub-corpus de no-plagio. Para los
experimentos, el texto se segmentó en:
1. N-gramas contextuales.
2. N-gramas de contexto cercano.
3. Combinación de n-gramas contextuales y contexto
cercano.
4. Combinación de n-gramas contextuales, contexto
cercano y etiquetas POS.
Además, se utilizó el término pre-procesamiento de texto,
que involucra los pasos de eliminar palabras auxiliares del
texto, conversión a minúsculas de todos los caracteres de
las palabras, obtención de lemas y ordenación alfabética de
los tokens de los n-gramas. Los mejores resultados con este
corpus se lograron segmentado los textos en n-gramas
contextuales y de contexto cercano con n = 3. La Figura 3
muestra los resultados alcanzados.

Figura 3. Resultados segmentando los textos en n-gramas
contextuales y de contexto cercano
El sub-corpus de plagio no ofuscado se estructura para
detectar los documentos sospechosos que presentan
fragmentos de texto que son plagio literal de sus
respectivos documentos fuentes. Por lo que se esperaba
detectar estos fragmentos al 100%. Esto no se logró debido
a que la etapa de integración de pasajes, cuando detecta los
solapados, solamente toma el de mayor longitud, dejando
por fuera los pasajes pequeños cuyas longitudes son
mayores que la cota mínima de caracteres establecida para
reportarlos como plagio.
10.2 Experimentación con el corpus multilingüe
En este experimento se utilizaron los traductores
Freetranslator y Apertium. Aquí hay que destacar que cada
texto perteneciente a cada documento en inglés y español
del EUROPARL se encuentran alineados. Esta
característica permitió construir para cada oración del
documento en inglés un archivo fuente, y por cada oración
del documento en español un archivo sospechoso. Los
experimentos se centraron en determinar si cada archivo
sospechoso era plagio del fuente correspondiente. Luego
de diversos experimentos se determinó que los mejores
resultados se lograban cuando los umbrales tomaban
valores de λ = 100 y λ = 170. En este corpus los mejores
resultados fueron logrados segmentando los textos en n-
gramas contextuales; no se hizo pre-procesamiento de los
textos; se utilizó λ = 170 como umbral de adyacencia y se
empleó el traductor local Apertium.

Figura 4. Resultados pre-procesando los textos y utilizando λ =
100 como umbral de adyacencia
19

La Figura 4 muestra los resultados cuando los textos son
pre-procesados y se fija λ = 100 como umbral de
adyacencia. El mejor resultado se logró cuando el texto se
segmenta en 2-gramas y se emplea el traductor
Freetranslator.
En la Figura 5 se muestra los resultados cuando los textos
son pre-procesados sin eliminar palabras auxiliares y se
fija λ = 170 como umbral de adyacencia. El mejor resultado
se logra cuando el texto se segmenta en bi-gramas y se
utiliza el traductor Apertium.

Figura 5. Resultados pre-procesando los textos sin eliminar
palabras auxiliares y con λ = 170 como umbral de adyacencia
En los resultados se puede observar que
independientemente de la longitud de los n-gramas, los
mejores resultados sin eliminar palabras auxiliares se
alcanzan utilizando el traductor Apertium; mientras que
haciendo pre-procesamiento de texto los mejores
resultados se logran utilizando el traductor Freetranslator.
11. Conclusiones
En este trabajo se diseñó e implementó un algoritmo para
la detección automática de plagio multilingüe,
específicamente en la tarea de alineación de textos. La
estrategia se basa en traducir uno de los documentos hacia
el idioma base del otro documento que se va a analizar,
para luego aplicar técnicas de plagio monolingüe para
detectar todos los fragmentos de textos plagiados de
máxima longitud.
Para llevar a cabo la detección de plagio, primero se pre-
procesan los documentos, es decir, se eliminan las palabras
auxiliares, los caracteres que no sean letras o números, el
texto se convierte a minúsculas, se obtienen todos los
lemas, se ordenan alfabéticamente y se crean los n-gramas
contextuales y los de contexto cercano. El algoritmo se
experimenta con diferentes parámetros, tales como el
umbral de adyacencia, los textos se pre-procesan sin
eliminar las palabras auxiliares y se utilizan diferentes
traductores. Para la fase de detección de plagio
monolingüe, los mejores resultados se logran cuando el
texto se segmenta en n-gramas contextuales y de contexto
cercano, se pre-procesan los textos y se fija λ = 300 como
umbral de adyacencia. Mientras que, en la fase multilingüe,
los mejores indicadores se alcanzan cuando se segmentan
los textos en n-gramas contextuales de longitud n = 2, se
utiliza el traductor local Apertium, no se eliminan palabras
auxiliares y se fija λ = 170como umbral de adyacencia.
Como trabajo futuro, se recomienda: 1) experimentar el
algoritmo en un ambiente en el que existan documentos en
inglés y español, de tal manera que las traducciones se
puedan realizar utilizando traductores automáticos y
especializados para comprobar el desempeño del
algoritmo. 2) En la fase de integración de pasajes, incluir
todos los fragmentos de textos solapados detectados para
la experimentación. 3) Comprobar por qué con los n-
gramas contextuales y de contexto cercano no se obtienen
mejores resultados en la fase de detección de plagio
multilingüe.
Referencias
[1] RAE. Diccionario de la lengua española. Edición 22.
[2] Bouville, M. (2008). Plagiarism: Words and ideas. Science
and Engineering Ethics 14(3), pp. 311–322.
[3] Iyer, P. & Singh, A. (2005). Document similarity analysis for
a plagiarism detection system. Proceedings 2nd Indian
International Conference on Artificial Intelligence (pp.
2534-2544). Pune, India.
[4] Potthast, M. et al. (2012). Overview of the 4th international
competition on plagiarism detection. Proceedings
Conference and Labs of the Evaluation Forum (pp. 1-28).
Rome, Italy.
[5] Sidorov, G. (2013). Non-linear construction of n-grams in
computational linguistics. México: Sociedad Mexicana de
InteligenciaArtificial.
[6] Sánchez, M., Sidorov, G. & Gelbukh, A. (2014). The winning
approach to text alignment for text reuse detection at pan
2014. Proceedings 5th International Conference of the CLEF
Initiative (pp. 1004–1011). Sheffield, UK.
[7] Rodríguez, D. & Martín, J. (2012). Detailed comparison
module in coremo 1.9 plagiarism detector. Proceedings
Third International Conference of the CLEF Initiative (pp. 1-
8). Rome, Italy.
[8] Rodríguez, D. & Martín, J. (2013). Text alignment module in
coremo 2.1 plagiarism detector. Proceedings 4th
International Conference of the CLEF Initiative (pp. 1-8).
Valencia, Spain.
[9] Pereira, R., Moreira, V. & Galante, R. (2010). A new approach
for cross-language plagiarism analysis. Lecture Notes in
Computer Science 6360, pp. 15-26.
[10] Trifan, I. (2011). Plagiarism detection in a multilingual
environment. Annals of DAAAM 22(1), pp. 831-832.
[11] Schleimer, S., Wilkerson, D. & Aiken, A. (2003). Winnowing:
local algorithms for document fingerprinting. Proceedings
international conference on Special Interest Group on
Management of Data (pp. 76–85). San Diego, USA.
[12] Barrón, L. (2012) On the mono-and cross-language
detection of text-reuse and plagiarism. PhD thesis.
Universitat Politécnica de Valencia. Spain.
[13] Simard, M., Foster, G. & Isabelle, P. (1993). Using cognates
to align sentences in bilingual corpora. Proceedings of the
1993 conference of the Centre for Advanced Studies on
Collaborative research: Distributed computing (pp. 1071-
1082). Toronto, Canada.
[14] Ceska, Z. Toman, M. & Jezek, K. (2008). Multilingual
plagiarism detection. Proceedings 13th international
conference on Artificial Intelligence: Methodology, Systems,
and Applications (pp. 83-92). Varna, Bulgaria.

http://www.rae.es/
http://link.springer.com/article/10.1007/s11948-008-9057-6
http://dblp.uni-trier.de/db/conf/iicai/iicai2005.html
http://dblp.uni-trier.de/db/conf/iicai/iicai2005.html
https://www.uni-weimar.de/medien/webis/publications/papers/stein_2012t.pdf
https://www.uni-weimar.de/medien/webis/publications/papers/stein_2012t.pdf
http://www.cic.ipn.mx/~sidorov/Nonlinear_construction_of_n_grams.pdf
http://www.cic.ipn.mx/~sidorov/Nonlinear_construction_of_n_grams.pdf
http://ceur-ws.org/Vol-1180/CLEF2014wn-Pan-SanchezPerezEt2014.pdf
http://ceur-ws.org/Vol-1180/CLEF2014wn-Pan-SanchezPerezEt2014.pdf
http://ceur-ws.org/Vol-1180/CLEF2014wn-Pan-SanchezPerezEt2014.pdf
http://ceur-ws.org/Vol-1178/CLEF2012wn-PAN-RodriguezTorrejonEt2012.pdf
http://ceur-ws.org/Vol-1178/CLEF2012wn-PAN-RodriguezTorrejonEt2012.pdf
http://ceur-ws.org/Vol-1179/CLEF2013wn-PAN-RodriguezTorrejonEt2013.pdf
http://ceur-ws.org/Vol-1179/CLEF2013wn-PAN-RodriguezTorrejonEt2013.pdf
http://link.springer.com/chapter/10.1007/978-3-642-15998-5_4
http://link.springer.com/chapter/10.1007/978-3-642-15998-5_4
http://www.daaam.info/Downloads/Pdfs/proceedings/proceedings_2011/0831_Trifan.pdf
http://www.daaam.info/Downloads/Pdfs/proceedings/proceedings_2011/0831_Trifan.pdf
http://igm.univ-mlv.fr/~mac/ENS/DOC/sigmod03-1.pdf
http://igm.univ-mlv.fr/~mac/ENS/DOC/sigmod03-1.pdf
https://riunet.upv.es/bitstream/handle/10251/16012/tesisUPV3833.pdf?sequence=1
https://riunet.upv.es/bitstream/handle/10251/16012/tesisUPV3833.pdf?sequence=1
http://www.mt-archive.info/IBM-1993-Simard.pdf
http://www.mt-archive.info/IBM-1993-Simard.pdf
http://dl.acm.org/citation.cfm?id=1433608
http://dl.acm.org/citation.cfm?id=1433608

n10a2

Pedagogía

Pedagogía

Continuar navegando

Otros materiales