Logo Studenta

n10a2

¡Estudia con miles de materiales!

Vista previa del material en texto

15 
 
 
 
Detection of bilingual plagiarism 
 
Detección de Plagio Bilingüe 
 
Frank Zamora R.1, Daniel Castro C.2, Elizabeth Labrada D.3 
1 Universidad de Granma. Cuba. fzamorar(AT)udg.co.cu 
2, 3 Desarrollo de Aplicaciones, Tecnologías y Sistemas (DATYS). Cuba. daniel.castro(AT)cerpamid.co.cu; elabrada(AT)csd.edu.cu 
 
INFORMACIÓN DEL ARTÍCULO 
 
Artículo de Investigación 
 
Historia 
Recibido: 09-01-2016 
Correcciones: 22-04-2016 
Aceptado: 19-05-2016 
 
Keywords 
Plagiarism, monolingual, bilingual 
 
Palabras clave 
Plagio, bilingüe, monolingüe 
 
 
 
 
 
 
 
 
 
ABSTRACT 
In this paper a computational algorithm for text alignment in the task of automatically 
detecting bilingual plagiarism is proposed. The method of detecting bilingual plagiarism uses 
machine translation services, in order to have the documents in question a base language, and 
apply techniques of monolingual plagiarism. The algorithm was tested with The corpus 
belonging to the International Competition Plagiarism 2013, with the objective of evaluating 
the step of detecting monolingual plagiarism. Besides it’s experimented with the collection of 
texts EUROPARL, a collection of documents pertaining to the meeting the European 
Parliament, specifically it´s to English and Spanish documents. 
 
RESUMEN 
En este trabajo se construyó un algoritmo computacional para la alineación de textos en la 
tarea de detección de plagio bilingüe. El método de detección de plagio bilingüe hace uso del 
servicio de traductores automáticos, con la finalidad de tener los documentos en cuestión en 
un idioma base, para después aplicar técnicas de plagio monolingüe. El algoritmo fue probado 
con el corpus perteneciente a la Competencia Internacional de Detección de Plagio del año 
2013, para evaluar la etapa de detección de plagio monolingüe. Además, se experimentó con 
la colección de textos EUROPARL, una colección de documentos pertenecientes a la reunión 
del parlamento europeo, de los que se tomaron los documentos en inglés y español, con la 
finalidad de probar la etapa bilingüe. 
 
© 2016 IAI. All rights reserved. 
 
7. Introducción 
Las nuevas facilidades de acceso a la información han 
creado un ambiente amplio para que estudiantes e 
investigadores accedan a una vasta cantidad de 
documentos, artículos y otras publicaciones, con las que 
pueden fortalecer su preparación y enriquecer sus 
conocimientos. Lamentablemente, estas facilidades han 
creado la presentación de trabajos pocos originales en 
escuelas y universidades, como consecuencia del plagio de 
obras previamente publicadas, convirtiéndose esta falta en 
un problema para la educación y la investigación. En la 
literatura existen disímiles definiciones de plagio, tales 
como: 
 Copiar en lo sustancial obras ajenas, presentándolas 
como propias [1]. 
 Utilizar cualquier fuente publicada o no sin el debido 
reconocimiento a la fuente [2]. 
 Apropiación de palabras e ideas de otros [2]. 
El plagio se puede presentar en música, imágenes, 
documentos escritos e incluso ideas. El presente trabajo se 
enfoca en el plagio escrito, es decir, el plagio de 
documentos. En este ámbito, el acto de plagiar significa 
incorporar fragmentos de un documento escrito por otro 
autor sin darle el crédito correspondiente. 
La detección manual de plagio se ha convertido en una 
tarea prácticamente imposible, debido a la cantidad de 
información disponible en medios digitales: base de datos, 
internet o dispositivos de almacenamiento masivo. Esta 
problemática se ha intentado solucionar creando sistemas 
que asisten en la toma de decisiones acerca del posible 
plagio de un documento, pero la tarea es titánica. De 
acuerdo con Iyer y Singh [3], se pueden distinguir varios 
tipos de plagio: 
 Literal o exacto. Se basa en la copia exacta de 
fragmentos de un documento sin incluir su fuente. 
 De referencias. Ocurre cuando una referencia está en un 
documento y se incluye en otro documento sin haber 
leído el origen. 
 De autoría. Ocurre cuando un autor afirma ser creador 
de un trabajo que fue realizado por otro. 
El análisis automático de plagio en documentos se puede 
abordar a través del análisis con referencia. Esta técnica 
consiste en encontrar los casos de plagio mediante la 
comparación del documento sospechoso con las posibles 
fuentes de los fragmentos plagiados. El documento 
sospechoso y los documentos fuentes pueden haber sido 
escritos en un mismo idioma (análisis monolingüe) o en 
diferentes idiomas (análisis multilingüe). La detección de 
Revista Antioqueña de las 
Ciencias Computacionales y la Ingeniería de Software 
 
ISSN: 2248-7441 
 
www.fundacioniai.org/raccis 
raccis(AT)fundacioniai.org 
 
(2016). RACCIS 6(1), pp. 15-19. 
16 
 
plagio multilingüe ha sido poco tratada con referencia a la 
monolingüe. Este tipo de plagio consiste en traducir un 
fragmento de un documento de manera manual o 
automática y atribuirse la autoría de dicho texto. 
El objetivo principal de este trabajo es implementar un 
método que permita detectar fragmentos de plagio entre 
dos textos que se encuentran en diferentes idiomas, inglés 
y español en este caso, haciendo uso de traductores 
automáticos. Entre los objetivos específicos se encuentra 
crear un módulo configurable que permita la traducción de 
textos mediante el uso de traductores existentes. Además, 
implementar un módulo de detección de plagio 
monolingüe que permita, dado un documento sospechoso 
y una posible fuente, encontrar todos los pasajes de 
máxima longitud reutilizados. 
8. Metodología 
En esta sección se expone el algoritmo implementado para 
la detección de plagio bilingüe, así como una descripción 
de las principales etapas del mismo. 
8.1 Detección de plagio monolingüe 
Dado dos documentos, uno fuente y otro sospechoso, 
escritos en un mismo idioma, la tarea de detección de 
plagio monolingüe consiste en recuperar aquellos 
fragmentos del documento sospechoso que han sido 
plagiados del documento fuente. Para Potthast et al. [4], un 
sistema de detección de plagio monolingüe para 
alineamientos de textos consta generalmente de: 
1. Pre-procesamiento. Con el objetivo de mejorar los 
resultados y emplear determinados enfoques en la 
tarea de detección de plagio, inicialmente se aplican 
técnicas de pre-procesamiento a los documentos. A 
continuación, se enumeran algunas de ellas: 
 Normalización de los caracteres: transformar todos 
los caracteres a minúsculas y eliminar los signos 
diacríticos tales como tildes, diéresis y otros. 
 Segmentación de los documentos en tokens 
(secuencia de unidades léxicas significativas, tales 
como números, palabras, signos de puntuación, 
fechas, etc.). 
 Identificación de oraciones y párrafos. 
 Hallar la raíz o el lema de las palabras. 
 Eliminar signos de puntuación y espacios en blanco. 
 Eliminar palabras auxiliares [5]. Por lo general, 
estas palabras aparecen con frecuencia en un 
idioma y carecen de significado, tales artículos, 
pronombres, preposiciones, … 
 Unir oraciones pequeñas consecutivas hasta que el 
fragmento formado alcance cierta longitud. 
2. Selección (detección de semillas). Dado un documento 
sospechoso y un documento fuente, el objetivo de esta 
etapa es obtener un conjunto de candidatos de longitud 
pequeña, llamados semillas. Cada caso consiste en un 
par conformado por un fragmento pequeño del 
documento sospechoso y un fragmento pequeño del 
documento fuente, los cuales son similares en algún 
sentido [6]. 
3. Integración (extensión). Dado un conjunto de semillas 
identificadas, esta etapa tiene como propósito extender 
cada una convirtiéndolas en fragmentos de textos 
continuos de longitud máxima, que se alineen entre los 
documentos sospechoso y fuente, los cuales, después 
del proceso de filtrado, se reportan como plagio. 
4. Post-procesamiento (filtrado). En esta etapa, dado un 
conjunto de pasajes alineados, se remueven los que no 
cumplan con cierto criterio. Generalmente se descartan 
los pequeños oaquellos que tienen solapamiento. 
En este sentido, Rodríguez y Martín [7, 8] buscan 
correspondencias en los textos extrayendo n-gramas de 
contexto (CTnG) y algunas variaciones de estos, a los que 
denominan n-gramas de contexto cercano (SCnG) y odd-
even n-gramas (OEnG). El objetivo es encontrar las mismas 
características en ambos documentos. Los 𝑛-gramas de 
contexto permiten mejorar la detección de los casos de 
plagio donde se varía el orden de las palabras, y los 𝑛-
gramas de contexto cercano resultan útiles en los casos de 
plagio donde se varían las palabras por sinónimos, o se 
eliminan palabras o insertan nuevas palabras. 
El método toma como semillas las oraciones de los 
documentos [6] y cada oración del sospechoso y el fuente 
es representada con el modelo de espacio vectorial (VSM 
por sus siglas en inglés) y el esquema de pesado tf-idf, 
donde la frecuencia (tf) de cada término se calcula con 
respecto a la oración a la que pertenece, y para el cálculo 
de la frecuencia inversa de documento (idf) se toma como 
colección de documentos el conjunto de oraciones que se 
obtiene entre los documentos sospechoso y fuente. Luego 
se incluyen un par de oraciones, una del documento 
sospechoso y otra del fuente, para analizar si sus 
semejanzas superan los umbrales (0.33 en ambos casos). 
8.2 Detección multilingüe de plagio 
En esta tarea el objetivo es recuperar aquellos fragmentos 
del documento sospechoso que han sido plagiados desde 
el documento fuente. Es decir, los fragmentos que fueron 
traducidos y reusados de alguna forma sin proporcionar la 
referencia. Existen varios enfoques utilizados en el cálculo 
de la semejanza de textos en diferentes idiomas, que han 
sido utilizados en la tarea de la detección multilingüe de 
plagio y que presentan a continuación. 
 Traducción automática. En este enfoque se traducen los 
textos a un mismo idioma, por lo general al inglés, 
porque es el idioma que cuenta con más herramientas 
para su procesamiento. Cuando los documentos se 
encuentran en un mismo idioma se aplican técnicas de 
detección de plagio monolingüe. El funcionamiento y el 
buen desempeño de este enfoque están sujetos a la 
disponibilidad de un sistema de traducción automática 
y de su calidad. 
Pereira et al. [9] dividen el documento sospechoso y el 
fuente en párrafos y luego traducen cada párrafo a un 
mismo idioma, que por defecto es el inglés. Los párrafos 
son indexados por las raíces de sus palabras después de 
eliminar las auxiliares. Luego se aplica un algoritmo de 
clasificación para determinar si una pareja de 
fragmentos, uno sospechoso y otro fuente, constituyen 
un caso de plagio. En el proceso se utilizan como rasgos 
la longitud de cada fragmento y la semejanza coseno 
entre los fragmentos, entre otros. 
17 
 
Trifan [10] traduce los textos a inglés, devolviendo para 
cada palabra las tres mejores traducciones; 
posteriormente aplica el método Winnowing [11] para 
extraer los fingerprints (huellas dactilares) mediante la 
división de los textos en 5-gramas de palabras. 
 Basados en sintaxis. Estos enfoques se basan en la 
semejanza léxico-sintáctica que existen entre algunos 
idiomas, la cual se observa al utilizar términos cortos 
como n-gramas de caracteres, prefijos, etc. [12]. 
Los cognados son palabras similares entre lenguajes, 
tales como curioso (ES) y curious (EN). De acuerdo con 
Simard y sus colegas [13], la representación de 
documentos utilizando esta característica resulta útil 
en la alineación de textos en diferentes idiomas, por lo 
que se puede utilizar en la detección multilingüe de 
plagio. Dados dos textos en diferentes idiomas cada, 
uno se representa como un vector de términos, donde 
se utilizan las primeras cuatro letras de cada palabra o 
la palabra completa, en caso de contener números. 
Luego, la semejanza entre los vectores se calcula con 
alguna unidad de medida, como el coseno. Este método 
es llamado CL-COG [12]. 
 Basado en tesauros Multilingües. En este enfoque se 
utilizan tesauros multilingües para indexar 
documentos escritos en diferentes idiomas en un 
espacio de comparación común. Los términos en estos 
tesauros están conectados con sus sinónimos en los 
diferentes lenguajes (synsets multilingües), por lo que 
los textos pueden ser comparados indexándolos por 
sus índices interlinguas [14]. Una de las dificultades de 
este enfoque es que la mayoría de tesauros son 
incompletos, por lo que no se obtienen buenos 
resultados. 
9. Método propuesto 
 
 
Figura 1. Método propuesto para la detección de plagio bilingüe 
En la Figura 1 se muestra un ejemplo del funcionamiento 
del algoritmo implementado cuando la entrada son dos 
documentos, uno en español y otro en inglés, que es el 
documento fuente. El algoritmo está compuesto por dos 
etapas: 1) traducción, que involucra de manera opcional la 
traducción por párrafos, y 2) detección de plagio 
monolingüe. La primera tiene como propósito llevar los 
documentos de entrada a un mismo idioma. Luego se 
procede a detectar los fragmentos de plagio a través de la 
 
1 https://www.apertium.org/index.spa.html?dir=epo-eng#translation 
etapa de detección de plagio monolingüe. Después de 
obtenidos los fragmentos de plagios, se presentan en 
formato XML. 
9.1 Etapa de traducción 
Esta etapa es la encargada de traducir documentos a un 
idioma seleccionado y, para lograrlo, el método cuenta con 
dos traductores incorporados: Apertium1 que se encuentra 
en los repositorios del sistema operativo Linux y que se 
utiliza en ambientes donde no existe conectividad a 
Internet, y Freetranslator2, empleado cuando hay acceso a 
Internet. Estos traductores cuentan con un archivo 
configurable, en el que se especifica el idioma al que se 
quiere traducir el documento. En el caso del traductor 
online, se añade al archivo el usuario y la contraseña de la 
persona que quiere utilizar el servicio, lo mismo que la 
dirección IP predeterminada para la navegación. 
9.2 Detección de plagio monolingüe 
Esta etapa de detección está dividida en cuatro fases: pre-
procesamiento, selección, integración y post-
procesamiento. La tarea general del pre-procesamiento es 
segmentar el texto en n-gramas contextuales y de contexto 
cercano, lo que se convierte en la salida de esta fase. La 
selección toma como entrada la salida de la fase anterior 
con el objetivo de buscar todas las coincidencias de n-
gramas que se encuentran en ambos textos. La salida de 
esta fase son todos los pares de n-gramas hallados en el 
documento sospechoso y en el documento fuente. La 
integración recibe como entrada todas las coincidencias de 
n-gramas encontradas en la fase anterior, para extender 
cada n-grama y convertirlo en fragmentos de textos 
continuos de longitud máxima. Dado el conjunto de 
fragmentos de textos alineados, el propósito del post-
procesamiento es remover los que no cumplan con ciertos 
criterios, en este caso los de longitud pequeña. 
9.3 Salida del algoritmo 
 
Figura 2. Salida del algoritmo 
En la Figura 2 se muestra la salida que debe tener un 
algoritmo de detección de plagio para la tarea de 
alineamiento de texto de la Competencia Internacional de 
Detección de Plagio. Se aprecia que el XML agrupa 
información sobre dos documentos: la primera línea 
corresponde al nombre del documento sospechoso que se 
está analizando; la tercera al nombre de la tarea que se está 
llevando a cabo, que es la detección de plagio; la cuarta al 
caracter de inicio del fragmento que fue copiado del 
documento fuente; y la quinta indica la longitud total del 
2 http://www.freetranslator.com 
https://www.apertium.org/index.spa.html?dir=epo-eng#translation
http://www.freetranslator.com/
18 
 
pasaje. La sexta línea hace referencia al nombre del 
documento fuente con el que se está comparando el 
documento sospechoso; la séptima al inicio del caracter del 
fragmento que fue objeto de copia; y la octava indica la 
longitud total del pasaje. 
10.Experimentación y análisis de resultados 
Para realizar los experimentos se utilizaron dos corpus de 
prueba: 1) Competencia Internacional de Detección de 
Plagio de 2013, para evaluar la componente de detección 
de plagio monolingüe del método propuesto. Este corpus 
está compuesto por cinco sub-corpus: 
1. No-plagio 
2. Plagio no ofuscado 
3. Plagio con ofuscación 
4. Plagio con traducción ofuscado 
5. Plagio con resumen ofuscado 
2) EUROPARL, que es una colección de documentos del 
Parlamento Europeo en 2000, los cuales se encuentran en 
inglés y español. Este corpus se empleó para determinar la 
efectividad del algoritmo, y su principal característica es 
que las traducciones fueron realizadas manualmente. 
Los resultados de los experimentos se evaluaron con la 
medida plagdet score, que depende de las medidas de 
granularidad y F1, utilizadas en el primer corpus para 
evaluar el desempeño de los sistemas detectores de plagio, 
cuya fórmula se detalla en la siguiente ecuación. 
𝑝𝑙𝑎𝑑𝑔𝑒𝑡(𝑆, 𝑅) =
𝐹1
log2(1 + 𝑔𝑟𝑎𝑛𝑢𝑙𝑎𝑟𝑖𝑑𝑎𝑑(𝑆, 𝑅))
 
 
𝐹1 = 2x
𝑝𝑟𝑒𝑐(𝑆, 𝑅) 𝑥 𝑟𝑒𝑙(𝑆, 𝑅)
𝑝𝑟𝑒𝑐(𝑆, 𝑅) + 𝑟𝑒𝑙(𝑆, 𝑅)
 
 
𝑔𝑟𝑎𝑛𝑢𝑙𝑎𝑟𝑖𝑑𝑎𝑑(𝑆, 𝑅) =
1
|𝑆𝑟|
∑ |𝑅𝑠|
𝑠є𝑆𝑟
 
 
Donde S es el conjunto de plagio reportado en el corpus y 
R el conjunto de plagio detectado por el sistema. 
10.1 Experimentación con el corpus monolingüe 
Estos experimentos se utilizan para comprobar la 
efectividad de la etapa de detección de plagio monolingüe. 
Además, se presentan diferentes comparaciones en cuanto 
a la eficacia del método, atendiendo parámetros tales como 
la longitud de los n-gramas y el umbral de adyacencia. 
Después de varios experimentos en la búsqueda de 
umbrales de adyacencia que ofrecieran buenos resultados, 
se determinó que los mejores resultados se obtienen 
cuando los umbrales de adyacencia son λ = 170 y λ = 300. 
Es importante destacar que en los experimentos no se 
trabajó con el sub-corpus de no-plagio. Para los 
experimentos, el texto se segmentó en: 
1. N-gramas contextuales. 
2. N-gramas de contexto cercano. 
3. Combinación de n-gramas contextuales y contexto 
cercano. 
4. Combinación de n-gramas contextuales, contexto 
cercano y etiquetas POS. 
Además, se utilizó el término pre-procesamiento de texto, 
que involucra los pasos de eliminar palabras auxiliares del 
texto, conversión a minúsculas de todos los caracteres de 
las palabras, obtención de lemas y ordenación alfabética de 
los tokens de los n-gramas. Los mejores resultados con este 
corpus se lograron segmentado los textos en n-gramas 
contextuales y de contexto cercano con n = 3. La Figura 3 
muestra los resultados alcanzados. 
 
Figura 3. Resultados segmentando los textos en n-gramas 
contextuales y de contexto cercano 
El sub-corpus de plagio no ofuscado se estructura para 
detectar los documentos sospechosos que presentan 
fragmentos de texto que son plagio literal de sus 
respectivos documentos fuentes. Por lo que se esperaba 
detectar estos fragmentos al 100%. Esto no se logró debido 
a que la etapa de integración de pasajes, cuando detecta los 
solapados, solamente toma el de mayor longitud, dejando 
por fuera los pasajes pequeños cuyas longitudes son 
mayores que la cota mínima de caracteres establecida para 
reportarlos como plagio. 
10.2 Experimentación con el corpus multilingüe 
En este experimento se utilizaron los traductores 
Freetranslator y Apertium. Aquí hay que destacar que cada 
texto perteneciente a cada documento en inglés y español 
del EUROPARL se encuentran alineados. Esta 
característica permitió construir para cada oración del 
documento en inglés un archivo fuente, y por cada oración 
del documento en español un archivo sospechoso. Los 
experimentos se centraron en determinar si cada archivo 
sospechoso era plagio del fuente correspondiente. Luego 
de diversos experimentos se determinó que los mejores 
resultados se lograban cuando los umbrales tomaban 
valores de λ = 100 y λ = 170. En este corpus los mejores 
resultados fueron logrados segmentando los textos en n-
gramas contextuales; no se hizo pre-procesamiento de los 
textos; se utilizó λ = 170 como umbral de adyacencia y se 
empleó el traductor local Apertium. 
 
Figura 4. Resultados pre-procesando los textos y utilizando λ = 
100 como umbral de adyacencia 
19 
 
La Figura 4 muestra los resultados cuando los textos son 
pre-procesados y se fija λ = 100 como umbral de 
adyacencia. El mejor resultado se logró cuando el texto se 
segmenta en 2-gramas y se emplea el traductor 
Freetranslator. 
En la Figura 5 se muestra los resultados cuando los textos 
son pre-procesados sin eliminar palabras auxiliares y se 
fija λ = 170 como umbral de adyacencia. El mejor resultado 
se logra cuando el texto se segmenta en bi-gramas y se 
utiliza el traductor Apertium. 
 
Figura 5. Resultados pre-procesando los textos sin eliminar 
palabras auxiliares y con λ = 170 como umbral de adyacencia 
En los resultados se puede observar que 
independientemente de la longitud de los n-gramas, los 
mejores resultados sin eliminar palabras auxiliares se 
alcanzan utilizando el traductor Apertium; mientras que 
haciendo pre-procesamiento de texto los mejores 
resultados se logran utilizando el traductor Freetranslator. 
11. Conclusiones 
En este trabajo se diseñó e implementó un algoritmo para 
la detección automática de plagio multilingüe, 
específicamente en la tarea de alineación de textos. La 
estrategia se basa en traducir uno de los documentos hacia 
el idioma base del otro documento que se va a analizar, 
para luego aplicar técnicas de plagio monolingüe para 
detectar todos los fragmentos de textos plagiados de 
máxima longitud. 
Para llevar a cabo la detección de plagio, primero se pre-
procesan los documentos, es decir, se eliminan las palabras 
auxiliares, los caracteres que no sean letras o números, el 
texto se convierte a minúsculas, se obtienen todos los 
lemas, se ordenan alfabéticamente y se crean los n-gramas 
contextuales y los de contexto cercano. El algoritmo se 
experimenta con diferentes parámetros, tales como el 
umbral de adyacencia, los textos se pre-procesan sin 
eliminar las palabras auxiliares y se utilizan diferentes 
traductores. Para la fase de detección de plagio 
monolingüe, los mejores resultados se logran cuando el 
texto se segmenta en n-gramas contextuales y de contexto 
cercano, se pre-procesan los textos y se fija λ = 300 como 
umbral de adyacencia. Mientras que, en la fase multilingüe, 
los mejores indicadores se alcanzan cuando se segmentan 
los textos en n-gramas contextuales de longitud n = 2, se 
utiliza el traductor local Apertium, no se eliminan palabras 
auxiliares y se fija λ = 170como umbral de adyacencia. 
Como trabajo futuro, se recomienda: 1) experimentar el 
algoritmo en un ambiente en el que existan documentos en 
inglés y español, de tal manera que las traducciones se 
puedan realizar utilizando traductores automáticos y 
especializados para comprobar el desempeño del 
algoritmo. 2) En la fase de integración de pasajes, incluir 
todos los fragmentos de textos solapados detectados para 
la experimentación. 3) Comprobar por qué con los n-
gramas contextuales y de contexto cercano no se obtienen 
mejores resultados en la fase de detección de plagio 
multilingüe. 
Referencias 
[1] RAE. Diccionario de la lengua española. Edición 22. 
[2] Bouville, M. (2008). Plagiarism: Words and ideas. Science 
and Engineering Ethics 14(3), pp. 311–322. 
[3] Iyer, P. & Singh, A. (2005). Document similarity analysis for 
a plagiarism detection system. Proceedings 2nd Indian 
International Conference on Artificial Intelligence (pp. 
2534-2544). Pune, India. 
[4] Potthast, M. et al. (2012). Overview of the 4th international 
competition on plagiarism detection. Proceedings 
Conference and Labs of the Evaluation Forum (pp. 1-28). 
Rome, Italy. 
[5] Sidorov, G. (2013). Non-linear construction of n-grams in 
computational linguistics. México: Sociedad Mexicana de 
InteligenciaArtificial. 
[6] Sánchez, M., Sidorov, G. & Gelbukh, A. (2014). The winning 
approach to text alignment for text reuse detection at pan 
2014. Proceedings 5th International Conference of the CLEF 
Initiative (pp. 1004–1011). Sheffield, UK. 
[7] Rodríguez, D. & Martín, J. (2012). Detailed comparison 
module in coremo 1.9 plagiarism detector. Proceedings 
Third International Conference of the CLEF Initiative (pp. 1-
8). Rome, Italy. 
[8] Rodríguez, D. & Martín, J. (2013). Text alignment module in 
coremo 2.1 plagiarism detector. Proceedings 4th 
International Conference of the CLEF Initiative (pp. 1-8). 
Valencia, Spain. 
[9] Pereira, R., Moreira, V. & Galante, R. (2010). A new approach 
for cross-language plagiarism analysis. Lecture Notes in 
Computer Science 6360, pp. 15-26. 
[10] Trifan, I. (2011). Plagiarism detection in a multilingual 
environment. Annals of DAAAM 22(1), pp. 831-832. 
[11] Schleimer, S., Wilkerson, D. & Aiken, A. (2003). Winnowing: 
local algorithms for document fingerprinting. Proceedings 
international conference on Special Interest Group on 
Management of Data (pp. 76–85). San Diego, USA. 
[12] Barrón, L. (2012) On the mono-and cross-language 
detection of text-reuse and plagiarism. PhD thesis. 
Universitat Politécnica de Valencia. Spain. 
[13] Simard, M., Foster, G. & Isabelle, P. (1993). Using cognates 
to align sentences in bilingual corpora. Proceedings of the 
1993 conference of the Centre for Advanced Studies on 
Collaborative research: Distributed computing (pp. 1071-
1082). Toronto, Canada. 
[14] Ceska, Z. Toman, M. & Jezek, K. (2008). Multilingual 
plagiarism detection. Proceedings 13th international 
conference on Artificial Intelligence: Methodology, Systems, 
and Applications (pp. 83-92). Varna, Bulgaria. 
 
 
http://www.rae.es/
http://link.springer.com/article/10.1007/s11948-008-9057-6
http://dblp.uni-trier.de/db/conf/iicai/iicai2005.html
http://dblp.uni-trier.de/db/conf/iicai/iicai2005.html
https://www.uni-weimar.de/medien/webis/publications/papers/stein_2012t.pdf
https://www.uni-weimar.de/medien/webis/publications/papers/stein_2012t.pdf
http://www.cic.ipn.mx/~sidorov/Nonlinear_construction_of_n_grams.pdf
http://www.cic.ipn.mx/~sidorov/Nonlinear_construction_of_n_grams.pdf
http://ceur-ws.org/Vol-1180/CLEF2014wn-Pan-SanchezPerezEt2014.pdf
http://ceur-ws.org/Vol-1180/CLEF2014wn-Pan-SanchezPerezEt2014.pdf
http://ceur-ws.org/Vol-1180/CLEF2014wn-Pan-SanchezPerezEt2014.pdf
http://ceur-ws.org/Vol-1178/CLEF2012wn-PAN-RodriguezTorrejonEt2012.pdf
http://ceur-ws.org/Vol-1178/CLEF2012wn-PAN-RodriguezTorrejonEt2012.pdf
http://ceur-ws.org/Vol-1179/CLEF2013wn-PAN-RodriguezTorrejonEt2013.pdf
http://ceur-ws.org/Vol-1179/CLEF2013wn-PAN-RodriguezTorrejonEt2013.pdf
http://link.springer.com/chapter/10.1007/978-3-642-15998-5_4
http://link.springer.com/chapter/10.1007/978-3-642-15998-5_4
http://www.daaam.info/Downloads/Pdfs/proceedings/proceedings_2011/0831_Trifan.pdf
http://www.daaam.info/Downloads/Pdfs/proceedings/proceedings_2011/0831_Trifan.pdf
http://igm.univ-mlv.fr/~mac/ENS/DOC/sigmod03-1.pdf
http://igm.univ-mlv.fr/~mac/ENS/DOC/sigmod03-1.pdf
https://riunet.upv.es/bitstream/handle/10251/16012/tesisUPV3833.pdf?sequence=1
https://riunet.upv.es/bitstream/handle/10251/16012/tesisUPV3833.pdf?sequence=1
http://www.mt-archive.info/IBM-1993-Simard.pdf
http://www.mt-archive.info/IBM-1993-Simard.pdf
http://dl.acm.org/citation.cfm?id=1433608
http://dl.acm.org/citation.cfm?id=1433608

Continuar navegando