TFM_EDUARDO_RODRIGUEZ_PEREZ

Contabilidad General

•
SIN SIGLA

Yenny Carolina Rodríguez
10/10/2023
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Contabilidad General

96.056 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
UNIVERSIDAD POLITÉCNICA DE MADRID
TESIS DE FIN DE MÁSTER
Análisis y Detección de Fraude Fiscal
Mediante Técnicas de Aprendizaje
Automático
Author:
Eduardo RODRÍGUEZ PÉREZ
Supervisor:
Dr. Alfonso MATEOS
CABALLERO
Tesis presentada bajo el cumplimiento de requisitos
para el Máster
en el
-
Departamento de Inteligencia Artificial
July 16, 2018
iii
Declaration of Authorship
Yo, Eduardo RODRÍGUEZ PÉREZ, declaro que la tesis titulada, “Análisis y Detección
de Fraude Fiscal Mediante Técnicas de Aprendizaje Automático” y el trabajo aquí
presentado es de mi pertenencia. Alego que:
• Este trabajo se realizó total o principalmente mientras estaba en la candidatura
para un título de máster en esta Universidad.
• Si alguna parte de esta tesis ha sido sometida previamente a un título o cualquier
otra calificación en esta Universidad o cualquier otra institución, esto ha sido
previamente establecido.
• Cuando he consultado el trabajo publicado de otros, esto siempre se referencia
de forma clara y directa.
• Cuando se citasen trabajos de otros, la fuente de este siempre se da. Con la
excepción de dichas citas, esta tesis es completamente propia.
• Reconozco todas las fuentes principales de ayuda.
• Cuando la tesis se basa en el trabajo hecho por mí mismo junto con el de otros,
he dejado en claro exactamente lo que otros hicieron y lo que yo mismo aporto.
Firmado:
A fecha de:
v
“Corruption, embezzlement, fraud, these are all characteristics which exist everywhere. It
is regrettably the way human nature functions, whether we like it or not. What successful
economies do is keep it to a minimum. No one has ever eliminated any of that stuff.”
Alan Greenspan
Análisis y Detección de Fraude Fiscal Mediante
Técnicas de Aprendizaje Automático
Eduardo RODRÍGUEZ PÉREZ
July 16, 2018
ii
0.1 Resumen
El fraude es una de las amenazas mas elaboradas de nuestros tiempos. Este con-
stituye un problema universal y de suma complejidad. Varios de los conflictos
económicos más grandes de la historia involucraron firmas que incurrieron en grandes
fraudes. En consecuencia, se ha puesto un énfasis considerable en el desarrollo de
enfoques automatizados para detectar el fraude financiero.
Múltiples tecnologías en base al aprendizaje automático se han convertido en
un área de investigación académica en el ámbito de detección de fraude. La may-
oría de la investigación en base al aprendizaje automático se concentra en la fase de
creación de modelos de proceso eficientes para su detección. En esta tesis, se realiza
un compendio de técnicas pertenecientes al estado del arte con animo de optimizar
la detección de fraude. Se abordan algunos de los métodos mas efectivos e inno-
vadores para el desarrollo de modelos predictivos de gran rendimiento haciendo
una división entre aquellos supervisados y no supervisados. Se tratará también la
detección de anomalías basadas en grafos. Ahí, se hará hincapié en metodologías de
grafos estáticos basadas en estructura, comunidades y multi-atributo.
Por otro lado, y sabiendo que existe una enorme falta de datos disponibles so-
bre servicios financieros y especialmente en el emergente dominio de transacciones
monetarias, la aplicación se llevará a cabo con el análisis de conjuntos sintéticos. La
la naturaleza intrínsecamente privada de las transacciones financieras, nos lleva a
conjuntos de datos no disponibles públicamente. Es por ello que en esta tesis nos
aprovechamos de un conjunto de datos elaborados de forma artificial y fehaciente.
Partiendo de esta base, se comienza con un análisis visual del conjunto, donde se de-
finen los patrones mas salientes y así mismo modelables por algoritmo. Subsecuente
a este paso, se procede a la predicción y estudio de fraude que se obtiene mediante
el resultado obtenido por la aplicación aquí implementada. Esta se realiza mediante
el entrenamiento de múltiples algoritmos combinados en serie, tanto supervisados
como no supervisados, donde se definirá el cual con mejor rendimiento en base a un
promedio de las métricas mas significativas para el conjunto y donde dependiendo
de la importancia de cada métrica definida previamente por el usuario, se obtiene
el mejor modelo para el mismo. Realizado enteramente en un entorno de Python y
donde las variables de los resultados y los modelos quedan guardados para un uso
futuro.
Por ultimo se lleva a cabo el análisis del grafo. Este se realiza mediante un pro-
ceso de conversión del grafo a vectores teniendo en cuenta las características mas
influyentes y significativas del conjunto para su transformación y donde se apli-
carán de nuevo un entrenamiento y testeo de los algoritmos de detección previos y
así concluir con una comparación y métrica del conjunto final.
iii
UNIVERSIDAD POLITÉCNICA DE MADRID
Abstract
Escuela Técnica Superior de Ingenieros Informáticos
Departamento de Inteligencia Artificial
Máster
by Eduardo RODRÍGUEZ PÉREZ
En esta Tesis de Fin de Máster se resume brevemente el estado del arte de la
detección de fraude financiero mediante técnicas de aprendizaje automático. En el
se exponen algunas de las metodologías mas recientes e importantes en la literatura.
Posteriormente se realiza un proceso de predicción general aplicado a un dataset
sintético, y mediante técnicas de aprendizaje supervisado y de análisis de grafos. . .
v
Acknowledgements
Gracias a Dr. Alfonso Mateos y a la Universidad Politécnica de Madrid por hacer
posible la realización de este proyecto . . .
vii
Contents
Declaración de Autor iii
0.1 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii
HOLA iii
Acknowledgements v
1 Introducción 1
1.1 Fraude: Donde nos Encontramos . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Definición de Fraude Oxford . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3 Estadísticas Globales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.4 Detección . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.5 Dificultades y Desafíos Estadísticos . . . . . . . . . . . . . . . . . . . . . 3
1.5.1 Gran volumen de datos . . . . . . . . . . . . . . . . . . . . . . . 4
1.5.2 Conceptuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5.3 Superposición de Clases . . . . . . . . . . . . . . . . . . . . . . . 4
1.5.4 Clases Engañosas . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Métodos Supervisados 7
2.1 Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Perfiles Supervisados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3.1 Maquina del Vector Soporte (SVM) . . . . . . . . . . . . . . . . . 8
2.3.2 Arboles de Clasificación y Aprendizaje Combinado . . . . . . . 11
2.3.3 Reglas de clasificación y Reglas Combinadas . . . . . . . . . . . 13
2.3.4 Redes Neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.5 Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.6 Hidden Markov Models . . . . . . . . . . . . . . . . . . . . . . . 16
3 Métodos No Supervisados 19
3.1 Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3 Representación y Reducción de Dimensión . . . . . . . . . . . . . . . . 21
3.4 Detección de Anomalías . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.4.1 Detección de Anomalías Basadas en Densidad y Distancia . . . 22
4 Detección de Anomalías Basada en Grafos 23
4.1 Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2 Detección de Anomalías en Grafos Estáticos . . . . . . . . . . . . . . . . 24
4.2.1 Basados en Estructura . . . . . . . . . . . . . . . . . . . . . . . . 24
Basados en Características del Grafo . . . . . . . . . . . . . . . . 24
Basados en la Proximidad de los Nodos . . . . . . . . . . . . . . 26
4.2.2 Basadosen Comunidades de Grafos . . . . . . . . . . . . . . . . 26
viii
4.2.3 Grafos con Múltiples Atributos . . . . . . . . . . . . . . . . . . . 27
Basados en Estructura del Grafo . . . . . . . . . . . . . . . . . . 28
Basados en Comunidades . . . . . . . . . . . . . . . . . . . . . . 29
Métodos Basados en Aprendizaje Relacional . . . . . . . . . . . 30
5 Aplicación 33
5.1 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.1.1 BankSim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Contexto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.2 Exploración de los Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.2.1 Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.2.2 Profile BankSim . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
visión de conjunto . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.2.3 Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
visión de conjunto . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.3 Limpieza da Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.4 visualización de los Datos . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.4.1 Banksim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Scatter Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Nueva correlación . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.4.2 Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Grafo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Node2vec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.5 Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.5.1 BankSim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
KMeans . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Local Outlier Factor (LOF) . . . . . . . . . . . . . . . . . . . . . . 48
One Class SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Isolation Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Restricted Boltzmann Machine (RBM) . . . . . . . . . . . . . . . 52
Autoencoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Comparación general de todos los modelos anteriores . . . . . 56
5.5.2 BankSim Balanceado . . . . . . . . . . . . . . . . . . . . . . . . . 58
Comparación general con BankSim equilibrado . . . . . . . . . 59
Comparación RBM . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Comparación Autoencoder . . . . . . . . . . . . . . . . . . . . . 60
5.5.3 Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.5.4 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Km . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
LOF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
OCSVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
RBM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Autoencoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Comparación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
ix
6 Conclusión 67
Bibliography 69
xi
List of Figures
2.1 Ejemplo de kernel en un SVM . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Ejemplo de kernel en un SVM . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 Diagrama de dispersión de datos . . . . . . . . . . . . . . . . . . . . . . 12
2.4 Arboles de clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5 Arboles de clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.6 Arboles de clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.1 Objetos inter-conectados . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.1 Fragmento del dataset BankSim . . . . . . . . . . . . . . . . . . . . . . . 34
5.2 Fragmento del dataset Net . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.3 visión de conjunto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.4 Correlación Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.5 Correlación Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.6 visión de conjunto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.7 ICorrelación Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.8 Correlación Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.9 Fragmento del dataset BankSim, codificado y tratado . . . . . . . . . . 39
5.10 Plot 3D, amount, step, Category . . . . . . . . . . . . . . . . . . . . . . . 40
5.11 Plot 3D, amount, step, age . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.12 Plot 3D, amount, step . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.13 Plot 2D, amount, category . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.14 Reducción de Dimensión . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.15 Nueva Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.16 Grafo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.17 Reducción de dimensión 2D . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.18 Reducción de dimensión 3D . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.19 Resultados de KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.20 Tiempos de KNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.21 Resultados KMeans . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.22 Tiempos de KMeans . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.23 IMatriz de confución K-means . . . . . . . . . . . . . . . . . . . . . . . . 48
5.24 Curva de ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.25 Resultados del LOF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.26 Tiempos del LOF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.27 Resultados del OCSVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.28 Tiempos del OCSVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.29 Histogramas de caminos en el árbol de decisión . . . . . . . . . . . . . 51
5.30 Matriz de confusión de resultados del Isolation Forest . . . . . . . . . . 51
5.31 Curva de ROC del Isolation Forest . . . . . . . . . . . . . . . . . . . . . 51
5.32 Resultados del RBM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.33 Coste con Learning Rate 1 . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.34 Coste con Learning Rate 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 52
xii
5.35 Coste con Learning Rate 3 . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.36 Coste con Learning Rate 4 . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.37 Curva de ROC de RBM para el mejor resultado de LR . . . . . . . . . . 53
5.38 Curva de Precision-recall para el mejor lr del RBM . . . . . . . . . . . . 54
5.39 Resultados del Autoencoder . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.40 Coste por cada iteracion en el mejor resultado de LR en el Autoencoder 55
5.41 Area bajo la curba de ROC por cada iteración en el mejor resultado de
lr en Autoencoder . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . 55
5.42 Curva de ROC del Autoencoder su mejor resultado . . . . . . . . . . . 56
5.43 Curva de Precision-Recall en el mejor resultado del Autoencoder . . . 56
5.44 Histograma de puntuaciones para instancias no fraudulentas . . . . . 56
5.45 Histograma de puntuaciones para instancias fraudulentas . . . . . . . 56
5.46 Comparación de áreas bajo las curvas ROC y PR en todos los algoritmos 57
5.47 Comparación de tiempos de entrenamiento y predicción para todos
los algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.48 Comparación de áreas bajo la curva de ROC y PR para los datos equi-
librados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.49 ROC sin datos equilibrados . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.50 ROC con datos equilibrados . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.51 PR con datos sin equilibrar . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.52 PR con datos equilibrados . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.53 ROC sin datos equilibrados . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.54 ROC con datos equilibrados . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.55 PR con datos sin equilibrar . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.56 PR con datos equilibrados . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.57 Fragmento del obtenido mediante Node2vec . . . . . . . . . . . . . . . 61
5.58 Resultados del KNN para Net . . . . . . . . . . . . . . . . . . . . . . . . 61
5.59 Tiempos KNN para Net . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.60 Resultados del KM para Net . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.61 Tiempos KM para Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.62 Resultados LOF para Net . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.63 Tiempos LOF para Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.64 Resultados OCSVM para Net . . . . . . . . . . . . . . . . . . . . . . . . 62
5.65 Tiempos OCSVM para Net . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.66 ROC RBM para Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.67 PR RBM para Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.68 Resultados RBM para Net . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.69 Autoencoder Roc curve for best result in Net . . . . . . . . . . . . . . . 63
5.70 IPrecision Recall curve for best result of Autoencoder in Net . . . . . . 63
5.71 Results for Autoencoder in Net with different lr . . . . . . . . . . . . . 64
5.72 Final Results for Algorithms in Net . . . . . . . . . . . . . . . . . . . . . 64
5.73 Times for algorithms in Net . . . . . . . . . . . . . . . . . . . . . . . . . 65
xiii
List of Tables
1
Chapter 1
Introducción
1.1 Fraude: Donde nos Encontramos
En los tiempos que corren, el fraude ha pasado de ser un tema de suma importancia
a uno vital. Atrás quedaron los días en que fue visto como un incidente aislado de
mal comportamiento, una molestia costosa o un mero problema de cumplimiento
legal. Esto se debe a que la escala y el impacto del fraude han crecido de manera tan
significativa en el mundo digital que ya nadie trata este tema de forma superflua.
De hecho, casi se puede ver como un gran negocio en sí mismo, uno que cuenta con
tecnología habilitada, innovadora, oportunista y omnipresente. Se puede decir que
este es el mayor competidor social de nuestra era.
No es difícil inferir cómo hemos llegado a este punto y como este gigante se ha
convertido en un ser tan potente. Por un lado, la tecnología ha avanzado a pasos
agigantados, ayudando a los estafadores a ser más estratégicos en sus objetivos y
más sofisticados en sus métodos. Por otro lado, los regímenes regulatorios en gran
parte del mundo se han vuelto mucho más robustos y rígidos ante la respuesta a
estas amenazas.
Cada vez más compañías, organizaciones y naciones reconocen que la corrup-
ción y el fraude les impiden competir en el escenario global y que simplemente se
vuelven demasiado costosos para ser ignorados.
1.2 Definición de Fraude Oxford
Según el diccionario de Oxford, el fraude se define como “Engaño: uso de falsas
declaraciones para obtener un injusto beneficio o ventaja ante los demás.” El fraude
es muy antiguo, y puede tomar distintas formas, sin embargo, en los últimos años,
gracias a las nuevas tecnologías, han suplido a estos criminales de las herramientas
necesarias e innovadoras para este objetivo.
1.3 Estadísticas Globales
En esta era de escrutinio público sin precedentes, las organizaciones de hoy se en-
frentan a una tormenta de riesgos relacionados con el fraude: internos, externos,
regulatorios y de reputación. Por tanto, es el momento adecuado para adoptar una
nueva visión más integral del fraude. Uno que reconoce la verdadera forma de la
amenaza, no simplemente un coste de hacer negocios, sino una industria paralela
que puede impactar en cada territorio, cada sector y cada función; oculta en las som-
bras, y donde la falta de conciencia de fraude dentro de una organización puede
llegar a ser muy peligrosa.
2 Chapter 1. Introducción
Así como la tasa de delitos económicos reportadas anteriormente ha aumentado
desde 2016, también lo ha hecho la inversión que las compañías están gastando para
combatirla, según PwC goval fraud research [1].
El uso de tecnologías innovadoras para combatir el fraude es ahora un fenómeno
mundial. Muchas empresas están insuficientemente preparadas para enfrentar el
fraude, tanto por razones internas como externas.
1.4 Detección
Los métodos estadísticos para la detección de fraude son muchos y de variedad
múltiple, esto se debe principalmente a que los datos a tratar pueden diferir en
tamaño y tipo, pero hay algunos marcos de referencia útiles para la mayoría de estos
casos. La mayoría de las técnicas estadísticas se basan en hacer una comparación
de los datos observados con los esperados, el problema es que los datos espera-
dos no tienen siempre una estructura definida, y estos cambian según el contexto.
Puede darse el caso en el que solamente se requiera de una definición numérica de
algunas funciones y comportamientos que deberían seguir dichos datos observados,
los cuales son normalmente soluciones gráficas en donde una anomalía es evidente,
pero normalmente estas definiciones son un tanto mas complejas, conllevando es-
tas mas de una variable descriptiva. La mayoría de estas descripciones numéricas
estarán basadas en comportamientos anteriores que ocurren en el sistema. Sin em-
bargo, no es todo tan sencillo como parece, en algunos campos los lo individuos
fraudulentos pueden no comportarse de la misma forma ni seguir los mismos pa-
trones.
Las técnicas estadísticas de detección de fraude pueden ser de tipo supervisado
o no supervisado. En las metodologías supervisadas, muestras de instancias fraud-
ulentas y no fraudulentas se usan para construir los modelos que son capaces de
diferenciar los comportamientos fraudulentos de los que no. En este caso, se re-
quiere que los datos iniciales utilizados para la creación del modelo sean de total
fiabilidad en la clasificación de individuos. También es necesario tener instancias de
ambas clasificaciones. Por tanto, esta metodología se utilizará y será capaz de detec-
tar exclusivamente tipos de fraude que ya han sido localizados con anterioridad.
Por otro lado, la metodología no supervisada no tiene control sobre estas clasifi-
caciones, y por tanto será capaz de detectar patrones en conjuntos de componentes
fraudulentos para no solo detectar instancias de fraude pasadas, si no nuevas instan-
cias con distintas formas y metodologías. Esto se realiza normalmente detectando
cuales son los individuos que se salen de la norma, o outliers. Algunas técnicas
de medida de calidad de datos pueden ser utilizadas, pero la detección de errores
accidentales en un dataset es un tema que difiere bastante del deencontrar específi-
camente fraude deliberado, o un patrón fraudulento en sí.
Esto en definitiva nos deja con una nota importante, es muy complicado estar
totalmente certero a cerca de un acto fraudulento con un mero análisis estadístico.
Pero este podría indicarnos una alerta para un individuo anómalo, o en definitiva,
con mayor probabilidad de ser fraudulento que el resto para una posterior investi-
gación. Uno puede definir el objetivo del análisis estadístico como una medida de
sospecha. Cuanto mas alta sea esta medida de un individuo dado, mas inusual será
el comportamiento de este o mas probable de pertenecer a una acción fraudulenta
ya vista con anterioridad. El echo de que existan numerosas maneras en las que el
fraude se puede llevar a cabo y numerosos escenarios en los que este se puede dar,
significa que existen también múltiples maneras de manejarlo.
1.5. Dificultades y Desafíos Estadísticos 3
Esta medida de sospecha puede obtenerse de cada uno de los registros de los
datos, y estos pueden y deben de ser actualizados. Estas puntuaciones pueden ser
ordenadas y analizadas según la relevancia. Dado que la investigación de un indi-
viduo implica un conste adicional, por tanto, es importante concentrarse en los casos
mas probables de ser fraudulentos.
La detección de fraude implica su identificación tan rápido como sea posible.
La detección de fraude viene dada cuando un sistema de prevención del mismo
ha fallado. La detección de fraude es una disciplina que viene evolucionando a
lo largo del tiempo. Cada vez que se sabe que una estrategia de fraude ha sido
cazada y apaliada, los criminales se adaptarán y tratarán de reformar y modificar sus
estrategias. Sin dejar a un lado los nuevos entrantes en el juego, con probablemente,
nuevas metodologías y estratagemas. Algunos de estos nuevos jugadores pueden
no ser conscientes de las metodologías que han sido capturadas hasta la fecha, y
adoptaran estas mismas dando a una “fácil detección” y a tramas identificables. Es
por tanto de suma importancia aplicar sistemas de detección anteriores, así como los
mas nuevos para una eficiencia optima.
1.5 Dificultades y Desafíos Estadísticos
Uno de los problemas mas frustrantes en este ámbito es la dificultad de adoptar y
aplicar métodos efectivos de detección de fraude. Esto se debe principalmente a las
dificultades para medir e identificar las instancias de un delito, y luego comparar la
efectividad de los diferentes métodos de detección entre sí. La mayoría de las veces,
los datos financieros no son accesibles para quienes desean realizar investigaciones
sobre el comportamiento delictivo de los individuos. Esto sucede principalmente
por las políticas legales que protegen la privacidad de los registros financieros de
los clientes. Incluso teniendo acceso as las mismas, procesar grandes cantidades
de datos para detectar fraudes no siempre es una opción. Debido a este problema,
muchos de los mecanismos de detección de fraude existentes son provocados por las
quejas de los clientes. El 10% de los delitos financieros se encuentran por casualidad
[1].
También problemas de detección de fraude incluyen enormes cantidades de datos
con capacidad de evolucionar con el tiempo. Procesar esta enorme cantidad de datos
para encontrar indicios fraudulentos puede ser una tarea difícil y requerirá algorit-
mos de alta eficiencia, donde la minería de datos sea de gran relevancia.
Una de las dificultades de la detección de fraude es que normalmente existe una
desproporción entre comportamientos legítimos y los que no lo son. Una detección
efectiva sería aquella capaz de detectar el 99% de los casos legítimos y el 99% de los
fraudulentos. Sin embargo, si solo 1 entre 1000 registros son fraudulentos, entonces,
de media, de cada 100 que el sistema detecte como fraudulentos, solo 9 lo serán en
efecto. En resumen, esto significa que para detectar 9 casos fraudulentos se requiere
el análisis detallado de todos esos 100 registros. Esto nos lleva a la siguiente reflex-
ión, el fraude se puede llevar a un nivel tan bajo como uno quiera, pero solo con
un esfuerzo y compromiso proporcional. En la practica, un compromiso mínimo
debe de darse, normalmente un compromiso monetario, entre el coste de detectar
un fraude y el ahorro por haberlo detectado.
En este contexto, la detección es simplemente la capacidad de descubrir que ocur-
rió un delito financiero. Un sistema de detección intentará identificar patrones y
tendencias de comportamiento sospechoso. Por lo general, el sistema generará una
puntuación de sospecha que indica la probabilidad de que un caso sea criminal. Se
4 Chapter 1. Introducción
investigarán los casos que excedan un determinado umbral de sospecha. La efec-
tividad del sistema de detección dependerá en última instancia de la velocidad a la
que se detecte el delito, el rango de crímenes que se pueden detectar y el número de
falsas alarmas generadas.
1.5.1 Gran volumen de datos
Una gran institución financiera tiene millones de clientes y experimenta miles de
transacciones de clientes por segundo. Esto da como resultado bases de datos ex-
tremadamente grandes, a menudo distribuidas en múltiples sistemas. Las deci-
siones se deben tomar en tiempo real: un sistema de detección de fraude transac-
cional por ejemplo, solo es útil si puede identificar y detener un fraude transacción
de forma inmediata. Esto impone severas restricciones a la complejidad computa-
cional de los algoritmos.
Incluso cuando no es necesaria una decisión en tiempo real, los datos pueden
varían con el tiempo, por lo que es necesario extraer características que resuman el
historial de los datos.
1.5.2 Conceptuales
Uno de los principales objetivos de los sistemas de detección es identificar patrones
generales de comportamiento sospechoso. Pero incluso la formulación de este prob-
lema presenta un desafío ya que estos patrones son muy dinámicos y evolucionan
continuamente a lo largo del tiempo para eludir los métodos de detección existentes.
Los modelos deben ser continuamente validados y adaptados para acomodar estas
cambiantes distribuciones y patrones.
El método más básico es este que utiliza una ventana temporal fija y entrena
los algoritmos en puntos específicos en el tiempo. Widmer and Kubat (1996) pro-
pusieron la aproximación flotante aproximada (FLORA, por sus siglas en inglés), un
marco para el aprendizaje y olvido de observaciones basado en la teoría de conjuntos
aproximados que incluye una heurística de ajuste de ventana temporal. Alternati-
vamente, el algoritmo puede volverse a entrenar de manera continua al re-ponderar
los datos de modo que se otorgue más importancia a las observaciones recientes o se
pueden entrenar clasificadores separados en diferentes fragmentos de datos y luego
combinados como un conjunto (Street and Kim (2001), Wang and Han (2003)).
1.5.3 Superposición de Clases
Otro desafío proviene del hecho de que los delincuentes a menudo tratan de ocul-
tar sus actividades haciendo que las transacciones ilegales parezcan tan "normales"
como sea posible, lo que resulta en una superposición sustancial entre las clases ile-
gitimas y legitimas. Es muy común tener varias transacciones con características
similares, una de las cuales puede ser legal mientras que otra puede ser en reali-
dad ilegitima. Este problema se da particularmente en el caso del lavado de dinero,
donde las actividades de depósito y retiro de alta frecuencia y la cantidad de depósi-
tos y retiros para un día determinado pueden ser casi iguales.
1.5.4 Clases Engañosas
No siempre es posible verificar todos los casos que se detectaron como sospechosos.
El caso más complicado es el de lavado de dinero, donde la verificación se lleva a
1.5. Dificultades y Desafíos Estadísticos 5
cabo externamente y la institución financiera rara vez se entera del resultado final
de la investigación. Esto plantea un problema verdaderamente desafiante para el
aprendizaje automático, ya que los algoritmos de detección serán entrenados con
datos potencialmentemal etiquetados en varios casos y esto motiva la necesidad de
métodos robustos que puedan manejar el etiquetado incorrecto de manera efectiva.
A continuación se procederá con el estado del arte. En los capítulos 2 y 3 se hará
un repaso en profundidad de cuales son las técnicas mas utilizadas en el mundo de
la literatura para la detección del fraude fiscal y financiero, empezando por técnicas
estadísticas supervisadas (capitulo 2) y terminando por las no supervisadas (capit-
ulo 3). No se verá en detalle todas y cada una de estas metodologías, dado con son
numerosas y algunas también bastante extensas. En cambio si se tratarán algunas de
las mas famosas en el ámbito, descritas por expertos en la materia, y en algunos casos
utilizando ejemplos reales con datasets obtenidos de forma fiable y contrastada.
7
Chapter 2
Métodos Supervisados
2.1 Definición
Como ya se introdujo en el capitulo anterior, los métodos de aprendizaje supervisa-
dos utilizan información previa sobre la pertenencia a una clase e intentan definir
una relación entre el conjunto de entradas y salidas. En el caso de detección de
fraude, esto equivale a patrones de aprendizaje de comportamiento criminal y legal
para determinar si la actividad nueva es fraudulenta. En la literatura, describimos
tres amplios tipos de técnicas de aprendizaje supervisado: perfiles supervisados,
clasificación supervisada y análisis de links con metodología de grafos.
2.2 Perfiles Supervisados
Esta metodología se da si hay disponible una base de datos de transacciones o ca-
sos etiquetados, entonces se pueden construir perfiles o distribuciones de variables
relevantes para el comportamiento legítimo de dicho cliente y el comportamiento
delictivo. Las transacciones entrantes pueden marcarse automáticamente para su
inspección en función de su similitud con el comportamiento delictivo, la falta de
similitud con el comportamiento legítimo esperado o una combinación de ambos.
En general, se mantiene un perfil de comportamiento legítimo esperado por
cliente y se mantiene un perfil de comportamiento fraudulento por tipo de fraude.
Las nuevas transacciones se comparan con el perfil de comportamiento legítimo del
cliente y con los diferentes perfiles de fraude. Las desviaciones del comportamiento
esperado o la similitud con patrones conocidos de fraude pueden ser un signo de
actividad criminal. En la práctica, estos dos criterios generalmente se combinan en
una sola métrica de sospecha a través de una métrica que se relaciona mediante el
teorema de Bayes por ejemplo, como el peso de la evidencia (PE). Dada la obser-
vación de un vector de características X de un cliente con un perfil ζi , el peso de la
evidencia contra un perfil de fraude φj es definido como
PE = 10log( P(X|ζi)P(X|φj) )
Utilizado de esta manera, el PE proporciona una medida de cuánto el perfil de
comportamiento legítimo del cliente explica la evidencia observada en comparación
con un perfil de comportamiento fraudulento. Como regla general, los valores in-
feriores a un determinado umbral indican que el perfil de fraude proporciona una
explicación mas precisa del comportamiento observado que el de un perfil legitimo.
8 Chapter 2. Métodos Supervisados
2.3 Clasificación
Clasificadores genéricos como, por ejemplo, modelos de Markov, redes bayesianas,
y clasificadores discriminativos como por ejemplo, máquinas de vectores de soporte
(SVM) han sido exploradas en la literatura. El objetivo común de cada técnica es
utilizar datos etiquetados para entrenar un modelo que determine la probabilidad
de que cada observación sea de tipo fraudulento o no.
Las técnicas tradicionales de discriminación estadística, como la regresión logís-
tica y el análisis discriminante lineal, hacen uso de límites de decisión lineales para
la clasificación. Estos métodos se aplicaron para la detección de fraudes, Foster and
Stine (2004), estos algoritmos de clasificación se basan en esa misma premisa aun no
siendo estos de tipo lineal, y donde los bordes de decisión son dependientes no solo
de los atributos sino también del contorno con el que se define el algoritmo.
A continuación, se verán algunas de la técnicas mas recientes no lineales, para
algoritmos de clasificación.
2.3.1 Maquina del Vector Soporte (SVM)
La máquina de vector soporte es de gran utilidad por principalmente dos aspectos.
Primero, es bastante satisfactorio desde el punto de vista teórico dado que el apren-
dizaje de SVMs se basa en algunas ideas maravillosamente simples y proporciona
una intuición muy clara de lo que significa aprender desde un ejemplo, en segundo
lugar, puede conducir a altos rendimientos en aplicaciones prácticas.
Para ciertos tipos de algoritmos simples, una mera aplicación de la estadística
puede identificar con bastante precisión los factores que deben tenerse en cuenta
para un aprendizaje adecuado. Las aplicaciones del mundo real, sin embargo, a
menudo requieren el uso de modelos y algoritmos más complejos, como las redes
neuronales, que son mucho más difíciles de interpretar y analizar teóricamente. El
SVM consigue ambos objetivos. SVM construye modelos que son lo suficientemente
complejos: conteniendo metodologías especificas de redes neuronales, como radial
basis functión net(RBF) y sin embargo, lo suficientemente simples como para ser
analizado matemáticamente, ya que puede ser utilizado para corresponder a un
método lineal en un espacio de características de alta dimensión no lineal-mente
relacionado con el espacio de entrada. Además, aunque podemos considerarlo como
un algoritmo lineal en un espacio de alta dimensión, en la práctica, no implica
ningún cálculo en ese espacio de alta dimensión. Mediante el uso de kernels, to-
dos los cálculos necesarios se realizan directamente en el espacio de entrada. Este es
el giro característico de los SVM: estamos tratando con algoritmos complejos para el
reconocimiento de patrones no lineales, la regresión o la extracción de característi-
cas, pero por el bien del análisis y la algorítmica, podemos pretender que estamos
trabajando con un algoritmo lineal simple.
Para la detección de patrones se trata de estimar una función f : �N → {±1}
utilizando datos de entrenamiento, esto es, patrones xi en N-dimensional y clases
del tipo yi,
(xi, yi, ), ..., (xl , yl , ) ∈ �N ×±1
de modo que clasifique correctamente nuevos ejemplos (x, y), es decir, f (x) = y
para ejemplos (x, y), que se generaron a partir de la misma distribución de probabil-
idad subyacente P(x, y) como entrenamiento datos.
2.3. Clasificación 9
Para diseñar algoritmos de aprendizaje con SVM, se debe de crear una clase de
funciones cuya capacidad se pueda computar. Los clasificadores SVM se basan en la
clase de hiperplanos que lo determinan
(w*x) + b = 0w ∈ �N , b ∈ �,
correspondiente a las funciones de decisión
f (x) = sign((w*x) + b).
FIGURE 2.1: Ejemplo de kernel en un SVM
Podemos mostrar que el hiperplano mas óptimo se define se define como el que
tiene el margen de separación máximo entre dos clases (ver Figura 2.1). Puede con-
struirse de forma única resolviendo un problema de optimización cuadrático limi-
tado cuya solución w tiene una expansión w = ∑i; vixi en términos de un subcon-
junto de patrones de entrenamiento que se encuentran en este (consulte la Figura
2.1). Estos patrones de entrenamiento, llamados vectores de soporte, contienen toda
la información relevante sobre el problema de clasificación.
Al omitir los detalles de los cálculos, solo hay una propiedad crucial del algo-
ritmo en la que debemos enfatizar: tanto el problema de programación cuadrática
como la función de decisión final f (x) = sign(∑i vi(x.xi) depende solo del producto
escalar entre patrones en el conjunto. Esto es precisamente lo que permite gener-
alizar al SVM al caso no lineal.
La Figura 2.2 muestra la idea básica de la maquina dentro de un SVM, que es ma-
pear los datos en algun otro espacio a través del producto escalar (llamado espacio
de características) F a través de un mapeado no lineal
Φ : �N → F
y querealice el algoritmo lineal anterior en F. Como puede verse, esto solo re-
quiere la evaluación de los productos escalares.
k(x, y) := (Φ(x).Φ(y))
Estas son todas las herramientas necesarias para construir clasificadores no lin-
eales como el de la Figura 2.2. Para este fin, se sustituye Φ(xi) por cada ejemplo de
entrenamiento x, y se realiza el algoritmo de hiperplano óptimo en F. Debido a que
10 Chapter 2. Métodos Supervisados
FIGURE 2.2: Ejemplo de kernel en un SVM
estamos usando kernels, de este modo terminaremos con la función de decisión no
lineal de la forma
f (x) = sign(
i=1
∑
l
vi.k(x,xi) + b)
Los parámetros vi se calculan como la solución de un problema de programación
cuadrática. En el espacio de entrada, el hiperplano se corresponde a una función de
decisión no lineal cuya forma está determinada por el kernel.
El algoritmo SVM por tanto hasta ahora tiene una cantidad de propiedades sor-
prendentes:
• Se basa en la teoría del aprendizaje estadístico
• Es práctico (ya que se reduce a un problema de programación cuadrática con
una solución única)
• Contiene un número de algoritmos más o menos heurísticos como casos es-
peciales: mediante la elección de diferentes funciones del kernel, obtenemos
diferentes arquitecturas, como clasificadores polinomicos, clasificadores RBF,
y redes neuronales de tres capas.
Por tanto la maquina de vector soporte (SVM) funciona con una versión trans-
formada más grande del espacio de características y encuentran un hiperplano de
máximo margen que separa dos clases de datos. A las SVM les va bien clasificando
grupos separables no lineales, no requieren grandes conjuntos de datos y el entre-
namiento converge a una solución global única. Estas características hacen que SVM
sea atractivo en problemas como el fraude. Sin embargo, son computacionalmente
muy intensos, los resultados no son fáciles de interpretar, y los parámetros del al-
goritmo son muy customizables, como por ejemplo, el tipo de kernel utilizado para
transformar el espacio dimensional y todos sus parámetros. Si es cierto que en la
práctica existen heurísticos para seleccionar algunos de los parámetros Hsu and Lin
(2009), Caputo and Smola (2002). También se pueden usar métodos de búsqueda
generales en el espacio de parámetros como el método wrapper de Kohavi (1997).
La búsqueda se puede extender a este espacio de características a expensas del un
coste alto de computación. Por ejemplo, Ahn and Kim (2006) utilizaron algoritmos
genéticos para optimizar la selección de atributos, la selección de instancias y los
parámetros del kernel simultáneamente en un problema de detección.
2.3. Clasificación 11
2.3.2 Arboles de Clasificación y Aprendizaje Combinado
Los árboles de clasificación separan los datos de entrenamiento utilizando difer-
entes divisiones en cada atributo y recursivamente eligen la división de los datos
en dos partes que minimizan alguna medida de impureza de clase en los subcon-
juntos resultantes de clasificación. Las métricas típicas de las impurezas incluyen
la entropía, el índice de Gini o el error de clasificación. Algunos métodos también
pueden manejar divisiones no binarias. Tres de los métodos mas ampliamente uti-
lizados son CHAID Kass (1980), CART Breiman (2001) y C4.5 Quinlan (1987), así
como su sucesor, C5.0.
Los árboles de decisión pueden manejar características mixtas numéricas y categóri-
cas y, naturalmente, acomodar límites de decisión no lineales y no continuos e in-
teracciones entre variables de entrada. También realizan una selección automática
de atributos utilizando solo los atributos con el poder de clasificación más fuerte,
aunque existen algunas limitaciones en la práctica Witten and Frank, 2005. Son fá-
ciles de interpretar y su estructura simple permite tomar decisiones sobre grandes
cantidades de datos de transmisión de manera muy rápida.
Sin embargo, hay desventajas de los métodos basados en árboles. Se sabe que son
inestables debido a su estructura jerárquica, esto quiere decir que pequeños cambios
en el conjunto de datos de capacitación pueden generar árboles muy diferentes y la
selección de atributos puede encontrarse sesgada. Se necesitan estructuras comple-
jas para aprender reglas simples de decisión. Por ejemplo, los límites de decisión lin-
eales se aproximan como una función de escalera, lo que obliga a una representación
jerárquica de las reglas. Los algoritmos de árbol también son criticados por no gen-
eralizar bien y por lo general se necesitan algoritmos de poda para evitar el sobre-
ajuste. Los árboles de inferencia condicionales Hothorn and Zeileis, 2006 son una
alternativa reciente que aborda el problema del sesgo de selección de atributos y el
sobre-ajuste a través de pruebas de permutación de asociación entre las covariables
y el objetivo.
El método de arboles de clasificación combinados, intenta superar las limita-
ciones de los métodos de clasificación de arboles simples combinando el resultado
de múltiples modelos en una única decisión de clasificación. Desde el punto de vista
de la detección de fraude, se utilizan comúnmente dos métodos de aprendizaje de
conjunto principales: random forest (Breiman 2001) y boosting Freund and Schapire,
1997.
Los árboles de decisión se usaron ampliamente en la detección de fraude, espe-
cialmente en el campo de la calificación del riesgo crediticio. Chan and Prodromidis,
1999 propusieron AdaCost, una variante del algoritmo de boosting AdaBoost, espe-
cialmente adecuado para la detección de fraudes financiero. Carter y Carter and
Catlett, 1987 y Li and Huang, 2004 presentaron aplicaciones de ID3, un precursor
de C4.5, para la puntuación de fraude crediticio. Lee and Chen, 2003 compararon
CART y splines de regresión adaptativa multivariable (MARS) para el análisis dis-
criminante, la regresión logística y las redes neuronales para la calificación del riesgo
crediticio.
Para ilustrar una aplicación de árboles de decisión, considere un caso de detec-
ción de lavado de dinero donde se usan tres características:
• x1: Puntuación de comparación entre individuos en términos de volumen de
transacción
• x2: Puntuación de velocidad de transacción
12 Chapter 2. Métodos Supervisados
• x3: Nivel individual de puntuación de actividad esperada.
FIGURE 2.3: Diagrama de dispersión de datos
La Figura 2.3 se muestran los diagramas de dispersión de los datos. El ejemplo
intenta simplemente ilustrar la aplicación de las técnicas de los arboles de clasifi-
cación.
FIGURE 2.4: Arboles de clasificación
2.3. Clasificación 13
La Figura 2.4 muestra los árboles producidos por CART y C4.5. La interpretación
es sencilla para ambos arboles: por ejemplo, el árbol de la izquierda (CART) mar-
cará las transacciones que exhiban un volumen bajo en comparación con los pares
y la alta velocidad, la transacción con alto volumen y alta velocidad, así como las
transacciones con alto volumen, baja velocidad y un nivel de actividad que es de-
masiado alto para lo que se esperaría para ese tipo particular de negocio.
El algoritmo boosting puede sufrir sobreajuste en presencia de clases mal eti-
quetadas Opitz and Maclin, 1999, mientras que el Random Forest se considera más
robusto para la clasificación que los algoritmos basados en árboles de clasificación.
Teóricamente, el Random Forest puede experimentar un rendimiento de clasificación
degradado si una fracción muy grande del espacio de características es irrelevante.
En este caso, el algoritmo forzará al mero azar estas características irrelevantes en
los nodos de decisión.
2.3.3 Reglas de clasificación y Reglas Combinadas
Un conjunto de reglas es un conjunto de pruebas lógicas que verifican si una obser-
vación pertenece a una clase. En general, estos conjuntos son disyuntivos (por ejem-
plo, un OR lógico) y cada regla en el conjunto de reglas se expresa como una serie de
conjunciones lógicas (o pruebas AND), todas las cuales deben pasarse para que la
regla se ejecute. En este sentido, las reglas se pueden considerar una generalización
de los árbolesde decisión y, de hecho, un árbol de decisión se puede trivialmente
resumir como un conjunto de reglas (que tiende a ser una representación más com-
pacta e inteligible del árbol) . Sin embargo, lo contrario no se cumple: describir una
regla como un árbol no es inmediato, ya que el árbol impone una estructura lógica
más rígida que la regla.
El precio pagado por la compacidad de las reglas es que varias reglas se pueden
desencadenar al mismo tiempo y proporcionar clasificaciones conflictivas; y puede
darse el caso en que ninguna regla se ejecute en absoluto. Una serie de técnicas
abordan estos problemas. Las reglas se pueden ordenar y ejecutar secuencialmente
o mediante una votación por mayoría se puede usar para resolver clasificaciones
conflictivas. En el caso donde no se dispara ninguna regla, las instancias se pueden
asignar a la clase más común o a una clase especial "desconocida".
El rendimiento de las reglas es bastante similar a los árboles de decisión e incluso
los supera en una variedad de problemas. La ventaja es que proporcionan una salida
más compacta e interpretable que se puede implementar fácilmente en los sistemas
de supervisión de transacciones.
Existe una variedad amplia de algoritmos basados en reglas en la literatura. Una
posible estrategia es generar conjuntos de reglas a partir de árboles de decisión. Este
es el enfoque seguido en C4.5Rules Quinlan, 1987 y PART Frank and Witten, 1998.
El primer método genera conjuntos de reglas de un gran árbol de decisión C4.5. Este
último construye un árbol C4.5 en cada iteración, haciendo una regla de la mejor hoja
del arbol y luego eliminando las observaciones coincidentes y repitiendo el proceso.
La metodología secuencial es una estrategia alternativa. Se aprende una regla a la
vez, todas las observaciones coincidentes se eliminan del conjunto de datos del en-
trenamiento y el proceso se repite. RIPPER Galstyan and Cohen, 2005 genera un con-
junto de reglas disyuntivas para la clase minoritaria y luego las optimiza generando
alternativas para cada regla. Las reglas de ondulación Gaines and Compton, 1995,
generan una regla sobre la clase mayoritaria y luego continúan agregando excep-
ciones.
14 Chapter 2. Métodos Supervisados
Más recientemente, el concepto de aprendizaje combinado se aplicó también a los
algoritmos de reglas. RuleFit Friedman and Popescu, 2008 por ejemplo, utilizaron
las reglas generadas a partir de los árboles de decisión como "débiles" como base,
que luego se combinan de forma aditiva ponderada en lugar de la forma disyuntiva
más común.
2.3.4 Redes Neuronales
Las redes neuronales se usaron ampliamente en la detección de fraudes. Son los
clasificadores subyacentes a los sistemas comerciales, como HNC’s, Falcon System,
adquirido en 2002 por Fair Isaac’s Corporation Gopinathan and, 1998 o Xtract’s
Detect, así como sistemas desarrollados internamente en instituciones financieras,
como el sistema CRIS de Visa (Fryer 1996), el fraude de tarjetas de crédito FDS de
Mellon Bank - sistema detección (Ghosh y Reilly 1994), o sistema Minerva de la So-
ciedad Española de Medios de Pago (SEMP) (Dorronsoro and Santa Cruz, 1997).
Por lo general, las redes de feed-forward con solo tres capas (capas de entrada,
ocultas y de salida) se usan en la detección de fraudes. La entrada a la red neu-
ronal es el vector de características. La señal emitida por la unidad de salida es la
probabilidad de que la actividad sea criminal, que se usa como medida de sospecha.
Dadas suficientes unidades ocultas y no linealidades y pesos adecuados, las redes
neuronales de tres capas pueden implementar un aproximador de función univer-
sal Haykin, 1998. La retro-propagación se usa comúnmente para el entrenamiento.
Los pesos se inicializan con valores aleatorios, que luego se cambian en la dirección
que minimiza el error de entrenamiento. Configuraciones más complejas con dos
capas ocultas, o distintas estrategias de retro-propagación son posibles, pero poco
comunes.
Las redes neuronales son atractivas en la detección de delitos financieros por
varias razones. En primer lugar, se demostró que las redes de tres capas son capaces
de lidiar con las distribuciones de clase altamente asimétricas que surgen en esta
aplicación. Dorronsoro and Santa Cruz, 1997 aportaron resultados positivos del sis-
tema Minerva con proporciones de transacciones de fraude:legítimo de 1: 150. En
segundo lugar, una vez entrenados, se pueden analizar nuevos datos muy rápida-
mente, un atributo que es necesario y de gran importancia cuando se trata de atrapar
transacciones fraudulentas en tiempo real.
Sin embargo, las redes neuronales también tienen sus desventajas. Un problema
importante es la necesidad de seleccionar y ajustar la estructura de la red. La elección
del número de estados ocultos debe realizarse para optimizar el aprendizaje y la
generalización. Además, el rendimiento del clasificador es muy sensible al vector
de características elegidas, por lo que son necesarias una selección de atributos y un
pre procesamiento (por ejemplo, una normalización). Maes and Vanschoenswinkel,
2002 informaron una mejora del 28% en la tasa positiva real con una tasa de 10% de
falsos positivos en un experimento de detección de fraude después de eliminar solo
un atributo correlacionada de un conjunto de 10, y la normalización de los atributos
restantes . En el ejemplo de lavado de dinero presentado en la Sección 4.2.2, una red
de tres capas con cuatro nodos en la capa oculta clasificó correctamente el 94.59% de
las muestras en el conjunto de datos. La tasa de falsos negativos fue del 2,8% y la tasa
de falsos positivos del 10% cuando el conjunto de datos se normalizó log antes del
entrenamiento. Si, se eliminase este paso de pre-procesamiento, la red convergería
al clasificador mas trivial, que decide que todas las instancias están libres de fraude.
El post-procesamiento puede ser una opción factible también en algunos casos. Kim
and Kim, 2002 abordaron el problema de la superposición de datos en el fraude con
2.3. Clasificación 15
tarjetas de crédito al ponderar el puntaje de una red neuronal por una métrica de
densidad de fraude en la vecindad del vector de características de entrada.
El entrenamiento de redes neuronales consume mucho tiempo para grandes con-
juntos de datos de entrenamiento, especialmente si el modelo está destinado a ser
reentrenado con mucha frecuencia. Además, los perceptrones multicapa entrenados
para la propagación son propensos a sobreajuste; existen varios algoritmos que abor-
dan este problema, a expensas de agregar complejidad al proceso de entrenamiento.
Finalmente, las redes neuronales a menudo se tratan como "cajas negras" y sus re-
sultados pueden llegar a ser imposibles de interpretar.
2.3.5 Redes Bayesianas
Las redes de creencias Bayesianas (BBN) forman otra clase popular de métodos de
detección de fraudes. Un BBN representa la distribución de probabilidad conjunta
sobre un conjunto de variables aleatorias como un gráfico acíclico dirigido; cada
nodo es una variable y las flechas representan una correlación entre variables. Una
tabla de probabilidad condicional cuantifica el efecto de los nodos principales en un
nodo secundario. Si un nodo no tiene padres, la tabla contiene la probabilidad pre-
via de la variable. La probabilidad de cualquier configuración de los componentes
del sistema se puede calcular utilizando la regla de la cadena
P(sn, sn−1, sn−2, ..., s1) = πni=1P(si|si−1, ..., s1)
Una transacción caracterizada por un vector de atributos X se clasifica como
fraudulenta (F) cuando P(F|X) > P(F|X), que, usando la regla de Bayes, se puede
reducir a comparar
P(xn|xn−1, .., x1, F)...P(x1|F)P(F) > P(xn|xn−1, .., X1, F)...P(x1| � (F))P( � (F)).
Entrenar una RB implica primero aprender la estructura de la red y luego calcu-
lar las probabilidades condicionales para esa estructura a partir de los datos. Este
segundo paso es trivial una vez que se conoce la estructura de la red. La estruc-
tura se aprende usando un experto humano o explorandoel espacio de redes poten-
ciales. Existe una variedad de estrategias de búsqueda, que incluyen algoritmos de
búsqueda de propósito general (por ejemplo, recocido simulado, algoritmos genéti-
cos) y algoritmos de búsqueda específicos de RB como K2 (Cooper and Herskovits,
1992) o Naive Bayes (TAN) aumentado de árbol (Friedman and Goldszmidt, 1997).
Para cada red, se estiman las probabilidades condicionadas y se califica la "bondad
de ajuste" de la red a los datos de entrenamiento. La complejidad de la red puede ten-
erse en cuenta en la puntuación utilizando el criterio de información Akaike (AIC)
o las métricas basadas en el criterio de longitud de descripción mínima (MDL) para
evitar el sobre-ajuste.
La Figura 2.5 muestra un RB TAN entrenada con un conjunto de datos de lavado
de dinero introducido en la Sección 1.2.2.2, y que clasifica correctamente el 82.88%
de las instancias en el conjunto de datos de prueba, con un 24% de tasa de falsos
positivos y un 14% de tasa de falsos negativos . TAN funciona asumiendo primero
la independencia condicional entre todos los predictores, es decir, comenzando con
un modelo de Naive Bayes y luego considera agregar una sola dependencia a cada
uno de ellos.
16 Chapter 2. Métodos Supervisados
FIGURE 2.5: Arboles de clasificación
La red resultante relaciona el score de velocidad de transacción (x2) con el nivel
de actividad individual esperado (x3) y luego x3 con el score de comparación entre
iguales en términos de volumen de transacción (x1). Se debe tener precaución al
tratar de extraer conclusiones de causalidad a partir de estos resultados. En primer
lugar, generalmente hay múltiples estructuras de red con un rendimiento de clasifi-
cación equivalente y, por lo tanto, múltiples explicaciones para los datos observados.
Diferentes algoritmos de búsqueda con diferentes parámetros pueden converger a
diferentes redes. En segundo lugar, cada estructura se aprende basada solo en las
correlaciones observadas en los datos de entrenamiento; ninguna causalidad puede
darse por sentada. En tercer lugar, incluso si existe una relación causal entre dos no-
dos de la red, todavía existe el problema de determinar la dirección real de la causal-
idad. En el ejemplo presentado, de acuerdo con la opinión de los expertos, es más
plausible que una alta velocidad de transacción resulte tanto en un nivel inesperado
de actividad como en un gran volumen, incluso si la cantidad de cada transacción
es pequeña.
Maes and Vanschoenswinkel, 2002 proporcionaron un estudio comparativo entre
redes neuronales y redes bayesianas para la detección de fraudes. Las transacciones
fueron descritas por cuatro características y una etiqueta. Las RB produjeron menos
errores de clasificación que las redes neuronales, mostrando que las RB fueron más
rápidas de entrenar, pero mucho más lentos en su ejecución.
2.3.6 Hidden Markov Models
En un modelo normal de Markov, los estados siguen un proceso de Markov y son
visibles para el observador. En los HMM, los estados están ocultos. En cambio,
el observador ve las variables de salida que están influenciadas por el estado y la
secuencia de variables de salida proporciona alguna información de la secuencia de
estados.
2.3. Clasificación 17
A modo ilustrativo, presentamos un ejemplo para detectar el fraude de deuda en
las cuentas de cheques. El préstamo ocurre cuando un usuario de la cuenta realiza
un retiro sin fondos suficientes en la cuenta. Los bancos a menudo brindan un ser-
vicio de préstamo a corto plazo a sus clientes al permitir el retiro de fondos incluso
cuando la cuenta no cuenta con fondos suficientes. Para la institución financiera, la
desventaja de este servicio es el abuso potencial que puede ocurrir en forma de falta
de pago del préstamo. Por lo tanto, para administrar el riesgo de actividad fraudu-
lenta potencial mientras se proporciona un servicio de prestación, se debe emplear
un enfoque de supervision de cuenta adecuado. Las actividades de transacción del
cliente se pueden modelar utilizando un HMM. Los siguientes estados pueden ocur-
rir durante el uso de la cuenta (que se muestra en la Figura 2.6):
• Estado 1: En deuda; cuenta tiene un saldo no negativo.
• Estado 2: Endeudado; cuenta tiene un saldo negativo, pero el cliente tiene la
intención de pagar la deuda en un momento posterior.
• Estado 3: Deuda; cuenta tiene un saldo negativo y el cliente no tiene intención
de pagar (es decir, estado fraudulento).
FIGURE 2.6: Arboles de clasificación
Una transición entre los estados es causada por una transacción realizada en la
cuenta. Una transición del Estado 1 a sí mismo sucede cuando un cliente, previ-
amente con un saldo no negativo, realiza una transacción y se mantiene en buen
estado. Un cliente puede pasar del Estado 1 a cualquiera de los Estados 2 o 3 cada
vez que se realiza un retiro. Si un cliente se encuentra en el estado 2 y, por algún
motivo, la intención de devolver la deuda cambia, se produce una transición al es-
tado 3. Pensamos en el Estado 3 como un estado "absorbente". Es decir, una vez que
un cliente entra en el Estado 3, el cliente permanece a este para siempre. Estas tran-
siciones de estado a estado forman una cadena de Markov y la probabilidad de las
transiciones se puede estimar a partir de la serie histórica de datos de transacción.
1.2.3 Linnks
Otra amenaza importante para las instituciones financieras son los grupos de
crimen organizado, o grupos de personas que trabajan en conjunto con animo de eje-
cutar o planificar una acción fraudulenta. Los clientes y sus transacciones, cuando se
18 Chapter 2. Métodos Supervisados
ven individualmente, pueden pasar bajo el radar de los esquemas de detección nor-
males. Esto puede suceder ya sea porque parecen ser legales o porque las transac-
ciones individuales implican pequeñas cantidades de dinero. Sin embargo, cuando
las transacciones se consideran en el contexto de un patrón de actividad, que a
menudo involucra a varias personas relacionadas, el comportamiento delictivo puede
ser más evidente.
Una opción para encontrar estos grupos es usar algoritmos de agrupamiento
para identificar clientes con patrones de comportamiento similares. Sin embargo, es-
tos anillos de actividad delictiva involucran comportamientos repartidos en muchas
transacciones diferentes, sobre múltiples clientes y cuentas, y a menudo durante
largos períodos de tiempo. El análisis de clúster ordinario puede ser incapaz de de-
tectar redes tan complejas. Los métodos de análisis de enlaces y minería de grafos
pueden ser de ayuda para detectar estos grupos de personas que trabajan en con-
junto. Estas técnicas son comunes en áreas como las ciencias sociales y recientemente
se aplicaron en la detección de delitos financieros, especialmente para la detección
de lavado de dinero (Goldberg and Senator, 1995,Goldberg and Senator, 1997, Zhang
and Yu, 2003).
La idea principal detrás del análisis de enlaces en esta aplicación es comenzar
con una entidad conocida de interés y encontrar relaciones significativas con otras
entidades. Con frecuencia los investigadores definen los atributos que se utilizan
para identificar a las personas relacionadas en función de sus experiencias. Zhang
and Yu, 2003 propusieron un método para el descubrimiento de enlaces basado en
el análisis de correlación (LDCA), que aplican para investigar crímenes de lavado
de dinero. Aquí, se usa una cierta correlación para construir los atributos para los
métodos de descubrimiento de enlaces.
El análisis de enlaces también se puede utilizar como una score de sospecha
o "culpa por asociación" (Macskassy and Provost, 1997), donde una entidad ob-
tiene una puntuación que es una función de las puntuaciones de las entidades a
las que está asociada. Sin embargo, este enfoque puede ser muy sensible a difer-
entes parámetros de configuración (Galstyan and Cohen, 2005). Ver Macskassy and
Provost, 1997 para una encuesta exhaustiva del campo y un estudio de caso de la
implementación de un sistema para la clasificación de datos en red.19
Chapter 3
Métodos No Supervisados
3.1 Definición
Un problema con el aprendizaje supervisado para la detección del delito financiero
es que el etiquetado como instancia fraudulenta a menudo no es confiable o no está
disponible. Los humanos han investigado casos previamente trabajados y se puede
etiquetarse erróneamente con facilidad. En general, la asignación de etiquetado a las
transacciones y casos anteriores requiere mucho tiempo y está muy sujeta a errores.
Además, en el caso del lavado de dinero, es imposible obtener etiquetas de clase. No
hay forma de decir con certeza que un cliente no haya cometido un lavado de dinero.
Cuando no hay una base de datos de casos etiquetados previamente disponibles, se
deben usar técnicas de aprendizaje no supervisadas.
3.2 Clustering
El clustering, como técnica de minería de datos, trata el problema de dividir un con-
junto determinado de entidades en subconjuntos significativos. Los clusters resul-
tantes de esta segmentación de datos deben ser homogéneos o estar bien separados
siendo, las entidades dentro del mismo grupo similares, mientras que las entidades
dentro de diferentes grupos serán diferentes. Un esquema de Clustering normal-
mente contiene una serie de elementos, estos son:
• a) Un conjunto de datos donde existen N entidades y donde se mida las mis-
mas propiedades p para cada entidad. Esto da como resultado una matriz X
de N x p.
• b) Una medida de disimilitud que calcule a partir de la matriz X, una ma-
triz NxN D = (dkl) de diferencias entre entidades. Para evaluar cuán es-
trechamente relacionados están dos entidades, la mayoría de los métodos de
clustering utilizan diversos tipos de medidas de diferenciadoras, ya sea basadas
en distancia o en densidad. Todas ellas satisfacen las propiedades dkl >= 0,
dkk = 0, dkl = dlk, pero estás no son necesarias para satisfacer la desigualdad
del triángulo, sean distancias reales.
• c) Restricciones que en un tipo de clustering sea cual sea, especifique los parámet-
ros de inicialización necesarios adicionales: como por ejemplo un número k
total de clusters, o un umbral de densidad, o de conectividad de grafos, etc.
• d) Un índice de validez, para expresar homogeneidad o separación de los clus-
ters en el clustering.
• (e) Un algoritmo. El algoritmo puede ser ya existente o uno nuevo para el
problema definido en (c) y (d).
20 Chapter 3. Métodos No Supervisados
• (f) Computación que aplique el algoritmo seleccionado a la matriz D = (dkl)
para dividir las N entidades iniciales en clusters significativos.
• (g) Interpretación del resultado, basadas en indices de validez para (d) en toda
la segmentación de datos obtenida de (f).
Independientemente de la técnica de clustering utilizada y su posición en la tax-
onomía general del dataset, los problemas transversales siempre aparecen y deben
de tenerse en cuenta para describir completamente un algoritmo de clustering dado.
Siguiendo este camino, los algoritmos pueden ser aglomerativos o divisivos, al comienzo
del algoritmo cada punto representa un cluster o todos los puntos representan un
solo cluster, dependiendo de la técnica utilizada. Un uso secuencial o simultáneo
de los atributos de datos, un punto de datos puede pertenecer o no, a uno o múlti-
ples clusters, un enfoque determinístico o estocástico, optimización de clusterings
mediante una función objetivo determinista o una técnica de búsqueda aleatoria,
incremental o no incremental,si se puede o no aumentar el conjunto de datos de
destino original, todas estas preguntas deben de ser respondidas antes de comenzar
con la ejecución, y dependiendo de estas la funcionalidad variará significativamente.
Con todas estas diferentes taxonomías superpuestas de algoritmos de clustering,
los criterios genéricos más comunes se representan por la forma en que se forman
los clusters que dividen las técnicas de clustering en clústeres jerárquicos y parti-
cionales.
Grupos de clustering jerárquico o entidades comienzan con una secuencia de
particiones, ya sea comenzando con un solo cluster inicial que puede ser una aglom-
eración de cGrupos de clustering jerárquico o entidades comienzan con una secuen-
cia de particiones, ya sea comenzando con un solo cluster inicial que puede ser una
aglomeración de clústeres jerárquicos o partiendo de un único clúster que contiene
todas las entidades. Los métodos de clustering partional se pueden dividir en méto-
dos basados en prototipos, métodos basados en densidades, métodos de resolución
de mezclas, o basados en metaheurísticas. Los métodos basados en prototipos tienen
un prototipo que representa cada clúster, generado dinámicamente como una fun-
ción promedio de todas las entidades dentro del clúster, dada por una entidad rep-
resentativa dentro del clúster. El objetivo de los métodos basados en prototipos es
minimizar una función de coste definida por las distancias entre todas las entidades
dentro de un clúster y un prototipo de clúster definido con anterioridad.
Una de las funciones de coste más utilizadas es la función de error cuadrático
presente en los algoritmos k-means, k-medoid, k-modes y sus variaciones. Los méto-
dos basados en la densidades parten del supuesto de que todo el conjunto de datos
se divide en clusterings estrechos de alta densidad separadas por regiones de baja
densidad. Un algoritmo popular de este tipo es DBscan. Los algoritmos basados
en redes y los basados en grafos también se incluyen en la categoría de densidades.
Para los métodos basados en metaheurísticas, la búsqueda combinatoria para op-
timizar una solución de clustering dada se está llevando a cabo a través de una
búsqueda tabú, búsqueda por dispersión, recocido simulado, algoritmos genéticos
y inspirados en la naturaleza como las colonias de hormigas. Con cambios relati-
vamente bajos a los algoritmos de clusterings anteriores, todos los métodos vistos
pueden producir clústeres muy bien fuerte y definidos o suaves y difusos. La agru-
pación en clusters fuertes, asigna una entidad a un solo clúster, sin embargo la agru-
pación en clúster difusa trata con las probabilidades de una entidad que pertenece a
3.3. Representación y Reducción de Dimensión 21
cada clúster. En este sentido, la agrupación fuerte puede verse como un caso espe-
cial de clustering difuso.
Existen numerosas instancias en los que se ha ulitilizado la metodología del clus-
tering para la detección de fraude, muchos de ellos utilizando datos reales. Como
por ejemplo Issa and Vasarhelyi (2011) para fraude financiero, en los que se utiliza la
tecnica de clustering de k-means, o Rui Liu and Zhu (2011) para el fraude de lavado
de capital, tambien con datos reales y con la utilización de la tecnica de k-means para
el clustering, así como muchos otros que tambíen indagan en el tema mediante esta
técnica.
En la mayoría de los casos en los que se utilizan específicamente técnicas de
clustering, estas son mediante la metodología k-means para la determinación y de-
tección de outliers. En la mayoría de los casos, la distancia euclidiana se usa como
la métrica de desemejanza. Por ejemplo, Issa and Vasarhelyi (2011) implementa k-
means con la intención de identificar reembolsos fraudulentos dentro de una com-
pañía de telecomunicaciones con transacciones fraudulentas que se consideran como
valores atípicos o outliers. Por otro lado, encontramos técnicas híbridas de minería
de datos donde el clustering es solo una herramienta que se utiliza en una o más
etapas, dentro de implementaciones de minería de datos complejas, como el trabajo
presentado por Jyotindra and Ashok (2011).
3.3 Representación y Reducción de Dimensión
Como se mencionó anteriormente, uno de los desafíos en la detección y preven-
ción de delitos financieros es la alta dimensionalidad de los datos. Con frecuencia,
a una institución financiera le gustará saber cuales son los grupos entre las obser-
vaciones y ser capaz de identificar las observaciones que son más diferentes de las
demás. Sin embargo, la visualización de datos en el espacio de dimensionescom-
pletas es inviable y el análisis debe hacerse en el espacio que es útil para examinar
ese comportamiento de interés. La reducción de dimensionalidad puede ayudar a
identificar la serie de atributos que son más útiles para explicar los patrones en los
datos. Además, el Scoring de la función de criterio utilizada para la transformación
también se puede utilizar para proporcionar una puntuación de sospecha para cada
observación.
Cuando el objetivo es una medida de sospecha, es común usar análisis de com-
ponentes principales (PCA) o análisis de componentes independientes (ICA). La
búsqueda de proyección exploratoria es otra técnica que es especialmente útil cuando
el objetivo es encontrar agrupamientos en los datos originales. El escalado multidi-
mensional (MDS) también se usa para determinar las dimensiones subyacentes que
son útiles para explicar similitudes o diferencias entre las observaciones.
3.4 Detección de Anomalías
En un control tradicional de un proceso estadístico, las observaciones anómalas
pueden indicar que el proceso está fuera de control. En delitos financieros, a menudo
hay anomalías en un conjunto de datos que no pertenece a ningún clúster. En apli-
caciones financieras, las observaciones anómalas a menudo corresponden a transac-
ciones criminales, y las razones de sus diferencias con el resto de los datos pueden
22 Chapter 3. Métodos No Supervisados
ser útiles para identificar las diferencias entre el comportamiento criminal y no crim-
inal. En la siguiente discusión, exploramos varios métodos de detección de anoma-
lías.
La detección de anomalías puede considerarse como una aplicación de detección
de valores atípicos, que es un problema bien estudiado en la comunidad estadística
(Hawkins (1980), Barnett and Lewis (1994) ). Esta es una idea bastante sencilla para
los datos de una sola variable y existen métodos estadísticos estándar para encontrar
valores atípicos en un conjunto de datos de ese estilo. En configuraciones multivari-
ables, no existe un orden natural o una sola métrica de distancia. La medida de
distancia más común que se utiliza es la distancia Mahalanobis, que se desarrolló en
el contexto de datos normales con varias variables. Si uno no quiere hacer suposi-
ciones paramétricas fuertes, el problema se vuelve incluso más difícil.
3.4.1 Detección de Anomalías Basadas en Densidad y Distancia
Se introdujeron varios algoritmos de detección de valores anómalos en respuesta a
estas necesidades y se clasifican en dos clases principales: basado en la densidades y
basado en la distancia. Los métodos basados en la densidad identifican valores atípi-
cos como observaciones ubicadas en áreas de baja densidad. Estos métodos encuen-
tran valores atípicos como un subproducto de la agrupación. Una segunda clase de
algoritmos usa métodos basados en la distancia. Aquí, las observaciones distantes se
identifican como aquellas que están "lejos" de alguna fracción de las observaciones
restantes, de acuerdo con alguna función de distancia. Encontrar distancias entre
puntos de grandes dimensiones para grandes conjuntos de datos es computacional-
mente intensivo, pero ha habido trabajos recientes sobre métodos para hacerlo de
manera eficiente. Tanto en los métodos basados en la distancia como en la densidad,
es necesario definir una métrica de distancia.
La detección de valores atípicos basados en la distancia también se utilizó am-
pliamente en la detección de fraudes en telecomunicaciones y estos métodos tam-
bién se generalizan a delitos financieros. El score Z y una puntuación basada en
Poisson se usan como métricas de distancia para atributos con uno o dos parámet-
ros, respectivamente. Murad and Pinkas (1999) propusieron la distancia-CD, una
métrica de distancia basada en distribuciones de probabilidad acumulativas para
abordar las limitaciones de las medidas de distancia comúnmente utilizadas en el
reconocimiento de patrones, como por ejemplo, Euclidiana, Hellinger, Mahalanobis
y divergencia.
También se trabajó para desarrollar una noción de profundidad en los datos para
el análisis de datos multivariados no paramétricos (Liu and Singh (1999)). A las
observaciones se les asigna una profundidad relativa al "centro" del conjunto de
datos utilizando una función de profundidad definida. Proporcionando un orden
de datos, también conduce a una clase de métodos de detección de valores atípicos
multivariantes: el centro de los datos es la observación con profundidad máxima y
las observaciones periféricas son aquellas con profundidad mínima.
23
Chapter 4
Detección de Anomalías Basada en
Grafos
4.1 Definición
Al analizar conjuntos de datos grandes y complejos, saber qué destaca en los datos,
suele ser igual o incluso más importante e interesante que conocer su estructura
general. La rama de minería de datos relacionada con el descubrimiento de ocurren-
cias extrañas en conjuntos de datos se llama detección de anomalías. Este dominio
de problema tiene numerosas aplicaciones de alto impacto en seguridad, finanzas,
cuidado de la salud, cumplimiento de la ley y muchos otros, en nuestro caso lo en-
focaremos a la detección de fraude.
Para abordar el problema de detección de anomalías, se han desarrollado nu-
merosas técnicas en las últimas décadas, especialmente para detectar outliers y anoma-
lías en colecciones no estructuradas de puntos de datos multidimensionales. Por
otro lado, los objetos de los datos no siempre se pueden tratar como puntos que se
encuentran en un espacio multidimensional independientemente, por el contrario,
pueden presentar interdependencias que deben tenerse en cuenta durante el proceso
de detección de anomalías como los de la Figura 4.1.
FIGURE 4.1: Objetos inter-conectados
Los grafos proporcionan una maquinaria poderosa para capturar de manera
efectiva estas correlaciones de largo alcance entre objetos de datos inter-dependientes
y por lo tanto estos serán utilizados y explorados para el objetivo de detección de
24 Chapter 4. Detección de Anomalías Basada en Grafos
fraude inter-conectado.
4.2 Detección de Anomalías en Grafos Estáticos
En esta sección, abordaremos la detección de anomalías en grafos estáticos. Es decir,
la tarea principal aquí es detectar entidades en la red anómalas (por ejemplo, nodos,
bordes, subgrafos) dada la estructura del gráfo completo. Primero se verá una breve
descripción general de las técnicas de detección de valores atípicos en nubes estáti-
cas de puntos de datos y los indicadores para poder inferir comportamientos en el
dataset.
La detección de outliers se ocupa del problema de detectar puntos periféricos en
el espacio de características (de gran dimensión) de los puntos de datos. Aunque no
están directamente relacionadas, las técnicas de detección de outliers vistas anteri-
ormente se emplean en la detección de anomalías basadas en grafos. Por lo tanto,
es beneficioso conocer los métodos generales de detección de valores atípicos para
detectar anomalías en los grafos.
Se distingue la detección de anomalías en datos de grafos en dos configuraciones:
(1) grafos simples y (2) grafos atribuidos. Un grafo atribuido es un grafo donde los
nodos y bordes tienen atributos asociados. Por ejemplo, en una red social, los usuar-
ios pueden tener diversos intereses, trabajar o vivir en diferentes lugares, ser de di-
versos niveles de educación, etc., mientras que los enlaces relacionales pueden tener
varias fortalezas, tipos, frecuencia, etc. Un grafo simple, por otro lado, no tiene tales
relaciones y consiste en solo nodos y bordes entre si, es decir, la estructura del grafo
en si.
Para un grafo simple cualquiera, la única información al respecto es su estruc-
tura. En esta categoría de métodos de detección de anomalías, se explota la es-
tructura del grafo para encontrar patrones y anomalías de puntos. Estos patrones
estructurales se pueden agrupar en dos categorías: patrones basados en estructuras
y patrones basados en la comunidad.
4.2.1 Basados en Estructura
Organizamos los enfoques basados en la estructura