Analisis-de-la-produccion-cientfica-de-Mexico-en-el-web-of-science-durante-el-perodo-2005-2015-utilizando-inteligencia-computacional

•

Artes

Estudiando Artes

20/7/2022

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Arte

49.245 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO

POSGRADO EN BIBLIOTECOLOGÍA Y ESTUDIOS DE LA INFORMACIÓN
FACULTAD DE FILOSOFÍA Y LETRAS
INSTITUTO DE INVESTIGACIONES BIBLIOTECOLÓGICAS Y DE LA INFORMACIÓN

Análisis de la producción científica de México en el Web of Science, durante el
período 2005-2015, utilizando inteligencia computacional.

TESIS
QUE PARA OPTAR POR EL GRADO DE:
MAESTRA EN BIBLIOTECOLOGÍA Y
ESTUDIOS DE LA INFORMACIÓN

PRESENTA:
Lic. Ibis Anette Lozano Díaz

ASESOR: DR. Humberto A. Carrillo Calvet
Facultad de Ciencias y Centro de Ciencias de la Complejidad
Universidad Nacional Autónoma de México

Ciudad de México, Diciembre 2016

UNAM – Dirección General de Bibliotecas
Tesis Digitales
Restricciones de uso

DERECHOS RESERVADOS ©
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL

Todo el material contenido en esta tesis esta protegido por la Ley Federal
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México).
El uso de imágenes, fragmentos de videos, y demás material que sea
objeto de protección de los derechos de autor, será exclusivamente para
fines educativos e informativos y deberá citar la fuente donde la obtuvo
mencionando el autor o autores. Cualquier uso distinto como el lucro,
reproducción, edición o modificación, será perseguido y sancionado por el
respectivo titular de los Derechos de Autor.

Not everything that counts can be counted.
William Bruce Cameron (1963)

Agradecimientos

Quiero agradecer a mis sinodales, Dra. Jane Russell, Dr. Salvador Gorbea Portal, Dr.
Francisco Collazo y Dra. María Luna Morales, por dedicar parte de su tiempo a la
revisión de esta investigación y por sus valiosos comentarios, que sirvieron para
enriquecer esta tesis. A la Dra. Yohannis Martí Lahera, directora de la Biblioteca Central
de la Universidad de La Habana, por sus sugerencias sobre los análisis en los indicadores
de producción e impacto, tema de su especialidad. Al Dr. Ricardo Arencibia Jorge
agradezco su apoyo en el estudio sobre revistas mexicanas. A la Dra. Rosa Lidia Vega
Almeida, del Centro de Histoterapia Placentaria de Cuba, por sus valiosos comentarios
sobre la redacción de la tesis.

A mi tutor Dr. Humberto Carrillo Calvet por su visión sobre el tema y por sus sabias
sugerencias; su paciencia y exigencia en la conducción de esta investigación.
Además, doy gracias por enseñarme el verdadero rigor de la ciencia, y cómo manejar cada
situación que se presenta en el camino de hacer ciencia. A su lado, cada día es una
enseñanza.

Agradezco a mis padres Ibis Díaz y Pedro Lozano, por todo el amor y apoyo incondicional
que recibo cada día de su parte, sin importar la distancia.

A todos los chicos del Laboratorio de Dinámica No Lineal, en especial a José Luis Jiménez,
por explicarme cómo funcionan las neuronas del SOM, contar con su ayuda
incondicional durante todo este tiempo y por convertirse en un verdadero amigo.

A mi amiga, Yaniris Rodríguez Sánchez por darme la luz sobre la “Ciencia” y la vida
académica.

A los profesores del Posgrado en Bibliotecología y Estudios de la Información, de la
Universidad Nacional Autónoma de México por ofrecerme una excelente educación. Por
último, agradecer al CONACYT su apoyo económico durante el curso 2014-2016.
Resumen

Desde una perspectiva bibliométrica, la presente investigación analiza la producción
científica de México, evaluando el desempeño de las revistas y la producción de
artículos científicos, tomando en cuenta diversos indicadores independientes de
tamaño, basados en citas.

Se considera información contenida en las bases de datos del Sistema Nacional de
Investigadores (SNI), del Web of Science (WoS) y de Scopus, durante el período
comprendido entre enero de 2005 y diciembre de 2015.

El método de análisis se basa en el uso de técnicas bibliométrcias y de inteligencia
computacional. Se construye y se utiliza una batería de indicadores bibliométricos
para estimar la eficiencia y la efectividad de la producción. Una parte del análisis se
realiza aplicando una tecnología neurocomputacional y técnicas de frontera para la
visualización de información, implementadas en el sistema de software LabSOM,
desarrollado en el Laboratorio de Dinámica no Lineal de la Facultad de Ciencias.

A la luz de cuatro indicadores de última generación (dos del Journal Metrics de
Scopus y dos del Journal Citation Reports), se analiza el desempeño de todas las
revistas mexicanas (39) indizadas en el WoS. Se identifican las diez revistas con
mayor desempeño, de acuerdo a cada uno de estos indicadores y se comparan los
resultados.

Por otra parte, se compara la evolución de la producción científica de México en las
bases de datos del WoS y de Scopus con la evolución del SNI. Se identifican los
campos de investigación en los que la ciencia mexicana tiene mayor producción e
influencia. También se propuso un Índice de Desarrollo Científico, independiente de
tamaño, que es útil para comparar la evolución de la producción de México con la
de otros países con un similar nivel de desarrollo científico.

Se comprueba la utilidad de la tecnología neurocomputacional para llevar a cabo
análisis multiparamétrico dentro un conjunto de 70 países, tomando en cuenta
simultáneamente cuatro indicadores que estiman: productividad, impacto
normalizado y dos indicadores de excelencia. Los resultados del análisis
neurocomputacional se visualizan en mapas que encriptan el conocimiento
obtenido.

Los resultados obtenidos son de potencial utilidad para la evaluación y el diseño de
política científica.

Palabras Clave: Minería de datos bibliométrica; visualización de información;
redes neuronales; mapas auto-organizados; algoritmo SOM; ViBlioSOM;
indicadores; México.
Tabla de Contenido
Introducción ...................................................................................................................... I
1. Exposición de motivos, justificación y objetivos de la investigación .......................... I
2. Antecedentes .......................................................................................................... V
Capítulo I: Marco teórico ................................................................................................. 1
1. Elementos de análisis de la producción académica ................................................ 1
1.1. Indicadores de producción e indicadores basados en citas .................................... 1
1.2. La eficiencia científica medida a través de indicadores de productividad................. 4
1.3. Consideraciones sobre los indicadores de excelencia ............................................. 5
2. Elementos de análisis del desempeño de las revistas académicas ............................ 7
2.1. El Factor de Impacto de Garfield ............................................................................. 9
2.2. Eigenfactor del WoS ................................................................................................ 9
2.3. Source normalized impact per paper ..................................................................... 10
2.4. SCImago Journal Rank (SJR) ............................................................................... 11
3. Descubrimiento de conocimiento, minería y visualización de información en bases de
datos bibliográficas....................................................................................................... 12
3.1. El descubrimiento de conocimiento en bases de datos (KDD) ............................... 12
3.2. La minería de datos como parte de la metodología de descubrimiento de
conocimiento en bases de datos .................................................................................. 14
3.3. Técnicas de la minería de datos ............................................................................16
3.4. Visualización de información ................................................................................. 17
3.5. KDD, Minería de Datos, visualización de información y la Bibliometría ................. 22
3.5.1. El algoritmo SOM y la visualización de información bibliométrica ....................... 22
Capítulo II: Metodología y fuentes de información ...................................................... 24
2.1. Fuentes de información: los índices de difusión de la ciencia ................................ 24
2.1.1. El Web of Science (WoS): las bases de datos y herramientas de análisis
bibliométrico ................................................................................................................. 24
2.1.2. Los recursos de análisis del WoS: Essential Science Indicators y Journal Citation
Reports ........................................................................................................................ 26
2.2. SCOPUS ............................................................................................................... 29
2.2.1. Elsevier Journal Metrics ...................................................................................... 30
2.2.2. SCIMAGO Journal and Country Rank................................................................. 30
2.3. Batería de Indicadores bibliométricos empleados en la investigación .................... 31
2.3.1 Indicadores de producción y eficiencia ................................................................ 31
2.3.2. Indicadores de impacto ...................................................................................... 32
2.3.3. Indicadores del Esential indicators: Highly Cited Paper y Hot Paper .................. 35
2.4. Metodología implementada: ViBlioSOM ................................................................ 36
2.4.1. Etapas de la metodología ViBlioSOM ................................................................. 37
Capítulo III: Resultados y discusión ............................................................................. 41
1. Análisis bibliométrico de las principales revistas mexicanas .................................. 41
1.1. Núcleo de revistas mexicanas con mayor visibilidad en Web of Science y Scopus 41
1.2. El top ten de revista mexicanas con mayor visibilidad ........................................... 45
1.3. Análisis multidimensional de las revistas mexicanas, basada en la técnica de mapas
auto-organizados o SOM (Self-Organizing Map) .......................................................... 49
2. Análisis de la producción científica mexicana en el WoS, 2005-2015 ....................... 53
2.1. El Sistema Nacional de Investigadores (SNI) ........................................................ 53
2.2. Análisis comparativo de la evolución del SNI y de la producción científica mexicana
en Scopus y el Web of Science .................................................................................... 53
2.2.1.Análisis de los artículos científicos mexicanos visibles internacionalmente
..................................................................................................................................... 56
2.3. Estudio comparativo de la producción mexicana con otros países. ....................... 59
2.4. Highly Cited y Hot papers: Comparación de la producción mexicana con otros países
..................................................................................................................................... 63
2.5. Principales campos de investigación en la ciencia mexicana ................................ 71
2.5.1. Los campos de investigación con mayor impacto en la ciencia mexicana .......... 73
2.5.2. Los campos de investigación científica mexicana con mayor efectividad y
excelencia .................................................................................................................... 74
2.6. Colaboración científica .......................................................................................... 78
3. Análisis multiparamétrico del perfil bibliométrico de México y otros países, basado en
la técnica de mapas auto-organizados ......................................................................... 79
3.1. Ranking de los países de acuerdo al ESI del WoS ................................................ 79
3.2. Ranking de los países de acuerdo al grado de desarrollo científico ....................... 80
3.3. Aplicación de ViBlioSOM: Análisis multiparamétrico del perfil bibliométrico de México
y otros países, considerando el índice de desarrollo científico, impacto y excelencia ... 85
3.3.1. Análisis usando indicadores dependientes de tamaño ....................................... 85
3.3.2. Análisis usando indicadores independientes del tamaño…………………………. 89
Consideraciones finales ................................................................................................ 93
Referencias .................................................................................................................... 95
ANEXOS ....................................................................................................................... 104

Relación de Figuras

Todas las figuras y tablas de esta tesis son de elaboración propia, con excepción de la
Figura 1 y Figura 2

Figura 1. Fases de la metodología para el descubrimiento de conocimiento en bases de
datos (KDD) (Fayyad, et al., 1996) ................................................................................... 15
Figura 2. Estructura de una Red Neuronal bajo el algoritmo SOM (Guzmán-Sánchez, 2009)
........................................................................................................................................ 23
Figura 3. Metodología ViBlioSOM: etapas del descubrimiento, análisis y visualización de
información bibliométrica ................................................................................................. 37
Figura 4. Mapa de componente del indicador: Índice de desarrollo científico (SDI) para
países .............................................................................................................................. 39
Figura 5. Clustering de países considerando cuatro indicadores: Índice de desarrollo
científico (SDI), Impacto Normalizado (NI), Highly Cited (HCP) y Hot Papers (Hot) ......... 40
Figura 6. Revistas mexicanas indexadas en SCOPUS y Web of Science, 2005-2015 ..... 44
Figura 7. Revistas mexicanas con mayores valores en el Source Normalized Impact per
Paper y SCImago Journal Rank para el año 2015 ........................................................... 48
Figura 8. Revistas mexicanas con mayores valores en el Eigenfactor Score y Impact Factor
para el año 2015 .............................................................................................................. 49
Figura 9.Mapa de Visibilidad por zonas de las revistas mexicanas de acuerdo con: a) Source
Normalized Impact per Paper, b) Impact Factor, c) Eigenfactor Score, y d) SCImago Journal
Rank. (Self-organized maps desarrollado por ViblioSOM). (Anexos 8 y 9: los mapas
aparecen separado .......................................................................................................... 52
Figura 10.Crecimiento paralelo del número total de miembros mexicanos en el SNI y la
producción científica en Web of Science y Scopus, durante el período 2005-2015 .......... 55
Figura 11. La eficiencia de la ciencia mexicana en Web of Science y SCOPUS, durante
2005-2015 ....................................................................................................................... 56
Figura 12. Crecimiento paralelo del número total de miembros mexicanos en el SNI y el
número de artículos científicos en Web of Science y Scopus, durante el período 2005-2015
........................................................................................................................................58
Figura 13. El índice de producción científica nacional (National Scientific Productivity) en
Web of Science y Scopus, durante el período 2005-2015 ................................................ 58
Figura 14. Comparación de la producción mexicana en WoS con la de los países más
productivos de la región ................................................................................................... 59
Figura 15. Comparación de la producción científica mexicana en el WoS por cada 100,000
habitantes con países de la región, 2005-2015 ................................................................ 60
Figura 16. Comparación de la producción mexicana en WoS con países que no pertenecen
a la región latinoamericana, con similar producción de acuerdo al ESI, durante el período
2005-2015 ....................................................................................................................... 61
Figura 17. La producción científica mexicana en el WoS por cada 100,000 habitantes con
la de los países con similar producción de acuerdo al ESI, 2005-2015 ............................ 62
Figura 18. Comparativa del número de Top Papers mexicanos en el Web of Science con
países de la región y otros países con similar producción, 2005-2015 ............................. 63
Figura 19. Comparativa del número de Highly Cited Papers mexicanos en el Web of Science
con países de la región y países de similar producción, 2005-2015 ................................. 64
Figura 20. Comparativa del número de Hot Papers mexicanos en el Web of Science con
países de la región y países de similar producción, 2005-2015 ....................................... 65
Figura 21. Comparativa del número de Top Papers mexicanos por cada 1,000 documentos
en el Web of Science con países de la región y con países de similar producción, 2005-
2015 ................................................................................................................................ 66
Figura 22. Comparativa del número de Highly Cited Papers mexicanos por cada 1,000
documentos en el Web of Science con países de la región y países de similar producción,
2005-2015 ....................................................................................................................... 67
Figura 23. Comparativa del número de Hot Papers mexicanos por cada 1,000 documentos
en el Web of Science con países de la región y países de similar producción, 2005-2015
........................................................................................................................................ 68
Figura 24. Comparativa del número de Highly Cited Papers mexicanos por cada 100,000
habitantes, con países de la región y países de similar producción, 2005-2015 .............. 69
Figura 25. Comparativa del número de Hot Papers mexicanos por cada 100,000 habitantes,
con países de la región y países de similar producción, 2005-2015 ................................. 70
Figura 26. Distribución del número de documentos mexicanos en el WoS, durante 2005-
2015, entre 22 campos de investigación .......................................................................... 72
Figura 27. Distribución del número de citas entre 22 campos de investigación en el WoS,
durante 2005-2015 .......................................................................................................... 73
Figura 28. Distribución del promedio de citas por documento a través de 22 campos de
investigación en el WoS, durante 2005-2015 ................................................................... 74
Figura 29. Distribución entre 22 campos de investigación del número de Highly Cited Papers
mexicanos en el WoS, durante 2005-2015 ...................................................................... 76
Figura 30. Distribución de los 9 de 22 campos de investigación del número de Hot Papers
mexicanos en el WoS, durante 2005-2015 ...................................................................... 77
Figura 31. Evolución anual de la colaboración con los países más colaboradores con México
en el período 2005-2015. Total de países colaboradores: 193 ......................................... 78
Figura 32. Evolución en el tiempo del índice de desarrollo científico, número de artículos
publicados en revistas indexadas en WoS por cada 100,000 habitantes, para México y
países con similar desempeño ......................................................................................... 81
Figura 33. Países con altos valores de impacto (NI) y el índice de desarrollo científico (SDI)
durante el 2005-2015 ....................................................................................................... 83
Figura 34. Relación entre excelencia Highly Cited Papers (HCP) e impacto normalizado
durante el período 2005-2015, para países con similar índice de desarrollo científico que
México ............................................................................................................................. 84
Figura 35. Hot papers e impacto normalizado para países con similar índice de desarrollo
científico que México, durante el período 2005-2015 ....................................................... 84
Figura 36. Mapa de Cluster identificado con la técnica Self Organized Maps para 70 países
que tienen perfiles similares a México, HCP y Hot como indicadores de tamaño dependiente
(Anexos 10, 11 y 12, donde cada mapa está separado) .................................................. 88
Figura 37. Mapa de Clusters identificados con la técnica Self Organized Maps para 70
países que tienen perfiles similares a México, HCP y Hot como indicadores de tamaño
independiente (Anexo 13, 14 y 15, donde cada mapa está separado) ............................. 92

Relación de Tablas
Tabla 1. Indicadores basados en citas con mayor uso derivados de Bases de datos como
Web of Science y Scopus .................................................................................................. 3
Tabla 2. Número de documentos recuperados en la base de datos Scopus por cada tipo
documental ...................................................................................................................... 30
Tabla 3. Número de documentos recuperados en la base de datos Web of Science por cada
tipo documental ............................................................................................................... 26
Tabla 4. Número de trabajos mexicanos publicados en fuentes indexadas en el WoS,
durante el período 2005-2015 .......................................................................................... 41
Tabla 5. Correlación de los indicadores estudiados para una muestra de las 39 revistas
mexicanas cubiertas por SCOPUS y WoS ....................................................................... 45
Tabla 6. Top-ten 2015 de revistas mexicanas en correspondencia con Impact Factor,
Source Normalized Impact per Paper, Eigenfactor Score and SCImago Journal Rank .... 47
Tabla 7. Evolución de la producción científica mexicana en el Web of Science y Scopus,
durante 2005-2015. ......................................................................................................... 54
Tabla 8. Evolución del número de artículos mexicanos en el Web of Science y Scopus,
durante 2005-2015. ......................................................................................................... 57
Tabla 9. Rank de países según ESI durante el período 2005-2015. ................................ 79
Tabla 10. Correlación de los indicadores estudiados para una muestra de 100 países ... 82

Glosario de abreviaturas de países
Países Siglas Países Siglas
ALGERIA DZA LEBANON LBN
ARGENTINA ARG LITHUANIA LTU
ARMENIA ARM LUXEMBOURG LUX
AUSTRALIA AUS MALAWI MWI
AUSTRIA AUT MALAYSIA MYS
BANGLADESH BGD MEXICO MEX
BELARUS BLR MOROCCO MAR
BELGIUM BEL NEPAL NPL
BOLIVIA BOL NETHERLANDSNLD
BRAZIL BRA NEW ZEALAND NZL
BULGARIA BGR NIGERIA NGA
BURKINA FASO BFA NORTHERN IRELAND NIR
CAMEROON CMR NORWAY NOR
CANADA CAN OMAN OMN
CHILE CHL PAKISTAN PAK
CHINA MAINLAND CHN PANAMA PAN
COLOMBIA COL PERU PER
COSTA RICA CRI PHILIPPINES PHL
CROATIA HRV POLAND POL
CUBA CUB PORTUGAL PRT
CYPRUS CYP QATAR QAT
CZECH REPUBLIC CZE REPUBLIC OF GEORGIA GEO
DENMARK DNK ROMANIA ROU
ECUADOR ECU RUSSIA RUS
EGYPT EGY SAUDI ARABIA SAU
ENGLAND UK SCOTLAND ESC
ESTONIA EST SENEGAL SEN
ETHIOPIA ETH SERBIA SRB
FINLAND FIN SINGAPORE SGP
FRANCE FRA SLOVAKIA SVK
GAMBIA GMB SLOVENIA SVN
GERMANY (FED
REP GER) DEU SOUTH AFRICA ZAF
GHANA GHA SOUTH KOREA PRK
GREECE GRC SPAIN ESP
HONG KONG HKG SRI LANKA LKA
HUNGARY HUN SWEDEN SWE
ICELAND ISL SWITZERLAND CHE
INDIA IND TAIWAN TW
INDONESIA IDN TANZANIA TZA
IRAN IRN THAILAND THA
IRELAND IRL TUNISIA TUN
ISRAEL ISR TURKEY TUR
ITALY ITA UGANDA UGA
JAPAN JPN UKRAINE UKR
JORDAN JOR UNITED ARAB EMIRATES ARE
KENYA KEN URUGUAY URY
KUWAIT KWT USA USA
LATVIA LVA VENEZUELA VEN
VIETNAM VNM
WALES WAL
ZAMBIA ZMB
ZIMBABWE ZWE

Glosario de abreviaturas de revistas mexicanas
Título Abreviatura
Acta Botánica Mexicana Act Bot Mex
Agrociencia Agrociencia
Annals of Hepatology Ann Hepatol
Atmosfera Atmosfera
Boletín de la Sociedad Geológica Mexicana B Soc Geol Mex
Botanical Sciences Bot Sci
Ciencias Marinas Cienc Marinas
Cirugía y Cirujanos Cir Cir
Convergencia Convergencia
Economía Mexicana, Nueva Época Econ Mex N E
Gaceta Medica de México Gac Med Mex
Geofísica International Geofis Int
Gestión y Política Publica Gest Polit Pub
Hidrobiológica Hidrobiologica
Investigación Bibliotecológica Invest Bibliotecol
Investigación Económica Invest Econ
Journal of the Mexican Chemical Society J Mex Chem Soc
Latin American Economic Review Lat Am Econ Rev
Madera Bosques Madera Bosques
Papeles de Población Papeles de Poblacion
Perfiles Latinoamericanos Perf Lat
Política y Gobierno Polit y Gob
Revista Chapingo, Serie Ciencias Forestales y del
Ambiente
Rev Chap Cienc
Forest Amb
Revista de Investigación Clínica Rev Invest Clin
Revista Fitotecnia Mexicana Rev Fitot Mex
Revista Internacional de Contaminación Ambiental Rev Int Cont Amb
Revista Latinoamericana de Investigación en Matemática
Educativa Rev Lat Invest Mat Ed
Revista Mexicana de Astronomía y Astrofísica Rev Mex Astron Astrof
Revista Mexicana de Biodiversidad Rev Mex Biodiv
Revista Mexicana de Ciencias Geológicas Rev Mex Cienc Geol
Revista Mexicana De Ciencias Pecuarias Rev Mex Cienc Pec
Revista Mexicana de Física Rev Mex Fis
Revista Mexicana de Ingeniera Química Rev Mex Ing Quim
Revista Mexicana de Psicología Rev Mex Psicol
Salud Mental Salud Mental
Salud Publica de México Salud Pub Mex
Tecnología y Ciencias del Agua Tecnol Cienc Agua
Trimestre Económico Trimest Econ
Veterinaria México Vet Mex
Glosario de abreviaturas de Indicadores
%Citdoc

Proporción de documentos citados
ANdoc Scopus

Número anual de documentos en Scopus
ANdoc WoS Número anual de documentos en Wos

ANp Scopus Número anual de artículos en Scopus

ANp WoS Número anual de artículos en WoS

Cita/Ndocxtem Relación eficiencia-eficacia

citas/doc Relación de citas por documento

Citdoc Total de documentos citados

EFS

Eigenfactor
HCP

Highly cited papers
HCPxhab

Número de highly cited papers por cada 100,000 habitantes
HCPxWoS Número de highly cited papers por cada 1,000 documentos
en WoS
HOT

Hot papers
HOTxhab

Número de hot papers por cada 100,000 habitantes
HOTxWoS Número de top papers por cada 1,000 documentos en WoS

Factor de Impacto
NI

Impacto Normalizado
NSP Índice de productividad nacional (National Scientific
Productivity)
RI Impacto relativo
SDI Índice de desarrollo científico (Scientific Development Index)
SJR SCImago Journal Rank
SNIP Source normalized impact per paperz
TOP Top paper
TOPxwoS Número de hot paper por cada 1,000 documentos en WoS

Introducción
I

Introducción
1. Exposición de motivos, justificación y objetivos de la investigación
El siglo XXI, marca un antes y un después para los sistemas de la ciencia, es
decir, se evidencia la necesidad e importancia de incorporar programas donde la
aplicación de herramientas bibliométricas y la minería de datos, analicen de manera
consecuente el dinamismo de las funciones y salidas, en cada uno de sus campos
de conocimiento. El análisis de la producción científica de un país tiene gran
importancia porque constituye un instrumento para monitorear y desarrollar las
actividades de Ciencia y Tecnología, con el objetivo de incrementar la visibilidad
internacional de las instituciones, y la calidad de los profesores e investigadores.
El avance de las nuevas tecnologías de la información en esta era de
constantes cambios tecnológicos, ha propiciado que, la Ciencia de la Información
evolucione sus prácticas y modelos en el almacenamiento, tratamiento, gestión y
representación de la información. En este contexto, se comienza a fomentar la
creación de grandes bases de datos capaces de almacenar e indexar todo el
conocimiento científico que genera la humanidad. Por su parte, el auge de Internet,
en el último decenio del pasado siglo y lo que va del presente, incrementó la
existencia de bases de datos que almacenan grandes volúmenes de información
científica en formato digital.
Diferentes países e instituciones a nivel mundial se han dado a la tarea de
crear recursos para analizar este gran volumen de datos científicos; a través de
técnicas de inteligencia computacional (Inteligencia artificial) y modelos
bibliométricos. Un ejemplo de ello es la fundación en 1957 por Eugene Garfield del
Institute for Scientific Information (ISI) con los índices de citas (Cawkell & Garfield,
2001; Reuters, 2016), actualmente el Web of Science(WoS) pertenece al consorcio
norteamericano Thomson Reuters, desde el año 2008, se considera como una de
las plataformas más versátil y completa sobre la literatura académica con amplia
cobertura temática y un gran número de indicadores bibliométricos que permiten
realizar estudios métricos de la ciencia.
Introducción
II

La humanidad no solo almacena información de carácter científico, sino que
también concentra datos relativos a casi todos los asuntos del quehacer humano.
En este contexto hoy día, las naciones se enfrentan a un importante desafío, y es
poder transformar todo ese capital de conocimiento que se encuentra accesible y
concentrado de manera remota, en información útil para la toma de decisiones. De
esta manera, emergen disciplinas para solucionar este desafío como, el
descubrimiento de conocimiento en bases de datos o Knowledge Discovery in
Databases (KDD), encargada de descubrir el conocimiento oculto en estas fuentes
y la minería de datos se ocupa de extraer el valor de la información implícita, en las
bases de datos y al mismo tiempo visualizar nuevo conocimiento.
Esta tesis constituye una investigación bibliométrica, con un enfoque de
minería de datos, sobre la producción científica de México, en el Web of Science
durante el período comprendido entre el año 2005 y 2015, la cual abarca tanto un
análisis de la producción y el impacto de artículos producidos, como la evaluación
de las principales revistas de acuerdo a indicadores de última generación. Se
considera para el estudio la producción de artículos científicos contenidos en la
colección principal del WoS através de los indicadores que ofrece el Essential
Science Indicator (ESI) y para la evaluación de las revistas se consideran dos
indicadores del Journal Metrics de Elsevier y dos de Thomson. Se utilizaron
indicadores independientes del tamaño para analizar la evolución de la producción
científica mexicana y comparar de manera justa la producción de México con otros
países.
Se utilizaron técnicas de inteligencia computacional basadas en redes
neuronales para llevar a cabo el análisis exploratorio de la información contenida en
Web of Science. Para esto se usó el software LabSOM, que implementa tecnología
neurocomputacional basada en la familia de algoritmos Self Organizing Maps
(SOM), la cual es útil para el análisis de datos digitales y la generación automática
de representaciones visuales en forma de mapas.
El desarrollo de la investigación consideró el período 2005-2015 y estuvo
guiado por las siguientes preguntas:
Introducción
III

1. ¿Cómo evoluciona comparativamente la producción científica mexicana en
el Web of Science y Scopus?
2. ¿Cómo se posicionan las revistas mexicanas, si se evalúan de acuerdo a
diferentes indicadores propuestos por la comunidad científica? ¿Qué justificaría
posibles diferencias en las evaluaciones?
3. ¿Cuál es el perfil bibliométrico de la producción científica de México, tomando
en cuenta indicadores de productividad, impacto y excelencia y cómo se compara
con el perfil de otros países con similar índice de desarrollo científico?
4. ¿Qué utilidad pueden tener las tecnologías basadas en inteligencia
computacional para el análisis y la visualización del conocimiento que resulte de
las respuestas a las preguntas anteriores?

Objetivo General
Analizar desde una perspectiva bibliométrica y utilizando técnicas de
inteligencia computacional:
1. La producción científica mexicana durante 2005-2015 en el Core
Collection del Web of Science;
2. Usar indicadores de última generación (Scimago Journal Rank, Impact
Factor, Eigenfactor Score y Source Normalized Impact per Paper) para
identificar el núcleo principal de revistas mexicanas con mayor visibilidad
en Web of Science y Scopus y analizar el efecto diferencial que produce
la evaluación de estas revistas en términos de estos indicadores.

Objetivos Específicos
Considerar el período 2005-2015 para:
1. Analizar la forma en que ha evolucionado el conjunto de revistas científicas
mexicanas incluidas en el Journal Citation Reports de WoS y el Journal Metrics
de Scopus.
2. Identificar y representar el núcleo de revistas mexicanas con mayor influencia
internacional en el Web of Science y SCOPUS, considerando cuatro indicadores
Introducción
IV

que miden el impacto de las citas (Scimago Journal Rank, Impact Factor,
Eigenfactor Score y Source Normalized Impact per Paper). Utilizar la tecnología
neurocomputacional del sistema de software ViBlioSOM para analizar las
diferencias que resultan al evaluar este núcleo de revistas en términos de estos
cuatro indicadores.
3. Analizar la evolución de la producción científica mexicana en la colección
principal del Web of Science (WoS) y compararla con la evolución de la
producción científica en la base de datos de Scopus.
4. Analizar comparativamente la evolución de la producción científica mexicana en
el WoS y Scopus, con el desarrollo número de investigadores en el Sistema
Nacional de Investigadores.
5. Comparar la producción científica mexicana en la colección principal del WoS
con la producción científica de países de América Latina y otros países, con
similar volumen de producción a México.
6. Analizar la producción e impacto de México en WoS, en los principales campos
de conocimiento de acuerdo a la clasificación del Essential Science Indicator del
WoS.
7. Analizar el Impacto Normalizado, indicadores de producción y de impacto
independientes de tamaño para evaluar comparativamente el grado de
desarrollo de México y otros países con similar índice de desarrollo científico.
8. Utilizar la tecnología neurocomputacional de ViBlioSOM para caracterizar los
perfiles de producción, impacto y excelencia de México y otros países con similar
grado de desarrollo científico. Elaborar mapas de conocimiento en los que se
puedan representar los grupos de países que tienen perfiles bibliométricos
similares.

Introducción
V

2. Antecedentes
En la revisión bibliográfica identificamos estudios que emplean herramientas
bibliométricas para determinar la evolución de dominios de conocimiento en la
ciencia mexicana (Bravo Vinaja, 2005; Castillo-Pérez & Muñoz-Valera, 2014;
Chinchilla-Rodriguez, 2004; Hernández, Dray, & Russell, 2013; Perez-Santos &
Anaya-Ruiz, 2013). También se encuentran trabajos que estudian la región
latinoamericana e incluyen el estudio del comportamiento de la producción científica
mexicana (Chinchilla-Rodriguez, Zacca-Gonzalez, Vargas-Quesada, & Moya-
Anegon, 2015; Macias-Chapula, 2005; Michan, Russell, Pereyra, Cruset, & Beltran,
2008; Romero, Garcia, & Kiwi, 2009).
Aparecen los estudios que realiza el Foro Consultivo Científico y Tecnológico
sobre la producción científica mexicana por cada entidad federativa, considerando
además indicadores socioeconómicos (Laclette & Zúñiga-Bello, 2012). Este reporte
tuvo en consideración los siguientes indicadores: producción total (suma de
documentos publicados en cada institución), número de citas que recibieron las
publicaciones de cada una de las instituciones, citas por publicación, porcentaje de
documentos que recibieron citas, porcentaje de publicaciones en colaboración
internacional, porcentaje de publicaciones que aparecieron en revistas de alto
impacto y se empleó como fuente de información la base de datos SCOPUS.
Otro antecedente en el tiempo lo constituye el estudio realizado por Kostoff y
colaboradores (Kostoff, et al., 2005), el cual tuvo como objetivo principal identificar
la estructura de la literatura científica mexicana en la temática Física del estado
Sólido en el Science Citation Index para el año 2002.
Después de una revisión bibliográfica, diversas son las investigaciones que
han empleado técnicas bibliométricas para estudiar la producción científica
mexicana, pero la investigación que se propone aporta nuevos indicadores y
complementa a los anteriores debido a que emplea técnicas de inteligencia
computacional, basada en el algoritmo de mapas auto-organizados (Self-Organizing
Maps (SOM), con el objetivo de representar el perfil bibliométrico de la producción
científica mexicana con mayor visibilidad e influencia internacional en las bases de
Introducción
VI

datos del Web of Science y comprar el desempeño de las revistas mexicanas por
medio de indicadores de última generación, basados en las citas.
Esta tesis se estructura en cinco capítulos. La primera sección expone
elementos introductorios de la investigación: motivos, justificación, objetivos y
antecedentes del estudio. El capítulo I aborda aspectos conceptuales sobre los
indicadores para describir la ciencia, el descubrimiento de conocimiento en bases
de datos, la minería de datos y visualización de información bibliométrica. El capítulo
II expone la metodología empleada para el estudio, así como, las fuentes de
información, los indicadores y las herramientas bibliométricas empleadas. El
capítulo III presenta los resultados obtenidos en la investigación divido en tres
secciones. La primera sección expone un análisis bibliométrico de las principales
revistas científicas mexicanas. El análisis de la producción científica mexicana en el
Web of Science durante el período 2005-2015 se presenta en la sección dos del
capítulo III. La siguiente sección presenta un análisis multifactorial del perfil
bibliométrico de México y un grupo de países, con similar índice de desarrollo
científico. El análisis multifactorialutiliza la técnica de mapas auto-organizados y
toma en cuenta cuatro indicadores: uno de impacto, otro de producción y dos de
excelencia. Por último, se ofrecen las consideraciones finales de la investigación.
Capítulo I: Marco teórico
1

Capítulo I: Marco teórico
1. Elementos de análisis de la producción académica
1.1. Indicadores de producción e indicadores basados en citas
Los indicadores bibliométricos constituyen una de las herramientas más
utilizadas para la medición del producto de la investigación científica, porque la
documentación (independientemente del tipo de soporte) es el vehículo más
prolífico y exitoso para la transferencia del conocimiento científico, conjuntamente
con su transferencia oral por medio de conferencias y comunicaciones personales
(Russell, 2002).
En correspondencia con el entorno informacional en el cual se desenvuelve
la ciencia actualmente, es necesario conocer nuevos patrones y comportamientos
para analizar el contexto científico, por tal razón una de las nuevas tendencias en el
campo de las metrías de la información es: el auge de los estudios a partir del
cálculo de indicadores producción e indicadores basados en las citas. Estos últimos,
se emplean como un criterio más en el análisis de artículos y publicaciones
científicas porque a partir del reconocimiento que recibe una fuente de otra, permite
reconocer estudios, conceptos, teorías, metodologías y herramientas científicas que
inspiraron al investigador a desarrollar nuevas investigaciones o conocimiento; de
esta forma se identifican nuevos patrones e influencias en la investigación científica.
El desarrollo de las bases de datos en los años 60 del siglo XX, trajo consigo
la creación de una serie de indicadores utilizados en el estudio de la producción o
volumen de investigación, así como, la medición del desempeño de las revistas,
instituciones, países y grupos de investigación en colaboración a través de
indicadores basados en las citas, tradicionalmente extraídos de las bases de datos
de citas como Science Citation Index (SCI), Social Science Citation Index (SSCI) y
Journal Citation Reports (JCR); y en la actualidad, las bases de datos: Scopus, Web
of Science, Google Scholar, Microsoft Academic Search y CiteSeerX se utilizan con
frecuencia para investigar el crecimiento y comportamiento científico.
Los resultados de la ciencia (output), se analizan a través de la cuantificación
de la producción científica que genera un país, institución o investigador (Abramo,
D'Angelo, & Rosati, 2013; Andras, 2011; Arencibia Jorge & Moya-Anegon, 2008;
Capítulo I: Marco teórico
2

Barker, 2007; Melkers, 1993). Para lograr obtener una visión multidimensional de la
ciencia se considera necesario la combinación de los indicadores existentes y la
revisión por pares (peer review). De manera general, cuando se persiga analizar
aspectos de carácter cualitativo, se impone recurrir a las opiniones de expertos
mientras que para determinar aquellos aspectos de corte cuantitativo o si se
pretende estudiar y comparar el comportamiento de investigadores, instituciones o
países, el uso de indicadores bibliométricos se hace necesario (Piedras, 2009).
El peer review se reconoce como el sistema de evaluación de la actividad
científica con mayor tradición. Este método se basa en “el conocimiento y
experiencia acumulados por determinados especialistas en su campo de
investigación, lo que los convierte en poseedores de criterios sólidos y de carácter
casi único para poder valorar adecuadamente las características, tendencias y
resultados de la actividad de investigación en dicho campo” (Suarez Balseiro &
Maura Sardó, 2005).
Los indicadores de producción tienen una función descriptiva, en la cual estos
están encaminados a producir información sobre el estado del volumen del sistema
científico objeto de estudio, por ejemplo, cuántos artículos publican los
investigadores, número artículos por centros de investigación. Específicamente en
la presente investigación se determinó incluir los siguientes indicadores de
producción: total de artículos publicados por (Ndoc): años, áreas de investigación,
países, revistas; y porcentaje del total de artículos publicados (%Ndoc) por: años,
áreas de investigación, países, revistas; los cuales miden el volumen de la
producción científica mexicana durante el período de estudio.
Los índices de citas ofrecen una visión valorativa de la influencia científica,
ofrecen una óptica de la calidad de la investigación diferente al juicio de expertos
porque toma en consideración el impacto y repercusión que ha tenido la
investigación dentro de la comunidad, esto no significa, que no exista correlación
entre las observaciones que derivan de ambos métodos( peer review e índices de
citas) (Arencibia Jorge, 2010).
Las tres bases de datos más importantes disponibles hoy en día, para la
realización de análisis de citas son: WoS, Scopus y Google Académico, las cuales
Capítulo I: Marco teórico
3

calculan sus propios índices basados en las citas (Tabla 1). Existen otras bases de
datos disponibles, pero cubren un número limitado de campos científicos. Por otra
parte, algunas de estas bases de datos no contienen los datos sobre las referencias
de las publicaciones, por tanto, no se pueden utilizar para calcular los indicadores
basados en las citas.

Tabla 1. Indicadores basados en citas con mayor uso derivados de Bases de datos como
Web of Science y Scopus

La ciencia, a pesar de sus múltiples aristas, es sensible de ser estudiada bajo
tres aspectos fundamentales: productividad, impacto y excelencia científica, por ello
en la actualidad la mayoría de las metodologías de indicadores bibliométricos o
cienciométricos miden la ciencia en sus múltiples ángulos, y toman en cuenta
indicadores de productividad, impacto, visibilidad, y excelencia (Arencibia Jorge,
2010; Callon & Courtial, 1995; González de Dios, Moya, & Mateos Hernández, 1997;
Licea de Arenas, 1993; Rodríguez Sánchez, 2012; Sancho, 1990; Schneider, 2006).
Los indicadores basados en las citas ofrecen diferentes interpretaciones:
como una medida del impacto científico de la investigación (J. R. Cole, 2000; Van
Raan, 2004); de prestigio académico para otorgar premios y honores; también
reflejan la calidad, relevancia e impacto de un documento en la obra de otro, para
Algunos
Indicadores
basados en
las citas
calculados
por bases
de datos
Conteo de citas
J
Journal Impact Factor
Índice de Inmediatez
Índice H
Vida media de las citas
Vida media citante
Autocitas
Citas/No. de papers no citados
Article Influence® score
SJR Rank
Eigenfactor® score
Citas por documento
Capítulo I: Marco teórico
4

de esta forma demostrar que, las citas se realizan a los aportes científicos (Lutz
Bornmann & Hans-Dieter, 2008).
Mencionar además como, este tipo de indicador se aplica en los análisis de
contexto y contenido para, derivar diferentes interpretaciones y significados del
comportamiento de las citas en un artículo y por consiguiente medir el impacto
científico. Los análisis de contexto, tienen el objetivo de ilustrar la relación entre el
documento y las citas, para ello se genera un esquema de clasificación o taxonomía
sobre la funcionalidad de las citas; se determina el contexto en el cual fue creada la
cita (Cronin, 1984). Por su parte, el análisis de contenido de las citas describe el
contenido semántico del documento citado con el fin de caracterizar las obras
citadas (Lutz Bornmann & Hans-Dieter, 2008).

1.2. La eficiencia científica medida a través de indicadores de productividad
Los términos de eficiencia y efectividad provienen de las ciencias
económicas, pero hoy día se aplican a todos los ámbitos, incluyendo el sector
científico. En el caso de la ciencia, la productividad se interpreta como eficiencia y
el rendimiento del sistemacomo efectividad, términos que se emplean en los
estudios métricos del grupo de cienciómetras liderado por el Dr. Humberto Carrillo
en el Laboratorio de Dinámica no lineal, de la Facultad de Ciencias de la Universidad
Nacional Autónoma de México (Villaseñor-García, Arencibia Jorge, & Carrillo-
Calvet, 2016). No necesariamente una alta producción se encuentra relacionada
con el rendimiento o efectividad (Abramo & DAngelo, 2016b). La interpretación
económica de la ciencia se basa en la productividad de la investigación (eficiencia)
y en el rendimiento (efectividad) a través del cálculo de indicadores que tomen en
cuenta las medidas de inversión en la investigación (Lutz Bornmann & Haunschild,
2016).
Los metristas emplean diferentes indicadores para medir la eficiencia de la
investigación, pero deben ser muy cuidadosos en los índices que calculan para
realizar estudios evaluativos u obtener ranking (clasificación de mayor a menor),
que se utilizan posteriormente en la toma de decisiones. En este sentido, es
necesario prestar atención a los indicadores que incluyen medidas de input (gastos
Capítulo I: Marco teórico
5

en investigación, número de investigadores activos, gastos en investigación) en
relación con la productividad; otro aspecto es que los estudios a nivel macro, meso
o micro no deben considerar los indicadores dependientes del tamaño (número de
citas, número de Highly Cited papers) solamente, sino que estos deben ser
combinados con otros indicadores para obtener indicadores de tamaño
independiente (Glanzel, Thijs, & Debackere, 2016), también los gobiernos e
instituciones de investigación deben ofrecer los datos necesarios para calcular este
tipo de indicadores, es decir, nombre y afiliación de los científicos, de investigación,
rango académico, recursos asignados.
Por último, con el objetivo de evitar distorsiones es necesario clasificar el
objeto de estudio (artículo, revista, institución, país) por campo de investigación, a
lo que se denomina normalización, proceso que se realiza debido a los diferentes
patrones de citación que existe a través de las áreas de la ciencia, (Abramo,
D'Angelo, & Di Costa, 2008), la normalización de las citas por campos de
investigación permite analizar, comparar y evaluar diferentes artículos, revistas,
instituciones, y países de acuerdo a su eficiencia y rendimiento de forma justa.

1.3. Consideraciones sobre los indicadores de excelencia
Los artículos altamente citados (Highly Cited Paper o HCP) se consideran
uno de los indicadores más empleados para estudiar la excelencia científica (Lutz
Bornmann, Leydesdorff, Walch-Solimena, & Ettl, 2011; Lutz Bornmann, Stefaner, de
Moya Anegon, & Mutz, 2016), determinar rankings de centros o facultades con
mayor desempeño (Bloch, Schneider, & Sinkjaer, 2016; Lutz Bornmann, Stefaner,
de Moya Anegon, & Mutz, 2014; Waltman, et al., 2012), en el otorgamiento de
premios (Rodriguez-Navarro, 2011) y para identificar áreas científicas con alta
excelencia (Baudoin, Peltier, Graillot-Gak, & Haeffner-Cavaillon, 2004; Lutz
Bornmann & Leydesdorff, 2016).
Los HCP se pueden definir de diferentes maneras, en esta investigación se
toma el concepto de la herramienta Essential Science Indicators producido por
Thomson Reuters, se define como el número de artículos que recibieron un total de
Capítulo I: Marco teórico
6

citas superior al 1% de citas cuando se compara con todos los artículos publicados
en el mismo año y en la misma disciplina ("Web of Science," 2016).
Los artículos altamente citados tienen una naturaleza compleja, la cual está
determinada por las siguientes características, extensas coautorías de diferentes
países con altos niveles de colaboración internacional, se publican en revistas con
alto factor de impacto, suelen ser citados por científicos extranjeros, existe una
mayor representación de los artículos de revisión como artículos que reciben un alto
número de citas con respecto a otro tipo de artículos, y el porcentaje de autocitas
es muy bajo para los artículos altamente citados (Dag W Aksnes, 2003; Miyairi &
Chang, 2012; Tijssen, Visser, & van Leeuwen, 2001).
El hecho que un artículo reciba alto número de citas y se considere como
HCP, lleva implícito las decisiones de muchos investigadores para citar determinado
artículo; en este sentido, la calidad y visibilidad juegan un papel fundamental en este
proceso (Lutz Bornmann, 2014). La calidad está relacionada con la estructura del
conocimiento científico (conocimiento núcleo y de frontera) (S. Cole, 2000); en la
actualidad una gran parte de los artículos publicados tienen un corto período de
importancia y no trascienden, es decir, un bajo número de trabajos se convierten en
literatura núcleo para un campo de la ciencia, lo cual provoca que reciban un alto
número de citas.
Por su parte la visibilidad, es relevante porque generalmente los artículos
altamente citados son concebidos por un promedio de 8 autores, factor que favorece
la visibilidad de la investigación y por tanto obtener un mayor número de citas (Dag
W Aksnes, 2003). Además, un artículo con un alto número de citas de otras
contribuciones implica que un mayor número de especialistas consideró este
trabajo; por tanto, aumenta la visibilidad. En general influyen diversos factores
sociales para que un autor cite un documento en particular; y específicamente los
científicos tienden a citar las contribuciones que son útiles para su propia
investigación (Cronin, 1984). Además, gran parte de lo que se publica son estudios
que no se consideran núcleo en un campo científico y existen diferencias en los
hábitos de citación para cada área de investigación.
Capítulo I: Marco teórico
7

Los trabajos altamente citados son concebidos por autores con altos niveles
de citas, pioneros e influyentes en sus campos, además son productivos y pueden
obtener una cantidad desproporcionada de los fondos de subvención; por tanto, sus
trabajos en virtud de su visibilidad son un factor clave de efectos de la reputación
en el mundo académico. Por otra parte, la investigación ofrece un enfoque de enlace
o relación entre ciencia-práctica, la industria y la academia, estudios que tienen
implicaciones prácticas de la vida real que pueden impactar a nivel individual y social
(Dag W. Aksnes & Rip, 2009; Antonakis, Bastardoz, Liu, & Schriesheim, 2014).
Importante entender lo que distingue a los artículos altamente citados de los menos
conocidos, diferencia que se centra específicamente en la aplicación de los métodos
académicos de la investigación, y la validez de las conclusiones del artículo.

2. Elementos de análisis del desempeño de las revistas académicas
Las revistas científicas constituyen el canal de comunicación de los
científicos e investigadores, se consideran como un criterio para evaluar el
rendimiento de la investigación de un científico. En este contexto, un ranking de
revistas constituye una herramienta importante para los investigadores en el
momento de elegir la publicación adecuada para canalizar sus resultados de
investigación, los bibliotecarios pueden planificar una mejor selección para
incrementar las colecciones y los editores conocen el grado de calidad de su revista.
Los rankings de revistas se concibieron con el objetivo de evaluar el impacto
de las revistas en campos específicos, los más empleados en la actualidad son los
basados en las estadísticas de citas, como el factor de impacto (IF) creado por
Eugene Garfield desde 1963 y se reporta por el Journal Citation Reports de
Thompson Reuters; los nuevos índices de Google Académico, Journal Metrics, y
SCImago Journal Rank (SJR). Además, en la literatura se encuentran estudios que
han realizado ranking de revistas en diferentes campos de la ciencia con el propósito
de determinar, a través del cálculo de indicadores basados en las citas,la calidad
de las revistas (Pajic, 2015; Parameswaran & Sebastian, 2006; Seiler & Wohlrabe,
2014; Serenko & Dohan, 2011; Vanclay, 2011).
Capítulo I: Marco teórico
8

Clasificar las revistas científicas en un orden, constituye una herramienta
importante para las instituciones académicas donde existen esquemas de
evaluación y es un método para reducir la incertidumbre en el proceso de selección
de la publicación y en la medición/evaluación de los resultados de la investigación
(Pajic, 2015; Polonsky, 2004). Proporcionan cierta estabilidad para la realización de
estudios evaluativos para un período de tiempo; siempre y cuando no influyan
factores como el aumento desproporcional de autocitas y la aparición de hot papers
(artículos calientes); es un comportamiento común en revistas de menor rango
donde las pequeñas fluctuaciones en el número de citas pueden producir grandes
cambios en el ranking. A medida que la calidad y el prestigio de las revistas
aumenta, la variabilidad relativa del factor de impacto disminuye, y por lo tanto el
ranking de revistas ofrece una tendencia a ser más fiable y estable para su nivel
(Pajic, 2015).
Otra de las ventajas de los rankings es como los académicos reciben altos
salarios cuando publican en revistas de primer nivel, algunas universidades han
desarrollado políticas para recompensar financieramente las facultades que tienen
un mayor número de artículos en revistas núcleo. Las bibliotecas pueden utilizar
esta clasificación para asignar recursos y establecer prioridades para la suscripción.
Los editores pueden saber acerca de la posición relativa de su revista y de esta
manera desarrollar campañas de marketing, atraer a los suscriptores y sugerir
temas muy exclusivos y actuales (Serenko & Dohan, 2011).
Existen varios enfoques posibles para obtener un ranking de revistas, el
método cualitativo que se basa generalmente en las encuestas que registran las
percepciones de los encuestados (Peffers & Tang, 2003). Por otro lado, el método
cuantitativo que se fundamenta en el factor de impacto de la revista, que es una
métrica para medir el impacto de las revistas en varias áreas temáticas; este tipo de
análisis de citas se considera la metodología más objetiva para evaluar la calidad
de la revista y obtener un ranking.
Existen alternativas al factor de impacto que junto al criterio de expertos
permiten validar la influencia de las revistas como; el Source Normalized Impact per
Paper (SNIP), el SCImago Journal Ranking (SJR) y Eigenfactor (EFS); estos
Capítulo I: Marco teórico
9

indicadores se consideran de importancia para construir ranking de revistas en
bases de datos como Web of Science y Scopus (Falagas, Kouranos, Arencibia-
Jorge, & Karageorgopoulos, 2008; Leydesdorff & Opthof, 2010; Henk F. Moed,
2011).
2.1. El Factor de Impacto de Garfield
El factor de impacto (IF), mide la importancia de una publicación científica,
es calculado anualmente por las publicaciones que se encuentran recogidas en el
Journal Citation Reports del Web of Science, Thomson-Reuters. En la literatura se
cuestiona el uso del IF como indicador que ofrece información sobre la calidad de
las publicaciones. Además, como su período de cálculo base para citas es muy
corto, no toma en cuenta que, los artículos clásicos son citados más frecuentemente
que los originales, incluso décadas después de haber sido escritos. Finalmente, sus
resultados no son comparables en distintas áreas de investigación (Garfield & Sher,
1963).
2.2. Eigenfactor del WoS
Eigenfactor (EFS) tiene sus antecedentes como eigenvector centrality,
indicador que se introdujo por el sociólogo Phillip Bonacich en 1972 como una forma
de cuantificar el estado o la popularidad de un individuo dentro de una red de
comunicación. El objetivo de Bonacich era utilizar la estructura de una red para
identificar quiénes eran las personas importantes en la red (Bergstrom, West, &
Wiseman, 2008).
Luego Carl T. Bergstrom, experto en Biología de la Información y Métrica de
la Información Científica en la Universidad de Washington diseñó en el año 2007 el
indicador: eigenfactor.
Identificar cuántos nos citan, quiénes y cómo lo hacen, es lo que valora el
Eigenfactor; cuando este indicador es combinado con otros se obtiene un ranking
de revistas científicas más confiables para validar la influencia de las publicaciones
(Wesley-Smith, Bergstrom, & West, 2016); en la red de referencias que citan una
revista. Además, evalúa la importancia y posición de cada revista en la red; no
proporciona directamente el costo de las publicaciones, pero los bibliotecarios
Capítulo I: Marco teórico
10

pueden determinar a través de este indicador el costo-efectividad de una colección
de revistas.
Cada área de la ciencia tiene diferentes comportamientos de las citas y las
escalas para producir/recibir citas también difieren, en ese sentido, el uso de la red
de citas, en el cual se basa el algoritmo del cálculo de Eigenfactor permite de forma
automática identificar estas diferencias y comparar las diferentes áreas de
investigación. Es un indicador que para su cálculo se toman las citas recibidas en
un período de cinco años (Bergstrom, 2007; West, Bergstrom, & Bergstrom, 2010).

2.3. Source normalized impact per paper
El indicador SNIP fue concebido por Henk Moed en el 2010, y los valores son
reportados en la base de datos Scopus y en la herramienta Journal Metrics. SNIP
calcula el impacto de las citas en las revistas científicas utilizando un enfoque
normalizado de la fuente “source normalized approach”, con el objetivo de rectificar
las diferentes prácticas de citas sin recurrir a un sistema de clasificación temática
en el que se definen explícitamente los límites de los campos temáticos de las
revistas. Source normalized approach realiza un conteo de las citas por cada campo
de investigación basado en las características de las fuentes que originaron la cita
(Waltman, van Eck, van Leeuwen, & Visser, 2013a).
Este indicador mide el impacto de las citas de contexto en la revista conocido
en inglés como: journal´s contextual citation impact. Para ello toma en consideración
las características del grupo de artículos que citan una revista. En este enfoque, se
calcula la frecuencia que un artículo de una revista cita (citing papers) otros artículos
procedentes de otras revistas, a lo que se denomina journal´s subject field (Moed,
2010).
En términos generales, el SNIP evalúa el impacto de las citas de contexto en
la revista científica, escenario que está determinado por las referencias y además
por el grado de cubrimiento que la base de datos ofrece para la revista. El SNIP es
un indicador que ofrece potencialidades y debilidades (Waltman, et al., 2013b) para
evaluar el desempeño de las revistas; pero todavía no existe un único indicador para
Capítulo I: Marco teórico
11

validar las publicaciones científicas. El proceso de comunicación científica es un
concepto multidimensional que no puede ser expresado en una sola medida.
En términos generales, SNIP se convierte en un indicador con importantes
ventajas sobre las tradiciones enfoques de normalización en los sistemas de
clasificación de las revistas y los índices basados en las citas para validar el
desempeño de las publicaciones (Moed, 2010; H. F. Moed, 2011; Schoepfel &
Prost, 2009; Waltman, van Eck, van Leeuwen, & Visser, 2013b) debido a los
siguientes puntos:
 Este indicador permite delimitar el conjunto de artículos que citan una revista
sin depender de un sistema de clasificación por temática para las revistas, sino
que se basa en las relaciones de las citas.
 El nuevo indicador corrige las diferencias en las referencias encontradas
entre campos temáticos, específicamente la frecuencia con la que los autores
citan otros documentos y la velocidad en la maduración del impactode las citas.
 Además, corrige las diferencias en la cobertura de la base de datos para
diferentes campos de investigación. Ejemplo: un bajo porciento de referencias
activas conduce a un menor valor del indicador, database citation potencials,
que tiende a ofrecer valores más altos del SNIP en comparación con el raw
impact per paper indicator. Variables que intervienen en el cálculo del SNIP y
que se definen el capítulo siguiente.
 Permite corregir las diferencias en las categorías temáticas para las revistas
multidisciplinares, como Nature o Science.
2.4. SCImago Journal Rank (SJR)
SCImago Journal Rank (SJR) es un indicador creado por el grupo de
investigación SCImago en el año 2009. SJR es un índice de tamaño independiente
destinado a medir el prestigio promedio por artículo de una revista que está siendo
evaluada. Este indicador tiene la función de representar el impacto científico de una
revista, desde una perspectiva cuantitativa y cualitativa.
La idea esencial que subyace en la aplicación de indicador en la evaluación
de revistas científicas es la asignación de pesos a las citas bibliográficas en base a
la importancia de las revistas que emitieron las citas. Las citas hechas por las
Capítulo I: Marco teórico
12

revistas importantes se les asigna mayor peso que las emitidas por revistas menos
importantes. Esta "importancia" se calcula de forma recursiva, es decir, las revistas
importantes serán los que a su vez reciben muchas citas de otras revistas
importantes. Este proceso se determina gracias a la aplicación del algoritmo de
PageRank creado por Google en 1998. Por ello, este indicador se considera como
un journal prestige indicator (González-Pereira, Guerrero-Bote, & Moya-Anegón,
2009).

3. Descubrimiento de conocimiento, minería y visualización de información en bases
de datos bibliográficas
3.1. El descubrimiento de conocimiento en bases de datos (KDD)
En la década de los años 80 del siglo pasado, aparecen tecnologías como
las computadoras y los lenguajes de cuarta generación. Estos avances tecnológicos
provocaron un cambio de pensamiento y acción; el usuario comprendió que los
datos no solo se necesitaban para el procesamiento de transacciones online,
también los datos facilitaban tomar decisiones a la alta dirección para mantener las
instituciones en entornos muy competitivos. A partir de este momento, las bases de
datos se utilizaron para el análisis de los datos almacenados y recuperar
información. Con el transcurso del tiempo, el volumen de datos se incrementó y las
herramientas para gestionar los datos no eran las adecuadas y surgió la necesidad
de herramientas de análisis para grandes cantidades de datos.
En la era moderna, la mayoría de la información está disponible a través de
documentos en lenguaje natural no estructurados, esto se debe al crecimiento
exponencial de la web, las bibliotecas digitales, la documentación en formato digital,
etc. Sin embargo, este gran cúmulo de datos lleva intrínsecamente información
estratégica, a la cual no es fácil de acceder a través de técnicas clásicas de
recuperación de información.
El descubrimiento de conocimiento en bases de datos o en inglés Knowledge
Discovery in Databases (KDD) fue acuñado en el primer “workshop” de KDD en
1989 y se define como: el conjunto de acciones que se desarrollan para analizar
las grandes cantidades de datos almacenadas por las organizaciones, con el fin de
Capítulo I: Marco teórico
13

obtener información de interés para mejorar el funcionamiento y rendimiento de las
mismas (U. M. Fayyad, Piatetsky-Shapiro, Smyth, & Uthurusamy, 1996).
Bernstein, define KDD como el resultado de un proceso exploratorio que,
implica la construcción de modelos a partir de los datos almacenados (Bernstein ,
Provost, & Hill, 2005).
La extracción de información (IE) es un método con la precisión razonable
capaz de transformar los datos no estructurados que están en una base de datos
estructurada, en formas intermedias. Las formas intermedias más habituales son:
bolsa de palabras, N-grams, palabras clave, multitérminos, conceptos de jerarquía,
mapas conceptuales (Sirsat, Chavan, & Deshpande, 2014).
Hoy en día, mucho más allá del reconocimiento de patrones, a este proceso
se le ha dado una variedad de nombres, incluyendo: la minería de datos, extracción
de conocimiento, el descubrimiento de información, recolección de información,
extracción de información (U. Fayyad, G. Piatetsky-Shapiro, & P. Smyth, 1996),
entre otras, pero en esta investigación se empleará el término: descubrimiento de
conocimiento en bases de datos o en inglés Knowledge Discovery in Databases
(KDD).
El objetivo principal del KDD es la extracción del conocimiento que se
encuentra dentro de grandes cantidades de datos en bruto, identificar los patrones
más importantes y significativos, así como, representar los objetivos del usuario. El
descubrimiento de conocimiento oculto, es posible gracias a la aplicación de
sofisticadas técnicas como la inteligencia artificial, la minería de datos y la
visualización de información, las cuales permiten encontrar patrones y relaciones
dentro de los datos permitiendo la creación de modelos, y representaciones
abstractas de la realidad.
El valor real de los datos reside en la información que se puede extraer de
ellos, información que ayude a tomar decisiones o mejorar la comprensión de los
fenómenos que se presentan en la realidad. Hoy, más que nunca, los métodos
analíticos avanzados son el arma secreta de muchos negocios exitosos. Empleando
métodos analíticos avanzados para la explotación de datos, los negocios
Capítulo I: Marco teórico
14

incrementan sus ganancias, maximizan la eficiencia operativa, reducen costos y
mejoran la satisfacción del cliente (Gamarra, Guerrero, & Montero, 2016; Holzinger,
Dehmer, & Jurisica, 2014; Witten & Frank, 2005). El reto no es la extracción de
información significativa de los datos no estructurados sino hacer los datos útiles al
usuario final.
3.2. La minería de datos como parte de la metodología de descubrimiento de
conocimiento en bases de datos
Desde el punto de vista académico, el término Minería de datos en inglés
Data mining se considera como un proceso dentro de la metodología KDD (Usama
Fayyad, Gregory Piatetsky-Shapiro, & Padhraic Smyth, 1996; Gullo, 2014; Holmes,
2013; Holzinger, et al., 2014; Senger, Leach, Ralph, & David, 2008; Wanderley,
Tacla, Barthes, & Paraiso, 2015); pero en el ámbito empresarial ambos términos se
emplean de manera indistinta. En este trabajo de investigación se emplea el término
minería de datos como fase del proceso de KDD.
En este sentido, la metodología KDD involucra varios algoritmos de minería
de datos o data mining. Esta última se define por Fayyad como la etapa de
descubrimiento del KDD que consistente en el uso de algoritmos concretos que
generan una enumeración de patrones a partir de los datos pre-procesados (U.
Fayyad & Stolorz, 1997).
KDD es una metodología interactiva e iterativa que incluye varios pasos, una
de las primeras propuestas fue planteada por Fayyad en 1996 (Figura 1) y en ella
el proceso se divide en las siguientes fases: comprensión del problema, selección
de la base de datos objetivo del proceso de descubrimiento, limpieza y
preprocesado de dicha base de datos, reducción, elección del método que se va a
usar para resolver el problema, elección del algoritmo, ejecución del algoritmo de
Minería de datos elegido, interpretación de los patrones obtenidos y consolidación
del conocimiento obtenido (Usama Fayyad, et al., 1996).

Capítulo I: Marco teórico
15

Figura 1. Fases de la metodología para el descubrimiento de conocimiento en bases de
datos (KDD) (Fayyad, et al., 1996)
KDD cuenta de los siguientes pasos según el criterio de varios autores desde
los que definieron estaherramienta hasta alguna de las más recientes propuestas
(Liao, Chu, & Hsiao, 2012):
 Determinar las fuentes de información que pueden ser útiles y dónde
conseguirlas.
 Diseñar el esquema del almacén de datos (Data Warehouse) para
unificar toda la información recuperada.
 Implantación del almacén de datos para facilitar la navegación y visualización
previa de sus datos, y determinar los elementos que pueden ser estudiados.
 Selección, limpieza y transformación de los datos que se van a analizar. La
selección incluye tanto una criba o fusión horizontal (filas) como vertical
(atributos). La limpieza y pre-procesamiento de datos implica el trazado de
una estrategia para eliminar los ruidos, textos incompletos, en fin, toda la
información que no es necesaria.
 Minería de datos: incluye la selección de la tarea de descubrimiento a
realizar, por ejemplo, clasificación, agrupamiento o clustering, regresión, etc.
El proceso de minería de datos, busca patrones que puedan expresarse
como modelo.
 Estimación, interpretación, transformación y representación de los patrones
extraídos.
Capítulo I: Marco teórico
16

 Difusión y utilidad del nuevo conocimiento para añadir el conocimiento
descubierto al sistema con el propósito de resolver conflictos potenciales con
el conocimiento existente, trazar acciones y tomar decisiones.
La Minería de datos es la fase de mayor importancia y tiene como tareas
determinar el patrón de descubrimiento, la agrupación, clasificación, y resumen (Fu,
2011), específicamente, se ocupa de la extracción de patrones interesantes por la
elección de un método de extracción de datos o tareas específicas (por ejemplo, el
resumen, la clasificación, agrupación, la regresión, y así sucesivamente), luego los
algoritmos adecuados para llevar a cabo la tarea a la mano, y por último una
representación adecuada de los resultados de salida; por ello se considera la fase
de mayor importancia en el proceso de KDD (Kurgan & Musilek, 2006).

3.3. Técnicas de la minería de datos
El volumen de datos almacenados y disponibles de forma remota en las
bases de datos, ha generado la necesidad de explotar estos datos y transformarlos
en información, es decir, los datos constituyen el ingrediente o materia prima de la
minería de datos, la cual ha estado bajo desarrollo por décadas, y se ha nutrido de
otras áreas de investigación como las estadísticas, inteligencia artificial y el
aprendizaje de máquinas. Hoy, la madurez de las técnicas y método de la minería
de datos, junto con los motores de las bases de datos relacionales de alto
desempeño, hicieron que de la minería de datos sea una práctica común para los
entornos de data warehouse (almacén de datos).
En el núcleo del proceso de minería de datos se destaca la aplicación de
diferentes métodos, que permiten el descubrimiento de patrones de distintos tipos,
entre los que se pueden destacar, por mencionar algunos, clasificación,
caracterización, asociación, “clustering” y discriminación, los cuales han sido
conceptualizados por diferentes autores (Han & Kamber, 2000; Kishida, 2003;
Kuncheva, 2004; Kurgan & Musilek, 2006; Leskovec, Kleinberg, & Faloutsos, 2007;
Liao, et al., 2012; Pyle, 1999).
Una de las primeras y más completas conceptualizaciones de las técnicas de
minería de datos lo presentó Fayyad en su artículo (U. Fayyad & Stolorz, 1997),
Capítulo I: Marco teórico
17

además, la fase se compone de varias técnicas las cuales se mencionan a
continuación: Predictive modeling (modelo predictivo), Clustering (agrupación), Data
summarization (resumen de datos), Dependency modeling, Change and deviation
detection (detección de cambio y desviación).
Siti Khadijah, en la novena Conferencia Internacional sobre Ciencia Cognitiva
(9th International Conference on Cognitive Science), planteó que, una de las
técnicas de minería de datos más usada es: Clustering o agrupamiento, seguido de
la Clasificación, Sequential pattern o patrón secuencial, Predicción, y Reglas de
asociación (PhridviRaj & GuruRao, 2014; Shu-Hsien, Pei-Hui, & Pei-Yuan, 2012);
en este sentido, la presente investigación empleará la técnica de Clustering, para
representar la información.
Clustering es la técnica la cual toma un conjunto de entidades representadas
por registros de una base de datos, la divide en grupos o clusters de manera tal que
los elementos dentro de cada grupo sean similares. El objetivo del clustering es
reducir la cantidad de datos mediante la caracterización o agrupamiento de datos
con características similares. Esta agrupación es acorde con los procesos humanos
de información y una de las motivaciones para usar algoritmos clustering es proveer
herramientas automáticas que ayuden a la construcción de taxonomías. Los
métodos pueden también ser usados para minimizar los efectos de los factores
humanos que afectan el proceso de clasificación (Kishida, 2003; Kostoff, et al.,
2007; Tseng & Tsay, 2013; Villaseñor García, 2016).

3.4. Visualización de información
La teoría de la visualización se inició hace más de 2400 años.
El filósofo Platón comprendió que percibimos los objetos a través de los sentidos
con el uso de la mente. Por lo cual, nuestra percepción del mundo real es una
traducción de la energía física de nuestro entorno en señales neuronales
codificados. La mente interpreta continuamente y categóricamente nuestra
percepción del entorno que nos rodea. Ejemplo de ellos es: el uso de una
computadora como fuente de entrada para las funciones de procesamiento de la
mente, las interfaces de texto no sólo reducen la complejidad de la interfaz, y sino
Capítulo I: Marco teórico
18

también filtran el uso de las más potentes funciones de procesamiento de
información en la mente humana.
La capacidad de visualizar las implicaciones de los datos, es tan antigua
como la humanidad misma. Los orígenes de la visualización de la información, se
identifican por la búsqueda del insight a partir de la entropía que existe en un gran
volumen de datos, a partir de dos perspectivas: estructura y cambio. Sus
antecedentes se localizan en la historia del desarrollo del conocimiento y del
lenguaje visual, estrechamente fusionado a la influencia de los progresivos avances
tecnológicos y científicos, con dos propósitos esenciales: descubrir y explicar (C.
Chen, 2006).
El término Visualización de la Información se manejó por primera vez en
1989; en esta etapa el término refiere a una propuesta de arquitectura cognitiva para
interfaces de usuario interactivas. Luego, el estudio de las representaciones figuras
de la información desde distintas disciplinas, y bajo la influencia de los paradigmas
cognitivo y tecnológico, la Human Computer Interaction (HCI), la fortaleció como
área de conocimiento distintiva de investigación, en función de poder desarrollar sus
aplicaciones de forma satisfactoria en el manejo y representación gráfica de la
información. Entonces se consolida como un área de investigación, con bases
interdisciplinares, y enfocadas en la representación visual de un gran volumen de
información, en el uso de técnicas gráficas interactivas para comprender y analizar
los datos de forma intuitiva, detectando y explorando sus relaciones y patrones de
comportamiento (Card, MacKinlay, & Shneiderman, 1999).
La Visualización de Información surge de la informática (los gráficos
computacionales y la interacción persona - computadora), la psicología (los
procesos cognitivos y de la psicología de la percepción), de la semiótica (significado
de los símbolos), diseño gráfico (para artefactos bien adaptados a su propósito), de
la cartografía (para crear las representaciones visuales que son abstracciones
cuidadosamente elegidas del mundo), y del arte (que han refinado los métodos para
transportar el significado visual), y actualmente cuenta con su propia agenda de