Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO POSGRADO EN BIBLIOTECOLOGÍA Y ESTUDIOS DE LA INFORMACIÓN FACULTAD DE FILOSOFÍA Y LETRAS INSTITUTO DE INVESTIGACIONES BIBLIOTECOLÓGICAS Y DE LA INFORMACIÓN Análisis de la producción científica de México en el Web of Science, durante el período 2005-2015, utilizando inteligencia computacional. TESIS QUE PARA OPTAR POR EL GRADO DE: MAESTRA EN BIBLIOTECOLOGÍA Y ESTUDIOS DE LA INFORMACIÓN PRESENTA: Lic. Ibis Anette Lozano Díaz ASESOR: DR. Humberto A. Carrillo Calvet Facultad de Ciencias y Centro de Ciencias de la Complejidad Universidad Nacional Autónoma de México Ciudad de México, Diciembre 2016 UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. Not everything that counts can be counted. William Bruce Cameron (1963) Agradecimientos Quiero agradecer a mis sinodales, Dra. Jane Russell, Dr. Salvador Gorbea Portal, Dr. Francisco Collazo y Dra. María Luna Morales, por dedicar parte de su tiempo a la revisión de esta investigación y por sus valiosos comentarios, que sirvieron para enriquecer esta tesis. A la Dra. Yohannis Martí Lahera, directora de la Biblioteca Central de la Universidad de La Habana, por sus sugerencias sobre los análisis en los indicadores de producción e impacto, tema de su especialidad. Al Dr. Ricardo Arencibia Jorge agradezco su apoyo en el estudio sobre revistas mexicanas. A la Dra. Rosa Lidia Vega Almeida, del Centro de Histoterapia Placentaria de Cuba, por sus valiosos comentarios sobre la redacción de la tesis. A mi tutor Dr. Humberto Carrillo Calvet por su visión sobre el tema y por sus sabias sugerencias; su paciencia y exigencia en la conducción de esta investigación. Además, doy gracias por enseñarme el verdadero rigor de la ciencia, y cómo manejar cada situación que se presenta en el camino de hacer ciencia. A su lado, cada día es una enseñanza. Agradezco a mis padres Ibis Díaz y Pedro Lozano, por todo el amor y apoyo incondicional que recibo cada día de su parte, sin importar la distancia. A todos los chicos del Laboratorio de Dinámica No Lineal, en especial a José Luis Jiménez, por explicarme cómo funcionan las neuronas del SOM, contar con su ayuda incondicional durante todo este tiempo y por convertirse en un verdadero amigo. A mi amiga, Yaniris Rodríguez Sánchez por darme la luz sobre la “Ciencia” y la vida académica. A los profesores del Posgrado en Bibliotecología y Estudios de la Información, de la Universidad Nacional Autónoma de México por ofrecerme una excelente educación. Por último, agradecer al CONACYT su apoyo económico durante el curso 2014-2016. Resumen Desde una perspectiva bibliométrica, la presente investigación analiza la producción científica de México, evaluando el desempeño de las revistas y la producción de artículos científicos, tomando en cuenta diversos indicadores independientes de tamaño, basados en citas. Se considera información contenida en las bases de datos del Sistema Nacional de Investigadores (SNI), del Web of Science (WoS) y de Scopus, durante el período comprendido entre enero de 2005 y diciembre de 2015. El método de análisis se basa en el uso de técnicas bibliométrcias y de inteligencia computacional. Se construye y se utiliza una batería de indicadores bibliométricos para estimar la eficiencia y la efectividad de la producción. Una parte del análisis se realiza aplicando una tecnología neurocomputacional y técnicas de frontera para la visualización de información, implementadas en el sistema de software LabSOM, desarrollado en el Laboratorio de Dinámica no Lineal de la Facultad de Ciencias. A la luz de cuatro indicadores de última generación (dos del Journal Metrics de Scopus y dos del Journal Citation Reports), se analiza el desempeño de todas las revistas mexicanas (39) indizadas en el WoS. Se identifican las diez revistas con mayor desempeño, de acuerdo a cada uno de estos indicadores y se comparan los resultados. Por otra parte, se compara la evolución de la producción científica de México en las bases de datos del WoS y de Scopus con la evolución del SNI. Se identifican los campos de investigación en los que la ciencia mexicana tiene mayor producción e influencia. También se propuso un Índice de Desarrollo Científico, independiente de tamaño, que es útil para comparar la evolución de la producción de México con la de otros países con un similar nivel de desarrollo científico. Se comprueba la utilidad de la tecnología neurocomputacional para llevar a cabo análisis multiparamétrico dentro un conjunto de 70 países, tomando en cuenta simultáneamente cuatro indicadores que estiman: productividad, impacto normalizado y dos indicadores de excelencia. Los resultados del análisis neurocomputacional se visualizan en mapas que encriptan el conocimiento obtenido. Los resultados obtenidos son de potencial utilidad para la evaluación y el diseño de política científica. Palabras Clave: Minería de datos bibliométrica; visualización de información; redes neuronales; mapas auto-organizados; algoritmo SOM; ViBlioSOM; indicadores; México. Tabla de Contenido Introducción ...................................................................................................................... I 1. Exposición de motivos, justificación y objetivos de la investigación .......................... I 2. Antecedentes .......................................................................................................... V Capítulo I: Marco teórico ................................................................................................. 1 1. Elementos de análisis de la producción académica ................................................ 1 1.1. Indicadores de producción e indicadores basados en citas .................................... 1 1.2. La eficiencia científica medida a través de indicadores de productividad................. 4 1.3. Consideraciones sobre los indicadores de excelencia ............................................. 5 2. Elementos de análisis del desempeño de las revistas académicas ............................ 7 2.1. El Factor de Impacto de Garfield ............................................................................. 9 2.2. Eigenfactor del WoS ................................................................................................ 9 2.3. Source normalized impact per paper ..................................................................... 10 2.4. SCImago Journal Rank (SJR) ............................................................................... 11 3. Descubrimiento de conocimiento, minería y visualización de información en bases de datos bibliográficas....................................................................................................... 12 3.1. El descubrimiento de conocimiento en bases de datos (KDD) ............................... 12 3.2. La minería de datos como parte de la metodología de descubrimiento de conocimiento en bases de datos .................................................................................. 14 3.3. Técnicas de la minería de datos ............................................................................16 3.4. Visualización de información ................................................................................. 17 3.5. KDD, Minería de Datos, visualización de información y la Bibliometría ................. 22 3.5.1. El algoritmo SOM y la visualización de información bibliométrica ....................... 22 Capítulo II: Metodología y fuentes de información ...................................................... 24 2.1. Fuentes de información: los índices de difusión de la ciencia ................................ 24 2.1.1. El Web of Science (WoS): las bases de datos y herramientas de análisis bibliométrico ................................................................................................................. 24 2.1.2. Los recursos de análisis del WoS: Essential Science Indicators y Journal Citation Reports ........................................................................................................................ 26 2.2. SCOPUS ............................................................................................................... 29 2.2.1. Elsevier Journal Metrics ...................................................................................... 30 2.2.2. SCIMAGO Journal and Country Rank................................................................. 30 2.3. Batería de Indicadores bibliométricos empleados en la investigación .................... 31 2.3.1 Indicadores de producción y eficiencia ................................................................ 31 2.3.2. Indicadores de impacto ...................................................................................... 32 2.3.3. Indicadores del Esential indicators: Highly Cited Paper y Hot Paper .................. 35 2.4. Metodología implementada: ViBlioSOM ................................................................ 36 2.4.1. Etapas de la metodología ViBlioSOM ................................................................. 37 Capítulo III: Resultados y discusión ............................................................................. 41 1. Análisis bibliométrico de las principales revistas mexicanas .................................. 41 1.1. Núcleo de revistas mexicanas con mayor visibilidad en Web of Science y Scopus 41 1.2. El top ten de revista mexicanas con mayor visibilidad ........................................... 45 1.3. Análisis multidimensional de las revistas mexicanas, basada en la técnica de mapas auto-organizados o SOM (Self-Organizing Map) .......................................................... 49 2. Análisis de la producción científica mexicana en el WoS, 2005-2015 ....................... 53 2.1. El Sistema Nacional de Investigadores (SNI) ........................................................ 53 2.2. Análisis comparativo de la evolución del SNI y de la producción científica mexicana en Scopus y el Web of Science .................................................................................... 53 2.2.1.Análisis de los artículos científicos mexicanos visibles internacionalmente ..................................................................................................................................... 56 2.3. Estudio comparativo de la producción mexicana con otros países. ....................... 59 2.4. Highly Cited y Hot papers: Comparación de la producción mexicana con otros países ..................................................................................................................................... 63 2.5. Principales campos de investigación en la ciencia mexicana ................................ 71 2.5.1. Los campos de investigación con mayor impacto en la ciencia mexicana .......... 73 2.5.2. Los campos de investigación científica mexicana con mayor efectividad y excelencia .................................................................................................................... 74 2.6. Colaboración científica .......................................................................................... 78 3. Análisis multiparamétrico del perfil bibliométrico de México y otros países, basado en la técnica de mapas auto-organizados ......................................................................... 79 3.1. Ranking de los países de acuerdo al ESI del WoS ................................................ 79 3.2. Ranking de los países de acuerdo al grado de desarrollo científico ....................... 80 3.3. Aplicación de ViBlioSOM: Análisis multiparamétrico del perfil bibliométrico de México y otros países, considerando el índice de desarrollo científico, impacto y excelencia ... 85 3.3.1. Análisis usando indicadores dependientes de tamaño ....................................... 85 3.3.2. Análisis usando indicadores independientes del tamaño…………………………. 89 Consideraciones finales ................................................................................................ 93 Referencias .................................................................................................................... 95 ANEXOS ....................................................................................................................... 104 Relación de Figuras Todas las figuras y tablas de esta tesis son de elaboración propia, con excepción de la Figura 1 y Figura 2 Figura 1. Fases de la metodología para el descubrimiento de conocimiento en bases de datos (KDD) (Fayyad, et al., 1996) ................................................................................... 15 Figura 2. Estructura de una Red Neuronal bajo el algoritmo SOM (Guzmán-Sánchez, 2009) ........................................................................................................................................ 23 Figura 3. Metodología ViBlioSOM: etapas del descubrimiento, análisis y visualización de información bibliométrica ................................................................................................. 37 Figura 4. Mapa de componente del indicador: Índice de desarrollo científico (SDI) para países .............................................................................................................................. 39 Figura 5. Clustering de países considerando cuatro indicadores: Índice de desarrollo científico (SDI), Impacto Normalizado (NI), Highly Cited (HCP) y Hot Papers (Hot) ......... 40 Figura 6. Revistas mexicanas indexadas en SCOPUS y Web of Science, 2005-2015 ..... 44 Figura 7. Revistas mexicanas con mayores valores en el Source Normalized Impact per Paper y SCImago Journal Rank para el año 2015 ........................................................... 48 Figura 8. Revistas mexicanas con mayores valores en el Eigenfactor Score y Impact Factor para el año 2015 .............................................................................................................. 49 Figura 9.Mapa de Visibilidad por zonas de las revistas mexicanas de acuerdo con: a) Source Normalized Impact per Paper, b) Impact Factor, c) Eigenfactor Score, y d) SCImago Journal Rank. (Self-organized maps desarrollado por ViblioSOM). (Anexos 8 y 9: los mapas aparecen separado .......................................................................................................... 52 Figura 10.Crecimiento paralelo del número total de miembros mexicanos en el SNI y la producción científica en Web of Science y Scopus, durante el período 2005-2015 .......... 55 Figura 11. La eficiencia de la ciencia mexicana en Web of Science y SCOPUS, durante 2005-2015 ....................................................................................................................... 56 Figura 12. Crecimiento paralelo del número total de miembros mexicanos en el SNI y el número de artículos científicos en Web of Science y Scopus, durante el período 2005-2015 ........................................................................................................................................58 Figura 13. El índice de producción científica nacional (National Scientific Productivity) en Web of Science y Scopus, durante el período 2005-2015 ................................................ 58 Figura 14. Comparación de la producción mexicana en WoS con la de los países más productivos de la región ................................................................................................... 59 Figura 15. Comparación de la producción científica mexicana en el WoS por cada 100,000 habitantes con países de la región, 2005-2015 ................................................................ 60 Figura 16. Comparación de la producción mexicana en WoS con países que no pertenecen a la región latinoamericana, con similar producción de acuerdo al ESI, durante el período 2005-2015 ....................................................................................................................... 61 Figura 17. La producción científica mexicana en el WoS por cada 100,000 habitantes con la de los países con similar producción de acuerdo al ESI, 2005-2015 ............................ 62 Figura 18. Comparativa del número de Top Papers mexicanos en el Web of Science con países de la región y otros países con similar producción, 2005-2015 ............................. 63 Figura 19. Comparativa del número de Highly Cited Papers mexicanos en el Web of Science con países de la región y países de similar producción, 2005-2015 ................................. 64 Figura 20. Comparativa del número de Hot Papers mexicanos en el Web of Science con países de la región y países de similar producción, 2005-2015 ....................................... 65 Figura 21. Comparativa del número de Top Papers mexicanos por cada 1,000 documentos en el Web of Science con países de la región y con países de similar producción, 2005- 2015 ................................................................................................................................ 66 Figura 22. Comparativa del número de Highly Cited Papers mexicanos por cada 1,000 documentos en el Web of Science con países de la región y países de similar producción, 2005-2015 ....................................................................................................................... 67 Figura 23. Comparativa del número de Hot Papers mexicanos por cada 1,000 documentos en el Web of Science con países de la región y países de similar producción, 2005-2015 ........................................................................................................................................ 68 Figura 24. Comparativa del número de Highly Cited Papers mexicanos por cada 100,000 habitantes, con países de la región y países de similar producción, 2005-2015 .............. 69 Figura 25. Comparativa del número de Hot Papers mexicanos por cada 100,000 habitantes, con países de la región y países de similar producción, 2005-2015 ................................. 70 Figura 26. Distribución del número de documentos mexicanos en el WoS, durante 2005- 2015, entre 22 campos de investigación .......................................................................... 72 Figura 27. Distribución del número de citas entre 22 campos de investigación en el WoS, durante 2005-2015 .......................................................................................................... 73 Figura 28. Distribución del promedio de citas por documento a través de 22 campos de investigación en el WoS, durante 2005-2015 ................................................................... 74 Figura 29. Distribución entre 22 campos de investigación del número de Highly Cited Papers mexicanos en el WoS, durante 2005-2015 ...................................................................... 76 Figura 30. Distribución de los 9 de 22 campos de investigación del número de Hot Papers mexicanos en el WoS, durante 2005-2015 ...................................................................... 77 Figura 31. Evolución anual de la colaboración con los países más colaboradores con México en el período 2005-2015. Total de países colaboradores: 193 ......................................... 78 Figura 32. Evolución en el tiempo del índice de desarrollo científico, número de artículos publicados en revistas indexadas en WoS por cada 100,000 habitantes, para México y países con similar desempeño ......................................................................................... 81 Figura 33. Países con altos valores de impacto (NI) y el índice de desarrollo científico (SDI) durante el 2005-2015 ....................................................................................................... 83 Figura 34. Relación entre excelencia Highly Cited Papers (HCP) e impacto normalizado durante el período 2005-2015, para países con similar índice de desarrollo científico que México ............................................................................................................................. 84 Figura 35. Hot papers e impacto normalizado para países con similar índice de desarrollo científico que México, durante el período 2005-2015 ....................................................... 84 Figura 36. Mapa de Cluster identificado con la técnica Self Organized Maps para 70 países que tienen perfiles similares a México, HCP y Hot como indicadores de tamaño dependiente (Anexos 10, 11 y 12, donde cada mapa está separado) .................................................. 88 Figura 37. Mapa de Clusters identificados con la técnica Self Organized Maps para 70 países que tienen perfiles similares a México, HCP y Hot como indicadores de tamaño independiente (Anexo 13, 14 y 15, donde cada mapa está separado) ............................. 92 Relación de Tablas Tabla 1. Indicadores basados en citas con mayor uso derivados de Bases de datos como Web of Science y Scopus .................................................................................................. 3 Tabla 2. Número de documentos recuperados en la base de datos Scopus por cada tipo documental ...................................................................................................................... 30 Tabla 3. Número de documentos recuperados en la base de datos Web of Science por cada tipo documental ............................................................................................................... 26 Tabla 4. Número de trabajos mexicanos publicados en fuentes indexadas en el WoS, durante el período 2005-2015 .......................................................................................... 41 Tabla 5. Correlación de los indicadores estudiados para una muestra de las 39 revistas mexicanas cubiertas por SCOPUS y WoS ....................................................................... 45 Tabla 6. Top-ten 2015 de revistas mexicanas en correspondencia con Impact Factor, Source Normalized Impact per Paper, Eigenfactor Score and SCImago Journal Rank .... 47 Tabla 7. Evolución de la producción científica mexicana en el Web of Science y Scopus, durante 2005-2015. ......................................................................................................... 54 Tabla 8. Evolución del número de artículos mexicanos en el Web of Science y Scopus, durante 2005-2015. ......................................................................................................... 57 Tabla 9. Rank de países según ESI durante el período 2005-2015. ................................ 79 Tabla 10. Correlación de los indicadores estudiados para una muestra de 100 países ... 82 Glosario de abreviaturas de países Países Siglas Países Siglas ALGERIA DZA LEBANON LBN ARGENTINA ARG LITHUANIA LTU ARMENIA ARM LUXEMBOURG LUX AUSTRALIA AUS MALAWI MWI AUSTRIA AUT MALAYSIA MYS BANGLADESH BGD MEXICO MEX BELARUS BLR MOROCCO MAR BELGIUM BEL NEPAL NPL BOLIVIA BOL NETHERLANDSNLD BRAZIL BRA NEW ZEALAND NZL BULGARIA BGR NIGERIA NGA BURKINA FASO BFA NORTHERN IRELAND NIR CAMEROON CMR NORWAY NOR CANADA CAN OMAN OMN CHILE CHL PAKISTAN PAK CHINA MAINLAND CHN PANAMA PAN COLOMBIA COL PERU PER COSTA RICA CRI PHILIPPINES PHL CROATIA HRV POLAND POL CUBA CUB PORTUGAL PRT CYPRUS CYP QATAR QAT CZECH REPUBLIC CZE REPUBLIC OF GEORGIA GEO DENMARK DNK ROMANIA ROU ECUADOR ECU RUSSIA RUS EGYPT EGY SAUDI ARABIA SAU ENGLAND UK SCOTLAND ESC ESTONIA EST SENEGAL SEN ETHIOPIA ETH SERBIA SRB FINLAND FIN SINGAPORE SGP FRANCE FRA SLOVAKIA SVK GAMBIA GMB SLOVENIA SVN GERMANY (FED REP GER) DEU SOUTH AFRICA ZAF GHANA GHA SOUTH KOREA PRK GREECE GRC SPAIN ESP HONG KONG HKG SRI LANKA LKA HUNGARY HUN SWEDEN SWE ICELAND ISL SWITZERLAND CHE INDIA IND TAIWAN TW INDONESIA IDN TANZANIA TZA IRAN IRN THAILAND THA IRELAND IRL TUNISIA TUN ISRAEL ISR TURKEY TUR ITALY ITA UGANDA UGA JAPAN JPN UKRAINE UKR JORDAN JOR UNITED ARAB EMIRATES ARE KENYA KEN URUGUAY URY KUWAIT KWT USA USA LATVIA LVA VENEZUELA VEN VIETNAM VNM WALES WAL ZAMBIA ZMB ZIMBABWE ZWE Glosario de abreviaturas de revistas mexicanas Título Abreviatura Acta Botánica Mexicana Act Bot Mex Agrociencia Agrociencia Annals of Hepatology Ann Hepatol Atmosfera Atmosfera Boletín de la Sociedad Geológica Mexicana B Soc Geol Mex Botanical Sciences Bot Sci Ciencias Marinas Cienc Marinas Cirugía y Cirujanos Cir Cir Convergencia Convergencia Economía Mexicana, Nueva Época Econ Mex N E Gaceta Medica de México Gac Med Mex Geofísica International Geofis Int Gestión y Política Publica Gest Polit Pub Hidrobiológica Hidrobiologica Investigación Bibliotecológica Invest Bibliotecol Investigación Económica Invest Econ Journal of the Mexican Chemical Society J Mex Chem Soc Latin American Economic Review Lat Am Econ Rev Madera Bosques Madera Bosques Papeles de Población Papeles de Poblacion Perfiles Latinoamericanos Perf Lat Política y Gobierno Polit y Gob Revista Chapingo, Serie Ciencias Forestales y del Ambiente Rev Chap Cienc Forest Amb Revista de Investigación Clínica Rev Invest Clin Revista Fitotecnia Mexicana Rev Fitot Mex Revista Internacional de Contaminación Ambiental Rev Int Cont Amb Revista Latinoamericana de Investigación en Matemática Educativa Rev Lat Invest Mat Ed Revista Mexicana de Astronomía y Astrofísica Rev Mex Astron Astrof Revista Mexicana de Biodiversidad Rev Mex Biodiv Revista Mexicana de Ciencias Geológicas Rev Mex Cienc Geol Revista Mexicana De Ciencias Pecuarias Rev Mex Cienc Pec Revista Mexicana de Física Rev Mex Fis Revista Mexicana de Ingeniera Química Rev Mex Ing Quim Revista Mexicana de Psicología Rev Mex Psicol Salud Mental Salud Mental Salud Publica de México Salud Pub Mex Tecnología y Ciencias del Agua Tecnol Cienc Agua Trimestre Económico Trimest Econ Veterinaria México Vet Mex Glosario de abreviaturas de Indicadores %Citdoc Proporción de documentos citados ANdoc Scopus Número anual de documentos en Scopus ANdoc WoS Número anual de documentos en Wos ANp Scopus Número anual de artículos en Scopus ANp WoS Número anual de artículos en WoS Cita/Ndocxtem Relación eficiencia-eficacia citas/doc Relación de citas por documento Citdoc Total de documentos citados EFS Eigenfactor HCP Highly cited papers HCPxhab Número de highly cited papers por cada 100,000 habitantes HCPxWoS Número de highly cited papers por cada 1,000 documentos en WoS HOT Hot papers HOTxhab Número de hot papers por cada 100,000 habitantes HOTxWoS Número de top papers por cada 1,000 documentos en WoS IF Factor de Impacto NI Impacto Normalizado NSP Índice de productividad nacional (National Scientific Productivity) RI Impacto relativo SDI Índice de desarrollo científico (Scientific Development Index) SJR SCImago Journal Rank SNIP Source normalized impact per paperz TOP Top paper TOPxwoS Número de hot paper por cada 1,000 documentos en WoS Introducción I Introducción 1. Exposición de motivos, justificación y objetivos de la investigación El siglo XXI, marca un antes y un después para los sistemas de la ciencia, es decir, se evidencia la necesidad e importancia de incorporar programas donde la aplicación de herramientas bibliométricas y la minería de datos, analicen de manera consecuente el dinamismo de las funciones y salidas, en cada uno de sus campos de conocimiento. El análisis de la producción científica de un país tiene gran importancia porque constituye un instrumento para monitorear y desarrollar las actividades de Ciencia y Tecnología, con el objetivo de incrementar la visibilidad internacional de las instituciones, y la calidad de los profesores e investigadores. El avance de las nuevas tecnologías de la información en esta era de constantes cambios tecnológicos, ha propiciado que, la Ciencia de la Información evolucione sus prácticas y modelos en el almacenamiento, tratamiento, gestión y representación de la información. En este contexto, se comienza a fomentar la creación de grandes bases de datos capaces de almacenar e indexar todo el conocimiento científico que genera la humanidad. Por su parte, el auge de Internet, en el último decenio del pasado siglo y lo que va del presente, incrementó la existencia de bases de datos que almacenan grandes volúmenes de información científica en formato digital. Diferentes países e instituciones a nivel mundial se han dado a la tarea de crear recursos para analizar este gran volumen de datos científicos; a través de técnicas de inteligencia computacional (Inteligencia artificial) y modelos bibliométricos. Un ejemplo de ello es la fundación en 1957 por Eugene Garfield del Institute for Scientific Information (ISI) con los índices de citas (Cawkell & Garfield, 2001; Reuters, 2016), actualmente el Web of Science(WoS) pertenece al consorcio norteamericano Thomson Reuters, desde el año 2008, se considera como una de las plataformas más versátil y completa sobre la literatura académica con amplia cobertura temática y un gran número de indicadores bibliométricos que permiten realizar estudios métricos de la ciencia. Introducción II La humanidad no solo almacena información de carácter científico, sino que también concentra datos relativos a casi todos los asuntos del quehacer humano. En este contexto hoy día, las naciones se enfrentan a un importante desafío, y es poder transformar todo ese capital de conocimiento que se encuentra accesible y concentrado de manera remota, en información útil para la toma de decisiones. De esta manera, emergen disciplinas para solucionar este desafío como, el descubrimiento de conocimiento en bases de datos o Knowledge Discovery in Databases (KDD), encargada de descubrir el conocimiento oculto en estas fuentes y la minería de datos se ocupa de extraer el valor de la información implícita, en las bases de datos y al mismo tiempo visualizar nuevo conocimiento. Esta tesis constituye una investigación bibliométrica, con un enfoque de minería de datos, sobre la producción científica de México, en el Web of Science durante el período comprendido entre el año 2005 y 2015, la cual abarca tanto un análisis de la producción y el impacto de artículos producidos, como la evaluación de las principales revistas de acuerdo a indicadores de última generación. Se considera para el estudio la producción de artículos científicos contenidos en la colección principal del WoS através de los indicadores que ofrece el Essential Science Indicator (ESI) y para la evaluación de las revistas se consideran dos indicadores del Journal Metrics de Elsevier y dos de Thomson. Se utilizaron indicadores independientes del tamaño para analizar la evolución de la producción científica mexicana y comparar de manera justa la producción de México con otros países. Se utilizaron técnicas de inteligencia computacional basadas en redes neuronales para llevar a cabo el análisis exploratorio de la información contenida en Web of Science. Para esto se usó el software LabSOM, que implementa tecnología neurocomputacional basada en la familia de algoritmos Self Organizing Maps (SOM), la cual es útil para el análisis de datos digitales y la generación automática de representaciones visuales en forma de mapas. El desarrollo de la investigación consideró el período 2005-2015 y estuvo guiado por las siguientes preguntas: Introducción III 1. ¿Cómo evoluciona comparativamente la producción científica mexicana en el Web of Science y Scopus? 2. ¿Cómo se posicionan las revistas mexicanas, si se evalúan de acuerdo a diferentes indicadores propuestos por la comunidad científica? ¿Qué justificaría posibles diferencias en las evaluaciones? 3. ¿Cuál es el perfil bibliométrico de la producción científica de México, tomando en cuenta indicadores de productividad, impacto y excelencia y cómo se compara con el perfil de otros países con similar índice de desarrollo científico? 4. ¿Qué utilidad pueden tener las tecnologías basadas en inteligencia computacional para el análisis y la visualización del conocimiento que resulte de las respuestas a las preguntas anteriores? Objetivo General Analizar desde una perspectiva bibliométrica y utilizando técnicas de inteligencia computacional: 1. La producción científica mexicana durante 2005-2015 en el Core Collection del Web of Science; 2. Usar indicadores de última generación (Scimago Journal Rank, Impact Factor, Eigenfactor Score y Source Normalized Impact per Paper) para identificar el núcleo principal de revistas mexicanas con mayor visibilidad en Web of Science y Scopus y analizar el efecto diferencial que produce la evaluación de estas revistas en términos de estos indicadores. Objetivos Específicos Considerar el período 2005-2015 para: 1. Analizar la forma en que ha evolucionado el conjunto de revistas científicas mexicanas incluidas en el Journal Citation Reports de WoS y el Journal Metrics de Scopus. 2. Identificar y representar el núcleo de revistas mexicanas con mayor influencia internacional en el Web of Science y SCOPUS, considerando cuatro indicadores Introducción IV que miden el impacto de las citas (Scimago Journal Rank, Impact Factor, Eigenfactor Score y Source Normalized Impact per Paper). Utilizar la tecnología neurocomputacional del sistema de software ViBlioSOM para analizar las diferencias que resultan al evaluar este núcleo de revistas en términos de estos cuatro indicadores. 3. Analizar la evolución de la producción científica mexicana en la colección principal del Web of Science (WoS) y compararla con la evolución de la producción científica en la base de datos de Scopus. 4. Analizar comparativamente la evolución de la producción científica mexicana en el WoS y Scopus, con el desarrollo número de investigadores en el Sistema Nacional de Investigadores. 5. Comparar la producción científica mexicana en la colección principal del WoS con la producción científica de países de América Latina y otros países, con similar volumen de producción a México. 6. Analizar la producción e impacto de México en WoS, en los principales campos de conocimiento de acuerdo a la clasificación del Essential Science Indicator del WoS. 7. Analizar el Impacto Normalizado, indicadores de producción y de impacto independientes de tamaño para evaluar comparativamente el grado de desarrollo de México y otros países con similar índice de desarrollo científico. 8. Utilizar la tecnología neurocomputacional de ViBlioSOM para caracterizar los perfiles de producción, impacto y excelencia de México y otros países con similar grado de desarrollo científico. Elaborar mapas de conocimiento en los que se puedan representar los grupos de países que tienen perfiles bibliométricos similares. Introducción V 2. Antecedentes En la revisión bibliográfica identificamos estudios que emplean herramientas bibliométricas para determinar la evolución de dominios de conocimiento en la ciencia mexicana (Bravo Vinaja, 2005; Castillo-Pérez & Muñoz-Valera, 2014; Chinchilla-Rodriguez, 2004; Hernández, Dray, & Russell, 2013; Perez-Santos & Anaya-Ruiz, 2013). También se encuentran trabajos que estudian la región latinoamericana e incluyen el estudio del comportamiento de la producción científica mexicana (Chinchilla-Rodriguez, Zacca-Gonzalez, Vargas-Quesada, & Moya- Anegon, 2015; Macias-Chapula, 2005; Michan, Russell, Pereyra, Cruset, & Beltran, 2008; Romero, Garcia, & Kiwi, 2009). Aparecen los estudios que realiza el Foro Consultivo Científico y Tecnológico sobre la producción científica mexicana por cada entidad federativa, considerando además indicadores socioeconómicos (Laclette & Zúñiga-Bello, 2012). Este reporte tuvo en consideración los siguientes indicadores: producción total (suma de documentos publicados en cada institución), número de citas que recibieron las publicaciones de cada una de las instituciones, citas por publicación, porcentaje de documentos que recibieron citas, porcentaje de publicaciones en colaboración internacional, porcentaje de publicaciones que aparecieron en revistas de alto impacto y se empleó como fuente de información la base de datos SCOPUS. Otro antecedente en el tiempo lo constituye el estudio realizado por Kostoff y colaboradores (Kostoff, et al., 2005), el cual tuvo como objetivo principal identificar la estructura de la literatura científica mexicana en la temática Física del estado Sólido en el Science Citation Index para el año 2002. Después de una revisión bibliográfica, diversas son las investigaciones que han empleado técnicas bibliométricas para estudiar la producción científica mexicana, pero la investigación que se propone aporta nuevos indicadores y complementa a los anteriores debido a que emplea técnicas de inteligencia computacional, basada en el algoritmo de mapas auto-organizados (Self-Organizing Maps (SOM), con el objetivo de representar el perfil bibliométrico de la producción científica mexicana con mayor visibilidad e influencia internacional en las bases de Introducción VI datos del Web of Science y comprar el desempeño de las revistas mexicanas por medio de indicadores de última generación, basados en las citas. Esta tesis se estructura en cinco capítulos. La primera sección expone elementos introductorios de la investigación: motivos, justificación, objetivos y antecedentes del estudio. El capítulo I aborda aspectos conceptuales sobre los indicadores para describir la ciencia, el descubrimiento de conocimiento en bases de datos, la minería de datos y visualización de información bibliométrica. El capítulo II expone la metodología empleada para el estudio, así como, las fuentes de información, los indicadores y las herramientas bibliométricas empleadas. El capítulo III presenta los resultados obtenidos en la investigación divido en tres secciones. La primera sección expone un análisis bibliométrico de las principales revistas científicas mexicanas. El análisis de la producción científica mexicana en el Web of Science durante el período 2005-2015 se presenta en la sección dos del capítulo III. La siguiente sección presenta un análisis multifactorial del perfil bibliométrico de México y un grupo de países, con similar índice de desarrollo científico. El análisis multifactorialutiliza la técnica de mapas auto-organizados y toma en cuenta cuatro indicadores: uno de impacto, otro de producción y dos de excelencia. Por último, se ofrecen las consideraciones finales de la investigación. Capítulo I: Marco teórico 1 Capítulo I: Marco teórico 1. Elementos de análisis de la producción académica 1.1. Indicadores de producción e indicadores basados en citas Los indicadores bibliométricos constituyen una de las herramientas más utilizadas para la medición del producto de la investigación científica, porque la documentación (independientemente del tipo de soporte) es el vehículo más prolífico y exitoso para la transferencia del conocimiento científico, conjuntamente con su transferencia oral por medio de conferencias y comunicaciones personales (Russell, 2002). En correspondencia con el entorno informacional en el cual se desenvuelve la ciencia actualmente, es necesario conocer nuevos patrones y comportamientos para analizar el contexto científico, por tal razón una de las nuevas tendencias en el campo de las metrías de la información es: el auge de los estudios a partir del cálculo de indicadores producción e indicadores basados en las citas. Estos últimos, se emplean como un criterio más en el análisis de artículos y publicaciones científicas porque a partir del reconocimiento que recibe una fuente de otra, permite reconocer estudios, conceptos, teorías, metodologías y herramientas científicas que inspiraron al investigador a desarrollar nuevas investigaciones o conocimiento; de esta forma se identifican nuevos patrones e influencias en la investigación científica. El desarrollo de las bases de datos en los años 60 del siglo XX, trajo consigo la creación de una serie de indicadores utilizados en el estudio de la producción o volumen de investigación, así como, la medición del desempeño de las revistas, instituciones, países y grupos de investigación en colaboración a través de indicadores basados en las citas, tradicionalmente extraídos de las bases de datos de citas como Science Citation Index (SCI), Social Science Citation Index (SSCI) y Journal Citation Reports (JCR); y en la actualidad, las bases de datos: Scopus, Web of Science, Google Scholar, Microsoft Academic Search y CiteSeerX se utilizan con frecuencia para investigar el crecimiento y comportamiento científico. Los resultados de la ciencia (output), se analizan a través de la cuantificación de la producción científica que genera un país, institución o investigador (Abramo, D'Angelo, & Rosati, 2013; Andras, 2011; Arencibia Jorge & Moya-Anegon, 2008; Capítulo I: Marco teórico 2 Barker, 2007; Melkers, 1993). Para lograr obtener una visión multidimensional de la ciencia se considera necesario la combinación de los indicadores existentes y la revisión por pares (peer review). De manera general, cuando se persiga analizar aspectos de carácter cualitativo, se impone recurrir a las opiniones de expertos mientras que para determinar aquellos aspectos de corte cuantitativo o si se pretende estudiar y comparar el comportamiento de investigadores, instituciones o países, el uso de indicadores bibliométricos se hace necesario (Piedras, 2009). El peer review se reconoce como el sistema de evaluación de la actividad científica con mayor tradición. Este método se basa en “el conocimiento y experiencia acumulados por determinados especialistas en su campo de investigación, lo que los convierte en poseedores de criterios sólidos y de carácter casi único para poder valorar adecuadamente las características, tendencias y resultados de la actividad de investigación en dicho campo” (Suarez Balseiro & Maura Sardó, 2005). Los indicadores de producción tienen una función descriptiva, en la cual estos están encaminados a producir información sobre el estado del volumen del sistema científico objeto de estudio, por ejemplo, cuántos artículos publican los investigadores, número artículos por centros de investigación. Específicamente en la presente investigación se determinó incluir los siguientes indicadores de producción: total de artículos publicados por (Ndoc): años, áreas de investigación, países, revistas; y porcentaje del total de artículos publicados (%Ndoc) por: años, áreas de investigación, países, revistas; los cuales miden el volumen de la producción científica mexicana durante el período de estudio. Los índices de citas ofrecen una visión valorativa de la influencia científica, ofrecen una óptica de la calidad de la investigación diferente al juicio de expertos porque toma en consideración el impacto y repercusión que ha tenido la investigación dentro de la comunidad, esto no significa, que no exista correlación entre las observaciones que derivan de ambos métodos( peer review e índices de citas) (Arencibia Jorge, 2010). Las tres bases de datos más importantes disponibles hoy en día, para la realización de análisis de citas son: WoS, Scopus y Google Académico, las cuales Capítulo I: Marco teórico 3 calculan sus propios índices basados en las citas (Tabla 1). Existen otras bases de datos disponibles, pero cubren un número limitado de campos científicos. Por otra parte, algunas de estas bases de datos no contienen los datos sobre las referencias de las publicaciones, por tanto, no se pueden utilizar para calcular los indicadores basados en las citas. Tabla 1. Indicadores basados en citas con mayor uso derivados de Bases de datos como Web of Science y Scopus La ciencia, a pesar de sus múltiples aristas, es sensible de ser estudiada bajo tres aspectos fundamentales: productividad, impacto y excelencia científica, por ello en la actualidad la mayoría de las metodologías de indicadores bibliométricos o cienciométricos miden la ciencia en sus múltiples ángulos, y toman en cuenta indicadores de productividad, impacto, visibilidad, y excelencia (Arencibia Jorge, 2010; Callon & Courtial, 1995; González de Dios, Moya, & Mateos Hernández, 1997; Licea de Arenas, 1993; Rodríguez Sánchez, 2012; Sancho, 1990; Schneider, 2006). Los indicadores basados en las citas ofrecen diferentes interpretaciones: como una medida del impacto científico de la investigación (J. R. Cole, 2000; Van Raan, 2004); de prestigio académico para otorgar premios y honores; también reflejan la calidad, relevancia e impacto de un documento en la obra de otro, para Algunos Indicadores basados en las citas calculados por bases de datos Conteo de citas J Journal Impact Factor Índice de Inmediatez Índice H Vida media de las citas Vida media citante Autocitas Citas/No. de papers no citados Article Influence® score SJR Rank Eigenfactor® score Citas por documento Capítulo I: Marco teórico 4 de esta forma demostrar que, las citas se realizan a los aportes científicos (Lutz Bornmann & Hans-Dieter, 2008). Mencionar además como, este tipo de indicador se aplica en los análisis de contexto y contenido para, derivar diferentes interpretaciones y significados del comportamiento de las citas en un artículo y por consiguiente medir el impacto científico. Los análisis de contexto, tienen el objetivo de ilustrar la relación entre el documento y las citas, para ello se genera un esquema de clasificación o taxonomía sobre la funcionalidad de las citas; se determina el contexto en el cual fue creada la cita (Cronin, 1984). Por su parte, el análisis de contenido de las citas describe el contenido semántico del documento citado con el fin de caracterizar las obras citadas (Lutz Bornmann & Hans-Dieter, 2008). 1.2. La eficiencia científica medida a través de indicadores de productividad Los términos de eficiencia y efectividad provienen de las ciencias económicas, pero hoy día se aplican a todos los ámbitos, incluyendo el sector científico. En el caso de la ciencia, la productividad se interpreta como eficiencia y el rendimiento del sistemacomo efectividad, términos que se emplean en los estudios métricos del grupo de cienciómetras liderado por el Dr. Humberto Carrillo en el Laboratorio de Dinámica no lineal, de la Facultad de Ciencias de la Universidad Nacional Autónoma de México (Villaseñor-García, Arencibia Jorge, & Carrillo- Calvet, 2016). No necesariamente una alta producción se encuentra relacionada con el rendimiento o efectividad (Abramo & DAngelo, 2016b). La interpretación económica de la ciencia se basa en la productividad de la investigación (eficiencia) y en el rendimiento (efectividad) a través del cálculo de indicadores que tomen en cuenta las medidas de inversión en la investigación (Lutz Bornmann & Haunschild, 2016). Los metristas emplean diferentes indicadores para medir la eficiencia de la investigación, pero deben ser muy cuidadosos en los índices que calculan para realizar estudios evaluativos u obtener ranking (clasificación de mayor a menor), que se utilizan posteriormente en la toma de decisiones. En este sentido, es necesario prestar atención a los indicadores que incluyen medidas de input (gastos Capítulo I: Marco teórico 5 en investigación, número de investigadores activos, gastos en investigación) en relación con la productividad; otro aspecto es que los estudios a nivel macro, meso o micro no deben considerar los indicadores dependientes del tamaño (número de citas, número de Highly Cited papers) solamente, sino que estos deben ser combinados con otros indicadores para obtener indicadores de tamaño independiente (Glanzel, Thijs, & Debackere, 2016), también los gobiernos e instituciones de investigación deben ofrecer los datos necesarios para calcular este tipo de indicadores, es decir, nombre y afiliación de los científicos, de investigación, rango académico, recursos asignados. Por último, con el objetivo de evitar distorsiones es necesario clasificar el objeto de estudio (artículo, revista, institución, país) por campo de investigación, a lo que se denomina normalización, proceso que se realiza debido a los diferentes patrones de citación que existe a través de las áreas de la ciencia, (Abramo, D'Angelo, & Di Costa, 2008), la normalización de las citas por campos de investigación permite analizar, comparar y evaluar diferentes artículos, revistas, instituciones, y países de acuerdo a su eficiencia y rendimiento de forma justa. 1.3. Consideraciones sobre los indicadores de excelencia Los artículos altamente citados (Highly Cited Paper o HCP) se consideran uno de los indicadores más empleados para estudiar la excelencia científica (Lutz Bornmann, Leydesdorff, Walch-Solimena, & Ettl, 2011; Lutz Bornmann, Stefaner, de Moya Anegon, & Mutz, 2016), determinar rankings de centros o facultades con mayor desempeño (Bloch, Schneider, & Sinkjaer, 2016; Lutz Bornmann, Stefaner, de Moya Anegon, & Mutz, 2014; Waltman, et al., 2012), en el otorgamiento de premios (Rodriguez-Navarro, 2011) y para identificar áreas científicas con alta excelencia (Baudoin, Peltier, Graillot-Gak, & Haeffner-Cavaillon, 2004; Lutz Bornmann & Leydesdorff, 2016). Los HCP se pueden definir de diferentes maneras, en esta investigación se toma el concepto de la herramienta Essential Science Indicators producido por Thomson Reuters, se define como el número de artículos que recibieron un total de Capítulo I: Marco teórico 6 citas superior al 1% de citas cuando se compara con todos los artículos publicados en el mismo año y en la misma disciplina ("Web of Science," 2016). Los artículos altamente citados tienen una naturaleza compleja, la cual está determinada por las siguientes características, extensas coautorías de diferentes países con altos niveles de colaboración internacional, se publican en revistas con alto factor de impacto, suelen ser citados por científicos extranjeros, existe una mayor representación de los artículos de revisión como artículos que reciben un alto número de citas con respecto a otro tipo de artículos, y el porcentaje de autocitas es muy bajo para los artículos altamente citados (Dag W Aksnes, 2003; Miyairi & Chang, 2012; Tijssen, Visser, & van Leeuwen, 2001). El hecho que un artículo reciba alto número de citas y se considere como HCP, lleva implícito las decisiones de muchos investigadores para citar determinado artículo; en este sentido, la calidad y visibilidad juegan un papel fundamental en este proceso (Lutz Bornmann, 2014). La calidad está relacionada con la estructura del conocimiento científico (conocimiento núcleo y de frontera) (S. Cole, 2000); en la actualidad una gran parte de los artículos publicados tienen un corto período de importancia y no trascienden, es decir, un bajo número de trabajos se convierten en literatura núcleo para un campo de la ciencia, lo cual provoca que reciban un alto número de citas. Por su parte la visibilidad, es relevante porque generalmente los artículos altamente citados son concebidos por un promedio de 8 autores, factor que favorece la visibilidad de la investigación y por tanto obtener un mayor número de citas (Dag W Aksnes, 2003). Además, un artículo con un alto número de citas de otras contribuciones implica que un mayor número de especialistas consideró este trabajo; por tanto, aumenta la visibilidad. En general influyen diversos factores sociales para que un autor cite un documento en particular; y específicamente los científicos tienden a citar las contribuciones que son útiles para su propia investigación (Cronin, 1984). Además, gran parte de lo que se publica son estudios que no se consideran núcleo en un campo científico y existen diferencias en los hábitos de citación para cada área de investigación. Capítulo I: Marco teórico 7 Los trabajos altamente citados son concebidos por autores con altos niveles de citas, pioneros e influyentes en sus campos, además son productivos y pueden obtener una cantidad desproporcionada de los fondos de subvención; por tanto, sus trabajos en virtud de su visibilidad son un factor clave de efectos de la reputación en el mundo académico. Por otra parte, la investigación ofrece un enfoque de enlace o relación entre ciencia-práctica, la industria y la academia, estudios que tienen implicaciones prácticas de la vida real que pueden impactar a nivel individual y social (Dag W. Aksnes & Rip, 2009; Antonakis, Bastardoz, Liu, & Schriesheim, 2014). Importante entender lo que distingue a los artículos altamente citados de los menos conocidos, diferencia que se centra específicamente en la aplicación de los métodos académicos de la investigación, y la validez de las conclusiones del artículo. 2. Elementos de análisis del desempeño de las revistas académicas Las revistas científicas constituyen el canal de comunicación de los científicos e investigadores, se consideran como un criterio para evaluar el rendimiento de la investigación de un científico. En este contexto, un ranking de revistas constituye una herramienta importante para los investigadores en el momento de elegir la publicación adecuada para canalizar sus resultados de investigación, los bibliotecarios pueden planificar una mejor selección para incrementar las colecciones y los editores conocen el grado de calidad de su revista. Los rankings de revistas se concibieron con el objetivo de evaluar el impacto de las revistas en campos específicos, los más empleados en la actualidad son los basados en las estadísticas de citas, como el factor de impacto (IF) creado por Eugene Garfield desde 1963 y se reporta por el Journal Citation Reports de Thompson Reuters; los nuevos índices de Google Académico, Journal Metrics, y SCImago Journal Rank (SJR). Además, en la literatura se encuentran estudios que han realizado ranking de revistas en diferentes campos de la ciencia con el propósito de determinar, a través del cálculo de indicadores basados en las citas,la calidad de las revistas (Pajic, 2015; Parameswaran & Sebastian, 2006; Seiler & Wohlrabe, 2014; Serenko & Dohan, 2011; Vanclay, 2011). Capítulo I: Marco teórico 8 Clasificar las revistas científicas en un orden, constituye una herramienta importante para las instituciones académicas donde existen esquemas de evaluación y es un método para reducir la incertidumbre en el proceso de selección de la publicación y en la medición/evaluación de los resultados de la investigación (Pajic, 2015; Polonsky, 2004). Proporcionan cierta estabilidad para la realización de estudios evaluativos para un período de tiempo; siempre y cuando no influyan factores como el aumento desproporcional de autocitas y la aparición de hot papers (artículos calientes); es un comportamiento común en revistas de menor rango donde las pequeñas fluctuaciones en el número de citas pueden producir grandes cambios en el ranking. A medida que la calidad y el prestigio de las revistas aumenta, la variabilidad relativa del factor de impacto disminuye, y por lo tanto el ranking de revistas ofrece una tendencia a ser más fiable y estable para su nivel (Pajic, 2015). Otra de las ventajas de los rankings es como los académicos reciben altos salarios cuando publican en revistas de primer nivel, algunas universidades han desarrollado políticas para recompensar financieramente las facultades que tienen un mayor número de artículos en revistas núcleo. Las bibliotecas pueden utilizar esta clasificación para asignar recursos y establecer prioridades para la suscripción. Los editores pueden saber acerca de la posición relativa de su revista y de esta manera desarrollar campañas de marketing, atraer a los suscriptores y sugerir temas muy exclusivos y actuales (Serenko & Dohan, 2011). Existen varios enfoques posibles para obtener un ranking de revistas, el método cualitativo que se basa generalmente en las encuestas que registran las percepciones de los encuestados (Peffers & Tang, 2003). Por otro lado, el método cuantitativo que se fundamenta en el factor de impacto de la revista, que es una métrica para medir el impacto de las revistas en varias áreas temáticas; este tipo de análisis de citas se considera la metodología más objetiva para evaluar la calidad de la revista y obtener un ranking. Existen alternativas al factor de impacto que junto al criterio de expertos permiten validar la influencia de las revistas como; el Source Normalized Impact per Paper (SNIP), el SCImago Journal Ranking (SJR) y Eigenfactor (EFS); estos Capítulo I: Marco teórico 9 indicadores se consideran de importancia para construir ranking de revistas en bases de datos como Web of Science y Scopus (Falagas, Kouranos, Arencibia- Jorge, & Karageorgopoulos, 2008; Leydesdorff & Opthof, 2010; Henk F. Moed, 2011). 2.1. El Factor de Impacto de Garfield El factor de impacto (IF), mide la importancia de una publicación científica, es calculado anualmente por las publicaciones que se encuentran recogidas en el Journal Citation Reports del Web of Science, Thomson-Reuters. En la literatura se cuestiona el uso del IF como indicador que ofrece información sobre la calidad de las publicaciones. Además, como su período de cálculo base para citas es muy corto, no toma en cuenta que, los artículos clásicos son citados más frecuentemente que los originales, incluso décadas después de haber sido escritos. Finalmente, sus resultados no son comparables en distintas áreas de investigación (Garfield & Sher, 1963). 2.2. Eigenfactor del WoS Eigenfactor (EFS) tiene sus antecedentes como eigenvector centrality, indicador que se introdujo por el sociólogo Phillip Bonacich en 1972 como una forma de cuantificar el estado o la popularidad de un individuo dentro de una red de comunicación. El objetivo de Bonacich era utilizar la estructura de una red para identificar quiénes eran las personas importantes en la red (Bergstrom, West, & Wiseman, 2008). Luego Carl T. Bergstrom, experto en Biología de la Información y Métrica de la Información Científica en la Universidad de Washington diseñó en el año 2007 el indicador: eigenfactor. Identificar cuántos nos citan, quiénes y cómo lo hacen, es lo que valora el Eigenfactor; cuando este indicador es combinado con otros se obtiene un ranking de revistas científicas más confiables para validar la influencia de las publicaciones (Wesley-Smith, Bergstrom, & West, 2016); en la red de referencias que citan una revista. Además, evalúa la importancia y posición de cada revista en la red; no proporciona directamente el costo de las publicaciones, pero los bibliotecarios Capítulo I: Marco teórico 10 pueden determinar a través de este indicador el costo-efectividad de una colección de revistas. Cada área de la ciencia tiene diferentes comportamientos de las citas y las escalas para producir/recibir citas también difieren, en ese sentido, el uso de la red de citas, en el cual se basa el algoritmo del cálculo de Eigenfactor permite de forma automática identificar estas diferencias y comparar las diferentes áreas de investigación. Es un indicador que para su cálculo se toman las citas recibidas en un período de cinco años (Bergstrom, 2007; West, Bergstrom, & Bergstrom, 2010). 2.3. Source normalized impact per paper El indicador SNIP fue concebido por Henk Moed en el 2010, y los valores son reportados en la base de datos Scopus y en la herramienta Journal Metrics. SNIP calcula el impacto de las citas en las revistas científicas utilizando un enfoque normalizado de la fuente “source normalized approach”, con el objetivo de rectificar las diferentes prácticas de citas sin recurrir a un sistema de clasificación temática en el que se definen explícitamente los límites de los campos temáticos de las revistas. Source normalized approach realiza un conteo de las citas por cada campo de investigación basado en las características de las fuentes que originaron la cita (Waltman, van Eck, van Leeuwen, & Visser, 2013a). Este indicador mide el impacto de las citas de contexto en la revista conocido en inglés como: journal´s contextual citation impact. Para ello toma en consideración las características del grupo de artículos que citan una revista. En este enfoque, se calcula la frecuencia que un artículo de una revista cita (citing papers) otros artículos procedentes de otras revistas, a lo que se denomina journal´s subject field (Moed, 2010). En términos generales, el SNIP evalúa el impacto de las citas de contexto en la revista científica, escenario que está determinado por las referencias y además por el grado de cubrimiento que la base de datos ofrece para la revista. El SNIP es un indicador que ofrece potencialidades y debilidades (Waltman, et al., 2013b) para evaluar el desempeño de las revistas; pero todavía no existe un único indicador para Capítulo I: Marco teórico 11 validar las publicaciones científicas. El proceso de comunicación científica es un concepto multidimensional que no puede ser expresado en una sola medida. En términos generales, SNIP se convierte en un indicador con importantes ventajas sobre las tradiciones enfoques de normalización en los sistemas de clasificación de las revistas y los índices basados en las citas para validar el desempeño de las publicaciones (Moed, 2010; H. F. Moed, 2011; Schoepfel & Prost, 2009; Waltman, van Eck, van Leeuwen, & Visser, 2013b) debido a los siguientes puntos: Este indicador permite delimitar el conjunto de artículos que citan una revista sin depender de un sistema de clasificación por temática para las revistas, sino que se basa en las relaciones de las citas. El nuevo indicador corrige las diferencias en las referencias encontradas entre campos temáticos, específicamente la frecuencia con la que los autores citan otros documentos y la velocidad en la maduración del impactode las citas. Además, corrige las diferencias en la cobertura de la base de datos para diferentes campos de investigación. Ejemplo: un bajo porciento de referencias activas conduce a un menor valor del indicador, database citation potencials, que tiende a ofrecer valores más altos del SNIP en comparación con el raw impact per paper indicator. Variables que intervienen en el cálculo del SNIP y que se definen el capítulo siguiente. Permite corregir las diferencias en las categorías temáticas para las revistas multidisciplinares, como Nature o Science. 2.4. SCImago Journal Rank (SJR) SCImago Journal Rank (SJR) es un indicador creado por el grupo de investigación SCImago en el año 2009. SJR es un índice de tamaño independiente destinado a medir el prestigio promedio por artículo de una revista que está siendo evaluada. Este indicador tiene la función de representar el impacto científico de una revista, desde una perspectiva cuantitativa y cualitativa. La idea esencial que subyace en la aplicación de indicador en la evaluación de revistas científicas es la asignación de pesos a las citas bibliográficas en base a la importancia de las revistas que emitieron las citas. Las citas hechas por las Capítulo I: Marco teórico 12 revistas importantes se les asigna mayor peso que las emitidas por revistas menos importantes. Esta "importancia" se calcula de forma recursiva, es decir, las revistas importantes serán los que a su vez reciben muchas citas de otras revistas importantes. Este proceso se determina gracias a la aplicación del algoritmo de PageRank creado por Google en 1998. Por ello, este indicador se considera como un journal prestige indicator (González-Pereira, Guerrero-Bote, & Moya-Anegón, 2009). 3. Descubrimiento de conocimiento, minería y visualización de información en bases de datos bibliográficas 3.1. El descubrimiento de conocimiento en bases de datos (KDD) En la década de los años 80 del siglo pasado, aparecen tecnologías como las computadoras y los lenguajes de cuarta generación. Estos avances tecnológicos provocaron un cambio de pensamiento y acción; el usuario comprendió que los datos no solo se necesitaban para el procesamiento de transacciones online, también los datos facilitaban tomar decisiones a la alta dirección para mantener las instituciones en entornos muy competitivos. A partir de este momento, las bases de datos se utilizaron para el análisis de los datos almacenados y recuperar información. Con el transcurso del tiempo, el volumen de datos se incrementó y las herramientas para gestionar los datos no eran las adecuadas y surgió la necesidad de herramientas de análisis para grandes cantidades de datos. En la era moderna, la mayoría de la información está disponible a través de documentos en lenguaje natural no estructurados, esto se debe al crecimiento exponencial de la web, las bibliotecas digitales, la documentación en formato digital, etc. Sin embargo, este gran cúmulo de datos lleva intrínsecamente información estratégica, a la cual no es fácil de acceder a través de técnicas clásicas de recuperación de información. El descubrimiento de conocimiento en bases de datos o en inglés Knowledge Discovery in Databases (KDD) fue acuñado en el primer “workshop” de KDD en 1989 y se define como: el conjunto de acciones que se desarrollan para analizar las grandes cantidades de datos almacenadas por las organizaciones, con el fin de Capítulo I: Marco teórico 13 obtener información de interés para mejorar el funcionamiento y rendimiento de las mismas (U. M. Fayyad, Piatetsky-Shapiro, Smyth, & Uthurusamy, 1996). Bernstein, define KDD como el resultado de un proceso exploratorio que, implica la construcción de modelos a partir de los datos almacenados (Bernstein , Provost, & Hill, 2005). La extracción de información (IE) es un método con la precisión razonable capaz de transformar los datos no estructurados que están en una base de datos estructurada, en formas intermedias. Las formas intermedias más habituales son: bolsa de palabras, N-grams, palabras clave, multitérminos, conceptos de jerarquía, mapas conceptuales (Sirsat, Chavan, & Deshpande, 2014). Hoy en día, mucho más allá del reconocimiento de patrones, a este proceso se le ha dado una variedad de nombres, incluyendo: la minería de datos, extracción de conocimiento, el descubrimiento de información, recolección de información, extracción de información (U. Fayyad, G. Piatetsky-Shapiro, & P. Smyth, 1996), entre otras, pero en esta investigación se empleará el término: descubrimiento de conocimiento en bases de datos o en inglés Knowledge Discovery in Databases (KDD). El objetivo principal del KDD es la extracción del conocimiento que se encuentra dentro de grandes cantidades de datos en bruto, identificar los patrones más importantes y significativos, así como, representar los objetivos del usuario. El descubrimiento de conocimiento oculto, es posible gracias a la aplicación de sofisticadas técnicas como la inteligencia artificial, la minería de datos y la visualización de información, las cuales permiten encontrar patrones y relaciones dentro de los datos permitiendo la creación de modelos, y representaciones abstractas de la realidad. El valor real de los datos reside en la información que se puede extraer de ellos, información que ayude a tomar decisiones o mejorar la comprensión de los fenómenos que se presentan en la realidad. Hoy, más que nunca, los métodos analíticos avanzados son el arma secreta de muchos negocios exitosos. Empleando métodos analíticos avanzados para la explotación de datos, los negocios Capítulo I: Marco teórico 14 incrementan sus ganancias, maximizan la eficiencia operativa, reducen costos y mejoran la satisfacción del cliente (Gamarra, Guerrero, & Montero, 2016; Holzinger, Dehmer, & Jurisica, 2014; Witten & Frank, 2005). El reto no es la extracción de información significativa de los datos no estructurados sino hacer los datos útiles al usuario final. 3.2. La minería de datos como parte de la metodología de descubrimiento de conocimiento en bases de datos Desde el punto de vista académico, el término Minería de datos en inglés Data mining se considera como un proceso dentro de la metodología KDD (Usama Fayyad, Gregory Piatetsky-Shapiro, & Padhraic Smyth, 1996; Gullo, 2014; Holmes, 2013; Holzinger, et al., 2014; Senger, Leach, Ralph, & David, 2008; Wanderley, Tacla, Barthes, & Paraiso, 2015); pero en el ámbito empresarial ambos términos se emplean de manera indistinta. En este trabajo de investigación se emplea el término minería de datos como fase del proceso de KDD. En este sentido, la metodología KDD involucra varios algoritmos de minería de datos o data mining. Esta última se define por Fayyad como la etapa de descubrimiento del KDD que consistente en el uso de algoritmos concretos que generan una enumeración de patrones a partir de los datos pre-procesados (U. Fayyad & Stolorz, 1997). KDD es una metodología interactiva e iterativa que incluye varios pasos, una de las primeras propuestas fue planteada por Fayyad en 1996 (Figura 1) y en ella el proceso se divide en las siguientes fases: comprensión del problema, selección de la base de datos objetivo del proceso de descubrimiento, limpieza y preprocesado de dicha base de datos, reducción, elección del método que se va a usar para resolver el problema, elección del algoritmo, ejecución del algoritmo de Minería de datos elegido, interpretación de los patrones obtenidos y consolidación del conocimiento obtenido (Usama Fayyad, et al., 1996). Capítulo I: Marco teórico 15 Figura 1. Fases de la metodología para el descubrimiento de conocimiento en bases de datos (KDD) (Fayyad, et al., 1996) KDD cuenta de los siguientes pasos según el criterio de varios autores desde los que definieron estaherramienta hasta alguna de las más recientes propuestas (Liao, Chu, & Hsiao, 2012): Determinar las fuentes de información que pueden ser útiles y dónde conseguirlas. Diseñar el esquema del almacén de datos (Data Warehouse) para unificar toda la información recuperada. Implantación del almacén de datos para facilitar la navegación y visualización previa de sus datos, y determinar los elementos que pueden ser estudiados. Selección, limpieza y transformación de los datos que se van a analizar. La selección incluye tanto una criba o fusión horizontal (filas) como vertical (atributos). La limpieza y pre-procesamiento de datos implica el trazado de una estrategia para eliminar los ruidos, textos incompletos, en fin, toda la información que no es necesaria. Minería de datos: incluye la selección de la tarea de descubrimiento a realizar, por ejemplo, clasificación, agrupamiento o clustering, regresión, etc. El proceso de minería de datos, busca patrones que puedan expresarse como modelo. Estimación, interpretación, transformación y representación de los patrones extraídos. Capítulo I: Marco teórico 16 Difusión y utilidad del nuevo conocimiento para añadir el conocimiento descubierto al sistema con el propósito de resolver conflictos potenciales con el conocimiento existente, trazar acciones y tomar decisiones. La Minería de datos es la fase de mayor importancia y tiene como tareas determinar el patrón de descubrimiento, la agrupación, clasificación, y resumen (Fu, 2011), específicamente, se ocupa de la extracción de patrones interesantes por la elección de un método de extracción de datos o tareas específicas (por ejemplo, el resumen, la clasificación, agrupación, la regresión, y así sucesivamente), luego los algoritmos adecuados para llevar a cabo la tarea a la mano, y por último una representación adecuada de los resultados de salida; por ello se considera la fase de mayor importancia en el proceso de KDD (Kurgan & Musilek, 2006). 3.3. Técnicas de la minería de datos El volumen de datos almacenados y disponibles de forma remota en las bases de datos, ha generado la necesidad de explotar estos datos y transformarlos en información, es decir, los datos constituyen el ingrediente o materia prima de la minería de datos, la cual ha estado bajo desarrollo por décadas, y se ha nutrido de otras áreas de investigación como las estadísticas, inteligencia artificial y el aprendizaje de máquinas. Hoy, la madurez de las técnicas y método de la minería de datos, junto con los motores de las bases de datos relacionales de alto desempeño, hicieron que de la minería de datos sea una práctica común para los entornos de data warehouse (almacén de datos). En el núcleo del proceso de minería de datos se destaca la aplicación de diferentes métodos, que permiten el descubrimiento de patrones de distintos tipos, entre los que se pueden destacar, por mencionar algunos, clasificación, caracterización, asociación, “clustering” y discriminación, los cuales han sido conceptualizados por diferentes autores (Han & Kamber, 2000; Kishida, 2003; Kuncheva, 2004; Kurgan & Musilek, 2006; Leskovec, Kleinberg, & Faloutsos, 2007; Liao, et al., 2012; Pyle, 1999). Una de las primeras y más completas conceptualizaciones de las técnicas de minería de datos lo presentó Fayyad en su artículo (U. Fayyad & Stolorz, 1997), Capítulo I: Marco teórico 17 además, la fase se compone de varias técnicas las cuales se mencionan a continuación: Predictive modeling (modelo predictivo), Clustering (agrupación), Data summarization (resumen de datos), Dependency modeling, Change and deviation detection (detección de cambio y desviación). Siti Khadijah, en la novena Conferencia Internacional sobre Ciencia Cognitiva (9th International Conference on Cognitive Science), planteó que, una de las técnicas de minería de datos más usada es: Clustering o agrupamiento, seguido de la Clasificación, Sequential pattern o patrón secuencial, Predicción, y Reglas de asociación (PhridviRaj & GuruRao, 2014; Shu-Hsien, Pei-Hui, & Pei-Yuan, 2012); en este sentido, la presente investigación empleará la técnica de Clustering, para representar la información. Clustering es la técnica la cual toma un conjunto de entidades representadas por registros de una base de datos, la divide en grupos o clusters de manera tal que los elementos dentro de cada grupo sean similares. El objetivo del clustering es reducir la cantidad de datos mediante la caracterización o agrupamiento de datos con características similares. Esta agrupación es acorde con los procesos humanos de información y una de las motivaciones para usar algoritmos clustering es proveer herramientas automáticas que ayuden a la construcción de taxonomías. Los métodos pueden también ser usados para minimizar los efectos de los factores humanos que afectan el proceso de clasificación (Kishida, 2003; Kostoff, et al., 2007; Tseng & Tsay, 2013; Villaseñor García, 2016). 3.4. Visualización de información La teoría de la visualización se inició hace más de 2400 años. El filósofo Platón comprendió que percibimos los objetos a través de los sentidos con el uso de la mente. Por lo cual, nuestra percepción del mundo real es una traducción de la energía física de nuestro entorno en señales neuronales codificados. La mente interpreta continuamente y categóricamente nuestra percepción del entorno que nos rodea. Ejemplo de ellos es: el uso de una computadora como fuente de entrada para las funciones de procesamiento de la mente, las interfaces de texto no sólo reducen la complejidad de la interfaz, y sino Capítulo I: Marco teórico 18 también filtran el uso de las más potentes funciones de procesamiento de información en la mente humana. La capacidad de visualizar las implicaciones de los datos, es tan antigua como la humanidad misma. Los orígenes de la visualización de la información, se identifican por la búsqueda del insight a partir de la entropía que existe en un gran volumen de datos, a partir de dos perspectivas: estructura y cambio. Sus antecedentes se localizan en la historia del desarrollo del conocimiento y del lenguaje visual, estrechamente fusionado a la influencia de los progresivos avances tecnológicos y científicos, con dos propósitos esenciales: descubrir y explicar (C. Chen, 2006). El término Visualización de la Información se manejó por primera vez en 1989; en esta etapa el término refiere a una propuesta de arquitectura cognitiva para interfaces de usuario interactivas. Luego, el estudio de las representaciones figuras de la información desde distintas disciplinas, y bajo la influencia de los paradigmas cognitivo y tecnológico, la Human Computer Interaction (HCI), la fortaleció como área de conocimiento distintiva de investigación, en función de poder desarrollar sus aplicaciones de forma satisfactoria en el manejo y representación gráfica de la información. Entonces se consolida como un área de investigación, con bases interdisciplinares, y enfocadas en la representación visual de un gran volumen de información, en el uso de técnicas gráficas interactivas para comprender y analizar los datos de forma intuitiva, detectando y explorando sus relaciones y patrones de comportamiento (Card, MacKinlay, & Shneiderman, 1999). La Visualización de Información surge de la informática (los gráficos computacionales y la interacción persona - computadora), la psicología (los procesos cognitivos y de la psicología de la percepción), de la semiótica (significado de los símbolos), diseño gráfico (para artefactos bien adaptados a su propósito), de la cartografía (para crear las representaciones visuales que son abstracciones cuidadosamente elegidas del mundo), y del arte (que han refinado los métodos para transportar el significado visual), y actualmente cuenta con su propia agenda de
Compartir