Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Bolet́ın de Estad́ıstica e Investigación Operativa BEIO 2022, Vol. 38, No. 3 Sociedad de Estad́ıstica e Investigación Operativa Copyright © 2022 SEIO Ninguna parte de la revista puede ser reproducida, almacenada o trasmitida en cualquier forma o por medios, electrónico, mecánico o cualquier otro sin el permiso previo de la SEIO. Los art́ıculos publicados representan las opiniones del autor y la revista BEIO no tiene por qué estar necesariamente de acuerdo con las opiniones expresadas en los art́ıculos publicados. El hecho de enviar un art́ıculo para la publicación en BEIO implica la transferencia del copyright de éste a la SEIO. Por tanto, el autor(es) firmará(n) la aceptación de las condiciones del copyright una vez que el art́ıculo sea aceptado para su publicación en la revista. Edita SEIO: Facultad de CC. Matemáticas Universidad Complutense de Madrid Plaza de Ciencias 3, 28040 Madrid ISSN: 2387-1725 BEIO (Bolet́ın de Estad́ıstica e Investigación Operativa) es una revista que publica cuatrimestralmente art́ıculos de divulgación cient́ıfica de Estad́ıstica y de Investigación Operativa. Los art́ıculos pretenden abordar tópicos relevantes para una gran mayoŕıa de profesionales de la Estad́ıstica y de la Investigación Operativa, primando la intención divulgativa sin olvidar el rigor cient́ıfico en el tratamiento de la materia en cuestión. Las secciones que incluye la revista son: Estad́ıstica, Investigación Operativa, Estad́ıstica Oficial, Historia y Enseñanza y Opiniones sobre la Profesión. BEIO nació en 1985 como Bolet́ın Informativo de la SEIO (Sociedad de Estad́ıstica e Investigación Operativa). A lo largo de los años ha experimentado una continua evolución. En 1994, aparece publicado el primer art́ıculo cient́ıfico y desde entonces el número de art́ıculos cient́ıficos publicados ha ido creciendo hasta que en 2008 se segregan del Bolet́ın los contenidos relacionados con la parte informativa y comienza a perfilarse como revista de divulgación de la Estad́ıstica y de la Investigación Operativa. Los art́ıculos publicados en BEIO están indexados en Scopus, MathScinet, Biblioteca Digital Española de Matemáticas, Dialnet (Documat), Current Index to Statistics, The Electronic Library of Mathematics (ELibM), COMPLUDOC y Catálogo Cisne Complutense. La Revista está disponible online en www.seio.es/BEIO. Editores Anabel Forte Deltell Francisco Parreño Torres Universitat de València Universidad de Castilla-La Mancha anabel.forte@uv.es francisco.parreno@uclm.es Editores Asociados Estad́ıstica Investigación Operativa Paula Saavedra Nieves Eva Vallada Regalado Universidade de Santiago de Compostela Universidad Politécnica de València paula.saavedra@usc.es evallada@eio.upv.es Estad́ıstica Oficial Historia y Enseñanza Pedro Revilla Novella Ma Carmen Escribano Ródenas Instituto Nacional de Estad́ıstica Universidad CEU San Pablo de Madrid pedro.revilla.novella@ine.es escrod@ceu.es Resúmenes de tesis Est. Resúmenes de tesis I.O. Paula Navarro Esteban Mercedes Pelegŕın Garćıa Universidad de Cantabŕıa Optimization Consultant at FICO pnavarroesteban@gmail.com MercedesPelegrin@fico.com Editores Técnicos Maŕıa Alonso Pena Miguel Reula Mart́ın KU Leuven Universidad de Valencia maria.alonsopena@kuleuven.be miguel.reula@uv.es Normas para el env́ıo de art́ıculos Los art́ıculos se enviarán por correo electrónico al editor asociado correspondiente o al editor de la Revista. Se escribirán en estilo article de Latex. Cada art́ıculo ha de contener el t́ıtulo, el resumen y las palabras clave en inglés sin traducción al castellano. Desde la página web de la revista se pueden descargar las plantillas tanto en español como en inglés, que los autores deben utilizar para la elaboración de sus art́ıculos. www.seio.es/BEIO mailto:anabel.forte@uv.es mailto:francisco.parreno@uclm.es mailto:paula.saavedra@usc.es mailto:evallada@eio.upv.es mailto:pedro.revilla.novella@ine.es mailto:escrod@ceu.es mailto:pnavarroesteban@gmail.com mailto:MercedesPelegrin@fico.com mailto:maria.alonsopena@kuleuven.be mailto:miguel.reula@uv.es Índice Editorial 146 M. Guillén Grupo de Investigación en Análisis de Riesgo . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 Estad́ıstica 149 D.-J. Lee and L. Zumeta-Olaskoaga Can we really predict injuries in team sports? . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 Investigación Operativa 163 P. A. Íñiguez and J. M. Gallardo and M. Aburua and P.Pagano Multi-stage variable selection method for efficiency evaluation with DEA models and panel data163 Estad́ıstica Oficial 176 M. Alba, S. Sainz-Trápaga and C. Rovira La economı́a azul en Cataluña: Una primera aproximación metodológica para dimensionar su contribución económica a la región . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 Historia y Enseñanza 186 V. Bizet, E. Molina-Portillo, F. Ruz and J.M. Contreras What does the research tell us about the understanding of the random variables and its probability distributions? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 Opiniones sobre la profesión 208 E. Bottino, L. Hidalgo Conceptos de modelización en la formación universitaria de los analistas de datos . . . . . . . 208 BEIO, Vol. 38, Núm. 3 5 Resumen de tesis en Estad́ıstica 214 M.J. Ginzo-Villamayor Statistical Techniques in Geolinguistics. Onomastic modeling . . . . . . . . . . . . . . . . . . 214 Resumen de tesis en Investigación Operativa 217 M. Reula Contributions to Close-Enough Arc Routing Problems . . . . . . . . . . . . . . . . . . . . . . 217 Índice Grupo de Investigación en Análisis de Riesgo Montserrat Guillén Estany Grupo de Investigación en Análisis de Riesgo Universidad de Barcelona mguillen@ub.edu El análisis de riesgos constituye el fundamento estad́ıstico que subyace en muchas operaciones financieras y aseguradoras. La mayoŕıa de los ciudadanos dispone de productos de este tipo, lo que implica que dicho análisis afecte directamente a millones de personas en todo el mundo. La creciente necesidad de anticipar situaciones adversas en cualquier ámbito social y empresarial también contribuye a colocar la cuantificación de riesgos en el punto de mira. Cualquier empresa u organización debe evaluar los efectos adversos que puedan acontecer en el desarrollo de sus proyectos o en su operativa habitual. Por ello, los analistas de riesgos están muy demandados en el mercado laboral y, desde hace algún tiempo, también cuentan con un consolidado prestigio más allá del entorno asegurador y financiero. Este grupo de trabajo de la Sociedad Española de Estad́ıstica e Investigación Operativa (SEIO) tiene como objetivo principal reunir a los investigadores españoles que trabajan en el análisis cuantitativo de los riesgos desde el punto de vista de la estad́ıstica. Se trata de un ámbito de investigación de amplio alcance dadas las innumerables aplicaciones que tiene en todos los ámbitos del conocimiento (riesgos medioambientales, de salud, financieros o empresariales, entre otros). El análisis estad́ıstico es el principal protagonista de una correcta cuantificación de los riesgos dentro de esta gran diversidad temática. Para apreciar el vasto rango de intereses que abarca el análisis de riesgos, basta con ojear los últimos números de la revista ”Risk Analysis: an international journal”, que es la equivalente a la publicación más generalista en nuestro ámbito. Esta revista contiene art́ıculos cient́ıficos en los que de manera incesante aparecen nuevos retos a cuya resolución los estad́ısticos estamos llamados a contribuir, y que engloban temas tan diversos como los cambios en los riesgos vinculados a catástrofes naturales (inundaciones, terremotos,. . . ), o la ciberseguridad. El análisis de los riesgos permite evitar, o al menos mitigar, las consecuencias de aquellos hechos adversos que puedan preversede algún modo. Los aspectos fundamentales del análisis estad́ıstico de riesgos son fundamentalmente dos: la probabilidad de ocurrencia de fenómenos poco frecuentes y la severidad de las pérdidas, cuya distribución de probabilidad es muy asimétrica y presenta valores extremos. Los trabajos publicados por los investigadores españoles de esta materia se encuentran en las mejores revistas. Los temas que se tratan en este grupo de trabajo tienen carácter transversal, abarcando desde el análisis de las distribuciones de probabilidad hasta el uso de grandes bases de datos. Incluyen los modelos clásicos de las ciencias actuariales, el análisis de extremos, la modelización predictiva o el estudio de las dependencias. La creación de un grupo de trabajo sobre el análisis de riesgos en la SEIO permitió generar un punto de encuentro para promover la investigación interdisciplinar en la comunidad cient́ıfica que trabaja 146 mailto:mguillen@ub.edu BEIO, Vol. 38, Núm. 3 147 en esta temática en España. En el apartado de la página web de la SEIO que corresponde a este grupo de trabajo, se recogen actividades que pueden ser de interés para todos los miembros. No cabe duda de que un mayor contacto entre los investigadores favorece el impulso de nuevas ĺıneas y las colaboraciones entre distintos grupos. El grupo de trabajo sobre Análisis de Riesgo de la SEIO nos ha brindado una oportunidad excelente que está llamada a ser una referencia ineludible para todos los implicados en la investigación e innovación para la gestión de los riesgos. De la mano de sus miembros, en numerosos centros y universidades españolas, el grupo de trabajo no ha escatimado esfuerzos en ir consolidando una trayectoria cada vez más visible, que se vio culminada el pasado mes de octubre con la celebración del congreso RISK 2022. En esta ocasión, el congreso tuvo lugar en Barcelona en su octava edición. Las versiones abreviadas de la mayoŕıa de los trabajos se han publicado en el número especial 233 de la colección Cuadernos de la Fundación MAPFRE, disponible gratuitamente en la web de su centro de documentación. Desde aquel primer congreso celebrado en 2005 en Barcelona, los participantes han ido creciendo en número y carácter internacional, consolidándose en las sucesivas ediciones que han tenido lugar cada dos o tres años, con la irremediable interrupción del pasado 2020. Ha sido una enorme satisfacción ver el resultado de ya casi dos décadas de trayectoria. Con ponencias sobre problemas de máxima actualidad que afectan a la sociedad española, se celebró una sesión especial en castellano, que desarrolló temas como las reformas que afectan al Sistemas de Pensiones, la longevidad a partir de la edad de jubilación, la siniestralidad en carretera para conductores mayores, la creación y destrucción de empleo, o los recursos hospitalarios ante una pandemia. En el resto de las sesiones, hasta completar un total de ocho bloques, los participantes de todo el mundo (con ponentes presenciales de Canadá, EEUU, Francia, Bélgica, Italia, Alemania, Hungŕıa, Polonia y otros conectados en remoto desde Japón, Australia y Canadá) presentaron trabajos muy innovadores sobre riesgos de cola, medidas de riesgos dependientes y metodoloǵıas propias del análisis de los mercados e instrumentos financieros. Numerosos trabajos se volcaron en explorar el análisis de datos vinculado al propio análisis de riesgos, sobre todo en situaciones de datos masivos o con aproximaciones novedosas basadas en el aprendizaje de máquina. El resultado, en forma de congreso abierto para todo el mundo (en v́ıdeos de ciencia abierta disponible en YouTube), dio todav́ıa mayor valor al mucho tiempo que han dedicado los investigadores a realizar las contribuciones que se presentaron en las jornadas. Para finalizar, y con su permiso, me permito evocar algunas ideas que pueden esclarecer el ámbito en el que trabajamos y nuestra razón de ser. Cuando ocurre algo indeseado, y especialmente si le atribúıamos escasa probabilidad, solemos cuestionamos si pudimos haberlo evitado; además, si el daño nos afecta directamente, exigimos responsabilidades y somos inflexibles. En una sociedad como la nuestra, donde premiamos la inmediatez, suele apelarse a la prevención como aquello que pudo habernos salvado. Por esa razón, el análisis de riesgos está ocupando un espacio cada vez mayor en todas nuestras actividades. Si no fuésemos conscientes de los riesgos que asumimos como sociedad, no cesaŕıamos de iniciar tareas que acarreaŕıan calamidades, y seŕıan precisamente esas iniciativas excesivamente intrépidas y mal calibradas las que nos acabaŕıan destruyendo. En el extremo opuesto, si nuestra aversión al riesgo como sociedad fuera demasiado elevada, no avanzaŕıamos, ni conseguiŕıamos evolucionar, aśı que posiblemente ya nos habŕıamos extinguido como especie. En definitiva, parece que se impone una sabia moderación. Los miembros del grupo de trabajo de Análisis de Riesgos somos conscientes de que toda actividad puede acarrear un peligro. Por eso tenemos como objetivo el investigar cómo cuantificar y valorar Editorial BEIO, Vol. 38, Núm. 3 148 esos riesgos para que, aunque existan, no nos impidan avanzar. No podemos olvidar que quienes mejor gestionan los riesgos minimizan su impacto y acaban brillando más que el resto. Agradecimientos La autora de este breve texto quiere agradecer a todos los miembros del Grupo de Trabajo en Análisis de Riesgos de la Sociedad de Estad́ıstica e Investigación Operativa todo el tiempo y esfuerzo invertido en la creación del mismo. Sin su dedicación y apoyo no habŕıa sido posible establecer unas sólidas bases para un fruct́ıfero futuro. Acerca del autor Montserrat Guillén Estany Montserrat Guillén es catedrática de la Universitat de Barcelona, en el Departamento de Econometŕıa, Estad́ıstica y Economı́a Aplicada y directora del grupo de investigación RISKcenter en la UB. Coordina el grupo de trabajo de Análisis de Riesgo de la SEIO. Es profesora visitante honoŕıfica de la City, University of London. Su especialidad es la estad́ıstica aplicada a los seguros y el análisis de riesgo. Es editora de la revista SORT-Statistics and Operations Research Transactions y de diversas resistas cient́ıficas en el ámbito actuarial y asegurador. Más información: http://www.ub.edu/riskcenter/guillen Editorial http://www.ub.edu/riskcenter/guillen Can we really predict injuries in team sports? Dae-Jin Lee Applied Statistics Research Line BCAM-Basque Center for Applied Mathematics ORCid: 0000-0002-8995-8535 dlee@bcamath.org Lore Zumeta-Olaskoaga Applied Statistics Research Line BCAM-Basque Center for Applied Mathematics Departamento de Matemáticas Universidad del Paı́s Vasco (UPV/EHU) ORCid: 0000-0001-6141-1469 lzumeta@bcamath.org Abstract In the last decade several works have emerged in which statistical and machine learning methods have been proposed for the prediction of sports injuries. The field of medicine and sports science has included in its area multidisciplinary profiles with expertise in data analysis, injury epidemiology or artificial intelligence. However, injury phenomena are very complex and multifactorial. Understanding the mechanisms that produce an injury remains extremely complex and requires expert knowledge. This paper aims to illustrate from a statistical perspective what challenges need to be addressed from data collection, analysis of athlete performance and scientific reflection on questions of interest for knowledge-based decision making in data analysis in sport. Keywords: sports injury data, athlete’s performance, statistical modelling, survival analysis. MSC Subject classifications: 62J02, 62J07, 62N01, 62M10. 1. Introduction Injuries are common in professional sports and can have significant physical, psychological and financial consequences on a team performance and considerable impact in athletes’ careers. Understanding 149 https://orcid.org/0000-0002-8995-8535mailto:dlee@bcamath.org https://orcid.org/0000-0001-6141-1469 mailto:lzumeta@bcamath.org BEIO, Vol. 38, Núm. 3 150 injury risk factors and their interplay is thereby a key component of preventing future injuries in sport (Bahr and Krosshaug, 2005; Finch, 2006). During the last decade, thanks to the professionalisation of the specialists involved in sports teams and the use of new technologies (e.g. computer vision, thermal cameras, Global Positioning Systems, etc ... ), the interest in the modelling and prediction of injuries in professional sports through machine learning and artificial intelligence algorithms has dramatically grown (see Fiscutean, 2021; Jauhiainen et al., 2021; Ley et al., 2022 for a detailed review). Hence, the field of sports medicine and sports science has become an interesting field of research for data scientist, statisticians and computer scientists, such that a new role of sports biostatistician, with knowledge in statistics, epidemiology, sports medicine and communication skills is more and more required in professional team sports (Casals and Finch, 2017). Here, we will address some of the most important challenges facings sports science and medicine research, from our (probably biased) perspective and based on our recent experience in collaborations with a professional football team. 2. Some modelling challenges in sports injury In this section, we focus on sports injury data modelling from the perspective of: 1. Sports injury data. From a descriptive analysis, to injury incidence and burden and graphical representations, exploratory data analysis all this is crucial to pose the right questions related to sports injuries epidemiology from a team sports perspective (e.g. is my supported team more impacted by injuries than the others?, which type of injuries were most frequent? And most burdensome? or how does injury affect on the performance of the team in terms of the final classification?). 2. The analysis of training (internal and external) loads. Internal Load represents an individual athlete’s response to training, and can be quantified by the intensity and duration of the physiological stress imposed on the athlete. The internal load is better explained with the external load that consists of what can be measured by GPS and accelerometers (i.e. distance in different speed zones, total distance covered, etc ...). 3. Self-report wellness. Self-report wellness questionnaires are a relatively simple and inex- pensive means for determining an athlete’s training load and their subsequent responses to that training. In fact, this is the most common method for monitoring athlete fatigue and recovery. A substantial amount of research has been conducted which confirms that wellness questionnaires, can indicate changes in training load/stress in elite team sport athletes. 4. Modelling injury risk. Based on the question of interest (either epidemiological or an individual athlete’s performance or conditioning) the modelling approach may differ. We consider a time-to-event analysis approach that is a useful statistical tool to analyze the influence of changing exposures on injury risk. Time-to-event modelling allow change in training load to be included as a time-varying exposure for sport injury and modelling recurrent events. There are other many aspects that are related to sports injury that are not included in the previous classification that are of great interest in the sports injury field. Estad́ıstica BEIO, Vol. 38, Núm. 3 151 Fig. 1: Representation of Liverpool FC injuries on seasons 2017/18 and 2018/19. 2.1. Sports injury data analysis: the R package injurytools The R package injurytools (L. Zumeta-Olaskoaga and Lee, 2022) facilitates the data analysis workflow by providing convenience functions and handy tools for sports injury data1. To illustrate some capabilities of the package, it includes injury data from top European teams in the four leagues: La Liga (Spain), Bundesliga (Germany), Premier League (England) and Serie A (Italy). The package includes several functions that can be classified into (sports injury) data preparation, descriptive analyses and data visualisation routines. The aim of the package is: 1) to provide a consistent way and general routines to analyse sports injury data, in R, including functions to perform informative visualisations and functions to facilitate the estimation of injury summary statistics, following the standards established in the consensus statement on injuries; 2) to help automate the descriptive reports that are routinely performed for sports injury surveillance. The statistical modelling of sports injuries is for the moment beyond the scope of injurytools, but the data structures are suitable for further analyses with other R packages and methods. To illustrate some examples, we consider data scrapped from the German webpage Transfermarkt (https://www.transfermarkt.com/). Figure 1 shows a descriptive visualization of the injuries of Liverpool FC male team during 2017-2018 and 2018-2019 seasons. The horizontal axis represent the time line and the vertical line the Liverpool FC players. For each player, the black line represents the time the player was enrolled to the team with symbols × and ◦ to denote the date of the injury and the date of recovery and player’s availability to train and play matches respectively. The extent of the sports injury problem is often described by injury incidence and by indicators of the severity of sports injuries. Sports injury incidence should preferably be expressed as the number of sports injuries per exposure time (e.g. per 1000 hours of sports participation, i.e. training sessions 1 The injurytools package is under construction and can be accessed at https://lzumeta.github.io/injurytools. Estad́ıstica https://www.transfermarkt.com/ https://lzumeta.github.io/injurytools BEIO, Vol. 38, Núm. 3 152 Team N players N Injuries N Injuries per season (IQR) Incidence (95% CI) N days lost Median days lost per injury (IQR) Burden (95% CI) Barcelona 56 227 51.2 (50.5-53.2) 8.65 (7.7-9.6) 5261 12 (6-24) 200.48 (195.9-205.1) Borussia Dortmund 55 385 93.2 (84.8-99.5) 17.39 (15.9-18-8) 5931 7 (3-17) 267.64 (262.1-273-6) Liverpool 54 168 39 (28.5-45-5) 6.96 (6.1-7.8) 5275 14 (7-28) 218.41 (213.5-223.4) Roma 57 224 54.2 (50.5-58.2) 10.25 (9.1-11.4) 4036 10 (5-20) 184.61 (179.8-189.4) Tab. 1: Numerical comparisons among four European teams (Barcelona, Borussia Dortmund, Liver- pool and Roma). Results are reported as 100 player-match exposure; CI: Confidence Interval; IQR: Interquartile Range. Incidence: number of injuries per unit of player-exposure time (frequency). Burden: number of days lost per unit of player-exposure time (severity and frequency). and matches) in order to facilitate the comparability of research results (WW.Van Mechelen, Hlobil, and Kemper, 2012). Thus, when attempting to describe the distribution of injuries it is necessary to relate this to the population at risk over a specified time period. This is why the fundamental unit of measurement is a rate. A rate is a measure that consists of a denominator and a numerator over a period of time. Denominator data can be a number of different things (e.g. number of minutes trained/played, number of matches played). As such, it reflects the speed at which new “injury-related” events occurs. There are two important definitions to consider: Definition 1 (Injury incidence rate). Injury incidence rate is the number of new injury cases (I) per unit of player-exposure time, i.e. Ir = I ∆T (1) Definition 2 (Injury burden rate). Injury burden rate is the number of days lost (nd) per unit of player-exposure time, i.e. Ibr = nd ∆T (2) where ∆T is the total time under risk of the study population. Note that, either injury incidence (Ir) nor injury burden (Ibr) are ratios, and they are not interpreted as a probability; they are rates and their unit (person-time)−1 (e.g. per 1000h of player-exposure,per player-season etc ...). In Table 1, exposure time unit is match minutes, hence injury incidence and injury burden are calculated per 100 player-matches of exposure (90 minutes times 100). Indeed, a correct exposure time should include training minutes for the total exposure time. However, Transfermarkt webpage do not collect the training minutes per team or per player. Figure 2 shows the injury incidence and burden evolution of four European teams from season 2008-2009 to 2018-19. This plot is merely a descriptive and forecasting for the future seasons does not make any sense for such a short time series. The trend in the incidence of all type injuries has increased in Borussia Dortmund, for the rest of the teams the trend is not clear. However the injury burden has not a clear trend in any of the teams analyzed. Overall the most impacted team by Estad́ıstica BEIO, Vol. 38, Núm. 3 153 Fig. 2: Comparison of linear trends among four European teams (Barcelona, Borussia Dortmund, Liverpool and Roma). Incidence: number of injuries per unit of player-exposure time (frequency). Burden: number of days lost per unit of player-exposure time (severity and frequency). injuries was Borussia Dortmund. Liverpool was the team with lowest injury incidence. In terms of the type of injuries (classified in Transfermarkt as muscular, ligament, concussion, bone and unknown), in all seasons and teams, most frequent injuries were muscle injuries. Ligament injuries were by far the most burdensome in Liverpool 2015/16, Roma 2016/17 and Borussia Dortmund 2017/18 (results not shown). Another way to visualize sports injury data is the so-called risk matrix of injuries in Figure 3. For season 2017/18 it shows the relationship between the severity (consequence) and incidence (likelihood) of the most common injuries (Bahr, Clarsen, and Ekstrand, 2018; Fuller, 2018). The main advantages of using risk matrices, and the reasons for their attractiveness, are the minimal inputs required, the convenience of understanding the visual information presentation, the transparent nature of the assessment standards and the simplicity with which the conclusions can be communicated to stakeholders. Injury burden is most often used for risk evaluation that motive the lost of days of training and matches, ranking the importance of injuries risk factors and prioritising injury prevention plans. 2.2. Athletes’ performance: strength, conditioning and wellness Strength and conditioning professionals aim to maximize athletic performance and reduce the associated injury risk. Therefore, understanding the relationships between different physical capacities and performance metrics, as well as the acute and long-term effects of distinct training interventions Estad́ıstica BEIO, Vol. 38, Núm. 3 154 Fig. 3: Risk matrices for Barcelona, Borussia Dortmund, Liverpool and Roma for season 2016-2017. on athletic populations is crucial for coaches and practitioners. Now, we will first define the internal and the external load. The internal load The Borg scale also known as rate of perceived exertion (or RPE) is an instrument that was created for the purpose of measuring effort in training, it measures, as its name suggests, the perception of effort, intensity and volume of physical activity, so it is a good alternative to assess the level of demand in each workout. The session rating of perceived exertion (sRPE) proposed by Foster, 1998 considers the overall effort of the training session (i.e. the product between RPE and the total time of the training/match session, which is also generally referred to as Training Load (TL)). Two different RPE scales are used in sports: (i) CR-10 where the RPE values are ranged between 0 (no exertion at all) and 10 (maximal exertion), and (ii) 6–20 scale where the values are ranged between 6 (no exertion at all) and 20 (maximal exertion). The TL is widely used in sports as an easy index describing the athletes’ internal workload. Another important feature describing the internal workload is heart rate (HR). Even if HR is an important objective index of internal load, the use of heart rate monitoring in team sports is not a standardized procedure due to the fact that the chest strap is uncomfortable while performing contact sports. Estad́ıstica BEIO, Vol. 38, Núm. 3 155 The external load External workloads are defined as the training features that describe the effort performed during training or match sessions. Global Position System (GPS) commonly records such features. The use of GPS ‘wearable technology’ in high-performance sport is becoming increasingly popular (Cummins et al., 2013; Colby et al., 2014; Chambers et al., 2015). The type of variables collected from the devices are: “Kinematic variables”. Measures athlete’s overall movement during a training session, e.g., total distance and high-speed running distance (Distance in meters covered above 5.5 m/s); “Metabolic variables”. Measures the energy expenditure of an athlete’s overall movement during a training session, e.g., high metabolic load distance (distance in meters covered by a player with a Metabolic Power is above 25.5 W/Kg); “Mechanical variables”. Describes athlete’s overall musculo-skeletal load during a training session, e.g., explosive distance (Distance in meters covered above 25.5 W/Kg and below 19.8 Km/h), and the number of accelerations and decelerations above 2 and 3 m/s2. These features are the most used to evaluate external workloads and to predict the risk of injury (Rossi, Pappalardo, et al., 2018). Self-reported wellness Perceived wellness has been linked with both internal and external stressors, as well as muscle damage biomarker. Several questionnaires are used in sports to evaluate players’ well-being, the most general one consist of a 5-point Likert scale of 5 items (i.e., fatigue, sleep quality, soreness, stress, and mood), where 1 and 5 indicated the highest and lowest values of wellness for each item. See Table 2 (McLean et al., 2010). Wellness data is not standardized between individuals, and equivalent scores may not indicate equivalent levels of fatigue and/or wellness (Thornton et al., 2016). The data must be considered within the individual context of each player and, thus, it’s necessary to use relative change within each player when interpreting longitudinal trends amongst groups. These forms generally consist of 5-12 items using 1-to-5 or 1-to-10 point Likert scales, or modification of existing questionnaires by placing greater emphasis on ratings of muscle soreness, physical fatigue and general wellness. In the past decade, significant efforts have been made to understand injury risk in sport using subjective (i.e. rating of perceived exertion) and objective (i.e. accelerometers, gyroscopes and magnetometers) player monitoring strategies. 3. Modelling sports injury risks Modelling sports injury data encompasses the complex time-varying and recurrent nature of injuries: an athlete’s injury susceptibility may change over time, and moreover, an athlete can sustain more than one injury, as subsequent injuries are often influenced by previous ones (Hägglund, Waldén, Estad́ıstica BEIO, Vol. 38, Núm. 3 156 5 4 3 2 1 Fatigue Very fresh Fresh Normal More tired than normal Always tired Sleep quality Very restful Good Difficult falling asleep Restless sleep Insomnia Soreness Feeling great Feeling good Normal Increase in sore- ness/lightness Very sore Stress Very relaxed Relaxed Normal Feeling stressed Highly stressed Mood Very positive mood A generally good mood Less interested in other and/or activities than usual Snappiness at teammates, family and co-workers Highly an- noyed/ irrita- ble/down Tab. 2: Wellness questionnaire test. and Ekstrand, 2006). Models for recurrent events are appealing for sports injuries prevention (Ullah, Gabbett, and Finch, 2014; Rasmus Oestergaard Nielsen et al., 2019; R. O. Nielsen et al., 2019). A non-exhaustive list of methods and algorithms inthe literature are: Generalized linear/additive models, regression trees and random forests. Survival analysis and time-to-event data analysis. Mixed-effects models (longitudinal modelling). Multivariate times series for classification (injury/non-injury). Variable selection and dimension reduction. Figure 4 presents the Kaplan-Meier curves for the four European teams analyzed in Section 2.1 for the time to the first injury of the season (for minutes per match played until the first injury of the season 2017/18). The Kaplan-Meier estimates is to be used to measure the fraction of football players available for training and matches for a certain amount of time. For recurrent events a gap time approach can be considered (Ullah, Gabbett, and Finch, 2014). Lore Zumeta-Olaskoaga et al., 2021 consider the gap time approach for predicting sports injuries with regularized cox regression models with frailty including covariates from functional screening tests and anthropometric measurements of female players during one regular season. A major challenge in sports injury data is usually the small sample size and the few number of injuries. When internal and external load is considered in the analysis, the most commonly used measure is the acute:chronic workload ratio (ACWR), that comprised an athlete’s ‘fitness’ and ‘fatigue’, and can be calculated using very basic time series analysis methods such as the rolling average (RA) model or the exponentially weighted moving average (EWMA) model. The actual value computed by the ACWR has different implications, and can assist fitness coaches in understanding the readiness of an athlete, the relative injury risk of an athlete from day-to-day, and therefore, with carefully planned intervention, can help to prevent injury. This ratio is usually considered as a flagging value for injury risk. Estad́ıstica BEIO, Vol. 38, Núm. 3 157 Fig. 4: Comparison of Kaplan-Meier curves for four European teams (Barcelona, Borussia Dortmund, Liverpool and Roma). Definition 3 (Acute workload). Typically, this is the workload performed by an athlete in 1-week (7 days). This value contains both training-and match-load information over this 7-day period. The acute workload represents the ‘fatigue’ aspect of the ACWR. Definition 4 (Chronic workload). The chronic workload is typically the 4-week (28 day) average acute workload. This value is important as it provides a clear indication of what an athlete has done leading up to the present training or match day. Therefore, it is commonly viewed as an indication of an athlete’s ‘fitness’. Several studies suggested that large increases in acute workload with respect to the chronic workload (i.e. the average training workload of the previous month) are associated with an increased injury risk (Hulin et al., 2014). In particular, they showed that players with a high ratio between acute and chronic workload are more likely to become injured compared to those with a lower ratio . Traditional calculations of ACWR are ‘mathematically coupled’, as the most recent week is included in estimates of both the acute and chronic workloads. The uncoupled version consists of using the ACWR where the acute load is not part of the chronic load instead. The R package ACWR (Fernandez-Santos, 2022), allows for computing the ACWR using three different methods: exponentially weighted moving average (EWMA), rolling average coupled (RAC) and rolling averaged uncoupled (RAU) in Williams et al., 2017; Windt and Gabbett, 2019. Figure 5 illustrates the daily training load of an athlete (sPRE) through a regular season. The vertical lines represent the sRPE per type of session (match or training) and the grey shades areas are the time period the athlete was injured. Similar plots can be obtained from other external and Estad́ıstica BEIO, Vol. 38, Núm. 3 158 Fig. 5: Simulated daily training loads (sRPE) of an athlete over a season. There are training and match sessions and the external load measure consist of ACWR (coupled version). Additionally, acute and chronic workload are show. Grey shaded areas show the days the athlete was injured. internal loads (i.e. kinematic, metabolic and mechanical variables, training loads and wellness tests) and a multivariate approach for forecasting injuries in soccer for evaluating and interpreting the complex relations between injury risk and training performance (Rossi, Pappalardo, et al., 2018; Rossi, Perri, et al., 2022). 4. So can we really predict injuries in team sports? In the last decade, the number of studies about machine learning algorithms applied to sports, e.g., injury forecasting and athlete performance prediction, have rapidly increased. However, a world where we can prevent sports injuries before they happen is impossible, sports injuries occur and will continue to occur. However, it is entirely possible to accurately assess your risk level in terms of physical activity and injury. From lifestyle to biological constitution or genetic characteristics, there are many factors that influence an athlete’s level of sports injury risk. In this paper, we have presented some challenges in team sports injury risk modelling, from the type of data collected, the concepts of performance and strength of the internal/external training loads and self-report wellness questionnaires. However, the leading approaches in machine learning are notoriously data-hungry. Unfortunately, in teams sports injury field there is no large number of injury data because acquiring data involves a process that is expensive or time-consuming. However, the most important aspect in sports injury data modelling comes from a sports science and medical staff perspective. It is important to effectively use evidence-based knowledge to develop decision-making processes that reduce injury risk and optimize athlete performance (Drew, Raysmith, and Charlton, 2017; Meyer, 2017; Nassis, 2017). From our perspective, as statisticians, statistical modelling plays an important role in bridging the gap for understanding and quantifying the risk of team sports injuries where awareness about relevant concepts such as causality, association and Estad́ıstica BEIO, Vol. 38, Núm. 3 159 complexity are crucial rather prediction of an athletes’ injury itself (Meeuwisse, 1994; Ruddy et al., 2019; Fonseca et al., 2020). An evidence-based injury risk assessment can help prevent future injuries and increase your potential for better performance. Unfortunately, we can never predict injuries with complete certainty because we certainly can’t predict the future. However, there is a way to determine injury risk, which in part can help predict or even prevent sports injuries. Based on scientific research and the sciences of biomechanics, kinesiology, and ergonomics, the sports and medical communities have identified certain risk factors that can lead to sports injuries. Of course, risking any or all of these factors doesn’t necessarily mean you’ll end up hurting. However, knowing that you are at risk will help prevent many types of sports injuries in the future. Acknowledgments This research was funded by projects PID2020-115882RB-I00 funded by Agencia Estatal de Investi- gación and acronym “S3M1P4R”, by the Basque Government (BERC 2022-2025 program) and by the Spanish Ministry of Science, Innovation, and Universities (BCAM Severo Ochoa accreditation SEV-2017-0718). This project has been also funded by the Provincial Council of Bizkaia within the Technology Transfer Programme 2022 and is co-financed by the European Regional Development Fund (ERDF) through the project “MATH4SPORTS - Modelización matemática para la industria deportiva: salud y rendimiento.” Provincial Council of Bizkaia 6/12/TT/2022/00006 (BFA/DFB). Acerca de los autores Dae-Jin Lee Dae-Jin is a researcher at the Basque Center for Applied Mathematics (BCAM) and research line leader of the Applied Statis- tics research line (Data Science and Artificial Intelligence Area). His primary researchinterests are non-parametric smoothing methods in general with applications in Biostatistics, Environmental Modelling, Epidemiology, Mortality and Times Series Analysis. He is also working on Health-Related Quality of Life data modeling, complex data mod- eling, computational statistics and sports analytics. He is also Data Science coordinator of the Knowledge Transfer Unit at BCAM. The aim of BCAM Knowledge Transfer Unit is to develop mathematical solutions for scientific challenges based on real-life applications. Estad́ıstica BEIO, Vol. 38, Núm. 3 160 Lore Zumeta-Olaskoaga She is a PhD student at the BCAM - Basque Center for Applied Mathematics in the Applied Statistics Group under the supervision of Dr. Dae-Jin Lee. She is interested in statistical modelling research, software development and applications of statistics, in particular, to the fields of Sports Medicine, Epidemiology and Biomedicine. Her PhD project aims to develop statistical methods and software for the estimation of injury risk and incidence in the context of professional sport (football), focusing on the framework of recurrent time-to-event data analysis. The project is supported by the Severo Ochoa predoctoral fellowship (MICINN, Spain). References Bahr, R., B. Clarsen, and J. Ekstrand (Aug. 2018). ((Why we should focus on the burden of injuries and illnesses, not just their incidence)). In: Br J Sports Med 52 (16), pp. 1018–1021. issn: 14730480. doi: 10.1136/bjsports-2017-098160. Bahr, R. and T. Krosshaug (June 2005). ((Understanding injury mechanisms: a key component of preventing injuries in sport)). In: Br J Sports Med 39 (6), pp. 324–329. issn: 03063674. doi: 10.1136/bjsm.2005.018341. Casals, M. and C. F. Finch (Dec. 2017). ((Sports Biostatistician: A critical member of all sports science and medicine teams for injury prevention)). In: Injury Prevention 23 (6), pp. 423–427. issn: 14755785. doi: 10.1136/injuryprev-2016-042211. Chambers, R., T. J. Gabbett, M. H. Cole, and A. Beard (July 2015). ((The Use of Wearable Microsensors to Quantify Sport-Specific Movements)). In: Sports Medicine 45 (7), pp. 1065–1081. issn: 11792035. doi: 10.1007/s40279-015-0332-9. Colby, M. J., B. Dawson, J. Heasman, B. Rogalski, and T. J. Gabbett (2014). ((Accelerometer and GPS-derived running loads and injury risk in elite Australian footballers)). In: Journal of Strength and Conditioning Research 28 (8), pp. 2244–2252. issn: 15334295. doi: 10.1519/JSC. 0000000000000362. Cummins, C., R. Orr, H. O’Connor, and C. West (Oct. 2013). ((Global positioning systems (GPS) and microtechnology sensors in team sports: A systematic review)). In: Sports Medicine 43 (10), pp. 1025–1042. issn: 01121642. doi: 10.1007/s40279-013-0069-2. Drew, M. K., B. P. Raysmith, and P. C. Charlton (Aug. 2017). ((Injuries impair the chance of successful performance by sportspeople: A systematic review)). In: British Journal of Sports Medicine 51 (16), pp. 1209–1214. issn: 14730480. doi: 10.1136/bjsports-2016-096731. Fernandez-Santos, J. R (2022). ACWR: Acute Chronic Workload Ratio Calculation. R package version 0.1.0. url: https://CRAN.R-project.org/package=ACWR. Finch, C. F. (2006). ((A new framework for research leading to sports injury prevention)). In: Journal of Science and Medicine in Sport 9 (1-2), pp. 3–9. doi: 10.1016/j.jsams.2006.02.009. Fiscutean, A. (Apr. 2021). ((Data scientists are predicting sports injuries with an algorithm)). In: Nature 592 (S10-S11). doi: 10.1038/d41586-021-00818-1. Fonseca, S. T., T. R. Souza, E. Verhagen, R. van Emmerik, N.F.N. Bittencourt, L.D.M. Mendonça, A. G.P. Andrade, R. A. Resende, and J. M. Ocarino (2020). ((Sports Injury Forecasting and Complexity: A Synergetic Approach)). In: Sports Medicine (0123456789). issn: 11792035. doi: 10.1007/s40279-020-01326-4. Estad́ıstica https://doi.org/10.1136/bjsports-2017-098160 https://doi.org/10.1136/bjsm.2005.018341 https://doi.org/10.1136/injuryprev-2016-042211 https://doi.org/10.1007/s40279-015-0332-9 https://doi.org/10.1519/JSC.0000000000000362 https://doi.org/10.1519/JSC.0000000000000362 https://doi.org/10.1007/s40279-013-0069-2 https://doi.org/10.1136/bjsports-2016-096731 https://CRAN.R-project.org/package=ACWR https://doi.org/10.1016/j.jsams.2006.02.009 https://doi.org/10.1038/d41586-021-00818-1 https://doi.org/10.1007/s40279-020-01326-4 BEIO, Vol. 38, Núm. 3 161 Foster, C. (July 1998). ((Monitoring training in athletes with reference to overtraining syndrome)). In: Med Sci Sports Exerc. 30 (7), pp. 1164–1168. issn: 01959131. doi: 10.1097/00005768-199807000- 00023. Fuller, C. W. (July 2018). ((Injury Risk (Burden), Risk Matrices and Risk Contours in Team Sports: A Review of Principles, Practices and Problems)). In: Sports Medicine 48 (7), pp. 1597–1606. issn: 11792035. doi: 10.1007/s40279-018-0913-5. Hägglund, M., M. Waldén, and J. Ekstrand (Sept. 2006). ((Previous injury as a risk factor for injury in elite football: a prospective study over two consecutive seasons)). In: British journal of sports medicine 40 (9), pp. 767–772. issn: 1473-0480. doi: 10.1136/BJSM.2006.026609. Hulin, B. T., T. J. Gabbett, P. Blanch, P. Chapman, D. Bailey, and J. W. Orchard (2014). ((The acute-chronic workload ratio-injury figure and its ‘sweet spot’ are flawed)). In: British Journal of Sports Medicine 48 (8), pp. 708–712. issn: 14730480. doi: 10.1136/bjsports-2013-092524. Jauhiainen, S., J. P. Kauppi, M. Leppänen, K. Pasanen, J. Parkkari, T. Vasankari, P. Kannus, and S. Ayramo (Feb. 2021). ((New Machine Learning Approach for Detection of Injury Risk Factors in Young Team Sport Athletes)). In: International journal of sports medicine 42 (2), pp. 175–182. issn: 1439-3964. doi: 10.1055/A-1231-5304. Ley, C., R. K. Martin, A. Pareek, A. Groll, R. Seil, and T. Tischer (2022). ((Machine learning and conventional statistics: making sense of the differences)). In: Knee Surgery, Sports Traumatology, Arthroscopy 30 (3), pp. 753–757. issn: 14337347. doi: 10.1007/s00167-022-06896-6. McLean, B. D., A.J. Coutts, V. Kelly, M. R. McGuigan, and S. J. Cormack (Sept. 2010). ((Neuro- muscular, Endocrine, and Perceptual Fatigue Responses During Different Length Between-Match Microcycles in Professional Rugby League Players)). In: International Journal of Sports Physiology and Performance 5 (3), pp. 367–383. issn: 1555-0273. doi: 10.1123/IJSPP.5.3.367. Meeuwisse, W.H. M.D. (1994). ((Assessing causation in sport injury: A multifactorial model)). In: Clinical Journal of Sport Medicine 4 (3), pp. 166–170. issn: 1050642X. doi: 10.1097/00042752- 199407000-00004. Meyer, T. (May 2017). ((How much scientific diagnostics for high-performance football?)) In: Science and Medicine in Football 1 (2), p. 95. issn: 24734446. doi: 10.1080/24733938.2017.1342327. Nassis, G. P. (Sept. 2017). ((Leadership in science and medicine: can you see the gap?)) In: Science and Medicine in Football 1 (3), pp. 195–196. issn: 24734446. doi: 10.1080/24733938.2017.1377845. Nielsen, R. O., M. L. Bertelsen, D. Ramskov, M. Møller, Adam H., D. Theisen, C. F. Finch, L. V. Fortington, M. A. Mansournia, and E. T. Parner (Jan. 2019). ((Time-to-event analysis for sports injury research part 2: Time-varying outcomes)). In: British Journal of Sports Medicine 53 (1), pp. 70–78. issn: 14730480. doi: 10.1136/BJSPORTS-2018-100000. Nielsen, Rasmus Oestergaard, Michael Lejbach Bertelsen, Daniel Ramskov, Merete Møller, Adam Hulme, Daniel Theisen, Caroline F. Finch, Lauren Victoria Fortington, Mohammad Ali Mansournia, and Erik Thorlund Parner (Jan. 2019). ((Time-to-event analysis for sports injury research part 1: time-varying exposures)). In: British Journal of Sports Medicine 53 (1), pp. 61–68. issn: 0306-3674. doi: 10.1136/BJSPORTS-2018-099408. Rossi, A., L. Pappalardo, P. Cintia, F. M. Iaia, J. Fernàndez, and D. Medina (July 2018). ((Effective injury forecasting in soccer with GPS training data and machine learning)). In: PLOS ONE 13 (7). Ed. by Jaime Sampaio, e0201264. issn: 1932-6203. doi: 10.1371/journal.pone.0201264. Rossi, A., E.Perri, L.Pappalardo, P. Cintia, G. Alberti, D. Norman, and F. M. Iaia (June 2022). ((Wellness Forecasting by External and Internal Workloads in Elite Soccer Players: A Machine Learning Approach)). In: Frontiers in Physiology 13. issn: 1664042X. doi: 10.3389/FPHYS.2022. 896928/FULL. Estad́ıstica https://doi.org/10.1097/00005768-199807000-00023 https://doi.org/10.1097/00005768-199807000-00023 https://doi.org/10.1007/s40279-018-0913-5 https://doi.org/10.1136/BJSM.2006.026609 https://doi.org/10.1136/bjsports-2013-092524 https://doi.org/10.1055/A-1231-5304 https://doi.org/10.1007/s00167-022-06896-6 https://doi.org/10.1123/IJSPP.5.3.367 https://doi.org/10.1097/00042752-199407000-00004 https://doi.org/10.1097/00042752-199407000-00004 https://doi.org/10.1080/24733938.2017.1342327 https://doi.org/10.1080/24733938.2017.1377845 https://doi.org/10.1136/BJSPORTS-2018-100000 https://doi.org/10.1136/BJSPORTS-2018-099408 https://doi.org/10.1371/journal.pone.0201264 https://doi.org/10.3389/FPHYS.2022.896928/FULL https://doi.org/10.3389/FPHYS.2022.896928/FULL BEIO, Vol. 38, Núm. 3 162 Ruddy, J. D., S.J. Cormack, R. Whiteley, M. D. Williams, R. G. Timmins, and D.A. Opar (July 2019). ((Modeling the Risk of Team Sport Injuries: A Narrative Review of Different Statistical Approaches)). In: Frontiers in Physiology 10, p. 829. issn: 1664-042X. doi: 10.3389/fphys.2019.00829. Thornton, H. R., J. A. Delaney, G. M. Duthie, B. R. Scott, W. J. Chivers, C. E. Sanctuary, and B. J. Dascombe (May 2016). ((Predicting Self-Reported Illness for Professional Team-Sport Athletes)). In: International journal of sports physiology and performance 11 (4), pp. 543–550. issn: 1555-0273. doi: 10.1123/IJSPP.2015-0330. Ullah, S., T. J. Gabbett, and C. F. Finch (2014). ((Statistical modelling for recurrent events: An application to sports injuries)). In: British Journal of Sports Medicine 48 (17), pp. 1287–1293. doi: 10.1136/bjsports-2011-090803. Williams, Sean, Stephen West, Matthew J Cross, and Keith A Stokes (2017). ((Better way to determine the acute:chronic workload ratio?)) In: British Journal of Sports Medicine 51 (3), pp. 209–210. issn: 0306-3674. doi: 10.1136/bjsports-2016-096589. Windt, J. and T. J. Gabbett (Aug. 2019). ((Is it all for naught? What does mathematical coupling mean for acute:chronic workload ratios?)) In: British Journal of Sports Medicine 53 (16), pp. 988– 990. issn: 0306-3674. doi: 10.1136/BJSPORTS-2017-098925. WW.Van Mechelen, H. Hlobil, and H.C.G. Kemper (Oct. 2012). ((Incidence, Severity, Aetiology and Prevention of Sports Injuries)). In: Sports Medicine 1992 14:2 14 (2), pp. 82–99. issn: 1179-2035. doi: 10.2165/00007256-199214020-00002. Zumeta-Olaskoaga, L. and D.-J. Lee (2022). injurytools: A toolkit for Sports Injury Data Analysis. https://github.com/lzumeta/injurytools, https://lzumeta.github.io/injurytools/. Zumeta-Olaskoaga, Lore, Maximilian Weigert, Jon Larruskain, Eder Bikandi, Igor Setuain, Josean Lekue, Helmut Küchenhoff, and Dae Jin Lee (Nov. 2021). ((Prediction of sports injuries in football: a recurrent time-to-event approach using regularized Cox models)). In: AStA Advances in Statistical Analysis, pp. 1–26. issn: 1863818X. doi: 10.1007/S10182-021-00428-2/FIGURES/6. Estad́ıstica https://doi.org/10.3389/fphys.2019.00829 https://doi.org/10.1123/IJSPP.2015-0330 https://doi.org/10.1136/bjsports-2011-090803 https://doi.org/10.1136/bjsports-2016-096589 https://doi.org/10.1136/BJSPORTS-2017-098925 https://doi.org/10.2165/00007256-199214020-00002 https://doi.org/10.1007/S10182-021-00428-2/FIGURES/6 Multi-stage variable selection method for efficiency evaluation with DEA models and panel data Patricia A. I~niguez Facultad de Ciencias Económicas Universidad Nacional de Rı́o Cuarto piniguez@fce.unrc.edu.ar Juan M. Gallardo Facultad de Ciencias Económicas Universidad Nacional de Rı́o Cuarto jgallardo@fce.unrc.edu.ar Mariana Arburua Facultad de Ciencias Económicas Universidad Nacional de Rı́o Cuarto marburua@fce.unrc.edu.ar Pablo Pagano Facultad de Ciencias Económicas Universidad Nacional de Rı́o Cuarto ppagano@fce.unrc.edu.ar Abstract A variable selection method based on a multi-attribute indicator for efficiency evaluation of units observed in more than one period is presented. The proposed search algorithm allows choosing a common set of variables for the T periods; controlling the number of selected variables, without the evaluator in each iteration analyzing the added value of the variables to be added; operating directly with the original variables, without reducing dimensionality by composing artificial variables and; deriving a collection of empirical models. The application is illustrated with the case of the efficiency evaluation of provincial public management hospitals in the province of Córdoba, Argentina. Keywords: Data Envelopment Analysis, Variables Selection, Panel Data. MSC Subject classifications: 90-08, 90C08, 90B50. 163 mailto:piniguez@fce.unrc.edu.ar mailto:jgallardo@fce.unrc.edu.ar mailto:marburua@fce.unrc.edu.ar mailto:ppagano@fce.unrc.edu.ar BEIO, Vol. 38, Núm. 3 164 1. Introducción La metodoloǵıa de estimación de fronteras no paramétricas permite evaluar la eficiencia relativa de las unidades de producción, aún en aquellos casos en que se utilicen múltiples inputs y outputs. De los métodos desarrollados, el que registra mayor uso y avances, es el Análisis Envolvente de Datos (DEA1). En efecto, Cooper, Seiford y Zhu, 2011 muestran que DEA es uno de los métodos más aplicados para analizar la eficiencia y la productividad de varios sistemas: empresas, bancos, hospitales, industrias, regiones, páıses, etc. Las cuatro décadas posteriores a Charnes, Cooper y Rhodes, 1978 han sido muy provechosas para el método DEA tanto por los muchos desarrollos teóricos, como por los estudios emṕıricos que se registran en innumerables art́ıculos. No obstante, esta interesante evolución de los últimos años, una cuestión de estudio aún vigente en la literatura es el problema de la selección de los inputs y outputs a considerar en el modelo emṕırico. Este interés persistente obedece a que al ser DEA un enfoque no paramétrico, surge el problema de la discriminación cuando, por ejemplo, existe un número relativamente grande de variables en comparación con las Decision Making Units (DMUs) (Adler y Yazhemsky, 2010). Tener un número bajo de unidades en evaluación en comparación con el número de inputs y outputs conduce a encontrar una gran proporción de unidades eficientes o con ı́ndices de eficiencia con valores optimistas. Esta clase de problemas, puede conducir a que la evaluación de eficiencia no cumpla con su propósito. Lo cierto es que, en la práctica, generalmente, no se dispone de muestras grandes y los investigadores procuran analizar conjuntos de observaciones relativamente pequeños, de alĺı la necesidad de hallar metodoloǵıas para la selección de un conjunto de variables que mejoren la discriminación del modelo emṕırico. Una variedad de métodos se ha propuesto, en particular para datos de corte transversal y, si bien, se han hecho diversas comparaciones a través de pruebas emṕıricas y/o simulación Monte Carlo (Adler y Yazhemsky, 2010, Nataraja y Johnson, 2011 y Eskelinen, 2017), todos poseen ventajas y desventajas, por lo que a ninguno se le puede atribuir la caracteŕıstica de inmejorable. Adicionalmente, la cuestión de elegir un conjunto de inputs y outputs, se dificulta cuando la evaluación de eficiencia comprende más de un peŕıodo de tiempo. Aunque resulta factible seleccionar para cada uno de ellos un conjunto distinto de variables, ello no resulta razonable si se pretende comparar los resultados de los diferentes peŕıodos o medir la evolución y cambio, por ejemplo, a través del ı́ndice de Malmquist. Esta circunstancia obliga a aplicar algún método que ayude a seleccionar un conjunto de inputs y outputs común para todos los peŕıodos en los que se pretenda evaluar la eficiencia. De la diversidadde métodos que se hayan en la literatura, relativamente pocos -González-Araya, Campo Hernández y Acosta Espejo, 2013 y Peyrache, Rose y Sicilia, 2020-, abordan el problema de la selección de variables con DMUs observadas en más de un peŕıodo. El primer método propuesto por González-Araya, Campo Hernández y Acosta Espejo, 2013 parte del desarrollado por Soares De Mello et al., 2004 para datos de corte transversal para seleccionar, en función de la frecuencia relativa de elección de los inputs u outputs en cada peŕıodo, un conjunto de variables común para todos los peŕıodos. Si bien, en cada año, se consideran dos criterios -el mejor ajuste a la frontera y la máxima discriminación-, en la conformación del conjunto común solo se tiene en cuenta la frecuencia relativa y, se retoma la máxima eficiencia media, en caso de empate. En el segundo método presentado por los mencionados autores se aplica el formulado por Soares De Mello et al., 2004 una sola vez a la totalidad de los datos del panel. 1 Del inglés Data Envelopment Analysis Investigación Operativa BEIO, Vol. 38, Núm. 3 165 La propuesta de Peyrache, Rose y Sicilia, 2020 define dos versiones del programa lineal entero mixto que permiten seleccionar un conjunto común de inputs y outputs. En la primera, se maximiza la eficiencia agregada de todas las observaciones en todos los peŕıodos y, en la segunda, la eficiencia de la DMU promedio. Con el propósito de facilitar la elección de un conjunto común de inputs y outputs para todos los peŕıodos que integran el panel de datos que considere tanto el mejor ajuste a la frontera, como la máxima discriminación, la menor variación interanual y diversos escenarios, se propone un método de varias etapas integrando diversos métodos basados en técnicas de decisión multicriterio para datos de corte transversal - Soares De Mello et al., 2004, Castro Senra et al., 2007 -, y los propuestos por González-Araya, Campo Hernández y Acosta Espejo, 2013 . Se define un indicador multiabributo que, a pesos iguales, agrega la eficiencia media de los T peŕıodos, la media de los desv́ıos de la eficiencia de las N DMUs en los T peŕıodos, la media de DMUs eficientes considerando los T peŕıodos y el desv́ıo de DMUs eficientes de los T peŕıodos. Con esta propuesta se busca contribuir con un procedimiento de selección de variables que, conside- rando otros atributos, además, de la eficiencia media o agregada, evalúe una colección de modelos emṕıricos o escenarios que brinde al decisor o investigador la posibilidad de elegir aquel modelo emṕırico con mayor sentido conceptual y práctico. Aśı, en este art́ıculo se presenta el Método de Selección de Variables para Datos de Panel2 con Base en un Indicador Multiatributo y se ilustra la aplicación con el caso de la evaluación de eficiencia de los hospitales de gestión pública provincial de la provincia de Córdoba de Argentina. A continuación, en la sección 2 se describen brevemente los modelos básicos del DEA, luego, en la sección 3, sin aspirar a ser exhaustiva, se resume una revisión de la literatura. En la sección 4, se reseñan brevemente las propuestas de Soares De Mello et al., 2004, Castro Senra et al., 2007 y de González-Araya, Campo Hernández y Acosta Espejo, 2013, para luego exponer, en la sección 5, el Método de Selección de Variables para Datos de Panel con Base en un Indicador Multiatributo, sintetizando la aplicación emṕırica en la sección 6, para presentar las principales conclusiones, en la sección 7. 2. El Análisis Envolvente de Datos Como se comentó al inicio, uno de los principales enfoques para analizar la eficiencia se conoce como el Análisis Envolvente de Datos (DEA). Este enfoque fue desarrollado por dos prestigiosos investigadores de la Investigación Operativa, Abraham Charnes y William Cooper, quienes junto a Edwardo Rhodes, publican el art́ıculo fundamental, Charnes, Cooper y Rhodes, 1978. Este trabajo se inspira en el importante escrito, aunque relativamente desconocido hasta ese momento, de un destacado economista, Farrell, 1957. En efecto, dicho autor, propuso considerar como referente eficiente la mejor práctica observada de entre la muestra de unidades productoras objeto de estudio y, de este modo, calcular los ı́ndices de eficiencia de cada una por comparación con la/s que presenta/n un mejor comportamiento. Aśı, se obtiene una medida de eficiencia que tiene un carácter relativo, es decir, depende de la muestra. El objetivo del DEA es comparar el desempeño de las DMUs, que utilizan los mismos inputs y producen los mismos outputs, entre śı. El DEA calcula un ı́ndice de eficiencia para cada una de 2 Se habla de datos de panel cuando se tienen observaciones repetidas a lo largo del tiempo para una muestra de unidades individuales. Puede decirse que para una variable xit se tienen i= 1, ..., N individuos observados a lo largo de t= 1, ..., T peŕıodos de tiempo. (Arellano, 1992) Investigación Operativa BEIO, Vol. 38, Núm. 3 166 las DMUs, de modo que las DMUs con un indicador igual a uno se encuentran en la denominada frontera eficiente. Aquellas que se encuentran fuera de la frontera de eficiencia se consideran de menor desempeño y, un análisis adicional, facilita la información respecto de lo que pueden hacer para mejorar su eficiencia. El método DEA generaliza la medida de la eficiencia para un único output e input de una DMU, medida por el cociente output/input formulando un programa fraccional que transforma los múltiples outputs e inputs para cada DMU en un único output e input virtual. La eficiencia técnica relativa de una DMU se calcula mediante el cociente entre la suma ponderada de outputs y la suma ponderada de inputs, donde los pesos para los outputs e inputs de cada DMU son seleccionados de modo que la medida de la eficiencia responda al criterio de eficiencia de Pareto, sujeto a la restricción de que ninguna DMU puede tener una eficiencia relativa superior a la unidad. DEA obtiene la frontera de producción a partir de las mejores prácticas observadas, es decir, en caso de una medida producto orientada, el máximo output alcanzable por cualquier DMU, dado un nivel de input. La propuesta de Charnes, Cooper y Rhodes, 1978 dio lugar al Modelo Básico conocido en la literatura como Modelo CCR 3 o modelo de retornos constantes a escala y se diseñó para estimar ı́ndices de eficiencia técnica. Luego, Banker, Charnes y W. Cooper, 1984 plantean un modelo lineal conocido como Modelo BCC4 o modelo de retornos variables a escala. A continuación, se presentan los modelos lineales de la envolvente (CCR: (1) y BCC: (2)) que permiten estimar eficiencia técnica producto orientada. max φ sujeto a : φyo − Yµ ≤ 0 Xµ ≤ xo µ ≥ 0 (1) max φB sujeto a : φByo − Yµ ≤ 0 Xµ ≤ xo εµ ≤ 1 µ ≥ 0 (2) Donde x = (x1, x2, ..., xM) ∈ RM+ es el vector de M inputs; y = (y1, y2, ..., yS) ∈ RS+ es el vector de S outputs; X e Y las matrices de los M inputs y S outputs de las N DMUs observadas; µ es el vector de escalares; ε es un vector de N componentes iguales a 1, y φ y φB los ı́ndices de eficiencia técnica. 3 En referencia al apellido de sus autores: Charnes, Cooper y Rhodes. 4 En referencia al apellido de sus autores: Banker, Charnes y Cooper. Investigación Operativa BEIO, Vol. 38, Núm. 3 167 3. Antecedentes El interés por mejorar la discriminación de los modelos emṕıricos de evaluación de eficiencia, como se comentó al inicio, sigue siendo una cuestión vigente en la literatura. En este marco, diversos enfoques se han divulgado en los últimos treinta años, los que pueden reunirse en dos grandes grupos: a) los que seleccionan solo un subconjunto de las variables originales; b) los que utilizan una medida agregada. Dentro del grupo a) se hallan aquellos que se basan en algún tipo de decisión heuŕıstica o juicio de valor acerca de qué variables son relevantes para el problema dado (Allen et al., 1997; Golany y Roll, 1989); pero también,se reúnen aquellos que utilizan técnicas estad́ısticas con la idea de comparar la contribución que, las potenciales variables a ser incluidas en el modelo, tienen sobre la eficiencia estimada (contribución a la eficiencia) (Banker, 1996, Simar y Wilson, 2001, Pastor, Ruiz y Sirvent, 2002, Jenkins y Anderson, 2003, Ruggiero, 2005, Wagner y Shimshak, 2007). Asimismo, se incluyen en este grupo, los métodos de selección desarrollados a partir de la propuesta de Lins y Moreira, 1999, que combinan la relación causal, con el potencial discriminatorio del modelo, dando lugar a procedimientos de selección que consideran múltiples criterios. Aśı, las variables candidatas son alternativas y como criterios se consideran el mejor ajuste a la frontera y la máxima discriminación ( Soares De Mello et al., 2004, Castro Senra et al., 2007; González-Araya y Valdés, 2009 y González-Araya, Campo Hernández y Acosta Espejo, 2013). Se suma a los anteriores, un cuarto subconjunto de métodos, que utilizan un enfoque DEA a través de programas lineales o cuadráticos enteros mixtos, desarrollados en los últimos tres años. En general, en estas propuestas, las variables binarias se introducen para seleccionar inputs y outputs mientras que las funciones objetivo y restricciones se formulan de acuerdo a un modelo DEA (Limleamthong y Guillén-Gosálbez, 2018,Beńıtez-Peña, Bogetoft y Morales, 2019 y Peyrache, Rose y Sicilia, 2020). Por otra parte, los métodos que pueden reunirse en el grupo b), proponen reducir la dimensionalidad sustituyendo las variables originales por una medida agregada. La agregación puede hacerse basándose en algún tipo de decisión heuŕıstica o juicios de valor (usando ponderaciones ad-hoc) o usando algunos criterios estad́ısticos para elegir la combinación óptima (lineal) de los inputs u outputs (Friedman y Sinuany-Stern, 1998 y Morita y Avkiran, 2009). En este contexto, el enfoque más popular es la formulación DEA-ACP propuesta por Ueda y Hoshiai, 1997 y Adler y Golany, 2001 que se basa en el uso del análisis de componentes principales para reducir el número de inputs y outputs sustituyéndolos por componentes principales. De los procedimientos de selección de variables mencionados anteriormente solo dos proporcionan formulaciones para datos de panel. González-Araya, Campo Hernández y Acosta Espejo, 2013 presentan tres métodos, dos de ellos basados en la propuesta de Soares De Mello et al., 2004 y, el tercero, parte del método presentado por González-Araya y Valdés, 2009. Finalmente, Peyrache, Rose y Sicilia, 2020 incluyen para seleccionar un conjunto común de variables para todas las observaciones en todos los peŕıodos de tiempo que conforman el panel de datos, dos versiones del programa lineal entero mixto propuesto para datos de corte transversal. 4. Breve Reseña de los Métodos de Selección de Variables Combinados en la Propuesta El Método Multicriterio para la Selección de Variables (MMSV) de Soares De Mello et al., 2004 y los propuestos por Castro Senra et al., 2007 nominados Método Multicriterio Combinatorio Inicial para Investigación Operativa BEIO, Vol. 38, Núm. 3 168 la Selección de Variables (MMCISV) y Método Multicriterio Combinatorio por Escenarios para la Selección de Variables (MMCESV), aśı como los presentados por González-Araya, Campo Hernández y Acosta Espejo, 2013, Método 1 y 2 de selección de variables en modelos DEA usando series de tiempo (M1SVST y M2SVST, respectivamente), se apoyan en un procedimiento de selección que considera múltiples criterios. Aśı, las variables candidatas son alternativas y como criterios se consideran el mejor ajuste a la frontera y la máxima discriminación. En todos los casos se requiere un par inicial input-output. Este puede ser elección del decisor o, como proponen Castro Senra et al., 2007, escogido siguiendo un proceso similar al realizado en el MMSV considerando como conjunto de alternativas todos los posibles pares input-output. Para seleccionar una de las variables candidatas se evalúa cada alternativa en los criterios antes indicados. El ajuste a la frontera es medido a través de la eficiencia media para cada variable a adicionar y su normalización da lugar al indicador SEF , el que alcanza el valor 1 en la eficiencia media máxima y 0 en la eficiencia media mı́nima. La máxima discriminación es medida por el número de DMUs eficientes, el que se pretende minimizar. La normalización de este criterio genera el indicador SDIS que alcanza el valor 1 para el menor número de DMUs en la frontera y 0 para el mayor. Para seleccionar la variable se agregan, a idéntico peso, los dos criterios mediante una suma ponderada de SEF y SDIS, S = αSEF + (1− α)SDIS. MMSV, MMCISV, M1SVST y M2SVST incorporan variables mientras el conjunto de inputs y outputs no exceda el tercio de las DMUs. En tanto que MMCESV no se detiene cuando el número de variables alcance el tercio de las DMUs. Se incluyen todas las variables para luego comparar distintos escenarios con diferentes números de variables. 5. Método de Selección de Variables para Datos de Panel con Base en un Indicador Multiatributo (MSVDPIM) El procedimiento de selección de variables para evaluación de eficiencia mediante un modelo de la metodoloǵıa DEA con datos de panel, que se plantea, busca elegir un conjunto de inputs y outputs común para todos los peŕıodos que integran el panel, evaluando diversos escenarios a través de un indicador multiatributo que valora y pondera los criterios, mejor ajuste a la frontera, máxima discriminación y menor variación interanual. El método propuesto se conforma de tres etapas. En la primera se define el par inicial. Éste puede, ser elegido por el investigador con cualquier criterio, tal como se propone en el MMSV; ser integrado por un par considerado relevante para la evaluación (Peyrache, Rose y Sicilia, 2020) o definirse siguiendo el criterio del MMCISV. En la segunda, se definen los diferentes escenarios a comparar. El primero de ellos, tomando la idea del M2SVST, surge de aplicar el MMCESV una sola vez a la totalidad de los datos del panel; los siguientes, se obtienen de aplicar el mismo método en cada peŕıodo que integra el panel de datos y; el último, se conforma a partir de las frecuencias relativas, siguiendo el M1SVST. En la tercera etapa se estima la eficiencia con cada uno de los escenarios seleccionados para cada peŕıodo del panel y se define el mejor escenario, mediante el indicador Sd que pondera cuatro atributos. El procedimiento se detalla en la Figura 1. El indicador Sd, pondera a igual peso o a los que el investigador considere adecuados, cuatro atributos normalizados 5 correspondientes a cada uno de los escenarios: la eficiencia media de los T peŕıodos ( 5 El procedimiento de normalización es el aplicado en el MMSV Investigación Operativa BEIO, Vol. 38, Núm. 3 169 SEFT ), la media de los desv́ıos de la eficiencia de las N DMUs en los T peŕıodos ( SV I1 ), la media de DMUs eficientes considerando los T peŕıodos ( SDIST ) y el desv́ıo de DMUs eficientes de los T peŕıodos ( SV I2 ). El único atributo que se pretende maximizar es la eficiencia media, los restantes, se minimizan, para aśı seleccionar el escenario que mejor discrimine y ajuste a la frontera, al tiempo que menor variación interanual registre. Fig. 1: Algoritmo método MSVDPIM El algoritmo de selección de variables por agregación propuesto, es un método de búsqueda, que en cada iteración elige la mejor alternativa, por tanto, con la excepción de la determinación del escenario T+2, no es necesario que el investigador defina cuál es el número de variables en que se detiene la búsqueda. Se incluyen todas las variables para luego comparar distintos escenarios con diferentes números de variables. Investigación Operativa BEIO, Vol. 38, Núm. 3 170 6. Aplicación Emṕırica Para ilustrar la aplicación del MSVDPIM se considera el caso de la evaluación de eficienciade los hospitales de gestión pública provincial de la provincia de Córdoba en los años 2015, 2016 y 2017. A partir de una revisión de los indicadores de insumo, proceso, producto e impacto que la literatura latinoamericana recomienda para el desempeño de los centros hospitalarios y los datos primarios que se obtienen del Registro Federal de Establecimientos Hospitalarios y de la unidad ejecutora central del Programa SUMAR6 , ambas, dependencias del Ministerio de Salud de la Nación; el presupuesto del Ministerio de Salud de la provincia de Córdoba y el CENSO 2010, se logra estimar para veintidós (22) establecimientos de salud con internación general (hospitales) de gestión pública provincial, diecisiete (17) indicadores agrupados en: los vinculados al insumo cama, los relacionados al insumo personal, los referidos a las diversas prestaciones y los correspondientes al grado de atención de la población potencial beneficiaria de los servicios, según se describe en el la Figura 2. Fig. 2: Indicadores/Variables De este modo, se consigue conformar un panel de datos balanceado con 22 observaciones y 17 variables estimadas en los años 2015, 2016 y 2017. Sobre este conjunto de inputs-outputs se aplica el procedimiento descripto en la Figura 1, considerando diferentes pares input-output iniciales. En el primer caso el par inicial lo seleccionan los investigadores y, en el segundo, se escoge para todo el 6 El Programa SUMAR brinda cobertura a la población materno-infantil, niños, adolescentes y adultos hasta los 64 años sin obra social. Los datos se suministran en el marco de un Convenio de Colaboración y Confidencialidad por el que se acuerda que “Las ideas y opiniones expuestas en esta publicación son de responsabilidad exclusiva de su/s autor/es y no necesariamente reflejan la opinión del Programa SUMAR, ni del Ministerio de Salud de la Nación” Investigación Operativa BEIO, Vol. 38, Núm. 3 171 panel y en cada peŕıodo t el que posea mayor valor S entre los 84 pares posibles. Para construir y evaluar los escenarios 1, 2, . . . , T+1 y T+2, el nivel de eficiencia se determina mediante el modelo (2). Se escoge esta formulación porque la mayoŕıa de los indicadores constituyen ratios y, además, es un modelo invariante ante transformaciones afines de las variables. De este modo, si se utiliza el mismo conjunto de datos en diferentes unidades puede obtenerse la misma selección de variables (Peyrache, Rose y Sicilia, 2020). Para el primer caso, los investigadores acuerdan seleccionar el par inicial compuesto por I.1 y O.10, no solo por ser el par con mayor correlación lineal input-output en los tres peŕıodos, sino porque, además, se considera que una de las principales funciones del hospital de gestión pública, en Argentina, es brindar atención de salud a la población que no posee cobertura. A partir de dicho par inicial se conforman los cinco escenarios que se presentan en la Figura 3. Como podrá observarse los Escenarios 1, 4 y 5 son idénticos. Por tal motivo quedan a comparar solo tres conjuntos de variables para definir el modelo emṕırico. De esos tres, dados dos diferentes conjuntos de pesos, el mejor es el Escenario 3, integrado solo por tres variables I.1, O.10 y O.12 y le sigue, aunque con un mayor número promedio de DMUs eficientes, el Escenario 1, el 4 o el 5. En el segundo caso, y con el fin de ilustrar los resultados a los que se arriban en caso que el investigador no desee, no pueda o le resulte indiferente elegir el par input-output inicial, el mismo, se escoge tal como se realiza en el MMCISV. Aśı, el par con el que se inicia el proceso de búsqueda de cada escenario puede ser diferente. El detalle de los pares iniciales y de los escenarios hallados se presentan en la Figura 4. Fig. 3: Escenarios con el par inicial I.1-O.10 Investigación Operativa BEIO, Vol. 38, Núm. 3 172 Fig. 4: Escenarios con par inicial de mayor S Como puede observarse al seleccionar el par inicial a partir de S, el insumo cama pierde participación y el ı́ndice de cobertura, participa solo en algunos escenarios. Evidentemente el indicador O.12, es el que más favorece la productividad de estos establecimientos y cualquiera sea el punto de partida, integra el escenario con mayor Sd. En esta oportunidad el Escenario 3. 7. Conclusiones En este trabajo se proporciona una solución, basada en un indicador multiatributo, para un problema vigente en la literatura del DEA: la selección de las variables que se incluirán en el modelo cuando la evaluación se realiza con datos de panel. Si bien, no se exponen los cuadros con los valores de cada una de las etapas que permiten seleccionar los T+2 escenarios, la aplicación emṕırica muestra que es factible utilizar este algoritmo cuando se tiene un número bajo de unidades en evaluación en comparación con el número de inputs y outputs. No obstante, si el investigador lo considera oportuno, también, resulta de aplicación cuando la muestra sea lo suficientemente grande. El algoritmo planteado permite, elegir un conjunto común de variables para los T peŕıodos; controlar el número de variables seleccionadas, sin que el evaluador en cada iteración analice el valor agregado de las variables a adicionar; operar directamente con las variables originales, sin reducir la dimensionalidad componiendo variables artificiales que pueden ser de dif́ıcil interpretación y; derivar una colección de modelos emṕıricos, dado que se examinan T+2 escenarios. También, es de notar que todos los conjuntos de variables se ajustan a las propuestas que se hallan en la literatura en relación al número de variables respecto del número de observaciones. Investigación Operativa BEIO, Vol. 38, Núm. 3 173 Finalmente, se debe señalar que a futuro queda por concluir el desarrollo de una rutina en el entorno libre R, que conceda acceso libre a todos los investigadores y la comparación de los resultados que arroja esta propuesta con los que surgiŕıan de aplicar las otras, para datos de panel, hallados en la literatura. Acerca de los Autores Patricia Alejandra Iñiguez es Profesora Titular de Investigación Operativa en la Facultad de Ciencias Económicas de la UNRC. Integra Comités Cient́ıfico de diversos congresos nacionales e internacionales y es evaluador de art́ıculos para revistas y libros de nivel nacional e internacional. Dirige proyectos de investigación vinculados al estudio de la eficiencia. Posee publicaciones en congresos nacionales e internacionales y en revistas. Juan Manuel Gallardo es doctorando del Doctorado en Desarrollo Territorial y Contador Público (Facultad de Ciencias Económicas – UNRC); Jefe de Trabajos Prácticos en la Facultad de Ciencias Económicas – UNRC. Es integrante de proyectos de investigación vinculados al estudio de la eficiencia. Posee diversas publicaciones nacionales e internacionales que abordan el estudio de la eficiencia del sector público. Mariana Arburua es Maestŕıa en Procesos Educativos Mediados por Tec- noloǵıas. Es Profesora Adjunta de Investigación Operativa en la Facultad de Ciencias Económicas de la UNRC. Actualmente codirige proyectos de inves- tigación vinculados al estudio de la eficiencia. Posee diversas publicaciones nacionales e internacionales que abordan el estudio de la eficiencia del sector público. Pablo Pagano es Diplomado Superior en Investigación Contable. Esta cursando la Especialidad en Métodos Cuantitativos para la gestión y Análisis de Datos en Organizaciones en la FCE de la UBA. Es ayudante de Primera de Investigación Operativa en la Facultad de Ciencias Económicas de la Universidad Nacional de Rı́o Cuarto. Es integrante de proyectos de investigación vinculados al estudio de la eficiencia. Investigación Operativa BEIO, Vol. 38, Núm. 3 174 Referencias Adler, N. y B. Golany (2001). ((Evaluation of deregulated airline networks using data envelopment analysis combined with principal component analysis with an application to Western Europe)).
Compartir