Logo Studenta

2022_3_completo

¡Este material tiene más páginas!

Vista previa del material en texto

Bolet́ın de Estad́ıstica e Investigación
Operativa
BEIO
2022, Vol. 38, No. 3
Sociedad de Estad́ıstica e Investigación Operativa
Copyright © 2022 SEIO
Ninguna parte de la revista puede ser reproducida, almacenada o trasmitida en cualquier forma o
por medios, electrónico, mecánico o cualquier otro sin el permiso previo de la SEIO. Los art́ıculos
publicados representan las opiniones del autor y la revista BEIO no tiene por qué estar necesariamente
de acuerdo con las opiniones expresadas en los art́ıculos publicados. El hecho de enviar un art́ıculo
para la publicación en BEIO implica la transferencia del copyright de éste a la SEIO. Por tanto,
el autor(es) firmará(n) la aceptación de las condiciones del copyright una vez que el art́ıculo sea
aceptado para su publicación en la revista.
Edita SEIO:
Facultad de CC. Matemáticas
Universidad Complutense de Madrid
Plaza de Ciencias 3, 28040 Madrid
ISSN: 2387-1725
BEIO (Bolet́ın de Estad́ıstica e Investigación Operativa) es una revista que publica cuatrimestralmente
art́ıculos de divulgación cient́ıfica de Estad́ıstica y de Investigación Operativa. Los art́ıculos pretenden abordar
tópicos relevantes para una gran mayoŕıa de profesionales de la Estad́ıstica y de la Investigación Operativa,
primando la intención divulgativa sin olvidar el rigor cient́ıfico en el tratamiento de la materia en cuestión.
Las secciones que incluye la revista son: Estad́ıstica, Investigación Operativa, Estad́ıstica Oficial, Historia y
Enseñanza y Opiniones sobre la Profesión.
BEIO nació en 1985 como Bolet́ın Informativo de la SEIO (Sociedad de Estad́ıstica e Investigación Operativa).
A lo largo de los años ha experimentado una continua evolución. En 1994, aparece publicado el primer art́ıculo
cient́ıfico y desde entonces el número de art́ıculos cient́ıficos publicados ha ido creciendo hasta que en 2008
se segregan del Bolet́ın los contenidos relacionados con la parte informativa y comienza a perfilarse como
revista de divulgación de la Estad́ıstica y de la Investigación Operativa.
Los art́ıculos publicados en BEIO están indexados en Scopus, MathScinet, Biblioteca Digital Española
de Matemáticas, Dialnet (Documat), Current Index to Statistics, The Electronic Library of Mathematics
(ELibM), COMPLUDOC y Catálogo Cisne Complutense.
La Revista está disponible online en www.seio.es/BEIO.
Editores
Anabel Forte Deltell Francisco Parreño Torres
Universitat de València Universidad de Castilla-La Mancha
anabel.forte@uv.es francisco.parreno@uclm.es
Editores Asociados
Estad́ıstica Investigación Operativa
Paula Saavedra Nieves Eva Vallada Regalado
Universidade de Santiago de Compostela Universidad Politécnica de València
paula.saavedra@usc.es evallada@eio.upv.es
Estad́ıstica Oficial Historia y Enseñanza
Pedro Revilla Novella Ma Carmen Escribano Ródenas
Instituto Nacional de Estad́ıstica Universidad CEU San Pablo de Madrid
pedro.revilla.novella@ine.es escrod@ceu.es
Resúmenes de tesis Est. Resúmenes de tesis I.O.
Paula Navarro Esteban Mercedes Pelegŕın Garćıa
Universidad de Cantabŕıa Optimization Consultant at FICO
pnavarroesteban@gmail.com MercedesPelegrin@fico.com
Editores Técnicos
Maŕıa Alonso Pena Miguel Reula Mart́ın
KU Leuven Universidad de Valencia
maria.alonsopena@kuleuven.be miguel.reula@uv.es
Normas para el env́ıo de art́ıculos
Los art́ıculos se enviarán por correo electrónico al editor asociado correspondiente o al editor de la Revista.
Se escribirán en estilo article de Latex. Cada art́ıculo ha de contener el t́ıtulo, el resumen y las palabras clave
en inglés sin traducción al castellano. Desde la página web de la revista se pueden descargar las plantillas
tanto en español como en inglés, que los autores deben utilizar para la elaboración de sus art́ıculos.
www.seio.es/BEIO
mailto:anabel.forte@uv.es
mailto:francisco.parreno@uclm.es
mailto:paula.saavedra@usc.es
mailto:evallada@eio.upv.es
mailto:pedro.revilla.novella@ine.es
mailto:escrod@ceu.es
mailto:pnavarroesteban@gmail.com
mailto:MercedesPelegrin@fico.com
mailto:maria.alonsopena@kuleuven.be
mailto:miguel.reula@uv.es
Índice
Editorial 146
M. Guillén
Grupo de Investigación en Análisis de Riesgo . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
Estad́ıstica 149
D.-J. Lee and L. Zumeta-Olaskoaga
Can we really predict injuries in team sports? . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
Investigación Operativa 163
P. A. Íñiguez and J. M. Gallardo and M. Aburua and P.Pagano
Multi-stage variable selection method for efficiency evaluation with DEA models and panel data163
Estad́ıstica Oficial 176
M. Alba, S. Sainz-Trápaga and C. Rovira
La economı́a azul en Cataluña: Una primera aproximación metodológica para dimensionar su
contribución económica a la región . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
Historia y Enseñanza 186
V. Bizet, E. Molina-Portillo, F. Ruz and J.M. Contreras
What does the research tell us about the understanding of the random variables and its probability
distributions? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
Opiniones sobre la profesión 208
E. Bottino, L. Hidalgo
Conceptos de modelización en la formación universitaria de los analistas de datos . . . . . . . 208
BEIO, Vol. 38, Núm. 3 5
Resumen de tesis en Estad́ıstica 214
M.J. Ginzo-Villamayor
Statistical Techniques in Geolinguistics. Onomastic modeling . . . . . . . . . . . . . . . . . . 214
Resumen de tesis en Investigación Operativa 217
M. Reula
Contributions to Close-Enough Arc Routing Problems . . . . . . . . . . . . . . . . . . . . . . 217
Índice
Grupo de Investigación en Análisis de Riesgo
Montserrat Guillén Estany
Grupo de Investigación en Análisis de Riesgo
Universidad de Barcelona
mguillen@ub.edu
El análisis de riesgos constituye el fundamento estad́ıstico que subyace en muchas operaciones
financieras y aseguradoras. La mayoŕıa de los ciudadanos dispone de productos de este tipo, lo que
implica que dicho análisis afecte directamente a millones de personas en todo el mundo.
La creciente necesidad de anticipar situaciones adversas en cualquier ámbito social y empresarial
también contribuye a colocar la cuantificación de riesgos en el punto de mira. Cualquier empresa u
organización debe evaluar los efectos adversos que puedan acontecer en el desarrollo de sus proyectos
o en su operativa habitual. Por ello, los analistas de riesgos están muy demandados en el mercado
laboral y, desde hace algún tiempo, también cuentan con un consolidado prestigio más allá del entorno
asegurador y financiero.
Este grupo de trabajo de la Sociedad Española de Estad́ıstica e Investigación Operativa (SEIO) tiene
como objetivo principal reunir a los investigadores españoles que trabajan en el análisis cuantitativo
de los riesgos desde el punto de vista de la estad́ıstica. Se trata de un ámbito de investigación de
amplio alcance dadas las innumerables aplicaciones que tiene en todos los ámbitos del conocimiento
(riesgos medioambientales, de salud, financieros o empresariales, entre otros). El análisis estad́ıstico es
el principal protagonista de una correcta cuantificación de los riesgos dentro de esta gran diversidad
temática. Para apreciar el vasto rango de intereses que abarca el análisis de riesgos, basta con ojear
los últimos números de la revista ”Risk Analysis: an international journal”, que es la equivalente a
la publicación más generalista en nuestro ámbito. Esta revista contiene art́ıculos cient́ıficos en los
que de manera incesante aparecen nuevos retos a cuya resolución los estad́ısticos estamos llamados a
contribuir, y que engloban temas tan diversos como los cambios en los riesgos vinculados a catástrofes
naturales (inundaciones, terremotos,. . . ), o la ciberseguridad.
El análisis de los riesgos permite evitar, o al menos mitigar, las consecuencias de aquellos hechos
adversos que puedan preversede algún modo. Los aspectos fundamentales del análisis estad́ıstico de
riesgos son fundamentalmente dos: la probabilidad de ocurrencia de fenómenos poco frecuentes y la
severidad de las pérdidas, cuya distribución de probabilidad es muy asimétrica y presenta valores
extremos. Los trabajos publicados por los investigadores españoles de esta materia se encuentran en
las mejores revistas. Los temas que se tratan en este grupo de trabajo tienen carácter transversal,
abarcando desde el análisis de las distribuciones de probabilidad hasta el uso de grandes bases de
datos. Incluyen los modelos clásicos de las ciencias actuariales, el análisis de extremos, la modelización
predictiva o el estudio de las dependencias.
La creación de un grupo de trabajo sobre el análisis de riesgos en la SEIO permitió generar un punto
de encuentro para promover la investigación interdisciplinar en la comunidad cient́ıfica que trabaja
146
mailto:mguillen@ub.edu
BEIO, Vol. 38, Núm. 3 147
en esta temática en España. En el apartado de la página web de la SEIO que corresponde a este
grupo de trabajo, se recogen actividades que pueden ser de interés para todos los miembros. No cabe
duda de que un mayor contacto entre los investigadores favorece el impulso de nuevas ĺıneas y las
colaboraciones entre distintos grupos.
El grupo de trabajo sobre Análisis de Riesgo de la SEIO nos ha brindado una oportunidad excelente
que está llamada a ser una referencia ineludible para todos los implicados en la investigación e
innovación para la gestión de los riesgos. De la mano de sus miembros, en numerosos centros y
universidades españolas, el grupo de trabajo no ha escatimado esfuerzos en ir consolidando una
trayectoria cada vez más visible, que se vio culminada el pasado mes de octubre con la celebración
del congreso RISK 2022. En esta ocasión, el congreso tuvo lugar en Barcelona en su octava edición.
Las versiones abreviadas de la mayoŕıa de los trabajos se han publicado en el número especial 233 de
la colección Cuadernos de la Fundación MAPFRE, disponible gratuitamente en la web de su centro
de documentación. Desde aquel primer congreso celebrado en 2005 en Barcelona, los participantes
han ido creciendo en número y carácter internacional, consolidándose en las sucesivas ediciones que
han tenido lugar cada dos o tres años, con la irremediable interrupción del pasado 2020. Ha sido una
enorme satisfacción ver el resultado de ya casi dos décadas de trayectoria.
Con ponencias sobre problemas de máxima actualidad que afectan a la sociedad española, se celebró
una sesión especial en castellano, que desarrolló temas como las reformas que afectan al Sistemas
de Pensiones, la longevidad a partir de la edad de jubilación, la siniestralidad en carretera para
conductores mayores, la creación y destrucción de empleo, o los recursos hospitalarios ante una
pandemia. En el resto de las sesiones, hasta completar un total de ocho bloques, los participantes
de todo el mundo (con ponentes presenciales de Canadá, EEUU, Francia, Bélgica, Italia, Alemania,
Hungŕıa, Polonia y otros conectados en remoto desde Japón, Australia y Canadá) presentaron trabajos
muy innovadores sobre riesgos de cola, medidas de riesgos dependientes y metodoloǵıas propias del
análisis de los mercados e instrumentos financieros. Numerosos trabajos se volcaron en explorar el
análisis de datos vinculado al propio análisis de riesgos, sobre todo en situaciones de datos masivos
o con aproximaciones novedosas basadas en el aprendizaje de máquina. El resultado, en forma de
congreso abierto para todo el mundo (en v́ıdeos de ciencia abierta disponible en YouTube), dio
todav́ıa mayor valor al mucho tiempo que han dedicado los investigadores a realizar las contribuciones
que se presentaron en las jornadas.
Para finalizar, y con su permiso, me permito evocar algunas ideas que pueden esclarecer el ámbito
en el que trabajamos y nuestra razón de ser. Cuando ocurre algo indeseado, y especialmente si le
atribúıamos escasa probabilidad, solemos cuestionamos si pudimos haberlo evitado; además, si el
daño nos afecta directamente, exigimos responsabilidades y somos inflexibles. En una sociedad como
la nuestra, donde premiamos la inmediatez, suele apelarse a la prevención como aquello que pudo
habernos salvado. Por esa razón, el análisis de riesgos está ocupando un espacio cada vez mayor en
todas nuestras actividades.
Si no fuésemos conscientes de los riesgos que asumimos como sociedad, no cesaŕıamos de iniciar
tareas que acarreaŕıan calamidades, y seŕıan precisamente esas iniciativas excesivamente intrépidas
y mal calibradas las que nos acabaŕıan destruyendo. En el extremo opuesto, si nuestra aversión al
riesgo como sociedad fuera demasiado elevada, no avanzaŕıamos, ni conseguiŕıamos evolucionar, aśı
que posiblemente ya nos habŕıamos extinguido como especie. En definitiva, parece que se impone
una sabia moderación.
Los miembros del grupo de trabajo de Análisis de Riesgos somos conscientes de que toda actividad
puede acarrear un peligro. Por eso tenemos como objetivo el investigar cómo cuantificar y valorar
Editorial
BEIO, Vol. 38, Núm. 3 148
esos riesgos para que, aunque existan, no nos impidan avanzar. No podemos olvidar que quienes
mejor gestionan los riesgos minimizan su impacto y acaban brillando más que el resto.
Agradecimientos
La autora de este breve texto quiere agradecer a todos los miembros del Grupo de Trabajo en Análisis
de Riesgos de la Sociedad de Estad́ıstica e Investigación Operativa todo el tiempo y esfuerzo invertido
en la creación del mismo. Sin su dedicación y apoyo no habŕıa sido posible establecer unas sólidas
bases para un fruct́ıfero futuro.
Acerca del autor
Montserrat Guillén Estany Montserrat Guillén es catedrática de la Universitat
de Barcelona, en el Departamento de Econometŕıa, Estad́ıstica y Economı́a Aplicada
y directora del grupo de investigación RISKcenter en la UB. Coordina el grupo de
trabajo de Análisis de Riesgo de la SEIO. Es profesora visitante honoŕıfica de la City,
University of London. Su especialidad es la estad́ıstica aplicada a los seguros y el
análisis de riesgo. Es editora de la revista SORT-Statistics and Operations Research
Transactions y de diversas resistas cient́ıficas en el ámbito actuarial y asegurador. Más
información: http://www.ub.edu/riskcenter/guillen
Editorial
http://www.ub.edu/riskcenter/guillen
Can we really predict injuries in team sports?
Dae-Jin Lee
Applied Statistics Research Line
BCAM-Basque Center for Applied Mathematics
ORCid: 0000-0002-8995-8535
dlee@bcamath.org
Lore Zumeta-Olaskoaga
Applied Statistics Research Line
BCAM-Basque Center for Applied Mathematics
Departamento de Matemáticas
Universidad del Paı́s Vasco (UPV/EHU)
ORCid: 0000-0001-6141-1469
lzumeta@bcamath.org
Abstract
In the last decade several works have emerged in which statistical and machine learning methods
have been proposed for the prediction of sports injuries. The field of medicine and sports science has
included in its area multidisciplinary profiles with expertise in data analysis, injury epidemiology or
artificial intelligence. However, injury phenomena are very complex and multifactorial. Understanding
the mechanisms that produce an injury remains extremely complex and requires expert knowledge.
This paper aims to illustrate from a statistical perspective what challenges need to be addressed from
data collection, analysis of athlete performance and scientific reflection on questions of interest for
knowledge-based decision making in data analysis in sport.
Keywords: sports injury data, athlete’s performance, statistical modelling, survival analysis.
MSC Subject classifications: 62J02, 62J07, 62N01, 62M10.
1. Introduction
Injuries are common in professional sports and can have significant physical, psychological and financial
consequences on a team performance and considerable impact in athletes’ careers. Understanding
149
https://orcid.org/0000-0002-8995-8535mailto:dlee@bcamath.org
https://orcid.org/0000-0001-6141-1469
mailto:lzumeta@bcamath.org
BEIO, Vol. 38, Núm. 3 150
injury risk factors and their interplay is thereby a key component of preventing future injuries in sport
(Bahr and Krosshaug, 2005; Finch, 2006). During the last decade, thanks to the professionalisation of
the specialists involved in sports teams and the use of new technologies (e.g. computer vision, thermal
cameras, Global Positioning Systems, etc ... ), the interest in the modelling and prediction of injuries
in professional sports through machine learning and artificial intelligence algorithms has dramatically
grown (see Fiscutean, 2021; Jauhiainen et al., 2021; Ley et al., 2022 for a detailed review). Hence,
the field of sports medicine and sports science has become an interesting field of research for data
scientist, statisticians and computer scientists, such that a new role of sports biostatistician, with
knowledge in statistics, epidemiology, sports medicine and communication skills is more and more
required in professional team sports (Casals and Finch, 2017).
Here, we will address some of the most important challenges facings sports science and medicine
research, from our (probably biased) perspective and based on our recent experience in collaborations
with a professional football team.
2. Some modelling challenges in sports injury
In this section, we focus on sports injury data modelling from the perspective of:
1. Sports injury data. From a descriptive analysis, to injury incidence and burden and graphical
representations, exploratory data analysis all this is crucial to pose the right questions related
to sports injuries epidemiology from a team sports perspective (e.g. is my supported team
more impacted by injuries than the others?, which type of injuries were most frequent? And
most burdensome? or how does injury affect on the performance of the team in terms of the
final classification?).
2. The analysis of training (internal and external) loads. Internal Load represents an
individual athlete’s response to training, and can be quantified by the intensity and duration of
the physiological stress imposed on the athlete. The internal load is better explained with the
external load that consists of what can be measured by GPS and accelerometers (i.e. distance
in different speed zones, total distance covered, etc ...).
3. Self-report wellness. Self-report wellness questionnaires are a relatively simple and inex-
pensive means for determining an athlete’s training load and their subsequent responses to
that training. In fact, this is the most common method for monitoring athlete fatigue and
recovery. A substantial amount of research has been conducted which confirms that wellness
questionnaires, can indicate changes in training load/stress in elite team sport athletes.
4. Modelling injury risk. Based on the question of interest (either epidemiological or an
individual athlete’s performance or conditioning) the modelling approach may differ. We
consider a time-to-event analysis approach that is a useful statistical tool to analyze the
influence of changing exposures on injury risk. Time-to-event modelling allow change in
training load to be included as a time-varying exposure for sport injury and modelling recurrent
events.
There are other many aspects that are related to sports injury that are not included in the previous
classification that are of great interest in the sports injury field.
Estad́ıstica
BEIO, Vol. 38, Núm. 3 151
Fig. 1: Representation of Liverpool FC injuries on seasons 2017/18 and 2018/19.
2.1. Sports injury data analysis: the R package injurytools
The R package injurytools (L. Zumeta-Olaskoaga and Lee, 2022) facilitates the data analysis
workflow by providing convenience functions and handy tools for sports injury data1. To illustrate
some capabilities of the package, it includes injury data from top European teams in the four leagues:
La Liga (Spain), Bundesliga (Germany), Premier League (England) and Serie A (Italy). The package
includes several functions that can be classified into (sports injury) data preparation, descriptive
analyses and data visualisation routines.
The aim of the package is: 1) to provide a consistent way and general routines to analyse sports
injury data, in R, including functions to perform informative visualisations and functions to facilitate
the estimation of injury summary statistics, following the standards established in the consensus
statement on injuries; 2) to help automate the descriptive reports that are routinely performed for
sports injury surveillance. The statistical modelling of sports injuries is for the moment beyond
the scope of injurytools, but the data structures are suitable for further analyses with other R
packages and methods.
To illustrate some examples, we consider data scrapped from the German webpage Transfermarkt
(https://www.transfermarkt.com/). Figure 1 shows a descriptive visualization of the injuries of
Liverpool FC male team during 2017-2018 and 2018-2019 seasons. The horizontal axis represent the
time line and the vertical line the Liverpool FC players. For each player, the black line represents
the time the player was enrolled to the team with symbols × and ◦ to denote the date of the injury
and the date of recovery and player’s availability to train and play matches respectively.
The extent of the sports injury problem is often described by injury incidence and by indicators of
the severity of sports injuries. Sports injury incidence should preferably be expressed as the number
of sports injuries per exposure time (e.g. per 1000 hours of sports participation, i.e. training sessions
1 The injurytools package is under construction and can be accessed at https://lzumeta.github.io/injurytools.
Estad́ıstica
https://www.transfermarkt.com/
https://lzumeta.github.io/injurytools
BEIO, Vol. 38, Núm. 3 152
Team N players N Injuries
N Injuries per season
(IQR)
Incidence
(95% CI)
N days
lost
Median days lost
per injury (IQR)
Burden
(95% CI)
Barcelona 56 227
51.2
(50.5-53.2)
8.65
(7.7-9.6)
5261
12
(6-24)
200.48
(195.9-205.1)
Borussia Dortmund 55 385
93.2
(84.8-99.5)
17.39
(15.9-18-8)
5931
7
(3-17)
267.64
(262.1-273-6)
Liverpool 54 168
39
(28.5-45-5)
6.96
(6.1-7.8)
5275
14
(7-28)
218.41
(213.5-223.4)
Roma 57 224
54.2
(50.5-58.2)
10.25
(9.1-11.4)
4036
10
(5-20)
184.61
(179.8-189.4)
Tab. 1: Numerical comparisons among four European teams (Barcelona, Borussia Dortmund, Liver-
pool and Roma). Results are reported as 100 player-match exposure; CI: Confidence Interval;
IQR: Interquartile Range. Incidence: number of injuries per unit of player-exposure time
(frequency). Burden: number of days lost per unit of player-exposure time (severity and
frequency).
and matches) in order to facilitate the comparability of research results (WW.Van Mechelen, Hlobil,
and Kemper, 2012).
Thus, when attempting to describe the distribution of injuries it is necessary to relate this to the
population at risk over a specified time period. This is why the fundamental unit of measurement
is a rate. A rate is a measure that consists of a denominator and a numerator over a period of
time. Denominator data can be a number of different things (e.g. number of minutes trained/played,
number of matches played). As such, it reflects the speed at which new “injury-related” events occurs.
There are two important definitions to consider:
Definition 1 (Injury incidence rate). Injury incidence rate is the number of new injury cases (I)
per unit of player-exposure time, i.e.
Ir =
I
∆T
(1)
Definition 2 (Injury burden rate). Injury burden rate is the number of days lost (nd) per unit of
player-exposure time, i.e.
Ibr =
nd
∆T
(2)
where ∆T is the total time under risk of the study population.
Note that, either injury incidence (Ir) nor injury burden (Ibr) are ratios, and they are not interpreted
as a probability; they are rates and their unit (person-time)−1 (e.g. per 1000h of player-exposure,per player-season etc ...).
In Table 1, exposure time unit is match minutes, hence injury incidence and injury burden are
calculated per 100 player-matches of exposure (90 minutes times 100). Indeed, a correct exposure
time should include training minutes for the total exposure time. However, Transfermarkt webpage
do not collect the training minutes per team or per player.
Figure 2 shows the injury incidence and burden evolution of four European teams from season
2008-2009 to 2018-19. This plot is merely a descriptive and forecasting for the future seasons does
not make any sense for such a short time series. The trend in the incidence of all type injuries has
increased in Borussia Dortmund, for the rest of the teams the trend is not clear. However the injury
burden has not a clear trend in any of the teams analyzed. Overall the most impacted team by
Estad́ıstica
BEIO, Vol. 38, Núm. 3 153
Fig. 2: Comparison of linear trends among four European teams (Barcelona, Borussia Dortmund,
Liverpool and Roma). Incidence: number of injuries per unit of player-exposure time
(frequency). Burden: number of days lost per unit of player-exposure time (severity and
frequency).
injuries was Borussia Dortmund. Liverpool was the team with lowest injury incidence. In terms of the
type of injuries (classified in Transfermarkt as muscular, ligament, concussion, bone and unknown),
in all seasons and teams, most frequent injuries were muscle injuries. Ligament injuries were by far
the most burdensome in Liverpool 2015/16, Roma 2016/17 and Borussia Dortmund 2017/18 (results
not shown).
Another way to visualize sports injury data is the so-called risk matrix of injuries in Figure 3. For
season 2017/18 it shows the relationship between the severity (consequence) and incidence (likelihood)
of the most common injuries (Bahr, Clarsen, and Ekstrand, 2018; Fuller, 2018). The main advantages
of using risk matrices, and the reasons for their attractiveness, are the minimal inputs required,
the convenience of understanding the visual information presentation, the transparent nature of
the assessment standards and the simplicity with which the conclusions can be communicated to
stakeholders. Injury burden is most often used for risk evaluation that motive the lost of days of
training and matches, ranking the importance of injuries risk factors and prioritising injury prevention
plans.
2.2. Athletes’ performance: strength, conditioning and wellness
Strength and conditioning professionals aim to maximize athletic performance and reduce the
associated injury risk. Therefore, understanding the relationships between different physical capacities
and performance metrics, as well as the acute and long-term effects of distinct training interventions
Estad́ıstica
BEIO, Vol. 38, Núm. 3 154
Fig. 3: Risk matrices for Barcelona, Borussia Dortmund, Liverpool and Roma for season 2016-2017.
on athletic populations is crucial for coaches and practitioners. Now, we will first define the internal
and the external load.
The internal load
The Borg scale also known as rate of perceived exertion (or RPE) is an instrument that was created
for the purpose of measuring effort in training, it measures, as its name suggests, the perception
of effort, intensity and volume of physical activity, so it is a good alternative to assess the level of
demand in each workout. The session rating of perceived exertion (sRPE) proposed by Foster, 1998
considers the overall effort of the training session (i.e. the product between RPE and the total time of
the training/match session, which is also generally referred to as Training Load (TL)). Two different
RPE scales are used in sports: (i) CR-10 where the RPE values are ranged between 0 (no exertion at
all) and 10 (maximal exertion), and (ii) 6–20 scale where the values are ranged between 6 (no exertion
at all) and 20 (maximal exertion). The TL is widely used in sports as an easy index describing the
athletes’ internal workload. Another important feature describing the internal workload is heart rate
(HR). Even if HR is an important objective index of internal load, the use of heart rate monitoring
in team sports is not a standardized procedure due to the fact that the chest strap is uncomfortable
while performing contact sports.
Estad́ıstica
BEIO, Vol. 38, Núm. 3 155
The external load
External workloads are defined as the training features that describe the effort performed during
training or match sessions. Global Position System (GPS) commonly records such features. The use
of GPS ‘wearable technology’ in high-performance sport is becoming increasingly popular (Cummins
et al., 2013; Colby et al., 2014; Chambers et al., 2015). The type of variables collected from the
devices are:
“Kinematic variables”. Measures athlete’s overall movement during a training session, e.g.,
total distance and high-speed running distance (Distance in meters covered above 5.5 m/s);
“Metabolic variables”. Measures the energy expenditure of an athlete’s overall movement during
a training session, e.g., high metabolic load distance (distance in meters covered by a player
with a Metabolic Power is above 25.5 W/Kg);
“Mechanical variables”. Describes athlete’s overall musculo-skeletal load during a training
session, e.g., explosive distance (Distance in meters covered above 25.5 W/Kg and below 19.8
Km/h), and the number of accelerations and decelerations above 2 and 3 m/s2.
These features are the most used to evaluate external workloads and to predict the risk of injury
(Rossi, Pappalardo, et al., 2018).
Self-reported wellness
Perceived wellness has been linked with both internal and external stressors, as well as muscle damage
biomarker. Several questionnaires are used in sports to evaluate players’ well-being, the most general
one consist of a 5-point Likert scale of 5 items (i.e., fatigue, sleep quality, soreness, stress, and mood),
where 1 and 5 indicated the highest and lowest values of wellness for each item. See Table 2 (McLean
et al., 2010).
Wellness data is not standardized between individuals, and equivalent scores may not indicate
equivalent levels of fatigue and/or wellness (Thornton et al., 2016). The data must be considered
within the individual context of each player and, thus, it’s necessary to use relative change within
each player when interpreting longitudinal trends amongst groups.
These forms generally consist of 5-12 items using 1-to-5 or 1-to-10 point Likert scales, or modification
of existing questionnaires by placing greater emphasis on ratings of muscle soreness, physical fatigue
and general wellness.
In the past decade, significant efforts have been made to understand injury risk in sport using
subjective (i.e. rating of perceived exertion) and objective (i.e. accelerometers, gyroscopes and
magnetometers) player monitoring strategies.
3. Modelling sports injury risks
Modelling sports injury data encompasses the complex time-varying and recurrent nature of injuries:
an athlete’s injury susceptibility may change over time, and moreover, an athlete can sustain more
than one injury, as subsequent injuries are often influenced by previous ones (Hägglund, Waldén,
Estad́ıstica
BEIO, Vol. 38, Núm. 3 156
5 4 3 2 1
Fatigue Very fresh Fresh Normal More tired
than normal
Always tired
Sleep quality Very restful Good Difficult falling
asleep
Restless sleep Insomnia
Soreness Feeling great Feeling good Normal Increase
in sore-
ness/lightness
Very sore
Stress Very relaxed Relaxed Normal Feeling
stressed
Highly stressed
Mood Very positive
mood
A generally
good mood
Less interested
in other and/or
activities than
usual
Snappiness at
teammates,
family and
co-workers
Highly an-
noyed/ irrita-
ble/down
Tab. 2: Wellness questionnaire test.
and Ekstrand, 2006). Models for recurrent events are appealing for sports injuries prevention (Ullah,
Gabbett, and Finch, 2014; Rasmus Oestergaard Nielsen et al., 2019; R. O. Nielsen et al., 2019).
A non-exhaustive list of methods and algorithms inthe literature are:
Generalized linear/additive models, regression trees and random forests.
Survival analysis and time-to-event data analysis.
Mixed-effects models (longitudinal modelling).
Multivariate times series for classification (injury/non-injury).
Variable selection and dimension reduction.
Figure 4 presents the Kaplan-Meier curves for the four European teams analyzed in Section 2.1 for
the time to the first injury of the season (for minutes per match played until the first injury of the
season 2017/18). The Kaplan-Meier estimates is to be used to measure the fraction of football players
available for training and matches for a certain amount of time. For recurrent events a gap time
approach can be considered (Ullah, Gabbett, and Finch, 2014). Lore Zumeta-Olaskoaga et al., 2021
consider the gap time approach for predicting sports injuries with regularized cox regression models
with frailty including covariates from functional screening tests and anthropometric measurements
of female players during one regular season. A major challenge in sports injury data is usually the
small sample size and the few number of injuries.
When internal and external load is considered in the analysis, the most commonly used measure is
the acute:chronic workload ratio (ACWR), that comprised an athlete’s ‘fitness’ and ‘fatigue’, and can
be calculated using very basic time series analysis methods such as the rolling average (RA) model
or the exponentially weighted moving average (EWMA) model. The actual value computed by the
ACWR has different implications, and can assist fitness coaches in understanding the readiness of an
athlete, the relative injury risk of an athlete from day-to-day, and therefore, with carefully planned
intervention, can help to prevent injury. This ratio is usually considered as a flagging value for injury
risk.
Estad́ıstica
BEIO, Vol. 38, Núm. 3 157
Fig. 4: Comparison of Kaplan-Meier curves for four European teams (Barcelona, Borussia Dortmund,
Liverpool and Roma).
Definition 3 (Acute workload). Typically, this is the workload performed by an athlete in 1-week (7
days). This value contains both training-and match-load information over this 7-day period. The
acute workload represents the ‘fatigue’ aspect of the ACWR.
Definition 4 (Chronic workload). The chronic workload is typically the 4-week (28 day) average
acute workload. This value is important as it provides a clear indication of what an athlete has done
leading up to the present training or match day. Therefore, it is commonly viewed as an indication
of an athlete’s ‘fitness’.
Several studies suggested that large increases in acute workload with respect to the chronic workload
(i.e. the average training workload of the previous month) are associated with an increased injury
risk (Hulin et al., 2014). In particular, they showed that players with a high ratio between acute and
chronic workload are more likely to become injured compared to those with a lower ratio . Traditional
calculations of ACWR are ‘mathematically coupled’, as the most recent week is included in estimates
of both the acute and chronic workloads. The uncoupled version consists of using the ACWR where
the acute load is not part of the chronic load instead.
The R package ACWR (Fernandez-Santos, 2022), allows for computing the ACWR using three different
methods: exponentially weighted moving average (EWMA), rolling average coupled (RAC) and
rolling averaged uncoupled (RAU) in Williams et al., 2017; Windt and Gabbett, 2019.
Figure 5 illustrates the daily training load of an athlete (sPRE) through a regular season. The
vertical lines represent the sRPE per type of session (match or training) and the grey shades areas
are the time period the athlete was injured. Similar plots can be obtained from other external and
Estad́ıstica
BEIO, Vol. 38, Núm. 3 158
Fig. 5: Simulated daily training loads (sRPE) of an athlete over a season. There are training and
match sessions and the external load measure consist of ACWR (coupled version). Additionally,
acute and chronic workload are show. Grey shaded areas show the days the athlete was
injured.
internal loads (i.e. kinematic, metabolic and mechanical variables, training loads and wellness tests)
and a multivariate approach for forecasting injuries in soccer for evaluating and interpreting the
complex relations between injury risk and training performance (Rossi, Pappalardo, et al., 2018;
Rossi, Perri, et al., 2022).
4. So can we really predict injuries in team sports?
In the last decade, the number of studies about machine learning algorithms applied to sports, e.g.,
injury forecasting and athlete performance prediction, have rapidly increased. However, a world
where we can prevent sports injuries before they happen is impossible, sports injuries occur and
will continue to occur. However, it is entirely possible to accurately assess your risk level in terms
of physical activity and injury. From lifestyle to biological constitution or genetic characteristics,
there are many factors that influence an athlete’s level of sports injury risk. In this paper, we have
presented some challenges in team sports injury risk modelling, from the type of data collected, the
concepts of performance and strength of the internal/external training loads and self-report wellness
questionnaires. However, the leading approaches in machine learning are notoriously data-hungry.
Unfortunately, in teams sports injury field there is no large number of injury data because acquiring
data involves a process that is expensive or time-consuming.
However, the most important aspect in sports injury data modelling comes from a sports science
and medical staff perspective. It is important to effectively use evidence-based knowledge to develop
decision-making processes that reduce injury risk and optimize athlete performance (Drew, Raysmith,
and Charlton, 2017; Meyer, 2017; Nassis, 2017). From our perspective, as statisticians, statistical
modelling plays an important role in bridging the gap for understanding and quantifying the risk
of team sports injuries where awareness about relevant concepts such as causality, association and
Estad́ıstica
BEIO, Vol. 38, Núm. 3 159
complexity are crucial rather prediction of an athletes’ injury itself (Meeuwisse, 1994; Ruddy et al.,
2019; Fonseca et al., 2020). An evidence-based injury risk assessment can help prevent future injuries
and increase your potential for better performance.
Unfortunately, we can never predict injuries with complete certainty because we certainly can’t
predict the future. However, there is a way to determine injury risk, which in part can help predict
or even prevent sports injuries.
Based on scientific research and the sciences of biomechanics, kinesiology, and ergonomics, the sports
and medical communities have identified certain risk factors that can lead to sports injuries. Of
course, risking any or all of these factors doesn’t necessarily mean you’ll end up hurting. However,
knowing that you are at risk will help prevent many types of sports injuries in the future.
Acknowledgments
This research was funded by projects PID2020-115882RB-I00 funded by Agencia Estatal de Investi-
gación and acronym “S3M1P4R”, by the Basque Government (BERC 2022-2025 program) and by
the Spanish Ministry of Science, Innovation, and Universities (BCAM Severo Ochoa accreditation
SEV-2017-0718). This project has been also funded by the Provincial Council of Bizkaia within the
Technology Transfer Programme 2022 and is co-financed by the European Regional Development
Fund (ERDF) through the project “MATH4SPORTS - Modelización matemática para la industria
deportiva: salud y rendimiento.” Provincial Council of Bizkaia 6/12/TT/2022/00006 (BFA/DFB).
Acerca de los autores
Dae-Jin Lee Dae-Jin is a researcher at the Basque Center for Applied
Mathematics (BCAM) and research line leader of the Applied Statis-
tics research line (Data Science and Artificial Intelligence Area). His
primary researchinterests are non-parametric smoothing methods in
general with applications in Biostatistics, Environmental Modelling,
Epidemiology, Mortality and Times Series Analysis. He is also working
on Health-Related Quality of Life data modeling, complex data mod-
eling, computational statistics and sports analytics. He is also Data
Science coordinator of the Knowledge Transfer Unit at BCAM. The
aim of BCAM Knowledge Transfer Unit is to develop mathematical
solutions for scientific challenges based on real-life applications.
Estad́ıstica
BEIO, Vol. 38, Núm. 3 160
Lore Zumeta-Olaskoaga She is a PhD student at the BCAM -
Basque Center for Applied Mathematics in the Applied Statistics
Group under the supervision of Dr. Dae-Jin Lee. She is interested in
statistical modelling research, software development and applications of
statistics, in particular, to the fields of Sports Medicine, Epidemiology
and Biomedicine. Her PhD project aims to develop statistical methods
and software for the estimation of injury risk and incidence in the
context of professional sport (football), focusing on the framework of
recurrent time-to-event data analysis. The project is supported by the
Severo Ochoa predoctoral fellowship (MICINN, Spain).
References
Bahr, R., B. Clarsen, and J. Ekstrand (Aug. 2018). ((Why we should focus on the burden of injuries
and illnesses, not just their incidence)). In: Br J Sports Med 52 (16), pp. 1018–1021. issn: 14730480.
doi: 10.1136/bjsports-2017-098160.
Bahr, R. and T. Krosshaug (June 2005). ((Understanding injury mechanisms: a key component
of preventing injuries in sport)). In: Br J Sports Med 39 (6), pp. 324–329. issn: 03063674. doi:
10.1136/bjsm.2005.018341.
Casals, M. and C. F. Finch (Dec. 2017). ((Sports Biostatistician: A critical member of all sports
science and medicine teams for injury prevention)). In: Injury Prevention 23 (6), pp. 423–427. issn:
14755785. doi: 10.1136/injuryprev-2016-042211.
Chambers, R., T. J. Gabbett, M. H. Cole, and A. Beard (July 2015). ((The Use of Wearable
Microsensors to Quantify Sport-Specific Movements)). In: Sports Medicine 45 (7), pp. 1065–1081.
issn: 11792035. doi: 10.1007/s40279-015-0332-9.
Colby, M. J., B. Dawson, J. Heasman, B. Rogalski, and T. J. Gabbett (2014). ((Accelerometer
and GPS-derived running loads and injury risk in elite Australian footballers)). In: Journal of
Strength and Conditioning Research 28 (8), pp. 2244–2252. issn: 15334295. doi: 10.1519/JSC.
0000000000000362.
Cummins, C., R. Orr, H. O’Connor, and C. West (Oct. 2013). ((Global positioning systems (GPS)
and microtechnology sensors in team sports: A systematic review)). In: Sports Medicine 43 (10),
pp. 1025–1042. issn: 01121642. doi: 10.1007/s40279-013-0069-2.
Drew, M. K., B. P. Raysmith, and P. C. Charlton (Aug. 2017). ((Injuries impair the chance of successful
performance by sportspeople: A systematic review)). In: British Journal of Sports Medicine 51 (16),
pp. 1209–1214. issn: 14730480. doi: 10.1136/bjsports-2016-096731.
Fernandez-Santos, J. R (2022). ACWR: Acute Chronic Workload Ratio Calculation. R package version
0.1.0. url: https://CRAN.R-project.org/package=ACWR.
Finch, C. F. (2006). ((A new framework for research leading to sports injury prevention)). In: Journal
of Science and Medicine in Sport 9 (1-2), pp. 3–9. doi: 10.1016/j.jsams.2006.02.009.
Fiscutean, A. (Apr. 2021). ((Data scientists are predicting sports injuries with an algorithm)). In:
Nature 592 (S10-S11). doi: 10.1038/d41586-021-00818-1.
Fonseca, S. T., T. R. Souza, E. Verhagen, R. van Emmerik, N.F.N. Bittencourt, L.D.M. Mendonça,
A. G.P. Andrade, R. A. Resende, and J. M. Ocarino (2020). ((Sports Injury Forecasting and
Complexity: A Synergetic Approach)). In: Sports Medicine (0123456789). issn: 11792035. doi:
10.1007/s40279-020-01326-4.
Estad́ıstica
https://doi.org/10.1136/bjsports-2017-098160
https://doi.org/10.1136/bjsm.2005.018341
https://doi.org/10.1136/injuryprev-2016-042211
https://doi.org/10.1007/s40279-015-0332-9
https://doi.org/10.1519/JSC.0000000000000362
https://doi.org/10.1519/JSC.0000000000000362
https://doi.org/10.1007/s40279-013-0069-2
https://doi.org/10.1136/bjsports-2016-096731
https://CRAN.R-project.org/package=ACWR
https://doi.org/10.1016/j.jsams.2006.02.009
https://doi.org/10.1038/d41586-021-00818-1
https://doi.org/10.1007/s40279-020-01326-4
BEIO, Vol. 38, Núm. 3 161
Foster, C. (July 1998). ((Monitoring training in athletes with reference to overtraining syndrome)). In:
Med Sci Sports Exerc. 30 (7), pp. 1164–1168. issn: 01959131. doi: 10.1097/00005768-199807000-
00023.
Fuller, C. W. (July 2018). ((Injury Risk (Burden), Risk Matrices and Risk Contours in Team Sports:
A Review of Principles, Practices and Problems)). In: Sports Medicine 48 (7), pp. 1597–1606. issn:
11792035. doi: 10.1007/s40279-018-0913-5.
Hägglund, M., M. Waldén, and J. Ekstrand (Sept. 2006). ((Previous injury as a risk factor for injury
in elite football: a prospective study over two consecutive seasons)). In: British journal of sports
medicine 40 (9), pp. 767–772. issn: 1473-0480. doi: 10.1136/BJSM.2006.026609.
Hulin, B. T., T. J. Gabbett, P. Blanch, P. Chapman, D. Bailey, and J. W. Orchard (2014). ((The
acute-chronic workload ratio-injury figure and its ‘sweet spot’ are flawed)). In: British Journal of
Sports Medicine 48 (8), pp. 708–712. issn: 14730480. doi: 10.1136/bjsports-2013-092524.
Jauhiainen, S., J. P. Kauppi, M. Leppänen, K. Pasanen, J. Parkkari, T. Vasankari, P. Kannus, and
S. Ayramo (Feb. 2021). ((New Machine Learning Approach for Detection of Injury Risk Factors
in Young Team Sport Athletes)). In: International journal of sports medicine 42 (2), pp. 175–182.
issn: 1439-3964. doi: 10.1055/A-1231-5304.
Ley, C., R. K. Martin, A. Pareek, A. Groll, R. Seil, and T. Tischer (2022). ((Machine learning and
conventional statistics: making sense of the differences)). In: Knee Surgery, Sports Traumatology,
Arthroscopy 30 (3), pp. 753–757. issn: 14337347. doi: 10.1007/s00167-022-06896-6.
McLean, B. D., A.J. Coutts, V. Kelly, M. R. McGuigan, and S. J. Cormack (Sept. 2010). ((Neuro-
muscular, Endocrine, and Perceptual Fatigue Responses During Different Length Between-Match
Microcycles in Professional Rugby League Players)). In: International Journal of Sports Physiology
and Performance 5 (3), pp. 367–383. issn: 1555-0273. doi: 10.1123/IJSPP.5.3.367.
Meeuwisse, W.H. M.D. (1994). ((Assessing causation in sport injury: A multifactorial model)). In:
Clinical Journal of Sport Medicine 4 (3), pp. 166–170. issn: 1050642X. doi: 10.1097/00042752-
199407000-00004.
Meyer, T. (May 2017). ((How much scientific diagnostics for high-performance football?)) In: Science
and Medicine in Football 1 (2), p. 95. issn: 24734446. doi: 10.1080/24733938.2017.1342327.
Nassis, G. P. (Sept. 2017). ((Leadership in science and medicine: can you see the gap?)) In: Science and
Medicine in Football 1 (3), pp. 195–196. issn: 24734446. doi: 10.1080/24733938.2017.1377845.
Nielsen, R. O., M. L. Bertelsen, D. Ramskov, M. Møller, Adam H., D. Theisen, C. F. Finch, L. V.
Fortington, M. A. Mansournia, and E. T. Parner (Jan. 2019). ((Time-to-event analysis for sports
injury research part 2: Time-varying outcomes)). In: British Journal of Sports Medicine 53 (1),
pp. 70–78. issn: 14730480. doi: 10.1136/BJSPORTS-2018-100000.
Nielsen, Rasmus Oestergaard, Michael Lejbach Bertelsen, Daniel Ramskov, Merete Møller, Adam
Hulme, Daniel Theisen, Caroline F. Finch, Lauren Victoria Fortington, Mohammad Ali Mansournia,
and Erik Thorlund Parner (Jan. 2019). ((Time-to-event analysis for sports injury research part 1:
time-varying exposures)). In: British Journal of Sports Medicine 53 (1), pp. 61–68. issn: 0306-3674.
doi: 10.1136/BJSPORTS-2018-099408.
Rossi, A., L. Pappalardo, P. Cintia, F. M. Iaia, J. Fernàndez, and D. Medina (July 2018). ((Effective
injury forecasting in soccer with GPS training data and machine learning)). In: PLOS ONE 13 (7).
Ed. by Jaime Sampaio, e0201264. issn: 1932-6203. doi: 10.1371/journal.pone.0201264.
Rossi, A., E.Perri, L.Pappalardo, P. Cintia, G. Alberti, D. Norman, and F. M. Iaia (June 2022).
((Wellness Forecasting by External and Internal Workloads in Elite Soccer Players: A Machine
Learning Approach)). In: Frontiers in Physiology 13. issn: 1664042X. doi: 10.3389/FPHYS.2022.
896928/FULL.
Estad́ıstica
https://doi.org/10.1097/00005768-199807000-00023
https://doi.org/10.1097/00005768-199807000-00023
https://doi.org/10.1007/s40279-018-0913-5
https://doi.org/10.1136/BJSM.2006.026609
https://doi.org/10.1136/bjsports-2013-092524
https://doi.org/10.1055/A-1231-5304
https://doi.org/10.1007/s00167-022-06896-6
https://doi.org/10.1123/IJSPP.5.3.367
https://doi.org/10.1097/00042752-199407000-00004
https://doi.org/10.1097/00042752-199407000-00004
https://doi.org/10.1080/24733938.2017.1342327
https://doi.org/10.1080/24733938.2017.1377845
https://doi.org/10.1136/BJSPORTS-2018-100000
https://doi.org/10.1136/BJSPORTS-2018-099408
https://doi.org/10.1371/journal.pone.0201264
https://doi.org/10.3389/FPHYS.2022.896928/FULL
https://doi.org/10.3389/FPHYS.2022.896928/FULL
BEIO, Vol. 38, Núm. 3 162
Ruddy, J. D., S.J. Cormack, R. Whiteley, M. D. Williams, R. G. Timmins, and D.A. Opar (July 2019).
((Modeling the Risk of Team Sport Injuries: A Narrative Review of Different Statistical Approaches)).
In: Frontiers in Physiology 10, p. 829. issn: 1664-042X. doi: 10.3389/fphys.2019.00829.
Thornton, H. R., J. A. Delaney, G. M. Duthie, B. R. Scott, W. J. Chivers, C. E. Sanctuary, and B. J.
Dascombe (May 2016). ((Predicting Self-Reported Illness for Professional Team-Sport Athletes)). In:
International journal of sports physiology and performance 11 (4), pp. 543–550. issn: 1555-0273.
doi: 10.1123/IJSPP.2015-0330.
Ullah, S., T. J. Gabbett, and C. F. Finch (2014). ((Statistical modelling for recurrent events: An
application to sports injuries)). In: British Journal of Sports Medicine 48 (17), pp. 1287–1293. doi:
10.1136/bjsports-2011-090803.
Williams, Sean, Stephen West, Matthew J Cross, and Keith A Stokes (2017). ((Better way to determine
the acute:chronic workload ratio?)) In: British Journal of Sports Medicine 51 (3), pp. 209–210. issn:
0306-3674. doi: 10.1136/bjsports-2016-096589.
Windt, J. and T. J. Gabbett (Aug. 2019). ((Is it all for naught? What does mathematical coupling
mean for acute:chronic workload ratios?)) In: British Journal of Sports Medicine 53 (16), pp. 988–
990. issn: 0306-3674. doi: 10.1136/BJSPORTS-2017-098925.
WW.Van Mechelen, H. Hlobil, and H.C.G. Kemper (Oct. 2012). ((Incidence, Severity, Aetiology and
Prevention of Sports Injuries)). In: Sports Medicine 1992 14:2 14 (2), pp. 82–99. issn: 1179-2035.
doi: 10.2165/00007256-199214020-00002.
Zumeta-Olaskoaga, L. and D.-J. Lee (2022). injurytools: A toolkit for Sports Injury Data Analysis.
https://github.com/lzumeta/injurytools, https://lzumeta.github.io/injurytools/.
Zumeta-Olaskoaga, Lore, Maximilian Weigert, Jon Larruskain, Eder Bikandi, Igor Setuain, Josean
Lekue, Helmut Küchenhoff, and Dae Jin Lee (Nov. 2021). ((Prediction of sports injuries in football:
a recurrent time-to-event approach using regularized Cox models)). In: AStA Advances in Statistical
Analysis, pp. 1–26. issn: 1863818X. doi: 10.1007/S10182-021-00428-2/FIGURES/6.
Estad́ıstica
https://doi.org/10.3389/fphys.2019.00829
https://doi.org/10.1123/IJSPP.2015-0330
https://doi.org/10.1136/bjsports-2011-090803
https://doi.org/10.1136/bjsports-2016-096589
https://doi.org/10.1136/BJSPORTS-2017-098925
https://doi.org/10.2165/00007256-199214020-00002
https://doi.org/10.1007/S10182-021-00428-2/FIGURES/6
Multi-stage variable selection method for efficiency
evaluation with DEA models and panel data
Patricia A. I~niguez
Facultad de Ciencias Económicas
Universidad Nacional de Rı́o Cuarto
piniguez@fce.unrc.edu.ar
Juan M. Gallardo
Facultad de Ciencias Económicas
Universidad Nacional de Rı́o Cuarto
jgallardo@fce.unrc.edu.ar
Mariana Arburua
Facultad de Ciencias Económicas
Universidad Nacional de Rı́o Cuarto
marburua@fce.unrc.edu.ar
Pablo Pagano
Facultad de Ciencias Económicas
Universidad Nacional de Rı́o Cuarto
ppagano@fce.unrc.edu.ar
Abstract
A variable selection method based on a multi-attribute indicator for efficiency evaluation of units
observed in more than one period is presented. The proposed search algorithm allows choosing a
common set of variables for the T periods; controlling the number of selected variables, without the
evaluator in each iteration analyzing the added value of the variables to be added; operating directly
with the original variables, without reducing dimensionality by composing artificial variables and;
deriving a collection of empirical models. The application is illustrated with the case of the efficiency
evaluation of provincial public management hospitals in the province of Córdoba, Argentina.
Keywords: Data Envelopment Analysis, Variables Selection, Panel Data.
MSC Subject classifications: 90-08, 90C08, 90B50.
163
mailto:piniguez@fce.unrc.edu.ar
mailto:jgallardo@fce.unrc.edu.ar
mailto:marburua@fce.unrc.edu.ar
mailto:ppagano@fce.unrc.edu.ar
BEIO, Vol. 38, Núm. 3 164
1. Introducción
La metodoloǵıa de estimación de fronteras no paramétricas permite evaluar la eficiencia relativa de
las unidades de producción, aún en aquellos casos en que se utilicen múltiples inputs y outputs. De los
métodos desarrollados, el que registra mayor uso y avances, es el Análisis Envolvente de Datos (DEA1).
En efecto, Cooper, Seiford y Zhu, 2011 muestran que DEA es uno de los métodos más aplicados para
analizar la eficiencia y la productividad de varios sistemas: empresas, bancos, hospitales, industrias,
regiones, páıses, etc. Las cuatro décadas posteriores a Charnes, Cooper y Rhodes, 1978 han sido muy
provechosas para el método DEA tanto por los muchos desarrollos teóricos, como por los estudios
emṕıricos que se registran en innumerables art́ıculos. No obstante, esta interesante evolución de los
últimos años, una cuestión de estudio aún vigente en la literatura es el problema de la selección de
los inputs y outputs a considerar en el modelo emṕırico.
Este interés persistente obedece a que al ser DEA un enfoque no paramétrico, surge el problema
de la discriminación cuando, por ejemplo, existe un número relativamente grande de variables en
comparación con las Decision Making Units (DMUs) (Adler y Yazhemsky, 2010). Tener un número
bajo de unidades en evaluación en comparación con el número de inputs y outputs conduce a encontrar
una gran proporción de unidades eficientes o con ı́ndices de eficiencia con valores optimistas. Esta
clase de problemas, puede conducir a que la evaluación de eficiencia no cumpla con su propósito.
Lo cierto es que, en la práctica, generalmente, no se dispone de muestras grandes y los investigadores
procuran analizar conjuntos de observaciones relativamente pequeños, de alĺı la necesidad de hallar
metodoloǵıas para la selección de un conjunto de variables que mejoren la discriminación del modelo
emṕırico.
Una variedad de métodos se ha propuesto, en particular para datos de corte transversal y, si bien,
se han hecho diversas comparaciones a través de pruebas emṕıricas y/o simulación Monte Carlo
(Adler y Yazhemsky, 2010, Nataraja y Johnson, 2011 y Eskelinen, 2017), todos poseen ventajas y
desventajas, por lo que a ninguno se le puede atribuir la caracteŕıstica de inmejorable. Adicionalmente,
la cuestión de elegir un conjunto de inputs y outputs, se dificulta cuando la evaluación de eficiencia
comprende más de un peŕıodo de tiempo. Aunque resulta factible seleccionar para cada uno de ellos
un conjunto distinto de variables, ello no resulta razonable si se pretende comparar los resultados de
los diferentes peŕıodos o medir la evolución y cambio, por ejemplo, a través del ı́ndice de Malmquist.
Esta circunstancia obliga a aplicar algún método que ayude a seleccionar un conjunto de inputs y
outputs común para todos los peŕıodos en los que se pretenda evaluar la eficiencia.
De la diversidadde métodos que se hayan en la literatura, relativamente pocos -González-Araya,
Campo Hernández y Acosta Espejo, 2013 y Peyrache, Rose y Sicilia, 2020-, abordan el problema de
la selección de variables con DMUs observadas en más de un peŕıodo.
El primer método propuesto por González-Araya, Campo Hernández y Acosta Espejo, 2013 parte del
desarrollado por Soares De Mello et al., 2004 para datos de corte transversal para seleccionar, en
función de la frecuencia relativa de elección de los inputs u outputs en cada peŕıodo, un conjunto de
variables común para todos los peŕıodos. Si bien, en cada año, se consideran dos criterios -el mejor
ajuste a la frontera y la máxima discriminación-, en la conformación del conjunto común solo se tiene
en cuenta la frecuencia relativa y, se retoma la máxima eficiencia media, en caso de empate.
En el segundo método presentado por los mencionados autores se aplica el formulado por Soares
De Mello et al., 2004 una sola vez a la totalidad de los datos del panel.
1 Del inglés Data Envelopment Analysis
Investigación Operativa
BEIO, Vol. 38, Núm. 3 165
La propuesta de Peyrache, Rose y Sicilia, 2020 define dos versiones del programa lineal entero mixto
que permiten seleccionar un conjunto común de inputs y outputs. En la primera, se maximiza la
eficiencia agregada de todas las observaciones en todos los peŕıodos y, en la segunda, la eficiencia de
la DMU promedio.
Con el propósito de facilitar la elección de un conjunto común de inputs y outputs para todos los
peŕıodos que integran el panel de datos que considere tanto el mejor ajuste a la frontera, como la
máxima discriminación, la menor variación interanual y diversos escenarios, se propone un método
de varias etapas integrando diversos métodos basados en técnicas de decisión multicriterio para datos
de corte transversal - Soares De Mello et al., 2004, Castro Senra et al., 2007 -, y los propuestos por
González-Araya, Campo Hernández y Acosta Espejo, 2013 . Se define un indicador multiabributo que,
a pesos iguales, agrega la eficiencia media de los T peŕıodos, la media de los desv́ıos de la eficiencia
de las N DMUs en los T peŕıodos, la media de DMUs eficientes considerando los T peŕıodos y el
desv́ıo de DMUs eficientes de los T peŕıodos.
Con esta propuesta se busca contribuir con un procedimiento de selección de variables que, conside-
rando otros atributos, además, de la eficiencia media o agregada, evalúe una colección de modelos
emṕıricos o escenarios que brinde al decisor o investigador la posibilidad de elegir aquel modelo
emṕırico con mayor sentido conceptual y práctico.
Aśı, en este art́ıculo se presenta el Método de Selección de Variables para Datos de Panel2 con Base
en un Indicador Multiatributo y se ilustra la aplicación con el caso de la evaluación de eficiencia de
los hospitales de gestión pública provincial de la provincia de Córdoba de Argentina.
A continuación, en la sección 2 se describen brevemente los modelos básicos del DEA, luego, en
la sección 3, sin aspirar a ser exhaustiva, se resume una revisión de la literatura. En la sección 4,
se reseñan brevemente las propuestas de Soares De Mello et al., 2004, Castro Senra et al., 2007 y
de González-Araya, Campo Hernández y Acosta Espejo, 2013, para luego exponer, en la sección 5,
el Método de Selección de Variables para Datos de Panel con Base en un Indicador Multiatributo,
sintetizando la aplicación emṕırica en la sección 6, para presentar las principales conclusiones, en la
sección 7.
2. El Análisis Envolvente de Datos
Como se comentó al inicio, uno de los principales enfoques para analizar la eficiencia se conoce
como el Análisis Envolvente de Datos (DEA). Este enfoque fue desarrollado por dos prestigiosos
investigadores de la Investigación Operativa, Abraham Charnes y William Cooper, quienes junto a
Edwardo Rhodes, publican el art́ıculo fundamental, Charnes, Cooper y Rhodes, 1978. Este trabajo
se inspira en el importante escrito, aunque relativamente desconocido hasta ese momento, de un
destacado economista, Farrell, 1957. En efecto, dicho autor, propuso considerar como referente
eficiente la mejor práctica observada de entre la muestra de unidades productoras objeto de estudio y,
de este modo, calcular los ı́ndices de eficiencia de cada una por comparación con la/s que presenta/n
un mejor comportamiento. Aśı, se obtiene una medida de eficiencia que tiene un carácter relativo, es
decir, depende de la muestra.
El objetivo del DEA es comparar el desempeño de las DMUs, que utilizan los mismos inputs y
producen los mismos outputs, entre śı. El DEA calcula un ı́ndice de eficiencia para cada una de
2 Se habla de datos de panel cuando se tienen observaciones repetidas a lo largo del tiempo para una muestra de
unidades individuales. Puede decirse que para una variable xit se tienen i= 1, ..., N individuos observados a lo
largo de t= 1, ..., T peŕıodos de tiempo. (Arellano, 1992)
Investigación Operativa
BEIO, Vol. 38, Núm. 3 166
las DMUs, de modo que las DMUs con un indicador igual a uno se encuentran en la denominada
frontera eficiente. Aquellas que se encuentran fuera de la frontera de eficiencia se consideran de menor
desempeño y, un análisis adicional, facilita la información respecto de lo que pueden hacer para
mejorar su eficiencia.
El método DEA generaliza la medida de la eficiencia para un único output e input de una DMU,
medida por el cociente output/input formulando un programa fraccional que transforma los múltiples
outputs e inputs para cada DMU en un único output e input virtual.
La eficiencia técnica relativa de una DMU se calcula mediante el cociente entre la suma ponderada
de outputs y la suma ponderada de inputs, donde los pesos para los outputs e inputs de cada DMU
son seleccionados de modo que la medida de la eficiencia responda al criterio de eficiencia de Pareto,
sujeto a la restricción de que ninguna DMU puede tener una eficiencia relativa superior a la unidad.
DEA obtiene la frontera de producción a partir de las mejores prácticas observadas, es decir, en caso
de una medida producto orientada, el máximo output alcanzable por cualquier DMU, dado un nivel
de input.
La propuesta de Charnes, Cooper y Rhodes, 1978 dio lugar al Modelo Básico conocido en la literatura
como Modelo CCR 3 o modelo de retornos constantes a escala y se diseñó para estimar ı́ndices de
eficiencia técnica. Luego, Banker, Charnes y W. Cooper, 1984 plantean un modelo lineal conocido
como Modelo BCC4 o modelo de retornos variables a escala. A continuación, se presentan los modelos
lineales de la envolvente (CCR: (1) y BCC: (2)) que permiten estimar eficiencia técnica producto
orientada.
max φ
sujeto a :
φyo − Yµ ≤ 0
Xµ ≤ xo
µ ≥ 0
(1)
max φB
sujeto a :
φByo − Yµ ≤ 0
Xµ ≤ xo
εµ ≤ 1
µ ≥ 0
(2)
Donde x = (x1, x2, ..., xM) ∈ RM+ es el vector de M inputs; y = (y1, y2, ..., yS) ∈ RS+ es el vector de S
outputs; X e Y las matrices de los M inputs y S outputs de las N DMUs observadas; µ es el vector
de escalares; ε es un vector de N componentes iguales a 1, y φ y φB los ı́ndices de eficiencia técnica.
3 En referencia al apellido de sus autores: Charnes, Cooper y Rhodes.
4 En referencia al apellido de sus autores: Banker, Charnes y Cooper.
Investigación Operativa
BEIO, Vol. 38, Núm. 3 167
3. Antecedentes
El interés por mejorar la discriminación de los modelos emṕıricos de evaluación de eficiencia, como se
comentó al inicio, sigue siendo una cuestión vigente en la literatura. En este marco, diversos enfoques
se han divulgado en los últimos treinta años, los que pueden reunirse en dos grandes grupos: a)
los que seleccionan solo un subconjunto de las variables originales; b) los que utilizan una medida
agregada.
Dentro del grupo a) se hallan aquellos que se basan en algún tipo de decisión heuŕıstica o juicio de
valor acerca de qué variables son relevantes para el problema dado (Allen et al., 1997; Golany y Roll,
1989); pero también,se reúnen aquellos que utilizan técnicas estad́ısticas con la idea de comparar
la contribución que, las potenciales variables a ser incluidas en el modelo, tienen sobre la eficiencia
estimada (contribución a la eficiencia) (Banker, 1996, Simar y Wilson, 2001, Pastor, Ruiz y Sirvent,
2002, Jenkins y Anderson, 2003, Ruggiero, 2005, Wagner y Shimshak, 2007). Asimismo, se incluyen en
este grupo, los métodos de selección desarrollados a partir de la propuesta de Lins y Moreira, 1999, que
combinan la relación causal, con el potencial discriminatorio del modelo, dando lugar a procedimientos
de selección que consideran múltiples criterios. Aśı, las variables candidatas son alternativas y como
criterios se consideran el mejor ajuste a la frontera y la máxima discriminación ( Soares De Mello et al.,
2004, Castro Senra et al., 2007; González-Araya y Valdés, 2009 y González-Araya, Campo Hernández
y Acosta Espejo, 2013).
Se suma a los anteriores, un cuarto subconjunto de métodos, que utilizan un enfoque DEA a través
de programas lineales o cuadráticos enteros mixtos, desarrollados en los últimos tres años. En general,
en estas propuestas, las variables binarias se introducen para seleccionar inputs y outputs mientras
que las funciones objetivo y restricciones se formulan de acuerdo a un modelo DEA (Limleamthong
y Guillén-Gosálbez, 2018,Beńıtez-Peña, Bogetoft y Morales, 2019 y Peyrache, Rose y Sicilia, 2020).
Por otra parte, los métodos que pueden reunirse en el grupo b), proponen reducir la dimensionalidad
sustituyendo las variables originales por una medida agregada. La agregación puede hacerse basándose
en algún tipo de decisión heuŕıstica o juicios de valor (usando ponderaciones ad-hoc) o usando algunos
criterios estad́ısticos para elegir la combinación óptima (lineal) de los inputs u outputs (Friedman
y Sinuany-Stern, 1998 y Morita y Avkiran, 2009). En este contexto, el enfoque más popular es la
formulación DEA-ACP propuesta por Ueda y Hoshiai, 1997 y Adler y Golany, 2001 que se basa en el
uso del análisis de componentes principales para reducir el número de inputs y outputs sustituyéndolos
por componentes principales.
De los procedimientos de selección de variables mencionados anteriormente solo dos proporcionan
formulaciones para datos de panel. González-Araya, Campo Hernández y Acosta Espejo, 2013
presentan tres métodos, dos de ellos basados en la propuesta de Soares De Mello et al., 2004 y, el
tercero, parte del método presentado por González-Araya y Valdés, 2009. Finalmente, Peyrache, Rose
y Sicilia, 2020 incluyen para seleccionar un conjunto común de variables para todas las observaciones
en todos los peŕıodos de tiempo que conforman el panel de datos, dos versiones del programa lineal
entero mixto propuesto para datos de corte transversal.
4. Breve Reseña de los Métodos de Selección de Variables Combinados en la
Propuesta
El Método Multicriterio para la Selección de Variables (MMSV) de Soares De Mello et al., 2004 y los
propuestos por Castro Senra et al., 2007 nominados Método Multicriterio Combinatorio Inicial para
Investigación Operativa
BEIO, Vol. 38, Núm. 3 168
la Selección de Variables (MMCISV) y Método Multicriterio Combinatorio por Escenarios para la
Selección de Variables (MMCESV), aśı como los presentados por González-Araya, Campo Hernández
y Acosta Espejo, 2013, Método 1 y 2 de selección de variables en modelos DEA usando series
de tiempo (M1SVST y M2SVST, respectivamente), se apoyan en un procedimiento de selección
que considera múltiples criterios. Aśı, las variables candidatas son alternativas y como criterios se
consideran el mejor ajuste a la frontera y la máxima discriminación.
En todos los casos se requiere un par inicial input-output. Este puede ser elección del decisor o, como
proponen Castro Senra et al., 2007, escogido siguiendo un proceso similar al realizado en el MMSV
considerando como conjunto de alternativas todos los posibles pares input-output.
Para seleccionar una de las variables candidatas se evalúa cada alternativa en los criterios antes
indicados. El ajuste a la frontera es medido a través de la eficiencia media para cada variable a
adicionar y su normalización da lugar al indicador SEF , el que alcanza el valor 1 en la eficiencia media
máxima y 0 en la eficiencia media mı́nima. La máxima discriminación es medida por el número de
DMUs eficientes, el que se pretende minimizar. La normalización de este criterio genera el indicador
SDIS que alcanza el valor 1 para el menor número de DMUs en la frontera y 0 para el mayor. Para
seleccionar la variable se agregan, a idéntico peso, los dos criterios mediante una suma ponderada de
SEF y SDIS, S = αSEF + (1− α)SDIS.
MMSV, MMCISV, M1SVST y M2SVST incorporan variables mientras el conjunto de inputs y
outputs no exceda el tercio de las DMUs. En tanto que MMCESV no se detiene cuando el número de
variables alcance el tercio de las DMUs. Se incluyen todas las variables para luego comparar distintos
escenarios con diferentes números de variables.
5. Método de Selección de Variables para Datos de Panel con Base en un
Indicador Multiatributo (MSVDPIM)
El procedimiento de selección de variables para evaluación de eficiencia mediante un modelo de la
metodoloǵıa DEA con datos de panel, que se plantea, busca elegir un conjunto de inputs y outputs
común para todos los peŕıodos que integran el panel, evaluando diversos escenarios a través de
un indicador multiatributo que valora y pondera los criterios, mejor ajuste a la frontera, máxima
discriminación y menor variación interanual.
El método propuesto se conforma de tres etapas. En la primera se define el par inicial. Éste puede,
ser elegido por el investigador con cualquier criterio, tal como se propone en el MMSV; ser integrado
por un par considerado relevante para la evaluación (Peyrache, Rose y Sicilia, 2020) o definirse
siguiendo el criterio del MMCISV. En la segunda, se definen los diferentes escenarios a comparar.
El primero de ellos, tomando la idea del M2SVST, surge de aplicar el MMCESV una sola vez a
la totalidad de los datos del panel; los siguientes, se obtienen de aplicar el mismo método en cada
peŕıodo que integra el panel de datos y; el último, se conforma a partir de las frecuencias relativas,
siguiendo el M1SVST. En la tercera etapa se estima la eficiencia con cada uno de los escenarios
seleccionados para cada peŕıodo del panel y se define el mejor escenario, mediante el indicador Sd
que pondera cuatro atributos. El procedimiento se detalla en la Figura 1.
El indicador Sd, pondera a igual peso o a los que el investigador considere adecuados, cuatro atributos
normalizados 5 correspondientes a cada uno de los escenarios: la eficiencia media de los T peŕıodos (
5 El procedimiento de normalización es el aplicado en el MMSV
Investigación Operativa
BEIO, Vol. 38, Núm. 3 169
SEFT ), la media de los desv́ıos de la eficiencia de las N DMUs en los T peŕıodos ( SV I1 ), la media
de DMUs eficientes considerando los T peŕıodos ( SDIST ) y el desv́ıo de DMUs eficientes de los T
peŕıodos ( SV I2 ). El único atributo que se pretende maximizar es la eficiencia media, los restantes,
se minimizan, para aśı seleccionar el escenario que mejor discrimine y ajuste a la frontera, al tiempo
que menor variación interanual registre.
Fig. 1: Algoritmo método MSVDPIM
El algoritmo de selección de variables por agregación propuesto, es un método de búsqueda, que en
cada iteración elige la mejor alternativa, por tanto, con la excepción de la determinación del escenario
T+2, no es necesario que el investigador defina cuál es el número de variables en que se detiene la
búsqueda. Se incluyen todas las variables para luego comparar distintos escenarios con diferentes
números de variables.
Investigación Operativa
BEIO, Vol. 38, Núm. 3 170
6. Aplicación Emṕırica
Para ilustrar la aplicación del MSVDPIM se considera el caso de la evaluación de eficienciade los
hospitales de gestión pública provincial de la provincia de Córdoba en los años 2015, 2016 y 2017.
A partir de una revisión de los indicadores de insumo, proceso, producto e impacto que la literatura
latinoamericana recomienda para el desempeño de los centros hospitalarios y los datos primarios que
se obtienen del Registro Federal de Establecimientos Hospitalarios y de la unidad ejecutora central
del Programa SUMAR6 , ambas, dependencias del Ministerio de Salud de la Nación; el presupuesto
del Ministerio de Salud de la provincia de Córdoba y el CENSO 2010, se logra estimar para veintidós
(22) establecimientos de salud con internación general (hospitales) de gestión pública provincial,
diecisiete (17) indicadores agrupados en: los vinculados al insumo cama, los relacionados al insumo
personal, los referidos a las diversas prestaciones y los correspondientes al grado de atención de la
población potencial beneficiaria de los servicios, según se describe en el la Figura 2.
Fig. 2: Indicadores/Variables
De este modo, se consigue conformar un panel de datos balanceado con 22 observaciones y 17
variables estimadas en los años 2015, 2016 y 2017. Sobre este conjunto de inputs-outputs se aplica el
procedimiento descripto en la Figura 1, considerando diferentes pares input-output iniciales. En el
primer caso el par inicial lo seleccionan los investigadores y, en el segundo, se escoge para todo el
6 El Programa SUMAR brinda cobertura a la población materno-infantil, niños, adolescentes y adultos hasta los 64
años sin obra social. Los datos se suministran en el marco de un Convenio de Colaboración y Confidencialidad por
el que se acuerda que “Las ideas y opiniones expuestas en esta publicación son de responsabilidad exclusiva de su/s
autor/es y no necesariamente reflejan la opinión del Programa SUMAR, ni del Ministerio de Salud de la Nación”
Investigación Operativa
BEIO, Vol. 38, Núm. 3 171
panel y en cada peŕıodo t el que posea mayor valor S entre los 84 pares posibles.
Para construir y evaluar los escenarios 1, 2, . . . , T+1 y T+2, el nivel de eficiencia se determina
mediante el modelo (2). Se escoge esta formulación porque la mayoŕıa de los indicadores constituyen
ratios y, además, es un modelo invariante ante transformaciones afines de las variables. De este modo,
si se utiliza el mismo conjunto de datos en diferentes unidades puede obtenerse la misma selección de
variables (Peyrache, Rose y Sicilia, 2020).
Para el primer caso, los investigadores acuerdan seleccionar el par inicial compuesto por I.1 y O.10, no
solo por ser el par con mayor correlación lineal input-output en los tres peŕıodos, sino porque, además,
se considera que una de las principales funciones del hospital de gestión pública, en Argentina, es
brindar atención de salud a la población que no posee cobertura. A partir de dicho par inicial se
conforman los cinco escenarios que se presentan en la Figura 3.
Como podrá observarse los Escenarios 1, 4 y 5 son idénticos. Por tal motivo quedan a comparar
solo tres conjuntos de variables para definir el modelo emṕırico. De esos tres, dados dos diferentes
conjuntos de pesos, el mejor es el Escenario 3, integrado solo por tres variables I.1, O.10 y O.12 y le
sigue, aunque con un mayor número promedio de DMUs eficientes, el Escenario 1, el 4 o el 5.
En el segundo caso, y con el fin de ilustrar los resultados a los que se arriban en caso que el investigador
no desee, no pueda o le resulte indiferente elegir el par input-output inicial, el mismo, se escoge tal
como se realiza en el MMCISV.
Aśı, el par con el que se inicia el proceso de búsqueda de cada escenario puede ser diferente. El detalle
de los pares iniciales y de los escenarios hallados se presentan en la Figura 4.
Fig. 3: Escenarios con el par inicial I.1-O.10
Investigación Operativa
BEIO, Vol. 38, Núm. 3 172
Fig. 4: Escenarios con par inicial de mayor S
Como puede observarse al seleccionar el par inicial a partir de S, el insumo cama pierde participación
y el ı́ndice de cobertura, participa solo en algunos escenarios. Evidentemente el indicador O.12, es el
que más favorece la productividad de estos establecimientos y cualquiera sea el punto de partida,
integra el escenario con mayor Sd. En esta oportunidad el Escenario 3.
7. Conclusiones
En este trabajo se proporciona una solución, basada en un indicador multiatributo, para un problema
vigente en la literatura del DEA: la selección de las variables que se incluirán en el modelo cuando la
evaluación se realiza con datos de panel.
Si bien, no se exponen los cuadros con los valores de cada una de las etapas que permiten seleccionar
los T+2 escenarios, la aplicación emṕırica muestra que es factible utilizar este algoritmo cuando
se tiene un número bajo de unidades en evaluación en comparación con el número de inputs y
outputs. No obstante, si el investigador lo considera oportuno, también, resulta de aplicación cuando
la muestra sea lo suficientemente grande.
El algoritmo planteado permite, elegir un conjunto común de variables para los T peŕıodos; controlar el
número de variables seleccionadas, sin que el evaluador en cada iteración analice el valor agregado de las
variables a adicionar; operar directamente con las variables originales, sin reducir la dimensionalidad
componiendo variables artificiales que pueden ser de dif́ıcil interpretación y; derivar una colección de
modelos emṕıricos, dado que se examinan T+2 escenarios.
También, es de notar que todos los conjuntos de variables se ajustan a las propuestas que se hallan
en la literatura en relación al número de variables respecto del número de observaciones.
Investigación Operativa
BEIO, Vol. 38, Núm. 3 173
Finalmente, se debe señalar que a futuro queda por concluir el desarrollo de una rutina en el entorno
libre R, que conceda acceso libre a todos los investigadores y la comparación de los resultados que
arroja esta propuesta con los que surgiŕıan de aplicar las otras, para datos de panel, hallados en la
literatura.
Acerca de los Autores
Patricia Alejandra Iñiguez es Profesora Titular de Investigación Operativa
en la Facultad de Ciencias Económicas de la UNRC. Integra Comités Cient́ıfico
de diversos congresos nacionales e internacionales y es evaluador de art́ıculos
para revistas y libros de nivel nacional e internacional. Dirige proyectos de
investigación vinculados al estudio de la eficiencia. Posee publicaciones en
congresos nacionales e internacionales y en revistas.
Juan Manuel Gallardo es doctorando del Doctorado en Desarrollo Territorial
y Contador Público (Facultad de Ciencias Económicas – UNRC); Jefe de
Trabajos Prácticos en la Facultad de Ciencias Económicas – UNRC. Es integrante
de proyectos de investigación vinculados al estudio de la eficiencia. Posee diversas
publicaciones nacionales e internacionales que abordan el estudio de la eficiencia
del sector público.
Mariana Arburua es Maestŕıa en Procesos Educativos Mediados por Tec-
noloǵıas. Es Profesora Adjunta de Investigación Operativa en la Facultad de
Ciencias Económicas de la UNRC. Actualmente codirige proyectos de inves-
tigación vinculados al estudio de la eficiencia. Posee diversas publicaciones
nacionales e internacionales que abordan el estudio de la eficiencia del sector
público.
Pablo Pagano es Diplomado Superior en Investigación Contable. Esta cursando
la Especialidad en Métodos Cuantitativos para la gestión y Análisis de Datos en
Organizaciones en la FCE de la UBA. Es ayudante de Primera de Investigación
Operativa en la Facultad de Ciencias Económicas de la Universidad Nacional de
Rı́o Cuarto. Es integrante de proyectos de investigación vinculados al estudio
de la eficiencia.
Investigación Operativa
BEIO, Vol. 38, Núm. 3 174
Referencias
Adler, N. y B. Golany (2001). ((Evaluation of deregulated airline networks using data envelopment
analysis combined with principal component analysis with an application to Western Europe)).

Continuar navegando

Materiales relacionados

160 pag.
C - Gestión de Operaciones y Logística

Escuela Universidad Nacional

User badge image

Diana Milena Bastidas

68 pag.
CIO2017_Book_of_Proceedings (1)

SIN SIGLA

User badge image

lizethsalin748

13 pag.
1-Tendencias-en-el-control-del-entrenamiento-en-el-futbol

Escuela Universidad Nacional

User badge image

danilo jacome tavera