2022_3_completo

Modelización de Datos

•

Teodoro Olivares

Rene torres gonzalez

25/10/2023

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Modelización de Datos

7589 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Bolet́ın de Estad́ıstica e Investigación
Operativa
BEIO
2022, Vol. 38, No. 3
Sociedad de Estad́ıstica e Investigación Operativa
Copyright © 2022 SEIO
Ninguna parte de la revista puede ser reproducida, almacenada o trasmitida en cualquier forma o
por medios, electrónico, mecánico o cualquier otro sin el permiso previo de la SEIO. Los art́ıculos
publicados representan las opiniones del autor y la revista BEIO no tiene por qué estar necesariamente
de acuerdo con las opiniones expresadas en los art́ıculos publicados. El hecho de enviar un art́ıculo
para la publicación en BEIO implica la transferencia del copyright de éste a la SEIO. Por tanto,
el autor(es) firmará(n) la aceptación de las condiciones del copyright una vez que el art́ıculo sea
aceptado para su publicación en la revista.
Edita SEIO:
Facultad de CC. Matemáticas
Universidad Complutense de Madrid
Plaza de Ciencias 3, 28040 Madrid
ISSN: 2387-1725
BEIO (Bolet́ın de Estad́ıstica e Investigación Operativa) es una revista que publica cuatrimestralmente
art́ıculos de divulgación cient́ıfica de Estad́ıstica y de Investigación Operativa. Los art́ıculos pretenden abordar
tópicos relevantes para una gran mayoŕıa de profesionales de la Estad́ıstica y de la Investigación Operativa,
primando la intención divulgativa sin olvidar el rigor cient́ıfico en el tratamiento de la materia en cuestión.
Las secciones que incluye la revista son: Estad́ıstica, Investigación Operativa, Estad́ıstica Oficial, Historia y
Enseñanza y Opiniones sobre la Profesión.
BEIO nació en 1985 como Bolet́ın Informativo de la SEIO (Sociedad de Estad́ıstica e Investigación Operativa).
A lo largo de los años ha experimentado una continua evolución. En 1994, aparece publicado el primer art́ıculo
cient́ıfico y desde entonces el número de art́ıculos cient́ıficos publicados ha ido creciendo hasta que en 2008
se segregan del Bolet́ın los contenidos relacionados con la parte informativa y comienza a perfilarse como
revista de divulgación de la Estad́ıstica y de la Investigación Operativa.
Los art́ıculos publicados en BEIO están indexados en Scopus, MathScinet, Biblioteca Digital Española
de Matemáticas, Dialnet (Documat), Current Index to Statistics, The Electronic Library of Mathematics
(ELibM), COMPLUDOC y Catálogo Cisne Complutense.
La Revista está disponible online en www.seio.es/BEIO.
Editores
Anabel Forte Deltell Francisco Parreño Torres
Universitat de València Universidad de Castilla-La Mancha
anabel.forte@uv.es francisco.parreno@uclm.es
Editores Asociados
Estad́ıstica Investigación Operativa
Paula Saavedra Nieves Eva Vallada Regalado
Universidade de Santiago de Compostela Universidad Politécnica de València
paula.saavedra@usc.es evallada@eio.upv.es
Estad́ıstica Oficial Historia y Enseñanza
Pedro Revilla Novella Ma Carmen Escribano Ródenas
Instituto Nacional de Estad́ıstica Universidad CEU San Pablo de Madrid
pedro.revilla.novella@ine.es escrod@ceu.es
Resúmenes de tesis Est. Resúmenes de tesis I.O.
Paula Navarro Esteban Mercedes Pelegŕın Garćıa
Universidad de Cantabŕıa Optimization Consultant at FICO
pnavarroesteban@gmail.com MercedesPelegrin@fico.com
Editores Técnicos
Maŕıa Alonso Pena Miguel Reula Mart́ın
KU Leuven Universidad de Valencia
maria.alonsopena@kuleuven.be miguel.reula@uv.es
Normas para el env́ıo de art́ıculos
Los art́ıculos se enviarán por correo electrónico al editor asociado correspondiente o al editor de la Revista.
Se escribirán en estilo article de Latex. Cada art́ıculo ha de contener el t́ıtulo, el resumen y las palabras clave
en inglés sin traducción al castellano. Desde la página web de la revista se pueden descargar las plantillas
tanto en español como en inglés, que los autores deben utilizar para la elaboración de sus art́ıculos.
www.seio.es/BEIO
mailto:anabel.forte@uv.es
mailto:francisco.parreno@uclm.es
mailto:paula.saavedra@usc.es
mailto:evallada@eio.upv.es
mailto:pedro.revilla.novella@ine.es
mailto:escrod@ceu.es
mailto:pnavarroesteban@gmail.com
mailto:MercedesPelegrin@fico.com
mailto:maria.alonsopena@kuleuven.be
mailto:miguel.reula@uv.es
Índice
Editorial 146
M. Guillén
Grupo de Investigación en Análisis de Riesgo . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
Estad́ıstica 149
D.-J. Lee and L. Zumeta-Olaskoaga
Can we really predict injuries in team sports? . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
Investigación Operativa 163
P. A. Íñiguez and J. M. Gallardo and M. Aburua and P.Pagano
Multi-stage variable selection method for efficiency evaluation with DEA models and panel data163
Estad́ıstica Oficial 176
M. Alba, S. Sainz-Trápaga and C. Rovira
La economı́a azul en Cataluña: Una primera aproximación metodológica para dimensionar su
contribución económica a la región . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
Historia y Enseñanza 186
V. Bizet, E. Molina-Portillo, F. Ruz and J.M. Contreras
What does the research tell us about the understanding of the random variables and its probability
distributions? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
Opiniones sobre la profesión 208
E. Bottino, L. Hidalgo
Conceptos de modelización en la formación universitaria de los analistas de datos . . . . . . . 208
BEIO, Vol. 38, Núm. 3 5
Resumen de tesis en Estad́ıstica 214
M.J. Ginzo-Villamayor
Statistical Techniques in Geolinguistics. Onomastic modeling . . . . . . . . . . . . . . . . . . 214
Resumen de tesis en Investigación Operativa 217
M. Reula
Contributions to Close-Enough Arc Routing Problems . . . . . . . . . . . . . . . . . . . . . . 217
Índice
Grupo de Investigación en Análisis de Riesgo
Montserrat Guillén Estany
Grupo de Investigación en Análisis de Riesgo
Universidad de Barcelona
mguillen@ub.edu
El análisis de riesgos constituye el fundamento estad́ıstico que subyace en muchas operaciones
financieras y aseguradoras. La mayoŕıa de los ciudadanos dispone de productos de este tipo, lo que
implica que dicho análisis afecte directamente a millones de personas en todo el mundo.
La creciente necesidad de anticipar situaciones adversas en cualquier ámbito social y empresarial
también contribuye a colocar la cuantificación de riesgos en el punto de mira. Cualquier empresa u
organización debe evaluar los efectos adversos que puedan acontecer en el desarrollo de sus proyectos
o en su operativa habitual. Por ello, los analistas de riesgos están muy demandados en el mercado
laboral y, desde hace algún tiempo, también cuentan con un consolidado prestigio más allá del entorno
asegurador y financiero.
Este grupo de trabajo de la Sociedad Española de Estad́ıstica e Investigación Operativa (SEIO) tiene
como objetivo principal reunir a los investigadores españoles que trabajan en el análisis cuantitativo
de los riesgos desde el punto de vista de la estad́ıstica. Se trata de un ámbito de investigación de
amplio alcance dadas las innumerables aplicaciones que tiene en todos los ámbitos del conocimiento
(riesgos medioambientales, de salud, financieros o empresariales, entre otros). El análisis estad́ıstico es
el principal protagonista de una correcta cuantificación de los riesgos dentro de esta gran diversidad
temática. Para apreciar el vasto rango de intereses que abarca el análisis de riesgos, basta con ojear
los últimos números de la revista ”Risk Analysis: an international journal”, que es la equivalente a
la publicación más generalista en nuestro ámbito. Esta revista contiene art́ıculos cient́ıficos en los
que de manera incesante aparecen nuevos retos a cuya resolución los estad́ısticos estamos llamados a
contribuir, y que engloban temas tan diversos como los cambios en los riesgos vinculados a catástrofes
naturales (inundaciones, terremotos,. . . ), o la ciberseguridad.
El análisis de los riesgos permite evitar, o al menos mitigar, las consecuencias de aquellos hechos
adversos que puedan preversede algún modo. Los aspectos fundamentales del análisis estad́ıstico de
riesgos son fundamentalmente dos: la probabilidad de ocurrencia de fenómenos poco frecuentes y la
severidad de las pérdidas, cuya distribución de probabilidad es muy asimétrica y presenta valores
extremos. Los trabajos publicados por los investigadores españoles de esta materia se encuentran en
las mejores revistas. Los temas que se tratan en este grupo de trabajo tienen carácter transversal,
abarcando desde el análisis de las distribuciones de probabilidad hasta el uso de grandes bases de
datos. Incluyen los modelos clásicos de las ciencias actuariales, el análisis de extremos, la modelización
predictiva o el estudio de las dependencias.
La creación de un grupo de trabajo sobre el análisis de riesgos en la SEIO permitió generar un punto
de encuentro para promover la investigación interdisciplinar en la comunidad cient́ıfica que trabaja
146
mailto:mguillen@ub.edu
BEIO, Vol. 38, Núm. 3 147
en esta temática en España. En el apartado de la página web de la SEIO que corresponde a este
grupo de trabajo, se recogen actividades que pueden ser de interés para todos los miembros. No cabe
duda de que un mayor contacto entre los investigadores favorece el impulso de nuevas ĺıneas y las
colaboraciones entre distintos grupos.
El grupo de trabajo sobre Análisis de Riesgo de la SEIO nos ha brindado una oportunidad excelente
que está llamada a ser una referencia ineludible para todos los implicados en la investigación e
innovación para la gestión de los riesgos. De la mano de sus miembros, en numerosos centros y
universidades españolas, el grupo de trabajo no ha escatimado esfuerzos en ir consolidando una
trayectoria cada vez más visible, que se vio culminada el pasado mes de octubre con la celebración
del congreso RISK 2022. En esta ocasión, el congreso tuvo lugar en Barcelona en su octava edición.
Las versiones abreviadas de la mayoŕıa de los trabajos se han publicado en el número especial 233 de
la colección Cuadernos de la Fundación MAPFRE, disponible gratuitamente en la web de su centro
de documentación. Desde aquel primer congreso celebrado en 2005 en Barcelona, los participantes
han ido creciendo en número y carácter internacional, consolidándose en las sucesivas ediciones que
han tenido lugar cada dos o tres años, con la irremediable interrupción del pasado 2020. Ha sido una
enorme satisfacción ver el resultado de ya casi dos décadas de trayectoria.
Con ponencias sobre problemas de máxima actualidad que afectan a la sociedad española, se celebró
una sesión especial en castellano, que desarrolló temas como las reformas que afectan al Sistemas
de Pensiones, la longevidad a partir de la edad de jubilación, la siniestralidad en carretera para
conductores mayores, la creación y destrucción de empleo, o los recursos hospitalarios ante una
pandemia. En el resto de las sesiones, hasta completar un total de ocho bloques, los participantes
de todo el mundo (con ponentes presenciales de Canadá, EEUU, Francia, Bélgica, Italia, Alemania,
Hungŕıa, Polonia y otros conectados en remoto desde Japón, Australia y Canadá) presentaron trabajos
muy innovadores sobre riesgos de cola, medidas de riesgos dependientes y metodoloǵıas propias del
análisis de los mercados e instrumentos financieros. Numerosos trabajos se volcaron en explorar el
análisis de datos vinculado al propio análisis de riesgos, sobre todo en situaciones de datos masivos
o con aproximaciones novedosas basadas en el aprendizaje de máquina. El resultado, en forma de
congreso abierto para todo el mundo (en v́ıdeos de ciencia abierta disponible en YouTube), dio
todav́ıa mayor valor al mucho tiempo que han dedicado los investigadores a realizar las contribuciones
que se presentaron en las jornadas.
Para finalizar, y con su permiso, me permito evocar algunas ideas que pueden esclarecer el ámbito
en el que trabajamos y nuestra razón de ser. Cuando ocurre algo indeseado, y especialmente si le
atribúıamos escasa probabilidad, solemos cuestionamos si pudimos haberlo evitado; además, si el
daño nos afecta directamente, exigimos responsabilidades y somos inflexibles. En una sociedad como
la nuestra, donde premiamos la inmediatez, suele apelarse a la prevención como aquello que pudo
habernos salvado. Por esa razón, el análisis de riesgos está ocupando un espacio cada vez mayor en
todas nuestras actividades.
Si no fuésemos conscientes de los riesgos que asumimos como sociedad, no cesaŕıamos de iniciar
tareas que acarreaŕıan calamidades, y seŕıan precisamente esas iniciativas excesivamente intrépidas
y mal calibradas las que nos acabaŕıan destruyendo. En el extremo opuesto, si nuestra aversión al
riesgo como sociedad fuera demasiado elevada, no avanzaŕıamos, ni conseguiŕıamos evolucionar, aśı
que posiblemente ya nos habŕıamos extinguido como especie. En definitiva, parece que se impone
una sabia moderación.
Los miembros del grupo de trabajo de Análisis de Riesgos somos conscientes de que toda actividad
puede acarrear un peligro. Por eso tenemos como objetivo el investigar cómo cuantificar y valorar
Editorial
BEIO, Vol. 38, Núm. 3 148
esos riesgos para que, aunque existan, no nos impidan avanzar. No podemos olvidar que quienes
mejor gestionan los riesgos minimizan su impacto y acaban brillando más que el resto.
Agradecimientos
La autora de este breve texto quiere agradecer a todos los miembros del Grupo de Trabajo en Análisis
de Riesgos de la Sociedad de Estad́ıstica e Investigación Operativa todo el tiempo y esfuerzo invertido
en la creación del mismo. Sin su dedicación y apoyo no habŕıa sido posible establecer unas sólidas
bases para un fruct́ıfero futuro.
Acerca del autor
Montserrat Guillén Estany Montserrat Guillén es catedrática de la Universitat
de Barcelona, en el Departamento de Econometŕıa, Estad́ıstica y Economı́a Aplicada
y directora del grupo de investigación RISKcenter en la UB. Coordina el grupo de
trabajo de Análisis de Riesgo de la SEIO. Es profesora visitante honoŕıfica de la City,
University of London. Su especialidad es la estad́ıstica aplicada a los seguros y el
análisis de riesgo. Es editora de la revista SORT-Statistics and Operations Research
Transactions y de diversas resistas cient́ıficas en el ámbito actuarial y asegurador. Más
información: http://www.ub.edu/riskcenter/guillen
Editorial
http://www.ub.edu/riskcenter/guillen
Can we really predict injuries in team sports?
Dae-Jin Lee
Applied Statistics Research Line
BCAM-Basque Center for Applied Mathematics
ORCid: 0000-0002-8995-8535
dlee@bcamath.org
Lore Zumeta-Olaskoaga
Applied Statistics Research Line
BCAM-Basque Center for Applied Mathematics
Departamento de Matemáticas
Universidad del Paı́s Vasco (UPV/EHU)
ORCid: 0000-0001-6141-1469
lzumeta@bcamath.org
Abstract
In the last decade several works have emerged in which statistical and machine learning methods
have been proposed for the prediction of sports injuries. The field of medicine and sports science has
included in its area multidisciplinary profiles with expertise in data analysis, injury epidemiology or
artificial intelligence. However, injury phenomena are very complex and multifactorial. Understanding
the mechanisms that produce an injury remains extremely complex and requires expert knowledge.
This paper aims to illustrate from a statistical perspective what challenges need to be addressed from
data collection, analysis of athlete performance and scientific reflection on questions of interest for
knowledge-based decision making in data analysis in sport.
Keywords: sports injury data, athlete’s performance, statistical modelling, survival analysis.
MSC Subject classifications: 62J02, 62J07, 62N01, 62M10.
1. Introduction
Injuries are common in professional sports and can have significant physical, psychological and financial
consequences on a team performance and considerable impact in athletes’ careers. Understanding
149
https://orcid.org/0000-0002-8995-8535mailto:dlee@bcamath.org
https://orcid.org/0000-0001-6141-1469
mailto:lzumeta@bcamath.org
BEIO, Vol. 38, Núm. 3 150
injury risk factors and their interplay is thereby a key component of preventing future injuries in sport
(Bahr and Krosshaug, 2005; Finch, 2006). During the last decade, thanks to the professionalisation of
the specialists involved in sports teams and the use of new technologies (e.g. computer vision, thermal
cameras, Global Positioning Systems, etc ... ), the interest in the modelling and prediction of injuries
in professional sports through machine learning and artificial intelligence algorithms has dramatically
grown (see Fiscutean, 2021; Jauhiainen et al., 2021; Ley et al., 2022 for a detailed review). Hence,
the field of sports medicine and sports science has become an interesting field of research for data
scientist, statisticians and computer scientists, such that a new role of sports biostatistician, with
knowledge in statistics, epidemiology, sports medicine and communication skills is more and more
required in professional team sports (Casals and Finch, 2017).
Here, we will address some of the most important challenges facings sports science and medicine
research, from our (probably biased) perspective and based on our recent experience in collaborations
with a professional football team.
2. Some modelling challenges in sports injury
In this section, we focus on sports injury data modelling from the perspective of:
1. Sports injury data. From a descriptive analysis, to injury incidence and burden and graphical
representations, exploratory data analysis all this is crucial to pose the right questions related
to sports injuries epidemiology from a team sports perspective (e.g. is my supported team
more impacted by injuries than the others?, which type of injuries were most frequent? And
most burdensome? or how does injury affect on the performance of the team in terms of the
final classification?).
2. The analysis of training (internal and external) loads. Internal Load represents an
individual athlete’s response to training, and can be quantified by the intensity and duration of
the physiological stress imposed on the athlete. The internal load is better explained with the
external load that consists of what can be measured by GPS and accelerometers (i.e. distance
in different speed zones, total distance covered, etc ...).
3. Self-report wellness. Self-report wellness questionnaires are a relatively simple and inex-
pensive means for determining an athlete’s training load and their subsequent responses to
that training. In fact, this is the most common method for monitoring athlete fatigue and
recovery. A substantial amount of research has been conducted which confirms that wellness
questionnaires, can indicate changes in training load/stress in elite team sport athletes.
4. Modelling injury risk. Based on the question of interest (either epidemiological or an
individual athlete’s performance or conditioning) the modelling approach may differ. We
consider a time-to-event analysis approach that is a useful statistical tool to analyze the
influence of changing exposures on injury risk. Time-to-event modelling allow change in
training load to be included as a time-varying exposure for sport injury and modelling recurrent
events.
There are other many aspects that are related to sports injury that are not included in the previous
classification that are of great interest in the sports injury field.
Estad́ıstica
BEIO, Vol. 38, Núm. 3 151
Fig. 1: Representation of Liverpool FC injuries on seasons 2017/18 and 2018/19.
2.1. Sports injury data analysis: the R package injurytools
The R package injurytools (L. Zumeta-Olaskoaga and Lee, 2022) facilitates the data analysis
workflow by providing convenience functions and handy tools for sports injury data1. To illustrate
some capabilities of the package, it includes injury data from top European teams in the four leagues:
La Liga (Spain), Bundesliga (Germany), Premier League (England) and Serie A (Italy). The package
includes several functions that can be classified into (sports injury) data preparation, descriptive
analyses and data visualisation routines.
The aim of the package is: 1) to provide a consistent way and general routines to analyse sports
injury data, in R, including functions to perform informative visualisations and functions to facilitate
the estimation of injury summary statistics, following the standards established in the consensus
statement on injuries; 2) to help automate the descriptive reports that are routinely performed for
sports injury surveillance. The statistical modelling of sports injuries is for the moment beyond
the scope of injurytools, but the data structures are suitable for further analyses with other R
packages and methods.
To illustrate some examples, we consider data scrapped from the German webpage Transfermarkt
(https://www.transfermarkt.com/). Figure 1 shows a descriptive visualization of the injuries of
Liverpool FC male team during 2017-2018 and 2018-2019 seasons. The horizontal axis represent the
time line and the vertical line the Liverpool FC players. For each player, the black line represents
the time the player was enrolled to the team with symbols × and ◦ to denote the date of the injury
and the date of recovery and player’s availability to train and play matches respectively.
The extent of the sports injury problem is often described by injury incidence and by indicators of
the severity of sports injuries. Sports injury incidence should preferably be expressed as the number
of sports injuries per exposure time (e.g. per 1000 hours of sports participation, i.e. training sessions
1 The injurytools package is under construction and can be accessed at https://lzumeta.github.io/injurytools.
Estad́ıstica
https://www.transfermarkt.com/
https://lzumeta.github.io/injurytools
BEIO, Vol. 38, Núm. 3 152
Team N players N Injuries
N Injuries per season
(IQR)
Incidence
(95% CI)
N days
lost
Median days lost
per injury (IQR)
Burden
(95% CI)
Barcelona 56 227
51.2
(50.5-53.2)
8.65
(7.7-9.6)
5261
12
(6-24)
200.48
(195.9-205.1)
Borussia Dortmund 55 385
93.2
(84.8-99.5)
17.39
(15.9-18-8)
5931
7
(3-17)
267.64
(262.1-273-6)
Liverpool 54 168
39
(28.5-45-5)
6.96
(6.1-7.8)
5275
14
(7-28)
218.41
(213.5-223.4)
Roma 57 224
54.2
(50.5-58.2)
10.25
(9.1-11.4)
4036
10
(5-20)
184.61
(179.8-189.4)
Tab. 1: Numerical comparisons among four European teams (Barcelona, Borussia Dortmund, Liver-
pool and Roma). Results are reported as 100 player-match exposure; CI: Confidence Interval;
IQR: Interquartile Range. Incidence: number of injuries per unit of player-exposure time
(frequency). Burden: number of days lost per unit of player-exposure time (severity and
frequency).
and matches) in order to facilitate the comparability of research results (WW.Van Mechelen, Hlobil,
and Kemper, 2012).
Thus, when attempting to describe the distribution of injuries it is necessary to relate this to the
population at risk over a specified time period. This is why the fundamental unit of measurement
is a rate. A rate is a measure that consists of a denominator and a numerator over a period of
time. Denominator data can be a number of different things (e.g. number of minutes trained/played,
number of matches played). As such, it reflects the speed at which new “injury-related” events occurs.
There are two important definitions to consider:
Definition 1 (Injury incidence rate). Injury incidence rate is the number of new injury cases (I)
per unit of player-exposure time, i.e.
Ir =
I
∆T
(1)
Definition 2 (Injury burden rate). Injury burden rate is the number of days lost (nd) per unit of
player-exposure time, i.e.
Ibr =
nd
∆T
(2)
where ∆T is the total time under risk of the study population.
Note that, either injury incidence (Ir) nor injury burden (Ibr) are ratios, and they are not interpreted
as a probability; they are rates and their unit (person-time)−1 (e.g. per 1000h of player-exposure,per player-season etc ...).
In Table 1, exposure time unit is match minutes, hence injury incidence and injury burden are
calculated per 100 player-matches of exposure (90 minutes times 100). Indeed, a correct exposure
time should include training minutes for the total exposure time. However, Transfermarkt webpage
do not collect the training minutes per team or per player.
Figure 2 shows the injury incidence and burden evolution of four European teams from season
2008-2009 to 2018-19. This plot is merely a descriptive and forecasting for the future seasons does
not make any sense for such a short time series. The trend in the incidence of all type injuries has
increased in Borussia Dortmund, for the rest of the teams the trend is not clear. However the injury
burden has not a clear trend in any of the teams analyzed. Overall the most impacted team by
Estad́ıstica
BEIO, Vol. 38, Núm. 3 153
Fig. 2: Comparison of linear trends among four European teams (Barcelona, Borussia Dortmund,
Liverpool and Roma). Incidence: number of injuries per unit of player-exposure time
(frequency). Burden: number of days lost per unit of player-exposure time (severity and
frequency).
injuries was Borussia Dortmund. Liverpool was the team with lowest injury incidence. In terms of the
type of injuries (classified in Transfermarkt as muscular, ligament, concussion, bone and unknown),
in all seasons and teams, most frequent injuries were muscle injuries. Ligament injuries were by far
the most burdensome in Liverpool 2015/16, Roma 2016/17 and Borussia Dortmund 2017/18 (results
not shown).
Another way to visualize sports injury data is the so-called risk matrix of injuries in Figure 3. For
season 2017/18 it shows the relationship between the severity (consequence) and incidence (likelihood)
of the most common injuries (Bahr, Clarsen, and Ekstrand, 2018; Fuller, 2018). The main advantages
of using risk matrices, and the reasons for their attractiveness, are the minimal inputs required,
the convenience of understanding the visual information presentation, the transparent nature of
the assessment standards and the simplicity with which the conclusions can be communicated to
stakeholders. Injury burden is most often used for risk evaluation that motive the lost of days of
training and matches, ranking the importance of injuries risk factors and prioritising injury prevention
plans.
2.2. Athletes’ performance: strength, conditioning and wellness
Strength and conditioning professionals aim to maximize athletic performance and reduce the
associated injury risk. Therefore, understanding the relationships between different physical capacities
and performance metrics, as well as the acute and long-term effects of distinct training interventions
Estad́ıstica
BEIO, Vol. 38, Núm. 3 154
Fig. 3: Risk matrices for Barcelona, Borussia Dortmund, Liverpool and Roma for season 2016-2017.
on athletic populations is crucial for coaches and practitioners. Now, we will first define the internal
and the external load.
The internal load
The Borg scale also known as rate of perceived exertion (or RPE) is an instrument that was created
for the purpose of measuring effort in training, it measures, as its name suggests, the perception
of effort, intensity and volume of physical activity, so it is a good alternative to assess the level of
demand in each workout. The session rating of perceived exertion (sRPE) proposed by Foster, 1998
considers the overall effort of the training session (i.e. the product between RPE and the total time of
the training/match session, which is also generally referred to as Training Load (TL)). Two different
RPE scales are used in sports: (i) CR-10 where the RPE values are ranged between 0 (no exertion at
all) and 10 (maximal exertion), and (ii) 6–20 scale where the values are ranged between 6 (no exertion
at all) and 20 (maximal exertion). The TL is widely used in sports as an easy index describing the
athletes’ internal workload. Another important feature describing the internal workload is heart rate
(HR). Even if HR is an important objective index of internal load, the use of heart rate monitoring
in team sports is not a standardized procedure due to the fact that the chest strap is uncomfortable
while performing contact sports.
Estad́ıstica
BEIO, Vol. 38, Núm. 3 155
The external load
External workloads are defined as the training features that describe the effort performed during
training or match sessions. Global Position System (GPS) commonly records such features. The use
of GPS ‘wearable technology’ in high-performance sport is becoming increasingly popular (Cummins
et al., 2013; Colby et al., 2014; Chambers et al., 2015). The type of variables collected from the
devices are:
“Kinematic variables”. Measures athlete’s overall movement during a training session, e.g.,
total distance and high-speed running distance (Distance in meters covered above 5.5 m/s);
“Metabolic variables”. Measures the energy expenditure of an athlete’s overall movement during
a training session, e.g., high metabolic load distance (distance in meters covered by a player
with a Metabolic Power is above 25.5 W/Kg);
“Mechanical variables”. Describes athlete’s overall musculo-skeletal load during a training
session, e.g., explosive distance (Distance in meters covered above 25.5 W/Kg and below 19.8
Km/h), and the number of accelerations and decelerations above 2 and 3 m/s2.
These features are the most used to evaluate external workloads and to predict the risk of injury
(Rossi, Pappalardo, et al., 2018).
Self-reported wellness
Perceived wellness has been linked with both internal and external stressors, as well as muscle damage
biomarker. Several questionnaires are used in sports to evaluate players’ well-being, the most general
one consist of a 5-point Likert scale of 5 items (i.e., fatigue, sleep quality, soreness, stress, and mood),
where 1 and 5 indicated the highest and lowest values of wellness for each item. See Table 2 (McLean
et al., 2010).
Wellness data is not standardized between individuals, and equivalent scores may not indicate
equivalent levels of fatigue and/or wellness (Thornton et al., 2016). The data must be considered
within the individual context of each player and, thus, it’s necessary to use relative change within
each player when interpreting longitudinal trends amongst groups.
These forms generally consist of 5-12 items using 1-to-5 or 1-to-10 point Likert scales, or modification
of existing questionnaires by placing greater emphasis on ratings of muscle soreness, physical fatigue
and general wellness.
In the past decade, significant efforts have been made to understand injury risk in sport using
subjective (i.e. rating of perceived exertion) and objective (i.e. accelerometers, gyroscopes and
magnetometers) player monitoring strategies.
3. Modelling sports injury risks
Modelling sports injury data encompasses the complex time-varying and recurrent nature of injuries:
an athlete’s injury susceptibility may change over time, and moreover, an athlete can sustain more
than one injury, as subsequent injuries are often influenced by previous ones (Hägglund, Waldén,
Estad́ıstica
BEIO, Vol. 38, Núm. 3 156
5 4 3 2 1
Fatigue Very fresh Fresh Normal More tired
than normal
Always tired
Sleep quality Very restful Good Difficult falling
asleep
Restless sleep Insomnia
Soreness Feeling great Feeling good Normal Increase
in sore-
ness/lightness
Very sore
Stress Very relaxed Relaxed Normal Feeling
stressed
Highly stressed
Mood Very positive
mood
A generally
good mood
Less interested
in other and/or
activities than
usual
Snappiness at
teammates,
family and
co-workers
Highly an-
noyed/ irrita-
ble/down
Tab. 2: Wellness questionnaire test.
and Ekstrand, 2006). Models for recurrent events are appealing for sports injuries prevention (Ullah,
Gabbett, and Finch, 2014; Rasmus Oestergaard Nielsen et al., 2019; R. O. Nielsen et al., 2019).
A non-exhaustive list of methods and algorithms inthe literature are:
Generalized linear/additive models, regression trees and random forests.
Survival analysis and time-to-event data analysis.
Mixed-effects models (longitudinal modelling).
Multivariate times series for classification (injury/non-injury).
Variable selection and dimension reduction.
Figure 4 presents the Kaplan-Meier curves for the four European teams analyzed in Section 2.1 for
the time to the first injury of the season (for minutes per match played until the first injury of the
season 2017/18). The Kaplan-Meier estimates is to be used to measure the fraction of football players
available for training and matches for a certain amount of time. For recurrent events a gap time
approach can be considered (Ullah, Gabbett, and Finch, 2014). Lore Zumeta-Olaskoaga et al., 2021
consider the gap time approach for predicting sports injuries with regularized cox regression models
with frailty including covariates from functional screening tests and anthropometric measurements
of female players during one regular season. A major challenge in sports injury data is usually the
small sample size and the few number of injuries.
When internal and external load is considered in the analysis, the most commonly used measure is
the acute:chronic workload ratio (ACWR), that comprised an athlete’s ‘fitness’ and ‘fatigue’, and can
be calculated using very basic time series analysis methods such as the rolling average (RA) model
or the exponentially weighted moving average (EWMA) model. The actual value computed by the
ACWR has different implications, and can assist fitness coaches in understanding the readiness of an
athlete, the relative injury risk of an athlete from day-to-day, and therefore, with carefully planned
intervention, can help to prevent injury. This ratio is usually considered as a flagging value for injury
risk.
Estad́ıstica
BEIO, Vol. 38, Núm. 3 157
Fig. 4: Comparison of Kaplan-Meier curves for four European teams (Barcelona, Borussia Dortmund,
Liverpool and Roma).
Definition 3 (Acute workload). Typically, this is the workload performed by an athlete in 1-week (7
days). This value contains both training-and match-load information over this 7-day period. The
acute workload represents the ‘fatigue’ aspect of the ACWR.
Definition 4 (Chronic workload). The chronic workload is typically the 4-week (28 day) average
acute workload. This value is important as it provides a clear indication of what an athlete has done
leading up to the present training or match day. Therefore, it is commonly viewed as an indication
of an athlete’s ‘fitness’.
Several studies suggested that large increases in acute workload with respect to the chronic workload
(i.e. the average training workload of the previous month) are associated with an increased injury
risk (Hulin et al., 2014). In particular, they showed that players with a high ratio between acute and
chronic workload are more likely to become injured compared to those with a lower ratio . Traditional
calculations of ACWR are ‘mathematically coupled’, as the most recent week is included in estimates
of both the acute and chronic workloads. The uncoupled version consists of using the ACWR where
the acute load is not part of the chronic load instead.
The R package ACWR (Fernandez-Santos, 2022), allows for computing the ACWR using three different
methods: exponentially weighted moving average (EWMA), rolling average coupled (RAC) and
rolling averaged uncoupled (RAU) in Williams et al., 2017; Windt and Gabbett, 2019.
Figure 5 illustrates the daily training load of an athlete (sPRE) through a regular season. The
vertical lines represent the sRPE per type of session (match or training) and the grey shades areas
are the time period the athlete was injured. Similar plots can be obtained from other external and
Estad́ıstica
BEIO, Vol. 38, Núm. 3 158
Fig. 5: Simulated daily training loads (sRPE) of an athlete over a season. There are training and
match sessions and the external load measure consist of ACWR (coupled version). Additionally,
acute and chronic workload are show. Grey shaded areas show the days the athlete was
injured.
internal loads (i.e. kinematic, metabolic and mechanical variables, training loads and wellness tests)
and a multivariate approach for forecasting injuries in soccer for evaluating and interpreting the
complex relations between injury risk and training performance (Rossi, Pappalardo, et al., 2018;
Rossi, Perri, et al., 2022).
4. So can we really predict injuries in team sports?
In the last decade, the number of studies about machine learning algorithms applied to sports, e.g.,
injury forecasting and athlete performance prediction, have rapidly increased. However, a world
where we can prevent sports injuries before they happen is impossible, sports injuries occur and
will continue to occur. However, it is entirely possible to accurately assess your risk level in terms
of physical activity and injury. From lifestyle to biological constitution or genetic characteristics,
there are many factors that influence an athlete’s level of sports injury risk. In this paper, we have
presented some challenges in team sports injury risk modelling, from the type of data collected, the
concepts of performance and strength of the internal/external training loads and self-report wellness
questionnaires. However, the leading approaches in machine learning are notoriously data-hungry.
Unfortunately, in teams sports injury field there is no large number of injury data because acquiring
data involves a process that is expensive or time-consuming.
However, the most important aspect in sports injury data modelling comes from a sports science
and medical staff perspective. It is important to effectively use evidence-based knowledge to develop
decision-making processes that reduce injury risk and optimize athlete performance (Drew, Raysmith,
and Charlton, 2017; Meyer, 2017; Nassis, 2017). From our perspective, as statisticians, statistical
modelling plays an important role in bridging the gap for understanding and quantifying the risk
of team sports injuries where awareness about relevant concepts such as causality, association and
Estad́ıstica
BEIO, Vol. 38, Núm. 3 159
complexity are crucial rather prediction of an athletes’ injury itself (Meeuwisse, 1994; Ruddy et al.,
2019; Fonseca et al., 2020). An evidence-based injury risk assessment can help prevent future injuries
and increase your potential for better performance.
Unfortunately, we can never predict injuries with complete certainty because we certainly can’t
predict the future. However, there is a way to determine injury risk, which in part can help predict
or even prevent sports injuries.
Based on scientific research and the sciences of biomechanics, kinesiology, and ergonomics, the sports
and medical communities have identified certain risk factors that can lead to sports injuries. Of
course, risking any or all of these factors doesn’t necessarily mean you’ll end up hurting. However,
knowing that you are at risk will help prevent many types of sports injuries in the future.
Acknowledgments
This research was funded by projects PID2020-115882RB-I00 funded by Agencia Estatal de Investi-
gación and acronym “S3M1P4R”, by the Basque Government (BERC 2022-2025 program) and by
the Spanish Ministry of Science, Innovation, and Universities (BCAM Severo Ochoa accreditation
SEV-2017-0718). This project has been also funded by the Provincial Council of Bizkaia within the
Technology Transfer Programme 2022 and is co-financed by the European Regional Development
Fund (ERDF) through the project “MATH4SPORTS - Modelización matemática para la industria
deportiva: salud y rendimiento.” Provincial Council of Bizkaia 6/12/TT/2022/00006 (BFA/DFB).
Acerca de los autores
Dae-Jin Lee Dae-Jin is a researcher at the Basque Center for Applied
Mathematics (BCAM) and research line leader of the Applied Statis-
tics research line (Data Science and Artificial Intelligence Area). His
primary researchinterests are non-parametric smoothing methods in
general with applications in Biostatistics, Environmental Modelling,
Epidemiology, Mortality and Times Series Analysis. He is also working
on Health-Related Quality of Life data modeling, complex data mod-
eling, computational statistics and sports analytics. He is also Data
Science coordinator of the Knowledge Transfer Unit at BCAM. The
aim of BCAM Knowledge Transfer Unit is to develop mathematical
solutions for scientific challenges based on real-life applications.
Estad́ıstica
BEIO, Vol. 38, Núm. 3 160
Lore Zumeta-Olaskoaga She is a PhD student at the BCAM -
Basque Center for Applied Mathematics in the Applied Statistics
Group under the supervision of Dr. Dae-Jin Lee. She is interested in
statistical modelling research, software development and applications of
statistics, in particular, to the fields of Sports Medicine, Epidemiology
and Biomedicine. Her PhD project aims to develop statistical methods
and software for the estimation of injury risk and incidence in the
context of professional sport (football), focusing on the framework of
recurrent time-to-event data analysis. The project is supported by the
Severo Ochoa predoctoral fellowship (MICINN, Spain).
References
Bahr, R., B. Clarsen, and J. Ekstrand (Aug. 2018). ((Why we should focus on the burden of injuries
and illnesses, not just their incidence)). In: Br J Sports Med 52 (16), pp. 1018–1021. issn: 14730480.
doi: 10.1136/bjsports-2017-098160.
Bahr, R. and T. Krosshaug (June 2005). ((Understanding injury mechanisms: a key component
of preventing injuries in sport)). In: Br J Sports Med 39 (6), pp. 324–329. issn: 03063674. doi:
10.1136/bjsm.2005.018341.
Casals, M. and C. F. Finch (Dec. 2017). ((Sports Biostatistician: A critical member of all sports
science and medicine teams for injury prevention)). In: Injury Prevention 23 (6), pp. 423–427. issn:
14755785. doi: 10.1136/injuryprev-2016-042211.
Chambers, R., T. J. Gabbett, M. H. Cole, and A. Beard (July 2015). ((The Use of Wearable
Microsensors to Quantify Sport-Specific Movements)). In: Sports Medicine 45 (7), pp. 1065–1081.
issn: 11792035. doi: 10.1007/s40279-015-0332-9.
Colby, M. J., B. Dawson, J. Heasman, B. Rogalski, and T. J. Gabbett (2014). ((Accelerometer
and GPS-derived running loads and injury risk in elite Australian footballers)). In: Journal of
Strength and Conditioning Research 28 (8), pp. 2244–2252. issn: 15334295. doi: 10.1519/JSC.
0000000000000362.
Cummins, C., R. Orr, H. O’Connor, and C. West (Oct. 2013). ((Global positioning systems (GPS)
and microtechnology sensors in team sports: A systematic review)). In: Sports Medicine 43 (10),
pp. 1025–1042. issn: 01121642. doi: 10.1007/s40279-013-0069-2.
Drew, M. K., B. P. Raysmith, and P. C. Charlton (Aug. 2017). ((Injuries impair the chance of successful
performance by sportspeople: A systematic review)). In: British Journal of Sports Medicine 51 (16),
pp. 1209–1214. issn: 14730480. doi: 10.1136/bjsports-2016-096731.
Fernandez-Santos, J. R (2022). ACWR: Acute Chronic Workload Ratio Calculation. R package version
0.1.0. url: https://CRAN.R-project.org/package=ACWR.
Finch, C. F. (2006). ((A new framework for research leading to sports injury prevention)). In: Journal
of Science and Medicine in Sport 9 (1-2), pp. 3–9. doi: 10.1016/j.jsams.2006.02.009.
Fiscutean, A. (Apr. 2021). ((Data scientists are predicting sports injuries with an algorithm)). In:
Nature 592 (S10-S11). doi: 10.1038/d41586-021-00818-1.
Fonseca, S. T., T. R. Souza, E. Verhagen, R. van Emmerik, N.F.N. Bittencourt, L.D.M. Mendonça,
A. G.P. Andrade, R. A. Resende, and J. M. Ocarino (2020). ((Sports Injury Forecasting and
Complexity: A Synergetic Approach)). In: Sports Medicine (0123456789). issn: 11792035. doi:
10.1007/s40279-020-01326-4.
Estad́ıstica
https://doi.org/10.1136/bjsports-2017-098160
https://doi.org/10.1136/bjsm.2005.018341
https://doi.org/10.1136/injuryprev-2016-042211
https://doi.org/10.1007/s40279-015-0332-9
https://doi.org/10.1519/JSC.0000000000000362
https://doi.org/10.1519/JSC.0000000000000362
https://doi.org/10.1007/s40279-013-0069-2
https://doi.org/10.1136/bjsports-2016-096731
https://CRAN.R-project.org/package=ACWR
https://doi.org/10.1016/j.jsams.2006.02.009
https://doi.org/10.1038/d41586-021-00818-1
https://doi.org/10.1007/s40279-020-01326-4
BEIO, Vol. 38, Núm. 3 161
Foster, C. (July 1998). ((Monitoring training in athletes with reference to overtraining syndrome)). In:
Med Sci Sports Exerc. 30 (7), pp. 1164–1168. issn: 01959131. doi: 10.1097/00005768-199807000-
00023.
Fuller, C. W. (July 2018). ((Injury Risk (Burden), Risk Matrices and Risk Contours in Team Sports:
A Review of Principles, Practices and Problems)). In: Sports Medicine 48 (7), pp. 1597–1606. issn:
11792035. doi: 10.1007/s40279-018-0913-5.
Hägglund, M., M. Waldén, and J. Ekstrand (Sept. 2006). ((Previous injury as a risk factor for injury
in elite football: a prospective study over two consecutive seasons)). In: British journal of sports
medicine 40 (9), pp. 767–772. issn: 1473-0480. doi: 10.1136/BJSM.2006.026609.
Hulin, B. T., T. J. Gabbett, P. Blanch, P. Chapman, D. Bailey, and J. W. Orchard (2014). ((The
acute-chronic workload ratio-injury figure and its ‘sweet spot’ are flawed)). In: British Journal of
Sports Medicine 48 (8), pp. 708–712. issn: 14730480. doi: 10.1136/bjsports-2013-092524.
Jauhiainen, S., J. P. Kauppi, M. Leppänen, K. Pasanen, J. Parkkari, T. Vasankari, P. Kannus, and
S. Ayramo (Feb. 2021). ((New Machine Learning Approach for Detection of Injury Risk Factors
in Young Team Sport Athletes)). In: International journal of sports medicine 42 (2), pp. 175–182.
issn: 1439-3964. doi: 10.1055/A-1231-5304.
Ley, C., R. K. Martin, A. Pareek, A. Groll, R. Seil, and T. Tischer (2022). ((Machine learning and
conventional statistics: making sense of the differences)). In: Knee Surgery, Sports Traumatology,
Arthroscopy 30 (3), pp. 753–757. issn: 14337347. doi: 10.1007/s00167-022-06896-6.
McLean, B. D., A.J. Coutts, V. Kelly, M. R. McGuigan, and S. J. Cormack (Sept. 2010). ((Neuro-
muscular, Endocrine, and Perceptual Fatigue Responses During Different Length Between-Match
Microcycles in Professional Rugby League Players)). In: International Journal of Sports Physiology
and Performance 5 (3), pp. 367–383. issn: 1555-0273. doi: 10.1123/IJSPP.5.3.367.
Meeuwisse, W.H. M.D. (1994). ((Assessing causation in sport injury: A multifactorial model)). In:
Clinical Journal of Sport Medicine 4 (3), pp. 166–170. issn: 1050642X. doi: 10.1097/00042752-
199407000-00004.
Meyer, T. (May 2017). ((How much scientific diagnostics for high-performance football?)) In: Science
and Medicine in Football 1 (2), p. 95. issn: 24734446. doi: 10.1080/24733938.2017.1342327.
Nassis, G. P. (Sept. 2017). ((Leadership in science and medicine: can you see the gap?)) In: Science and
Medicine in Football 1 (3), pp. 195–196. issn: 24734446. doi: 10.1080/24733938.2017.1377845.
Nielsen, R. O., M. L. Bertelsen, D. Ramskov, M. Møller, Adam H., D. Theisen, C. F. Finch, L. V.
Fortington, M. A. Mansournia, and E. T. Parner (Jan. 2019). ((Time-to-event analysis for sports
injury research part 2: Time-varying outcomes)). In: British Journal of Sports Medicine 53 (1),
pp. 70–78. issn: 14730480. doi: 10.1136/BJSPORTS-2018-100000.
Nielsen, Rasmus Oestergaard, Michael Lejbach Bertelsen, Daniel Ramskov, Merete Møller, Adam
Hulme, Daniel Theisen, Caroline F. Finch, Lauren Victoria Fortington, Mohammad Ali Mansournia,
and Erik Thorlund Parner (Jan. 2019). ((Time-to-event analysis for sports injury research part 1:
time-varying exposures)). In: British Journal of Sports Medicine 53 (1), pp. 61–68. issn: 0306-3674.
doi: 10.1136/BJSPORTS-2018-099408.
Rossi, A., L. Pappalardo, P. Cintia, F. M. Iaia, J. Fernàndez, and D. Medina (July 2018). ((Effective
injury forecasting in soccer with GPS training data and machine learning)). In: PLOS ONE 13 (7).
Ed. by Jaime Sampaio, e0201264. issn: 1932-6203. doi: 10.1371/journal.pone.0201264.
Rossi, A., E.Perri, L.Pappalardo, P. Cintia, G. Alberti, D. Norman, and F. M. Iaia (June 2022).
((Wellness Forecasting by External and Internal Workloads in Elite Soccer Players: A Machine
Learning Approach)). In: Frontiers in Physiology 13. issn: 1664042X. doi: 10.3389/FPHYS.2022.
896928/FULL.
Estad́ıstica
https://doi.org/10.1097/00005768-199807000-00023
https://doi.org/10.1097/00005768-199807000-00023
https://doi.org/10.1007/s40279-018-0913-5
https://doi.org/10.1136/BJSM.2006.026609
https://doi.org/10.1136/bjsports-2013-092524
https://doi.org/10.1055/A-1231-5304
https://doi.org/10.1007/s00167-022-06896-6
https://doi.org/10.1123/IJSPP.5.3.367
https://doi.org/10.1097/00042752-199407000-00004
https://doi.org/10.1097/00042752-199407000-00004
https://doi.org/10.1080/24733938.2017.1342327
https://doi.org/10.1080/24733938.2017.1377845
https://doi.org/10.1136/BJSPORTS-2018-100000
https://doi.org/10.1136/BJSPORTS-2018-099408
https://doi.org/10.1371/journal.pone.0201264
https://doi.org/10.3389/FPHYS.2022.896928/FULL
https://doi.org/10.3389/FPHYS.2022.896928/FULL
BEIO, Vol. 38, Núm. 3 162
Ruddy, J. D., S.J. Cormack, R. Whiteley, M. D. Williams, R. G. Timmins, and D.A. Opar (July 2019).
((Modeling the Risk of Team Sport Injuries: A Narrative Review of Different Statistical Approaches)).
In: Frontiers in Physiology 10, p. 829. issn: 1664-042X. doi: 10.3389/fphys.2019.00829.
Thornton, H. R., J. A. Delaney, G. M. Duthie, B. R. Scott, W. J. Chivers, C. E. Sanctuary, and B. J.
Dascombe (May 2016). ((Predicting Self-Reported Illness for Professional Team-Sport Athletes)). In:
International journal of sports physiology and performance 11 (4), pp. 543–550. issn: 1555-0273.
doi: 10.1123/IJSPP.2015-0330.
Ullah, S., T. J. Gabbett, and C. F. Finch (2014). ((Statistical modelling for recurrent events: An
application to sports injuries)). In: British Journal of Sports Medicine 48 (17), pp. 1287–1293. doi:
10.1136/bjsports-2011-090803.
Williams, Sean, Stephen West, Matthew J Cross, and Keith A Stokes (2017). ((Better way to determine
the acute:chronic workload ratio?)) In: British Journal of Sports Medicine 51 (3), pp. 209–210. issn:
0306-3674. doi: 10.1136/bjsports-2016-096589.
Windt, J. and T. J. Gabbett (Aug. 2019). ((Is it all for naught? What does mathematical coupling
mean for acute:chronic workload ratios?)) In: British Journal of Sports Medicine 53 (16), pp. 988–
990. issn: 0306-3674. doi: 10.1136/BJSPORTS-2017-098925.
WW.Van Mechelen, H. Hlobil, and H.C.G. Kemper (Oct. 2012). ((Incidence, Severity, Aetiology and
Prevention of Sports Injuries)). In: Sports Medicine 1992 14:2 14 (2), pp. 82–99. issn: 1179-2035.
doi: 10.2165/00007256-199214020-00002.
Zumeta-Olaskoaga, L. and D.-J. Lee (2022). injurytools: A toolkit for Sports Injury Data Analysis.
https://github.com/lzumeta/injurytools, https://lzumeta.github.io/injurytools/.
Zumeta-Olaskoaga, Lore, Maximilian Weigert, Jon Larruskain, Eder Bikandi, Igor Setuain, Josean
Lekue, Helmut Küchenhoff, and Dae Jin Lee (Nov. 2021). ((Prediction of sports injuries in football:
a recurrent time-to-event approach using regularized Cox models)). In: AStA Advances in Statistical
Analysis, pp. 1–26. issn: 1863818X. doi: 10.1007/S10182-021-00428-2/FIGURES/6.
Estad́ıstica
https://doi.org/10.3389/fphys.2019.00829
https://doi.org/10.1123/IJSPP.2015-0330
https://doi.org/10.1136/bjsports-2011-090803
https://doi.org/10.1136/bjsports-2016-096589
https://doi.org/10.1136/BJSPORTS-2017-098925
https://doi.org/10.2165/00007256-199214020-00002
https://doi.org/10.1007/S10182-021-00428-2/FIGURES/6
Multi-stage variable selection method for efficiency
evaluation with DEA models and panel data
Patricia A. I~niguez
Facultad de Ciencias Económicas
Universidad Nacional de Rı́o Cuarto
piniguez@fce.unrc.edu.ar
Juan M. Gallardo
Facultad de Ciencias Económicas
Universidad Nacional de Rı́o Cuarto
jgallardo@fce.unrc.edu.ar
Mariana Arburua
Facultad de Ciencias Económicas
Universidad Nacional de Rı́o Cuarto
marburua@fce.unrc.edu.ar
Pablo Pagano
Facultad de Ciencias Económicas
Universidad Nacional de Rı́o Cuarto
ppagano@fce.unrc.edu.ar
Abstract
A variable selection method based on a multi-attribute indicator for efficiency evaluation of units
observed in more than one period is presented. The proposed search algorithm allows choosing a
common set of variables for the T periods; controlling the number of selected variables, without the
evaluator in each iteration analyzing the added value of the variables to be added; operating directly
with the original variables, without reducing dimensionality by composing artificial variables and;
deriving a collection of empirical models. The application is illustrated with the case of the efficiency
evaluation of provincial public management hospitals in the province of Córdoba, Argentina.
Keywords: Data Envelopment Analysis, Variables Selection, Panel Data.
MSC Subject classifications: 90-08, 90C08, 90B50.
163
mailto:piniguez@fce.unrc.edu.ar
mailto:jgallardo@fce.unrc.edu.ar
mailto:marburua@fce.unrc.edu.ar
mailto:ppagano@fce.unrc.edu.ar
BEIO, Vol. 38, Núm. 3 164
1. Introducción
La metodoloǵıa de estimación de fronteras no paramétricas permite evaluar la eficiencia relativa de
las unidades de producción, aún en aquellos casos en que se utilicen múltiples inputs y outputs. De los
métodos desarrollados, el que registra mayor uso y avances, es el Análisis Envolvente de Datos (DEA1).
En efecto, Cooper, Seiford y Zhu, 2011 muestran que DEA es uno de los métodos más aplicados para
analizar la eficiencia y la productividad de varios sistemas: empresas, bancos, hospitales, industrias,
regiones, páıses, etc. Las cuatro décadas posteriores a Charnes, Cooper y Rhodes, 1978 han sido muy
provechosas para el método DEA tanto por los muchos desarrollos teóricos, como por los estudios
emṕıricos que se registran en innumerables art́ıculos. No obstante, esta interesante evolución de los
últimos años, una cuestión de estudio aún vigente en la literatura es el problema de la selección de
los inputs y outputs a considerar en el modelo emṕırico.
Este interés persistente obedece a que al ser DEA un enfoque no paramétrico, surge el problema
de la discriminación cuando, por ejemplo, existe un número relativamente grande de variables en
comparación con las Decision Making Units (DMUs) (Adler y Yazhemsky, 2010). Tener un número
bajo de unidades en evaluación en comparación con el número de inputs y outputs conduce a encontrar
una gran proporción de unidades eficientes o con ı́ndices de eficiencia con valores optimistas. Esta
clase de problemas, puede conducir a que la evaluación de eficiencia no cumpla con su propósito.
Lo cierto es que, en la práctica, generalmente, no se dispone de muestras grandes y los investigadores
procuran analizar conjuntos de observaciones relativamente pequeños, de alĺı la necesidad de hallar
metodoloǵıas para la selección de un conjunto de variables que mejoren la discriminación del modelo
emṕırico.
Una variedad de métodos se ha propuesto, en particular para datos de corte transversal y, si bien,
se han hecho diversas comparaciones a través de pruebas emṕıricas y/o simulación Monte Carlo
(Adler y Yazhemsky, 2010, Nataraja y Johnson, 2011 y Eskelinen, 2017), todos poseen ventajas y
desventajas, por lo que a ninguno se le puede atribuir la caracteŕıstica de inmejorable. Adicionalmente,
la cuestión de elegir un conjunto de inputs y outputs, se dificulta cuando la evaluación de eficiencia
comprende más de un peŕıodo de tiempo. Aunque resulta factible seleccionar para cada uno de ellos
un conjunto distinto de variables, ello no resulta razonable si se pretende comparar los resultados de
los diferentes peŕıodos o medir la evolución y cambio, por ejemplo, a través del ı́ndice de Malmquist.
Esta circunstancia obliga a aplicar algún método que ayude a seleccionar un conjunto de inputs y
outputs común para todos los peŕıodos en los que se pretenda evaluar la eficiencia.
De la diversidadde métodos que se hayan en la literatura, relativamente pocos -González-Araya,
Campo Hernández y Acosta Espejo, 2013 y Peyrache, Rose y Sicilia, 2020-, abordan el problema de
la selección de variables con DMUs observadas en más de un peŕıodo.
El primer método propuesto por González-Araya, Campo Hernández y Acosta Espejo, 2013 parte del
desarrollado por Soares De Mello et al., 2004 para datos de corte transversal para seleccionar, en
función de la frecuencia relativa de elección de los inputs u outputs en cada peŕıodo, un conjunto de
variables común para todos los peŕıodos. Si bien, en cada año, se consideran dos criterios -el mejor
ajuste a la frontera y la máxima discriminación-, en la conformación del conjunto común solo se tiene
en cuenta la frecuencia relativa y, se retoma la máxima eficiencia media, en caso de empate.
En el segundo método presentado por los mencionados autores se aplica el formulado por Soares
De Mello et al., 2004 una sola vez a la totalidad de los datos del panel.
1 Del inglés Data Envelopment Analysis
Investigación Operativa
BEIO, Vol. 38, Núm. 3 165
La propuesta de Peyrache, Rose y Sicilia, 2020 define dos versiones del programa lineal entero mixto
que permiten seleccionar un conjunto común de inputs y outputs. En la primera, se maximiza la
eficiencia agregada de todas las observaciones en todos los peŕıodos y, en la segunda, la eficiencia de
la DMU promedio.
Con el propósito de facilitar la elección de un conjunto común de inputs y outputs para todos los
peŕıodos que integran el panel de datos que considere tanto el mejor ajuste a la frontera, como la
máxima discriminación, la menor variación interanual y diversos escenarios, se propone un método
de varias etapas integrando diversos métodos basados en técnicas de decisión multicriterio para datos
de corte transversal - Soares De Mello et al., 2004, Castro Senra et al., 2007 -, y los propuestos por
González-Araya, Campo Hernández y Acosta Espejo, 2013 . Se define un indicador multiabributo que,
a pesos iguales, agrega la eficiencia media de los T peŕıodos, la media de los desv́ıos de la eficiencia
de las N DMUs en los T peŕıodos, la media de DMUs eficientes considerando los T peŕıodos y el
desv́ıo de DMUs eficientes de los T peŕıodos.
Con esta propuesta se busca contribuir con un procedimiento de selección de variables que, conside-
rando otros atributos, además, de la eficiencia media o agregada, evalúe una colección de modelos
emṕıricos o escenarios que brinde al decisor o investigador la posibilidad de elegir aquel modelo
emṕırico con mayor sentido conceptual y práctico.
Aśı, en este art́ıculo se presenta el Método de Selección de Variables para Datos de Panel2 con Base
en un Indicador Multiatributo y se ilustra la aplicación con el caso de la evaluación de eficiencia de
los hospitales de gestión pública provincial de la provincia de Córdoba de Argentina.
A continuación, en la sección 2 se describen brevemente los modelos básicos del DEA, luego, en
la sección 3, sin aspirar a ser exhaustiva, se resume una revisión de la literatura. En la sección 4,
se reseñan brevemente las propuestas de Soares De Mello et al., 2004, Castro Senra et al., 2007 y
de González-Araya, Campo Hernández y Acosta Espejo, 2013, para luego exponer, en la sección 5,
el Método de Selección de Variables para Datos de Panel con Base en un Indicador Multiatributo,
sintetizando la aplicación emṕırica en la sección 6, para presentar las principales conclusiones, en la
sección 7.
2. El Análisis Envolvente de Datos
Como se comentó al inicio, uno de los principales enfoques para analizar la eficiencia se conoce
como el Análisis Envolvente de Datos (DEA). Este enfoque fue desarrollado por dos prestigiosos
investigadores de la Investigación Operativa, Abraham Charnes y William Cooper, quienes junto a
Edwardo Rhodes, publican el art́ıculo fundamental, Charnes, Cooper y Rhodes, 1978. Este trabajo
se inspira en el importante escrito, aunque relativamente desconocido hasta ese momento, de un
destacado economista, Farrell, 1957. En efecto, dicho autor, propuso considerar como referente
eficiente la mejor práctica observada de entre la muestra de unidades productoras objeto de estudio y,
de este modo, calcular los ı́ndices de eficiencia de cada una por comparación con la/s que presenta/n
un mejor comportamiento. Aśı, se obtiene una medida de eficiencia que tiene un carácter relativo, es
decir, depende de la muestra.
El objetivo del DEA es comparar el desempeño de las DMUs, que utilizan los mismos inputs y
producen los mismos outputs, entre śı. El DEA calcula un ı́ndice de eficiencia para cada una de
2 Se habla de datos de panel cuando se tienen observaciones repetidas a lo largo del tiempo para una muestra de
unidades individuales. Puede decirse que para una variable xit se tienen i= 1, ..., N individuos observados a lo
largo de t= 1, ..., T peŕıodos de tiempo. (Arellano, 1992)
Investigación Operativa
BEIO, Vol. 38, Núm. 3 166
las DMUs, de modo que las DMUs con un indicador igual a uno se encuentran en la denominada
frontera eficiente. Aquellas que se encuentran fuera de la frontera de eficiencia se consideran de menor
desempeño y, un análisis adicional, facilita la información respecto de lo que pueden hacer para
mejorar su eficiencia.
El método DEA generaliza la medida de la eficiencia para un único output e input de una DMU,
medida por el cociente output/input formulando un programa fraccional que transforma los múltiples
outputs e inputs para cada DMU en un único output e input virtual.
La eficiencia técnica relativa de una DMU se calcula mediante el cociente entre la suma ponderada
de outputs y la suma ponderada de inputs, donde los pesos para los outputs e inputs de cada DMU
son seleccionados de modo que la medida de la eficiencia responda al criterio de eficiencia de Pareto,
sujeto a la restricción de que ninguna DMU puede tener una eficiencia relativa superior a la unidad.
DEA obtiene la frontera de producción a partir de las mejores prácticas observadas, es decir, en caso
de una medida producto orientada, el máximo output alcanzable por cualquier DMU, dado un nivel
de input.
La propuesta de Charnes, Cooper y Rhodes, 1978 dio lugar al Modelo Básico conocido en la literatura
como Modelo CCR 3 o modelo de retornos constantes a escala y se diseñó para estimar ı́ndices de
eficiencia técnica. Luego, Banker, Charnes y W. Cooper, 1984 plantean un modelo lineal conocido
como Modelo BCC4 o modelo de retornos variables a escala. A continuación, se presentan los modelos
lineales de la envolvente (CCR: (1) y BCC: (2)) que permiten estimar eficiencia técnica producto
orientada.
max φ
sujeto a :
φyo − Yµ ≤ 0
Xµ ≤ xo
µ ≥ 0
(1)
max φB
sujeto a :
φByo − Yµ ≤ 0
Xµ ≤ xo
εµ ≤ 1
µ ≥ 0
(2)
Donde x = (x1, x2, ..., xM) ∈ RM+ es el vector de M inputs; y = (y1, y2, ..., yS) ∈ RS+ es el vector de S
outputs; X e Y las matrices de los M inputs y S outputs de las N DMUs observadas; µ es el vector
de escalares; ε es un vector de N componentes iguales a 1, y φ y φB los ı́ndices de eficiencia técnica.
3 En referencia al apellido de sus autores: Charnes, Cooper y Rhodes.
4 En referencia al apellido de sus autores: Banker, Charnes y Cooper.
Investigación Operativa
BEIO, Vol. 38, Núm. 3 167
3. Antecedentes
El interés por mejorar la discriminación de los modelos emṕıricos de evaluación de eficiencia, como se
comentó al inicio, sigue siendo una cuestión vigente en la literatura. En este marco, diversos enfoques
se han divulgado en los últimos treinta años, los que pueden reunirse en dos grandes grupos: a)
los que seleccionan solo un subconjunto de las variables originales; b) los que utilizan una medida
agregada.
Dentro del grupo a) se hallan aquellos que se basan en algún tipo de decisión heuŕıstica o juicio de
valor acerca de qué variables son relevantes para el problema dado (Allen et al., 1997; Golany y Roll,
1989); pero también,se reúnen aquellos que utilizan técnicas estad́ısticas con la idea de comparar
la contribución que, las potenciales variables a ser incluidas en el modelo, tienen sobre la eficiencia
estimada (contribución a la eficiencia) (Banker, 1996, Simar y Wilson, 2001, Pastor, Ruiz y Sirvent,
2002, Jenkins y Anderson, 2003, Ruggiero, 2005, Wagner y Shimshak, 2007). Asimismo, se incluyen en
este grupo, los métodos de selección desarrollados a partir de la propuesta de Lins y Moreira, 1999, que
combinan la relación causal, con el potencial discriminatorio del modelo, dando lugar a procedimientos
de selección que consideran múltiples criterios. Aśı, las variables candidatas son alternativas y como
criterios se consideran el mejor ajuste a la frontera y la máxima discriminación ( Soares De Mello et al.,
2004, Castro Senra et al., 2007; González-Araya y Valdés, 2009 y González-Araya, Campo Hernández
y Acosta Espejo, 2013).
Se suma a los anteriores, un cuarto subconjunto de métodos, que utilizan un enfoque DEA a través
de programas lineales o cuadráticos enteros mixtos, desarrollados en los últimos tres años. En general,
en estas propuestas, las variables binarias se introducen para seleccionar inputs y outputs mientras
que las funciones objetivo y restricciones se formulan de acuerdo a un modelo DEA (Limleamthong
y Guillén-Gosálbez, 2018,Beńıtez-Peña, Bogetoft y Morales, 2019 y Peyrache, Rose y Sicilia, 2020).
Por otra parte, los métodos que pueden reunirse en el grupo b), proponen reducir la dimensionalidad
sustituyendo las variables originales por una medida agregada. La agregación puede hacerse basándose
en algún tipo de decisión heuŕıstica o juicios de valor (usando ponderaciones ad-hoc) o usando algunos
criterios estad́ısticos para elegir la combinación óptima (lineal) de los inputs u outputs (Friedman
y Sinuany-Stern, 1998 y Morita y Avkiran, 2009). En este contexto, el enfoque más popular es la
formulación DEA-ACP propuesta por Ueda y Hoshiai, 1997 y Adler y Golany, 2001 que se basa en el
uso del análisis de componentes principales para reducir el número de inputs y outputs sustituyéndolos
por componentes principales.
De los procedimientos de selección de variables mencionados anteriormente solo dos proporcionan
formulaciones para datos de panel. González-Araya, Campo Hernández y Acosta Espejo, 2013
presentan tres métodos, dos de ellos basados en la propuesta de Soares De Mello et al., 2004 y, el
tercero, parte del método presentado por González-Araya y Valdés, 2009. Finalmente, Peyrache, Rose
y Sicilia, 2020 incluyen para seleccionar un conjunto común de variables para todas las observaciones
en todos los peŕıodos de tiempo que conforman el panel de datos, dos versiones del programa lineal
entero mixto propuesto para datos de corte transversal.
4. Breve Reseña de los Métodos de Selección de Variables Combinados en la
Propuesta
El Método Multicriterio para la Selección de Variables (MMSV) de Soares De Mello et al., 2004 y los
propuestos por Castro Senra et al., 2007 nominados Método Multicriterio Combinatorio Inicial para
Investigación Operativa
BEIO, Vol. 38, Núm. 3 168
la Selección de Variables (MMCISV) y Método Multicriterio Combinatorio por Escenarios para la
Selección de Variables (MMCESV), aśı como los presentados por González-Araya, Campo Hernández
y Acosta Espejo, 2013, Método 1 y 2 de selección de variables en modelos DEA usando series
de tiempo (M1SVST y M2SVST, respectivamente), se apoyan en un procedimiento de selección
que considera múltiples criterios. Aśı, las variables candidatas son alternativas y como criterios se
consideran el mejor ajuste a la frontera y la máxima discriminación.
En todos los casos se requiere un par inicial input-output. Este puede ser elección del decisor o, como
proponen Castro Senra et al., 2007, escogido siguiendo un proceso similar al realizado en el MMSV
considerando como conjunto de alternativas todos los posibles pares input-output.
Para seleccionar una de las variables candidatas se evalúa cada alternativa en los criterios antes
indicados. El ajuste a la frontera es medido a través de la eficiencia media para cada variable a
adicionar y su normalización da lugar al indicador SEF , el que alcanza el valor 1 en la eficiencia media
máxima y 0 en la eficiencia media mı́nima. La máxima discriminación es medida por el número de
DMUs eficientes, el que se pretende minimizar. La normalización de este criterio genera el indicador
SDIS que alcanza el valor 1 para el menor número de DMUs en la frontera y 0 para el mayor. Para
seleccionar la variable se agregan, a idéntico peso, los dos criterios mediante una suma ponderada de
SEF y SDIS, S = αSEF + (1− α)SDIS.
MMSV, MMCISV, M1SVST y M2SVST incorporan variables mientras el conjunto de inputs y
outputs no exceda el tercio de las DMUs. En tanto que MMCESV no se detiene cuando el número de
variables alcance el tercio de las DMUs. Se incluyen todas las variables para luego comparar distintos
escenarios con diferentes números de variables.
5. Método de Selección de Variables para Datos de Panel con Base en un
Indicador Multiatributo (MSVDPIM)
El procedimiento de selección de variables para evaluación de eficiencia mediante un modelo de la
metodoloǵıa DEA con datos de panel, que se plantea, busca elegir un conjunto de inputs y outputs
común para todos los peŕıodos que integran el panel, evaluando diversos escenarios a través de
un indicador multiatributo que valora y pondera los criterios, mejor ajuste a la frontera, máxima
discriminación y menor variación interanual.
El método propuesto se conforma de tres etapas. En la primera se define el par inicial. Éste puede,
ser elegido por el investigador con cualquier criterio, tal como se propone en el MMSV; ser integrado
por un par considerado relevante para la evaluación (Peyrache, Rose y Sicilia, 2020) o definirse
siguiendo el criterio del MMCISV. En la segunda, se definen los diferentes escenarios a comparar.
El primero de ellos, tomando la idea del M2SVST, surge de aplicar el MMCESV una sola vez a
la totalidad de los datos del panel; los siguientes, se obtienen de aplicar el mismo método en cada
peŕıodo que integra el panel de datos y; el último, se conforma a partir de las frecuencias relativas,
siguiendo el M1SVST. En la tercera etapa se estima la eficiencia con cada uno de los escenarios
seleccionados para cada peŕıodo del panel y se define el mejor escenario, mediante el indicador Sd
que pondera cuatro atributos. El procedimiento se detalla en la Figura 1.
El indicador Sd, pondera a igual peso o a los que el investigador considere adecuados, cuatro atributos
normalizados 5 correspondientes a cada uno de los escenarios: la eficiencia media de los T peŕıodos (
5 El procedimiento de normalización es el aplicado en el MMSV
Investigación Operativa
BEIO, Vol. 38, Núm. 3 169
SEFT ), la media de los desv́ıos de la eficiencia de las N DMUs en los T peŕıodos ( SV I1 ), la media
de DMUs eficientes considerando los T peŕıodos ( SDIST ) y el desv́ıo de DMUs eficientes de los T
peŕıodos ( SV I2 ). El único atributo que se pretende maximizar es la eficiencia media, los restantes,
se minimizan, para aśı seleccionar el escenario que mejor discrimine y ajuste a la frontera, al tiempo
que menor variación interanual registre.
Fig. 1: Algoritmo método MSVDPIM
El algoritmo de selección de variables por agregación propuesto, es un método de búsqueda, que en
cada iteración elige la mejor alternativa, por tanto, con la excepción de la determinación del escenario
T+2, no es necesario que el investigador defina cuál es el número de variables en que se detiene la
búsqueda. Se incluyen todas las variables para luego comparar distintos escenarios con diferentes
números de variables.
Investigación Operativa
BEIO, Vol. 38, Núm. 3 170
6. Aplicación Emṕırica
Para ilustrar la aplicación del MSVDPIM se considera el caso de la evaluación de eficienciade los
hospitales de gestión pública provincial de la provincia de Córdoba en los años 2015, 2016 y 2017.
A partir de una revisión de los indicadores de insumo, proceso, producto e impacto que la literatura
latinoamericana recomienda para el desempeño de los centros hospitalarios y los datos primarios que
se obtienen del Registro Federal de Establecimientos Hospitalarios y de la unidad ejecutora central
del Programa SUMAR6 , ambas, dependencias del Ministerio de Salud de la Nación; el presupuesto
del Ministerio de Salud de la provincia de Córdoba y el CENSO 2010, se logra estimar para veintidós
(22) establecimientos de salud con internación general (hospitales) de gestión pública provincial,
diecisiete (17) indicadores agrupados en: los vinculados al insumo cama, los relacionados al insumo
personal, los referidos a las diversas prestaciones y los correspondientes al grado de atención de la
población potencial beneficiaria de los servicios, según se describe en el la Figura 2.
Fig. 2: Indicadores/Variables
De este modo, se consigue conformar un panel de datos balanceado con 22 observaciones y 17
variables estimadas en los años 2015, 2016 y 2017. Sobre este conjunto de inputs-outputs se aplica el
procedimiento descripto en la Figura 1, considerando diferentes pares input-output iniciales. En el
primer caso el par inicial lo seleccionan los investigadores y, en el segundo, se escoge para todo el
6 El Programa SUMAR brinda cobertura a la población materno-infantil, niños, adolescentes y adultos hasta los 64
años sin obra social. Los datos se suministran en el marco de un Convenio de Colaboración y Confidencialidad por
el que se acuerda que “Las ideas y opiniones expuestas en esta publicación son de responsabilidad exclusiva de su/s
autor/es y no necesariamente reflejan la opinión del Programa SUMAR, ni del Ministerio de Salud de la Nación”
Investigación Operativa
BEIO, Vol. 38, Núm. 3 171
panel y en cada peŕıodo t el que posea mayor valor S entre los 84 pares posibles.
Para construir y evaluar los escenarios 1, 2, . . . , T+1 y T+2, el nivel de eficiencia se determina
mediante el modelo (2). Se escoge esta formulación porque la mayoŕıa de los indicadores constituyen
ratios y, además, es un modelo invariante ante transformaciones afines de las variables. De este modo,
si se utiliza el mismo conjunto de datos en diferentes unidades puede obtenerse la misma selección de
variables (Peyrache, Rose y Sicilia, 2020).
Para el primer caso, los investigadores acuerdan seleccionar el par inicial compuesto por I.1 y O.10, no
solo por ser el par con mayor correlación lineal input-output en los tres peŕıodos, sino porque, además,
se considera que una de las principales funciones del hospital de gestión pública, en Argentina, es
brindar atención de salud a la población que no posee cobertura. A partir de dicho par inicial se
conforman los cinco escenarios que se presentan en la Figura 3.
Como podrá observarse los Escenarios 1, 4 y 5 son idénticos. Por tal motivo quedan a comparar
solo tres conjuntos de variables para definir el modelo emṕırico. De esos tres, dados dos diferentes
conjuntos de pesos, el mejor es el Escenario 3, integrado solo por tres variables I.1, O.10 y O.12 y le
sigue, aunque con un mayor número promedio de DMUs eficientes, el Escenario 1, el 4 o el 5.
En el segundo caso, y con el fin de ilustrar los resultados a los que se arriban en caso que el investigador
no desee, no pueda o le resulte indiferente elegir el par input-output inicial, el mismo, se escoge tal
como se realiza en el MMCISV.
Aśı, el par con el que se inicia el proceso de búsqueda de cada escenario puede ser diferente. El detalle
de los pares iniciales y de los escenarios hallados se presentan en la Figura 4.
Fig. 3: Escenarios con el par inicial I.1-O.10
Investigación Operativa
BEIO, Vol. 38, Núm. 3 172
Fig. 4: Escenarios con par inicial de mayor S
Como puede observarse al seleccionar el par inicial a partir de S, el insumo cama pierde participación
y el ı́ndice de cobertura, participa solo en algunos escenarios. Evidentemente el indicador O.12, es el
que más favorece la productividad de estos establecimientos y cualquiera sea el punto de partida,
integra el escenario con mayor Sd. En esta oportunidad el Escenario 3.
7. Conclusiones
En este trabajo se proporciona una solución, basada en un indicador multiatributo, para un problema
vigente en la literatura del DEA: la selección de las variables que se incluirán en el modelo cuando la
evaluación se realiza con datos de panel.
Si bien, no se exponen los cuadros con los valores de cada una de las etapas que permiten seleccionar
los T+2 escenarios, la aplicación emṕırica muestra que es factible utilizar este algoritmo cuando
se tiene un número bajo de unidades en evaluación en comparación con el número de inputs y
outputs. No obstante, si el investigador lo considera oportuno, también, resulta de aplicación cuando
la muestra sea lo suficientemente grande.
El algoritmo planteado permite, elegir un conjunto común de variables para los T peŕıodos; controlar el
número de variables seleccionadas, sin que el evaluador en cada iteración analice el valor agregado de las
variables a adicionar; operar directamente con las variables originales, sin reducir la dimensionalidad
componiendo variables artificiales que pueden ser de dif́ıcil interpretación y; derivar una colección de
modelos emṕıricos, dado que se examinan T+2 escenarios.
También, es de notar que todos los conjuntos de variables se ajustan a las propuestas que se hallan
en la literatura en relación al número de variables respecto del número de observaciones.
Investigación Operativa
BEIO, Vol. 38, Núm. 3 173
Finalmente, se debe señalar que a futuro queda por concluir el desarrollo de una rutina en el entorno
libre R, que conceda acceso libre a todos los investigadores y la comparación de los resultados que
arroja esta propuesta con los que surgiŕıan de aplicar las otras, para datos de panel, hallados en la
literatura.
Acerca de los Autores
Patricia Alejandra Iñiguez es Profesora Titular de Investigación Operativa
en la Facultad de Ciencias Económicas de la UNRC. Integra Comités Cient́ıfico
de diversos congresos nacionales e internacionales y es evaluador de art́ıculos
para revistas y libros de nivel nacional e internacional. Dirige proyectos de
investigación vinculados al estudio de la eficiencia. Posee publicaciones en
congresos nacionales e internacionales y en revistas.
Juan Manuel Gallardo es doctorando del Doctorado en Desarrollo Territorial
y Contador Público (Facultad de Ciencias Económicas – UNRC); Jefe de
Trabajos Prácticos en la Facultad de Ciencias Económicas – UNRC. Es integrante
de proyectos de investigación vinculados al estudio de la eficiencia. Posee diversas
publicaciones nacionales e internacionales que abordan el estudio de la eficiencia
del sector público.
Mariana Arburua es Maestŕıa en Procesos Educativos Mediados por Tec-
noloǵıas. Es Profesora Adjunta de Investigación Operativa en la Facultad de
Ciencias Económicas de la UNRC. Actualmente codirige proyectos de inves-
tigación vinculados al estudio de la eficiencia. Posee diversas publicaciones
nacionales e internacionales que abordan el estudio de la eficiencia del sector
público.
Pablo Pagano es Diplomado Superior en Investigación Contable. Esta cursando
la Especialidad en Métodos Cuantitativos para la gestión y Análisis de Datos en
Organizaciones en la FCE de la UBA. Es ayudante de Primera de Investigación
Operativa en la Facultad de Ciencias Económicas de la Universidad Nacional de
Rı́o Cuarto. Es integrante de proyectos de investigación vinculados al estudio
de la eficiencia.
Investigación Operativa
BEIO, Vol. 38, Núm. 3 174
Referencias
Adler, N. y B. Golany (2001). ((Evaluation of deregulated airline networks using data envelopment
analysis combined with principal component analysis with an application to Western Europe)).