Logo Studenta

tesis-n6376-Banchero

¡Este material tiene más páginas!

Vista previa del material en texto

Di r ecci ó n:Di r ecci ó n: Biblioteca Central Dr. Luis F. Leloir, Facultad de Ciencias Exactas y Naturales, Universidad de Buenos Aires. 
Intendente Güiraldes 2160 - C1428EGA - Tel. (++54 +11) 4789-9293
Co nta cto :Co nta cto : digital@bl.fcen.uba.ar
Tesis de Maestría
Evalución de la capacidad deEvalución de la capacidad de
predicción de granizo de índicespredicción de granizo de índices
atmosféricosatmosféricos
Banchero, Santiago
2017-08-28
Este documento forma parte de la colección de tesis doctorales y de maestría de la Biblioteca
Central Dr. Luis Federico Leloir, disponible en digital.bl.fcen.uba.ar. Su utilización debe ser
acompañada por la cita bibliográfica con reconocimiento de la fuente.
This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico
Leloir, available in digital.bl.fcen.uba.ar. It should be used accompanied by the corresponding
citation acknowledging the source.
Cita tipo APA:
Banchero, Santiago. (2017-08-28). Evalución de la capacidad de predicción de granizo de índices
atmosféricos. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires.
Cita tipo Chicago:
Banchero, Santiago. "Evalución de la capacidad de predicción de granizo de índices
atmosféricos". Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. 2017-
08-28.
http://digital.bl.fcen.uba.ar
http://digital.bl.fcen.uba.ar
mailto:digital@bl.fcen.uba.ar
Universidad de Buenos Aires
Facultad de Ciencias Exactas y Naturales
Departamento de Computación
Evaluación de la capacidad de predicción
de granizo de ı́ndices atmosféricos
Tesis presentada para optar al t́ıtulo de Magister en
Explotación de Datos y Descubrimiento de Conocimiento
Santiago Banchero
Director: Dr. Marcelo Soria
Buenos Aires, 2017
EVALUACIÓN DE LA CAPACIDAD DE PREDICCIÓN DE
GRANIZO DE ÍNDICES ATMOSFÉRICOS
En la actividad agŕıcola existen muchos factores de riesgo que condicionan la producción,
algunos pueden ser tratados por el hombre, como por ejemplo enfermedades o plagas pero
también existen otros que no pueden ser controlados y que de suceder ponen en peligro
la seguridad de las personas y producen grandes trastornos económicos. Este conjunto
de factores de riesgo tienen que ver con el comportamiento de la atmósfera y los eventos
extremos que surgen de ella. En particular, la ocurrencia de granizo constituye uno de
los fenómenos meteorológicos capaces de infligir daños cuantiosos al deteriorar seriamente
cultivos, construcciones y medios de transporte. Con el objetivo de evaluar cuál es la ca-
pacidad de predicción de ocurrencia de granizo de un conjunto de ı́ndices de inestabilidad,
se procesaron 168 fechas del año 2015 donde hubo cáıda de granizo. Se utilizó la red de
radares de INTA para la determinación de las áreas con desarrollo convectivo y esta infor-
mación fue utilizada como target para la construcción de modelos de pronóstico. También
se utilizaron datos del pronóstico operativo GFS de donde se extrajeron unas 60 variables
de diferentes horarios a partir de las cuales se calcularon ı́ndices atmosféricos como Total
Totals, K-Index, Showalter, SWEAT Index, entre otros. A partir de los ı́ndices y utilizando
técnicas de agrupamiento como Modelos de Mezclas Gaussianas se realizaron clusters por
fechas y horarios de pronósticos. Cruzando los clusters obtenidos con GFS y utilizando la
información de los radares se etiquetaron los grupos como positivos o negativos según pue-
dan o no desarrollar convección. Luego se verificó el comportamiento de los ı́ndices dentro
de los clusters a partir de su condición de positivo o negativo y el comportamiento de
estos fue adecuado con los umbrales de peligrosidad vistos en la bibliograf́ıa. Se ajustaron
diferentes modelos de regresiones utilizando Support Vector Regression y regresiones regu-
larizadas (Ridge y LASSO) para modelar el comportamiento de la probabilidad acumulada
para valores mayores a 50 y 60 dBZ a partir de los ı́ndices atmosféricos. Los resultados
de estos experimentos no fueron buenos y no fue posible modelar la densidad de dBZ a
partir de los ı́ndices. También se ajustaron clasificadores con Random Forest a partir de
los datos etiquetados con los clusters, estos resultados fueron muy buenos logrando un
i
muy buen ajuste en testing. Con los modelos obtenidos se pronosticaron varias fechas y
se mapearon las probabilidades de con que las celdas fueron clasificadas como positivas.
Estos pronósticos se validaron con puntos de campo y los resultados mostraron una buena
correlación espacial entre los puntos y las celdas con probabilidades mayor a 0.5 de ser
positivas. Para cumplir con este trabajo se desarrolló una arquitectura de procesamiento
compuesta por diferentes módulos que preparan los datos de cada uno de los proveedores.
Esta plataforma modular fue implementada para que escale horizontalmente.
Palabras claves: Granizo, Radares meteorológicos, Global Forecast System, Pronósticos,
Data Mining, Big Data.
AGRADECIMIENTOS
Agradezco a mis padres por enseñarme que con esfuerzo y dedicación todo es posible y
por alentarme siempre y en todo momento en mi carrera de estudiante. A mi amor por
estar siempre. También a mis hermanos, por alegrarme la vida. A Romina Mezher por su
gran predisposición y generosidad para explicarme cómo funciona la parcela, el rho y el
mar de conceptos de meteoroloǵıa duŕısimos para un informático. A los Pavos Inductivos
(Guido y Eloisa) por ser el primer gran éxito de la maestŕıa. A mis amigos de la UNLu
y a los mismos de siempre. A mi Director Marcelo Soria por acompañarme a lo largo de
todo el trabajo.
iii
A Liliana
Índice general
1.. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Conceptos Generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1. Tormentas Severas: Granizo . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.2. Modelos de Predicción Numérica: GFS . . . . . . . . . . . . . . . . . 4
1.2.3. Índices de Inestabilidad . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.3.1. SHOW . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.3.2. LI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.3.3. Convective Available Potencial Energy . . . . . . . . . . . 10
1.2.3.4. Inhibición Convectiva . . . . . . . . . . . . . . . . . . . . . 12
1.2.3.5. K-Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2.3.6. Total Totals . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.3.7. SWEAT Index . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.3.8. Altura de la Isoterma de cero grados . . . . . . . . . . . . . 17
1.2.3.9. Lapse Rate . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2.3.10. Altura LCL . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.2.3.11. Shear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.2.3.12. DCI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.2.4. Radares Meteorológicos . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.2.5. Conceptos de Data Mining . . . . . . . . . . . . . . . . . . . . . . . 23
1.2.6. Conceptos de Big data . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.3. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.. Materiales y Métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.1. Área de Estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2. Conjunto de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.1. Datos de GFS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.2. Datos de RADAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
v
2.2.3. Datos decampo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.2.4. Generación de los datasets . . . . . . . . . . . . . . . . . . . . . . . . 44
2.3. Técnicas Modelado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.3.1. Modelos Gaussianos Mixtos . . . . . . . . . . . . . . . . . . . . . . . 47
2.3.2. Regresiones Regularizadas . . . . . . . . . . . . . . . . . . . . . . . . 48
2.3.2.1. Regresión Ridge . . . . . . . . . . . . . . . . . . . . . . . . 49
2.3.2.2. Regresión Lasso . . . . . . . . . . . . . . . . . . . . . . . . 50
2.3.2.3. Selección del parámetro Lambda . . . . . . . . . . . . . . . 50
2.3.3. Support Vector Regression . . . . . . . . . . . . . . . . . . . . . . . 51
2.3.4. Random Forest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.. Determinación de Áreas Convectivas . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.1. Obtención de clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2. Análisis de los agrupamientos . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.. Modelos de pronósticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.1. Pronósticos utilizando regresiones . . . . . . . . . . . . . . . . . . . . . . . . 70
4.2. Pronósticos utilizando clasificaciones . . . . . . . . . . . . . . . . . . . . . . 73
4.2.1. Caso 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.2.2. Caso 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.2.3. Caso 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.. Conclusiones y trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.2. Trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6.. Anexo I: Caracterización de los agrupamientos a través de tablas . . . . . . . . . 83
7.. Anexo II: Publicaciones realizadas en el marco de la tesis . . . . . . . . . . . . . 89
Bibliograf́ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
1. INTRODUCCIÓN
En la actividad agŕıcola existen muchos factores de riesgo que condicionan los resulta-
dos. Algunos pueden ser tratados por el hombre, como por ejemplo enfermedades o plagas,
pero también existen otros que no pueden ser controlados y que de suceder ponen en peli-
gro la seguridad de las personas y producen grandes trastornos económicos. Este conjunto
de factores de riesgo está relacionado con el comportamiento de la atmósfera y los eventos
extremos que surgen de ella. En particular, la ocurrencia de granizo constituye uno de
los fenómenos meteorológicos capaces de infligir daños cuantiosos al deteriorar seriamente
cultivos, edificios y medios de transporte. En Argentina la precipitación de granizo tiene
una distribución espacio-temporal heterogénea, según [98],[97],[96]. La mayor frecuencia
en el año se presenta durante el verano y la primavera, mientras que durante el otoño y el
invierno la ocurrencia es menor y en algunas regiones como en Cuyo o el extremo Noroeste
del páıs la frecuencia es prácticamente nula..
Las tareas a realizar serán construir modelos a partir de técnicas de aprendizaje au-
tomático utilizando como datos de entrada ”Índices de inestabilidad 2realizar validaciones
con datos observados por los radares meteorológicos. A su vez, se realizará una validación
con datos relevados en campo donde se verificó la cáıda de granizo.
1.1. Objetivos
El objetivo general de este trabajo es evaluar cuál es la capacidad de predicción de
ocurrencia de granizo de un conjunto de ı́ndices de inestabilidad utilizando algoritmos de
machine learning para el área comprendida por la red de radares de INTA.
Los objetivos espećıficos incluyen: 1) evaluar la utilización de ı́ndices de inestabilidad
calculados con (Global Forecast System) GFS para pronosticar granizo, 2) evaluar modelos
predictivos construidos con técnicas de regresiones regularizadas, regresiones con Máquinas
de Vector Soporte (SVM) y métodos de clasificación con Random Forest; utilizando como
datos de entrada los ı́ndices de inestabilidad y datos de RADAR como variable objetivo,
3) generar una arquitectura de procesamiento de los datos de pronóstico, 4) ajustar los
métodos de validación con los datos relevados en campo donde se verificó la cáıda de
1
1. Introducción 2
granizo.
1.2. Conceptos Generales
1.2.1. Tormentas Severas: Granizo
Una tormenta severa es un fenómeno atmosférico con capacidades destructivas, como
pueden ser tormentas eléctricas intensas, tormentas de granizo y tornados. El granizo se
considera un riesgo natural [71]. La precipitación de granizo está caracterizada por una alta
variabilidad espacial y temporal. En Argentina, los daños provocados por este fenómeno
meteorológico extremo ponen en riesgo la seguridad de las personas y afecta a diferentes
sectores económicos, tanto en las zonas urbanas como rurales [96].
El granizo es la precipitación en forma de conglomerados irregulares de hielo (figura
1.1), producido por nubes convectivas y casi siempre en cumulonimbus1 [16]. Por con-
vención, el granizo tiene un diámetro de 5 mm o más, mientras que las part́ıculas más
pequeñas de origen similar, anteriormente llamados granizo pequeño, puede clasificarse
ya sea como gránulos de hielo o nieve granulada [108]. Las tormentas que se caracterizan
por presentar fuertes corrientes ascendentes, un gran contenido de agua ĺıquida, nubes con
tamaños de gotas grandes y gran altura vertical favorecen la formación de granizo [30].
Figura: 1.1: Fisonomı́a de los diferentes tipos de granizo [44]
Generalmente, el granizo proviene de tormentas eléctricas. Sin embargo, alrededor del
60 por ciento de las tormentas no generan granizo en lo alto [30]. La figura 1.2 ilustra los
procesos que original el granizo.
1 Los cumulonimbus o cumulonimbos son nubes de gran desarrollo vertical, internamente formadas por
una columna de aire cálido y húmedo que se eleva en forma de espiral rotatorio. Su base suele encontrarse
a menos de 2 km de altura mientras que el tope puede alcanzar unos 15 a 20 km de altitud [19].
1. Introducción 3
Inicialmente, una corriente ascendente transporta las gotas de agua o núcleos de hielo
muy pequeños (graupel) sobre el nivel de congelación para formar el granizo. En algún
punto, los núcleos congelados caen de la corriente ascendente y colisionan con gotas que
la cubren con una capa de agua ĺıquida. Si el núcleo de hielo es llevado nuevamente hacia
arriba por una corriente ascendente, este se volverá a congelar formando una segunda capa
de hielo. Esta secuencia puede repetirse numerosas veces, con cada pasaje por encima del
nivel de congelación se incrementa el grosor del hielo [43].
De este modo, el tamaño final del granizo está determinado por la intensidad de la
corriente ascendente, puesto que cuanto mayor sea la fuerza de los movimientos verticales
mayor será el tamaño de granizo que pueden transportar [43]. El granizo que llega al suelo
desciende a una velocidad de 40 metros por segundo; y por lo general es menos de 10 por
ciento del volumen de lluvia producido por una tormenta [62].
Figura: 1.2: Proceso de formación del granizo con el cumulonimbus ya formado (Adaptado de [43]).
Las tormentas que producen cáıda de granizo encuentran las condiciones más favorables
para su desarrollo en horas de la tarde-noche y durante las estaciones de primavera y el
verano [98]. Generalmente, es más propenso en regiones continentales y en latitudes medias
[67]. Sobre regiones puntuales, localizadas y durante periodos de tiempo de corta duración.
El granizo es considerado un riesgo agro-climático2 y es uno de los principales genera-
dores de daños en cultivos. En Argentina se estima que el 85% de los seguros agropecuarios
corresponden a granizo [106].
2 Se denomina riesgo agro-climático a la probabilidad de afectación del rendimiento o la calidad de los
cultivos por efecto de un fenómeno climático adverso [14].
1. Introducción 4
El promedio anual de eventos de granizo es máximo sobre Córdoba y La Pampa y
disminuye hacia el norte del Litoral [96]. El mayor porcentaje de eventos durante la pri-
mavera en el Noreste del páıs, mientras que sobre Córdoba, La Pampa y sur de Buenos
Aires el máximo se observa en el verano, en los meses de Diciembre y Enero. Durante el
otoño la ocurrencia de eventos de granizo presenta su menor frecuencia [99].
1.2.2. Modelos de Predicción Numérica: GFS
La simulación numérica de fenómenos geof́ısicos contribuye a nuestra comprensión de
los complejos procesos en el sistema Tierra. Las ideas básicas de predicción numérica y
de la modelización del clima fueron desarrolladas hace aproximadamente un siglo, mucho
antes de que se construyera la primera computadora electrónica [91].
Las técnicas de predicción numérica (NWP - Numerical Weather Prediction) se centran
en tomar las observaciones actuales del tiempo y en la utilización de modelos computacio-
nales para el procesamiento de esas observaciones con el objetivo de predecir el estado
futuro del clima [3].
La justificación de cualquier forma de modelado se debe a que es casi imposible llevar
a cabo experimentos con la atmósfera. Por esta razón, la comprensión de los mecanismos
subyacentes fundamentales que rigen las corrientes atmosféricas, el clima y el cambio
climático puede tener lugar sólo a través de observaciones o modelado [22].
Un pronóstico basado en NWP requiere de condiciones iniciales que provienen del
análisis que se construye mediante la asimilación de distintas observaciones meteorológicas
en el modelo. La calidad del análisis y, por ende, del pronóstico depende no solo de los
métodos utilizados, sino también de la calidad de esas observaciones [4].
De acuerdo con la aplicación y la necesidad, se utilizan distintos tipos de modelos
de NWP, desde modelos de escala global que generan pronósticos a 15 d́ıas o más, con
una resolución entre 15 y 100 km, hasta modelos regionales o modelos de mesoescala que
generan pronósticos de escala más reducida, con una resolución espacial mayor y resultados
más frecuentes [4]. En la figura 1.3 se muestra un esquema de la relación espacio-temporal
de las diferentes escalas con los respectivos procesos dinámicos que se dan en la atmósfera
y sus escalas espacio-temporales. En el apartado anterior se hablo del granizo que por
tratarse de un fenómeno convectivo, esta definido en la mesoescala donde la escala temporal
del pronóstico se mide en horas y la resolución espacial se fija entre 2 y 20 kilómetros [110].
1. Introducción 5
Figura: 1.3: Escalas tiempo-espacio de procesos dinámicos en la atmósfera (Adaptado de [88])
El Global Forecast System (GFS) [128] [84] [83], es un sistema de predicción numérica
del tiempo a escala global (figura 1.4) para generar pronósticos a corto plazo. Decenas de
variables del suelo y de la atmósfera están disponibles a través de este conjunto de datos.
GFS provee un abanico importante de variables [83], entre las principales: datos de
temperaturas, vientos, precipitaciones, humedad del suelo y concentración de ozono at-
mosférico, entre otros [1]. Este sistema de predicción numérica tiene una cobertura mun-
dial, con una resolución horizontal de 28 kilómetros entre puntos de la grilla, que se utiliza
por los pronosticadores operacionales para predecir el tiempo hasta 16 d́ıas.
El modelo GFS es corrido cuatro veces al d́ıa (a las 00, 06, 12 y 18 horas GMT) y
produce una serie de predicciones con intervalos de 3 horas comenzando con la hora 0
hasta 240 y de intervalos de 12 horas de 240 hasta la hora 384. La extensión vertical de
los productos modelados están organizados en niveles. Por ejemplo, el modelo GFS tiene
niveles con elevaciones en referencia a la superficie del terreno. Estos datos tienen un rango
de 1 a 2 metros por debajo del nivel del suelo y 100 metros por encima; superficies de
presión en la atmósfera libre (de 1.000 milibares (mb) hasta 1 mb) y capas atmosféricas
1. Introducción 6
(por ejemplo, troposfera) entre otras [25]. En total se publican más de 300 variables [10].
Estos datos, disponibles cuatro veces al d́ıa, tienen una cobertura global en formato
de grilla con una resolución espacial de 1.0, 0.5 y 0.25 [103] grados [105]. Para la grilla de
0.25 ◦ x 0.25 ◦ se genera una matriz de 1440 por 721 (Longitud/Latitud) desde 0 ◦ Este a
359.75 ◦ Este y desde 90 ◦ Norte a 90 ◦ Sur.
Las grillas de salida están disponibles en formato GRIB/GRIdded Binary [38] que es
una extensión de datos conciso utilizado en meteoroloǵıa para almacenar datos históricos y
pronosticados del tiempo y fue estandarizado por la Commission for Basic Systems (CBS)
para sistemas básicos de la World Meteorological Organization (WMO) [2].
Figura: 1.4: Mapa de temperatura ( ◦C) en superficie pronosticada con GFS 0.25 ◦.
Los datos de GFS son accesibles a través de las plataformas del NOAA Operational
Model Archive Distributed System (NOMADS) [15] [123]. Estas plataformas permiten la
distribución rápida, cercano al tiempo real, de modelos del océano y del tiempo a través
de protocolos estandarizados que facilitan el acceso a los diferentes conjuntos de datos
de las múltiples agencias. El objetivo de esta iniciativa incluye un mayor acceso a las
salidas de los modelos para usos interdisciplinarios aśı como un archivo permanente de
esos productos [124].
1. Introducción 7
1.2.3. Índices de Inestabilidad
Se entiende por inestabilidad al proceso por el cual se aparta al sistema (o parcela de
aire) de su estado de equilibrio [59]. Esta perturbación hace que el aire se acelere en la
vertical y se eleve rápidamente formando nubes. El ascenso libre del aire es debido a su
flotabilidad positiva, producto de su mayor temperatura (menor densidad) con respecto a
su entorno [75]. El aire en la troposfera inferior se levanta hasta que se vuelve menos denso
que el aire circundante y alcanzada esta condición se eleva por śı mismo. La velocidad a
la que se eleva depende de la diferencia de densidad entre el aire ascendente y el aire
circundante [75].
Por otro lado, una región de la atmósfera será estable si el ascenso de una parcela de
aire tiende a hundirse nuevamente al liberarse. Esto requiere que el aire desplazado sea
más fŕıo (y por tanto más denso) que su circundante [80].
Algunas veces la atmósfera es fácilmente desplazada y una parcela de aire, dado un im-
pulso inicial ascendente, continúa subiendo incluso después de que el proceso de elevación
inicial cesa. En otras ocasiones, la atmósfera se resiste a tal elevación. La susceptibilidad
del aire para elevarse es llamada estabilidad estática. Si hay un forzante inicial (hacia
arriba), la parcela adquiere empuje y asciende de forma estáticamente inestable [43].
El la figura 1.5 [32] se ilustran los diferentes tipos de estabilidad atmosférica, que se
describe en términos de los efectos del ambiente en el movimiento vertical. Las condiciones
de estabilidad pueden ser: estable, neutra o inestable y además pueden existir simultánea-
mente en los distintos niveles de la atmósfera.
La estabilidad o inestabilidad atmosférica puede ser caracterizada por medio de los
ı́ndices que reflejan las condiciones atmosféricas en niveles particulares y permiten expre-
sar esas condiciones a través de un único valor numérico llamado ı́ndice de inestabilidad
[48]. La estimación de la inestabilidad atmosférica a través del uso de ı́ndices, general-
mente requiere el cálculo en base a varios parámetros termodinámicos [95]. Por lo tanto
serán necesarias mediciones de variables atmosféricas como presión, altura,temperatura,
temperatura de punto roćıo, entre otras [63].
La inestabilidad es un factor cŕıtico en el desarrollo de tiempo severo y los ı́ndices
de inestabilidad de fenómenos meteorológicos extremos pueden ser una herramienta útil
cuando se aplican correctamente a una situación de convección [137]. La utilización de los
1. Introducción 8
Figura: 1.5: Condiciones de estabilidad atmosférica [109]. a) Una atmósfera estable suprime u opone
resistencia al movimiento vertical. b) Una atmósfera neutra no suprime ni estimula el
movimiento vertical. c) Una atmósfera inestable intensifica o estimula el movimiento
vertical del aire.[32]
ı́ndices permite determinar el potencial, severidad y tipo de convección esperada [41].
La mayoŕıa de los ı́ndices corresponden a una diferencia de temperatura, temperatura
de roćıo, presión, altura, etc. entre dos superficies isobáricas elegidas arbitrariamente (o
alturas), tales como 925 mb, 850 mb 700 mb y 500 mb entre otras [48].
Tradicionalmente, los ı́ndices se calculan utilizando radiosondas3, que tienen un área
de cobertura de 200 km [2]. Debido a la baja densidad de puntos de relevamiento, puesto
que las sondas son lanzadas desde diversos lugares, como aeropuertos, universidades, etc.,
para el presente trabajo se decidió utilizar los datos de GFS.
Existen una gran cantidad de ı́ndices de inestabilidad que permiten determinar si
están dadas las condiciones de convección. Estos ı́ndices han sido ajustados para diferentes
regiones del mundo y sus rangos también vaŕıan según las latitudes en que se utilizan. Tanto
en regiones montañosas como en la proximidad de los trópicos estos ı́ndices tienden a ser
menos eficientes, pero en regiones de llanuras más homogéneas son muy buenos descriptores
3 Una radiosonda es un dispositivo empleado en globos meteorológicos para medir varios parámetros
atmosféricos y transmitirlos a un aparato receptor fijo[60].
1. Introducción 9
de convección. A continuación se definirán algunos de los ı́ndices más relevantes y se
comentarán las principales caracteŕısticas e intervalos de criticidad según la bibliograf́ıa y
los casos evaluados.
1.2.3.1. Showalter Index
El ı́ndice Showalter (SI) [131] es calculado por el ascenso de una parcela de aire me-
diante un proceso adiabático seco desde 850 mb a su Lifting Condensation Level4 (LCL)
y luego por un proceso pseudo-adiabático hasta 500 hPa. Permite estimar el potencial de
inestabilidad de la capa entre 850 mb y 500 mb mediante la medición del empuje en 500
mb de una parcela de aire que ascendió hasta ese nivel [113]. Los valores de SI negativos
revelan la existencia de inestabilidad latente de la capa entre 850 y 500 mb (tabla 1.1).
SI = T500 − Tp500
Donde:
T500 Es la temperatura en 500 mb
Tp500 Es la temperatura de la parcela en el ascenso adiabático desde 850 mb hasta
500 mb
1.2.3.2. Lifted Index
Lifted Index (LI) [54] es comúnmente utilizado para medir la estabilidad a partir de
la diferencia entre la temperatura de parcela que asciende hasta 500 mb y la temperatura
ambiental a 500 mb. Surge como una modificación de Showalter Index [131] pero el LI
se desarrolló como un indicador de inestabilidad latente para ayudar en la predicción de
tormentas severas [113].
Una parcela de aire asciende desde superficie tomando como T y W el valor medio
de los primeros 100 hPa desde superficie [144]. Esta parcela hipotética asciende por un
proceso adiabático seco hasta el LCL y luego por un proceso pseudo-adiabático hasta 500
hPa. El LI refleja la diferencia entre la temperatura del ambiente y de la parcela en 500
4 Lifting Condensation Level es el nivel en que una parcela de aire húmedo asciende a través de un
proceso adiabático seca hasta alcanzar el nivel de saturación [18].
1. Introducción 10
Tabla: 1.1: Valores de Showalter Index que indican la probabilidad de formación de tormenta
(Adaptada de [13])
SI Potencial de Tormenta
> 4 Estable. Probabilidad de tormenta nula.
1 to 3 Marginalmente inestable. Posibles tormentas.
-2 to 0 Moderadamente inestable. Se incrementan las chances de tormentas.
-3 to -2 Potencial de tormentas alto.
-5 to -4 Muy inestable.
-10 to -6 Extremadamente inestable.
< -10 Corra por su vida!
hPa [152]. En la tabla 1.2 puede observarse los valores cŕıticos del ı́ndice, donde valores
negativos son indicadores de convección [11].
LI = T500 − Tp500 (1.1)
Donde:
T500 Es la temperatura en 500 mb
Tp500 Es la temperatura de la parcela en el ascenso adiabático desde superficie.
1.2.3.3. CAPE
CAPE (Convective Available Potencial Energy) [102] mide la cantidad de enerǵıa dis-
ponible para convección. Está directamente relacionado con el potencial de máxima velo-
cidad vertical de una corriente ascendente. Aśı, altos valores indican mayor probabilidad
de tormentas severas.
El ı́ndice de enerǵıa convectiva potencialmente disponible es un valor integrado y, al
igual que el Lifted Index, una parcela teórica asciende mediante un proceso adiabático. En
este caso la parcela asciende hasta iguala su temperatura con el entorno que la rodea, es
1. Introducción 11
Tabla: 1.2: Valores de Lifted-Index que indican la probabilidad de formación de tormenta (Adap-
tado de [11])
LI Potencial de Tormenta
> 0 Estable, aunque una débil convección es posible para
LI de 1 a 3 si se registran fuertes ascensos.
-1 to -3 Marginalmente inestable. Probalidad de tormentas, es necesario un disparador.
-4 to -5 Moderadamente inestable. Probabilidad de tormentas.
-6 to -7 Muy inestable. Probabilidad de tormentas fuertes/severas. Posibles tornados.
< -9 Extremadamente inestable. Probabilidad de tormentas severas y tornados.
decir, hasta que alcanza el nivel de equilibrio (EL) [151]. El área positiva (figura 1.6) entre
la temperatura de la parcela y la temperatura ambiente es el CAPE. Puede ser calculado
con la siguiente fórmula:
CAPE =
∫ EL
LFC
(Tvp − Tva)Rd d ln(p) (1.2)
Donde:
Tvp Temperatura virtual de la parcela.
Tva Temperatura virtual del ambiente.
Rd Constante de gas para aire seco.
p Presión.
LFC5 es el nivel de libre convección.
EL es el nivel de equilibrio.
Generalmente, un valor de CAPE ≥ 1000 J kg−1 es considerado como un fuerte indi-
cador de alta probabilidad de tormenta severas [63]. En la tabla 1.3 se resumen los valores
cŕıticos del ı́ndice.
5 Level of Free Convection (LFC) es el nivel en el que una masa de aire saturado se vuelve más cálido
que el aire circundante y comienza a elevarse libremente. Esto ocurre más fácilmente en un ambiente
condicionalmente inestable [129].
1. Introducción 12
Figura: 1.6: Determinación del nivel de convección libre, nivel de equilibrio y áreas de enerǵıa
negativa y positiva (Adaptado de [48])
Tabla: 1.3: Valores de CAPE que indican la probabilidad de formación de tormenta
CAPE Potencial de Tormenta
< 300 Potencial pequeño o no convectivo.
300 a 1000 Potencial convectivo débil.
1000 a 2500 Potencial convectivo moderado.
> 2500 Potencial convectivo fuerte.
1.2.3.4. Inhibición Convectiva
La inhibición convectiva (o CIN de Convective Inhibition) [31] se determina usando el
mismo proceso usado para calcular CAPE. Se trata de una medida de estabilidad de la
1. Introducción 13
atmósfera y define el empuje de una parcela de aire integrando verticalmente el área nega-
tiva (figura 1.6). Es un buen indicador de estabilidad general y de tendencia de convección
al ser menos vigoroso con valores altos .
El CIN es la enerǵıa que necesita la parcela para ascender hasta el nivel de convección
libre y aśı poder desarrollar convección. Este ı́ndice describe el factor de limitación que es
capaz de prevenir la convección a pesar de la existencia de valores altos de CAPE [118].
CIN =
∫ LFC
SFC
(Tvp − Tva)Rd d ln(p) (1.3)
Donde:
Tvp Temperatura virtual de la parcela.
Tva Temperatura virtual del ambiente.
Rd Constante de gas para aire seco.
p Presión.
LFCNivel de libre convección.
SFC Superficie.
Valores altos de CIN indican inhibición de los desarrollos convectivos (tabla 1.4), pero
en algunas ocasiones puede ser útil para la focalización y aumento de la convección por
efecto disparo [35].
Tabla: 1.4: Valores de CIN que indican la probabilidad de formación de tormenta
CIN Potencial de Tormenta
< 100 Inestabilidad potencial.
100 to 200 Marginalmente estable.
200 to 300 Moderadamente estable.
> 400 Muy estable.
1. Introducción 14
1.2.3.5. K-Index
K-Index (KI) [58] fue desarrollado para evaluar el potencial de tormentas severas. Este
ı́ndice se determina utilizando una simple fórmula que incorpora temperatura y punto de
roćıo en diferentes niveles de la atmósfera.
Se trata de una combinación del gradiente vertical de temperatura (lapse rate6), la
diferencia de temperatura entre 850 mb 500 mb, el contenido de humedad de niveles bajos
(temperatura de punto de roćıo en 850 mb) y la humedad en capas profundas aproximado
por la diferencia entre temperatura y temperatura de punto de roćıo en 700 mb.
KI = (T850–T500) + TD850–(T700–TD700) (1.4)
Donde:
T850 Temperatura en 850 mb.
T500 Temperatura en 500 mb.
TD700 Temperatura de roćıo en 700 mb.
TD850 Temperatura de roćıo en 850 mb.
Cuando el valor de KI es mayor o igual a 30 ◦C es de esperar la ocurrencia de tormentas
severas (tabla 1.5).
6 Lapse Rate: Es la velocidad de cambio de una variable atmosférica, por lo general la temperatura con
respecto a la altura. Un gradiente inclinado implica una rápida disminución de la temperatura con respecto
a la altura. Es un signo de inestabilidad [130].
1. Introducción 15
Tabla: 1.5: Valores de K-Index que indican la probabilidad de formación de tormenta
KI Potencial de Tormenta
0 a 15 0 %
18 a 19 20 % Improbable.
20 a 25 35 % tormentas aisladas.
26 a 29 50 % tormentas muy dispersas.
30 a 35 85 % de ocurrencia de tormentas.
> 100 % de ocurrencia de tormentas.
1.2.3.6. Total Totals
El ı́ndice Total Totals (TT) [100] se define como la suma de otros dos ı́ndices que son:
Vertical Totals (VT) y Cross Totals (CT). Fue ideado como primera aproximación para
determinar la ubicación de un área con probabilidad de tiempo severo [48].
V T = T850 − T500 (1.5)
CT = Td850 − T500 (1.6)
TT = V T + CT (1.7)
Tabla: 1.6: Valores de Total-Totals que indican la probabilidad de formación de tormenta
TT Potencial de Tormenta
45 a 50 Probabilidad de tormentas.
50 a 55 Mayor probabilidad de tormentas, posiblemente severas.
> 55 Tormentas severas.
El VT representa la estabilidad estática o el lapse rate entre 850 y 500 mb. EL CT
incluye la temperatura del punto de roćıo en 850 mb (Td850). Como resultado, TT repre-
senta tanto la estabilidad estática como la humedad en 850 mb, pero es un ı́ndice poco
1. Introducción 16
representativo para situaciones en las que la humedad de capas bajas está por debajo de
los 850 mb [12]. En la tabla 1.6 pueden observarse los valores cŕıticos del ı́ndice.
1.2.3.7. SWEAT Index
El SWEAT Index (o Severe Weather Advisory Trend) [100] [24] surge como una he-
rramienta de pronóstico operativo para predecir zonas con potencial para el desarrollo de
convección [48]. Evalúa las estructuras termodinámicas y de viento de las capas entre 850
a 500 mb con el propósito de medir el potencial de tormentas severas.
SWEAT = 12Td850 + 20(TT − 49) + 2 f8 + f5 + 125 (S + 0,2) (1.8)
Donde:
T850 Temperatura en 850 mb.
TT Índice Total Totals (ecuación 1.7).
f8 Velocidad del viento en 850 mb.
f5 Velocidad del viento en 500 mb.
S Seno de la velocidad del viento en 500 mb menos en 850 mb. S = sin(ws500−ws850).
El último término de la ecuación 1.8 es igualado a cero si no se cumple cualquiera de
las condiciones siguientes:
1. La dirección del viento en 850 mb está en el rango de 130 a 250 grados.
2. La dirección del viento en 500 mb está en el rango de 210 a 310 grados.
3. La diferencia en las direcciones de viento son positivas.
4. La velocidad del viento tanto en 850 como en 500 mb son menores a 15 nudos.
La inclusión del término de cortante (o wind shear) y los valores mı́nimos de estabilidad
y velocidad del viento pretenden poder discriminar entre tormentas débiles de muy fuertes.
Además, el ı́ndice fue diseñado únicamente como un indicador del potencial de desarrollo
de tiempo severo, ya que es necesario un mecanismo disparador para que el aire ascienda
y desarrollar potencial de tormentas [48]. Fuertes tormentas pueden presentar valores de
1. Introducción 17
SWEAT entre 250 y 300 si hay un fuerte empuje (o lifting) presente [5]. En la tabla 1.7
se muestran los valores cŕıticos del ı́ndice.
Tabla: 1.7: Valores de SWEAT index que indican la probabilidad de formación de tormenta
SWEAT Potencial de Tormenta
> 272 Estable. Baja probabilidad de tormentas.
273 a 299 Riesgo bajo. Tormentas aisladas.
300 a 400 Riesgo moderado. Aproximan a los ĺımites severos.
401 a 600 Riesgo elevado. Algunas tormentas eléctricas severas.
601 a 800 Riesgo alto. Tormentas severas.
> 800 Fuertes vientos, pero no es favorable para tiempo severo.
1.2.3.8. Altura de la Isoterma de cero grados
El nivel de congelación es el nivel más bajo en un sondeo en el cual se indica una
temperatura de 0 ◦C (isoterma de ◦C). La altura de la isoterma de cero grados indica en
qué elevación comienza el proceso de cristalización ya que el momento más importante en
el desarrollo de la nube convectiva es la iniciación de la formación de hielo de la nube [20].
Cuando las temperaturas descienden bajo cero en los niveles inferiores se favorece la
formación de granizo, porque alĺı las temperaturas se encuentran por debajo del punto
de congelación en una porción más profunda de la tormenta. Esto significa que es más
probable que se forme granizo en tormentas con niveles de congelación por debajo de 3650
m. Cuanto mayor sea la CAPE, mayor será la velocidad de las corrientes ascendentes y el
potencial de producción de granizo, tanto en tamaño como en cantidad [141].
1.2.3.9. Lapse Rate
El Lapse Rate (LR) [141] es un indicador de estabilidad de la atmósfera, que es deter-
minada a partir de la comparación de la temperatura de una parcela de aire ascendente
con la temperatura del aire alrededor de él al mismo nivel. En este trabajo se utilizan LR
de capas bajas de 0 a 3 km y capas medias de 0 a 6 km.
A diferencia de los ı́ndices vistos anteriormente no existe rangos estandarizados de
1. Introducción 18
peligrosidad para estos ı́ndices. No obstante en algunos trabajos [34] se muestra que valores
entre 6.5 y 8.5 ◦C/km son indicadores de tormentas severas y granizo.
1.2.3.10. Altura del LCL
La humedad relativa en los ĺımites de las capas altas están relacionada con el desarrollo
de tormentas severas y super celdas y este comportamiento puede ser representado a través
del Lifted Condensation Level [34]. La altura del LCL es un buen discriminador para situa-
ciones de tormentas con granizo y aún más para el desarrollo de super celdas y tornados
[116], [34]. El comportamiento de esta variable muestra qué valores de condensación se
dan a menor altura en áreas de desarrollo convectivo severo.
1.2.3.11. Cortante de viento vertical
La organización de la convección profunda puede afectarse por la cortante vertical
del viento, el CAPE, la humedad relativa y la distribución vertical de esas variables, entre
otras cosas. Un parámetro que funciona correctamente para cuantificar la cortante vertical
y el tipo de tormenta que se observará es la magnitud del vector diferencial de viento 0−6
km, que casualmente se lo denomina cortante 0− 6 km [64].
1.2.3.12. Deep Convective Index
El ı́ndice de convección profunda (o DCI Deep Convective Index ) intenta combinar las
propiedades de temperatura potencial equivalente en 850 mb con la inestabilidad.
DCI = T850 + Td850 − LIsfc−500 (1.9)
Es medido en grados C, donde LI es el valor del ı́ndiceLifted desde superficie a 500 mb.
Los valores cŕıticos de DCI como indicador de tormentas severas son superiores a 30◦C
[66].
1.2.4. Radares Meteorológicos
La palabra RADAR es el acrónimo de Radio Detection And Ranging [119]. Original-
mente los radares fueron construidos con propósitos militares durante la Segunda Guerra
Mundial. La tecnoloǵıa radar permit́ıa al personal militar observar el movimiento de las
1. Introducción 19
aeronaves y los buques enemigos, pero durante esas tareas se descubrió que en las panta-
llas del radar también aparećıa la precipitación. Cuando la guerra finalizó, la tecnoloǵıa
de radar hab́ıa avanzado considerablemente y la comunidad cient́ıfica comenzó a usar los
equipos excedentes para estudiar y observar los fenómenos meteorológicos [9].
El radar meteorológico funciona emitiendo a la atmósfera pulsos de enerǵıa electro-
magnética en el rango de frecuencias de las microondas (figura 1.7) y generalmente en las
longitudes de onda de 3 cm (banda X), 5 cm (banda C) y 10 cm (banda S) [119]. Cuando
dichos pulsos alcanzan un objeto, parte de esa enerǵıa electromagnética retorna hacia el
radar mientras que otra parte es absorbida por el objeto y la enerǵıa restante se dispersa
en distintas direcciones.
Figura: 1.7: Frecuencias de RADAR y el espectro electromagnético (adaptado de [133]).
Un radar básicamente consta de cuatro principales componentes como se observa en el
diagrama de la figura 1.8. Estos son: el transmisor para generar la señal de alta frecuencia,
una antena para emitir la señal hacia el espacio y para recibir el eco devuelto por el objeto
alcanzado, un receptor para amplificar la señal y lograr que sea lo suficientemente fuerte
para que sea útil y por último un sistema de visualización que permita a las personas
observar lo que el radar ha detectado [119].
El radar emite pulsos mientras la antena gira 360 grados en forma horizontal o acimut.
Estos giros (o revoluciones) comienzan con una elevación cercana a los 0 grados y luego
1. Introducción 20
aumenta el ángulo de elevación [9]. Según la ingenieŕıa del radar estos pueden alcanzar
ángulos de hasta 90 grados de elevación o realizar giros completos de 180 grados. Existen
otros, como es el caso de los NEXTRAD (Next Generation Weather Radar), que solo
alcanzan los 45 grados de elevación. La estrategia de escaneo (o barrido) determinará las
elevaciones y ángulos a observar, un barrido completo generalmente es realizado con unas
10 o 12 elevaciones y alcanza una elevación de 20 grados. Esta tarea de escaneo puede
durar como mı́nimo cinco minutos [69].
Figura: 1.8: Diagrama de de los componentes básicos de un radar (Adaptado de [119])
La reflectividad radar (Z) o factor de reflectividad Z (ecuación 1.10) es una medida de
la capacidad de los blancos de interceptar y devolver la enerǵıa de un eco [119]. El total
de enerǵıa que retorna al radar suele ser mucho menor que la del pulso inicial emitido. El
receptor amplifica la señal devuelta y utiliza su amplitud para el cálculo de Z [9]. Se asume
el criterio de dispersión de Rayleigh, que considera que las part́ıculas (gotas de agua) son
significativamente más pequeñas que la longitud de onda con la cual se explora [42].
1. Introducción 21
Z =
n∑
i=1
D6n (1.10)
Z se calcula a partir de la suma de la sexta potencia de los diámetros (D) de todos
los blancos que dispersan la enerǵıa transmitida en la unidad de volumen muestreada. La
relación con la sexta potencia indica (como se observa en la figura 1.9) que las part́ıculas
grandes predominan en el valor Z calculado, es decir, la presencia de varias gotas grandes
producen el mismo valor de reflectividad que cientos de gotas pequeñas [9].
Figura: 1.9: Muestras volumétricas con valores de reflectividad radar Z equivalentes (Adaptado de
[9])
Dado que el tamaño de las gotas de lluvia suele medirse en miĺımetros y el volumen
normalmente se expresa en metros cúbicos, reflectividad del radar se expresa en mm6/m3
[119]. Esta medida tiene ordenes de magnitud elevados y por este motivo para aplicaciones
meteorológicas se calcula un factor de reflectividad Z equivalente (ecuación 1.11) medida
en decibelios7 (dB). Generalmente la precipitación produce valores de Z mayores a 60 dBZ
para regiones con lluvias fuertes y granizo [42].
dBZ = 10 log Z (1.11)
7 Decibel expresa una razón entre cantidades y no una cantidad. Es decir, permite expresar cuantas
veces más o cuantas veces menos, pero no la cantidad exacta. Es una expresión logaŕıtmica que permite
obtener una unidad de medida relativa [17], [61].
1. Introducción 22
Los radares emiten y reciben radiación electromagnética (EM), que se compone de
campos eléctricos y magnéticos que oscilan con la frecuencia de radiación [119]. La enerǵıa
se propaga a través de la atmósfera mediante una onda EM con el campo eléctrico del
vector oscilante en el plano horizontal paralelo al suelo. Por lo tanto, se dice que estas ondas
están polarizadas horizontalmente [86]. Estos son llamados radares de simple polarización
y no permiten obtener variables polarimétricas.
Figura: 1.10: Esquema que ilustra la propagación simultánea de ondas electromagnéticas, polari-
zación horizontal (azul) y polarización vertical (naranja). El plano realizado por los
ejes rotulados H y V se denominan el ”plano de polarización 2es normal a la dirección
de propagación de las ondas (Adaptado de [86])
Por otro lado, existen radares de doble polarización (o polarimétricos a secas) [86]
donde la radiación emitida tiene una orientación horizontal y vertical simultáneamente,
como se observa en la figura 1.10. Esta caracteŕıstica permite obtener variables de tipo
polarimétricas que facilitan la observación de objetos donde es posible recoger información
sobre el tamaño, forma y orientación de objetivos dentro del volumen de muestreo del
radar[119].
1. Introducción 23
Figura: 1.11: Esquema del cálculo Composite Reflectivity (Adeptado de [8])
En este trabajo no se utilizaron variables polarimétricas sino que sólo se incluyó con
reflectividad (dBZ) diaria del producto Composite Reflectivity [8] también conocido como
Column Maximum o simplemente CMAX. Este producto es calculado a partir del stack
completo de volúmenes para un d́ıa obteniéndose una nueva imagen que tiene solo los
máximos del stack (figura 1.11). Este producto es de suma utilidad debido a que permite
aislar áreas con gran actividad de tormenta.
1.2.5. Conceptos de Data Mining
Data Mining (DM) es la tarea de descubrir patrones interesantes de grandes reposito-
rios de datos, donde las alternativas de almacenamiento son muy heterogéneas abarcando
bases de datos, data warehouses u otros repositorios de información. Se trata de un cam-
po de estudio interdisciplinario, que surge de áreas como estad́ıstica, machine learning,
visualización de datos, recuperación de información, bases de datos y computación de alto
desempeño (o HPC - High-Performance Computing). Existen otras áreas de las ciencias
de la computación que también contribuyen al DM como redes neuronales, reconocimiento
de patrones, análisis espacial de datos, procesamiento de señales y muchos otros campos
de aplicaciones tales como negocios, economı́a y bioinformática [67]. El problema básico
que aborda el DM es poder trasformar datos de bajo nivel en otras formas que pueden ser
más compactas, abstractas y más útiles.
Más precisamente, podemos definir al DM como un proceso de descubrimiento de patro-
nes potencialmente útiles, interesantes y previamente desconocidos de una gran colección
1. Introducción 24
de datos [126]. Además, se lo conoce popularmente como Knowlidge Discovery in Data-
bases (KDD), que refiere a la extracción no trivial de información impĺıcita, previamente
desconocida y potencialmente útil en bases de datos [47]. Cabe destacar, que aunque los
conceptosde DM y KDD son tratados como sinónimos, la mineŕıa de datos forma parte
del proceso de descubrimiento de conocimiento (Figura 1.12).
Figura: 1.12: Proceso de descubrimiento de conocimiento
El proceso de KDD [47] está compuesto de unos nueve pasos que van desde la com-
prensión del problema hasta la utilización de los patrones y conocimientos encontrados.
Este proceso iterativo consiste de los siguientes pasos [94]:
Entender el dominio de aplicación: En este paso se presta especial interés en entender el
dominio de aplicación. ¿Cuál es el problema a resolver? ¿Cuales son los objetivos?
Las personas que están a cargo de un proyecto KDD necesitan entender y definir los
objetivos del usuario final y el medio ambiente en el que el proceso de descubrimiento
de conocimiento se llevará a cabo (incluyendo conocimiento previo que sea relevante).
Seleccionar un conjunto de datos: Esta es la etapa de selección e integración de diferentes
fuentes de datos adicionales que pueden ser requeridas en el proceso.
Preprocesamiento y limpieza de datos: Se trata de mejorar la fiabilidad de los datos. Aqúı se
1. Introducción 25
incluye limpieza de datos, tratamiento de datos faltantes y la eliminación de ruido
o valores at́ıpicos.
Transformación: también conocida cómo etapa de consolidación [126], esta es una fase en
que los datos son transformados de forma apropiada para el procesos de mining.
Escoger la tarea de mining: Es un proceso esencial donde se aplican métodos inteligentes
para extracción de patrones a partir de los datos. DM comúnmente involucra cuatro
clases de tareas, estas son: clustering, clasificación, regresión y reglas de asociación.
Aqúı se selecciona el método más adecuado de acuerdo a los datos disponibles y los
objetivos del análisis.
Selección del algoritmo de mining a utilizar: Ya tenemos la estrategia, ahora decidimos la
táctica a utilizar. Esta etapa incluye seleccionar el método espećıfico para ser usado
en la búsqueda de patrones. Se debe decidir compensando cuestiones de precisión y
capacidad de explicar del algoritmo seleccionado.
Utilización del algoritmo de data mining: Finalmente se realiza la implementación del al-
goritmo de DM. En este paso puede ser necesario emplear el algoritmo varias veces
hasta que los resultados sean satisfactorios, esto será posible a través del ajuste de
los parámetros del algoritmo utilizado.
Evaluación: Se evalúan e interpretan los patrones obtenidos para determinar si se llegó a
un nuevo conocimiento. Los patrones descubiertos tienen que poder ser validados
utilizando nuevos datos con algún grado de certidumbre. Serán requeridas medidas
cuantitativas para evaluar los patrones y determinar si un resultado es mejor que
otro.
Utilización del conocimiento: El desaf́ıo de esta etapa es superar las condiciones de labo-
ratorio. Pasar de los datos seleccionados para ajustar el modelo al mundo real y se
deberá verificar potenciales conflictos con conocimiento previos.
La mineŕıa de datos es un tema candente de las ciencias de la computación de los
últimos quince años y esta tiene una extensiva aplicación en varios campos. DM trae un
montón de beneficios para el área de negocios, sociedad, gobiernos y las personas. Sin
1. Introducción 26
embargo, la privacidad, seguridad y el mal uso de la información son un gran problema si
no se trata correctamente [126].
1.2.6. Conceptos de Big data
En la actualidad la población mundial excede los 7.400 millones de personas [7] y más
de 3.900 millones de estas personas tienen acceso a Internet. Aún más, 5.000 millones de
individuos utilizan teléfonos celulares. Un resultado de esta revolución tecnológica es que
millones de personas están generando una inmensa cantidad de datos a través de estos
dispositivos. Las redes de sensores contribuyen a este crecimiento generando una gran
cantidad de datos estructurados y no estructurados [85].
Big Data es el término que se utiliza para conjuntos de datos masivos con estructuras
variadas y complejas, donde el almacenamiento, el análisis y la visualización es un problema
dif́ıcil de manejar[125].
Se caracteriza por tres aspectos: (a) los datos son numerosos, (b) los datos no pueden ser
categorizados en las bases de datos relacionales habituales, y (c) los datos son generados,
capturados y procesados de manera muy rápida. Big Data es prometedor para aplicaciones
de negocios y está aumentando rápidamente como un segmento de la industria de IT.
Se ha generado un interés significativo en varios campos, incluyendo la fabricación de
máquinas para el cuidado de la salud, transacciones bancarias, social media y aplicaciones
de teledetección.
Tradicionalmente, los datos son almacenados en un formato altamente estructurado
para maximizar su contenido de información. Sin embargo, los volúmenes de datos actuales
son impulsados por ambos datos no estructurados y semi-estructuradas.
Esta asombrosa tasa de crecimiento en la captura de datos genera numerosos proble-
mas y retos cŕıticos, las tres áreas temáticas fundamentales que deben abordarse en el
tratamiento de grandes volúmenes de datos: los problemas de almacenamiento, las cues-
tiones de gestión, y problemas de procesamiento. Cada uno de ellos representa un gran
conjunto de problemas técnicos de investigación por derecho propio [82].
El concepto de Big Data tiene diferentes dimensiones y no se refiere sólo a la gran
cantidad de datos, sino también a la heterogeneidad de las fuentes de datos y de la ve-
locidad en el análisis de los datos. Un modelo ampliamente extendido (figura 1.13) para
caracterizar los problemas que ataca el Big Data es el de las tres V [101], [78]. Sobre el eje
1. Introducción 27
Volumen, se mueven los escenarios actuales que implican soluciones tecnológicas que se
ocupan de los datos en el orden de pebibyte (250 bytes), exbibyte (260 bytes) o más alto.
A lo largo del eje Velocidad es posible distinguir diferentes tipos de análisis que van desde
análisis fuera de ĺınea donde no ha restricciones en el tiempo de respuesta hasta streaming
con stream mining y respuestas en tiempo real. Y en el eje Variedad existen diferentes
formatos entre los que se destacan: los formatos estructurados (por ejemplo bases de datos
relacionales), formatos semi-estructurados (XML basados en gramática, basados en JSON,
etc.) y formatos no estructurados (datos que no están expresados en una representación
estándar).
Figura: 1.13: Tres dimensiones clásicas del Big Data (Adaptado de [125])
Estos conceptos se fueron ampliando en la literatura y algunos trabajos incrementa-
ron el número de Vs [37]. A continuación se presenta una lista no exhaustiva de estas
incorporaciones:
Variabilidad: se mide cuán impredecible es el flujo y los tipos de datos. Es decir, los
cambios en la estructura de los datos y cómo los usuarios pretende interpretar esos
datos.
Veracidad: el sesgo, el ruido, la anormalidad y la fiabilidad de los conjuntos de datos.
Volatilidad: cuanto tiempo los datos están disponibles y si deben ser almacenados o
no.
Visualización: Esta es la parte más dif́ıcil de grandes volúmenes de datos. Significa
hacer que una vasta cantidad de datos sea comprensibles, en una forma fácil de leer
1. Introducción 28
y entender [146].
Valor: las ganancias en la nueva información utilizando tecnoloǵıas de Big Data. Le
da una ventaja a la organización, ya que adquiere la capacidad de tomar decisiones,
contestando a preguntas que anteriormente se consideraban fuera de su alcance [46].
Cada una de las dimensiones realizan operaciones tradicionales en administración de
repositorios de datos más complejos. Por ende, si el volumen incrementa, el almacena-
miento se vuelve todo un desaf́ıo tanto como procesar los datos por medio de herramien-
tas de análisis. Los sistemas de almacenamiento como los algoritmos de analytics deben
ser escalables eneste escenario. Además, la dimensión variedad dificulta sobremanera el
almacenamiento de datos y el análisis a través de la integración de datos con diferentes
estructuras [28].
Por otro lado, las primeras aplicaciones de Big Data han estado relacionadas con la
meteoroloǵıa y los pronósticos. La necesidad de obtener una mejor comprensión del tiempo
y predecir con mayor precisión a partir de observaciones antiguas sobre la dirección del
viento, formaciones de nubes, la presión barométrica y los intentos más recientes para
acumular datos de satélites, sensores y otras fuentes vuelven a la predicción del tiempo un
gran desaf́ıo y es todo un reto computacional desde siempre [65]. Este es un problema de
Big Data y requiere resolver costosos cálculos en tiempo real e integrar grandes cantidades
de datos observados para la asimilación en los modelos no lineales y en estructuras de
grillas de enorme cantidad de celdas [68].
1.3. Antecedentes
El pronóstico de granizo es una tarea muy compleja para los meteorólogos debido
a grandes incertidumbres tanto en la previsión como en los procesos de observación. A
diferencia de las condiciones meteorológicas más tradicionales tales como la temperatura
y las precipitaciones, el granizo dif́ıcil de medir con instrumentos automatizados. Existen
diferentes trabajos que estudian con variados enfoques las problemática de pronosticar
ocurrencia de granizo.
En el caso de [92] utiliza ı́ndices de estabilidad obtenidos a través de radiosondas y
además otros datos como presión atmosférica, temperatura de roćıo, entre otras medicio-
1. Introducción 29
nes; que son las entradas de algoritmos de aprendizaje automático como regresión loǵıstica
para ajustar modelos de pronósticos.
Otro trabajo como [81] utiliza las salidas GFS para pronosticar granizo, aunque en
este caso no se recurre a técnicas de aprendizaje automático, sino que realiza un análisis
estad́ıstico sobre un conjunto de variables que son procesadas para calcular ı́ndices de
inestabilidad. Existen otras iniciativas como [27], que utilizan datos de reanálisis de NCEP
para simular a través de datos modelados y corregidos cómo se distribuye el granizo a nivel
global.
Se revisaron trabajos que a partir de técnicas clásicas de machine learning y la utili-
zación de información de RADAR y/o pronósticos numéricos han ajustado modelos que
permiten determinar áreas convectivas, modelar precipitación o tormentas severas con
granizo [50], [51], [52]. A través de técnicas clásicas como k-means y árboles de decisión
y utilizando datos de RADAR identifican áreas de desarrollo convectivo en tiempo real
[50]. En [53], se utilizan las salidas de modelos numéricos de pronósticos del tiempo de
alta resolución y se integran con modelos de aprendizaje automático para poder realizar
predicciones de áreas con potencial para precipitar granizo en peŕıodos cortos de tiempo.
En este trabajo se utilizan algoritmos de clasificación basados en métodos de ensambles
como Random Forest, Riddge Logistic Regresión, entre otros. Y utilizan como variables
de entrada ı́ndices atmosféricos (CAPE, CIN, LCL, Lapse Rate, 0 - 6 Shear) y variables
simuladas de RADAR.
2. MATERIALES Y MÉTODOS
En este caṕıtulo quedan plasmados las principales actividades realizadas para confor-
mar el conjunto de datos. Aqúı se incorporan las descripciones detalladas de cada una de
las fuentes de datos utilizadas en trabajo y como estas fueron relevadas. Además se realiza
una somera descripción del área de estudio.
2.1. Área de Estudio
El área de estudio es la región cubierta por la Red de Radares de INTA [76] (Figura
2.1), compuesta por dos radares polarimétricos y uno sin polarimetŕıa. El peŕıodo de
estudio esta comprendido de enero a diciembre de 2015 donde en toda la zona para el
año estudiado se registraron un total de NN eventos de granizo que fueron relevados de
diferentes fuentes.
Figura: 2.1: Área cubierta por la Red de Radares INTA
30
2. Materiales y Métodos 31
2.2. Conjunto de Datos
En el presente trabajo se utilizaron datos de diversas fuentes y de naturaleza diferente.
Por un lado, se trabajó con datos modelados provenientes de los pronósticos GFS. También
se utilizaron datos tomados de sensores remotos como es el caso de los originados en la red
de radares de INTA. Los datos de campo fueron obtenidos de diferentes proveedores, como
por ejemplo de empresas aseguradoras de riesgo de granizo. Estas organizaciones tienen
una gran presencia en zonas rurales con gran cobertura del área de estudio de este trabajo.
Por otro lado, se recolectó un volumen considerable de puntos en zonas urbanas a través
de denuncias o publicaciones en sitios de microblogging como Twitter. Y por último, se
recolectaron eventos del sitio Alert.AR del SMN.
Administrador
de
Tareas
DB
Gestión
Proceso
GFS
Proceso
RADAR
Proceso
de
extracción
Gestor de Logs
Cola de Datos Primarios
Cola de extracción
Figura: 2.2: Arquitectura del sistema de procesamiento
Para coordinar todas las tareas de pre procesamiento y generación de datasets para
la etapa de modelado, se desarrollaron diferentes módulos de procesamientos integrados.
Para la gestión de los trabajos realizados por cada módulo se utilizaron dos colas de
2. Materiales y Métodos 32
mensajes AMQP (implementadas con rabbitMQ [150]). Se eligió esta opción (Figura 2.2)
de implementación ya que facilitó sobremanera poder escalar horizontalmente agregando
módulos en diferentes equipos disponibles.
El módulo GFS es el encargado de preprocesar las grillas GRIB/GRIdded Binary
[38] para poder calcular los ı́ndices atmosféricos y realizar las transformaciones espaciales
correspondientes para que coincidan con los datos de Radar. Además realiza los recortes
correspondientes para delimitar el área de interés.
En el módulo de RADAR lo que se realiza es el cálculo del producto CMAX para el d́ıa
del evento. Esto consiste en tomar un d́ıa completo de imágenes para cada radar (son 144
barridos diarios, uno cada diez minutos) y para las dos primeras elevaciones integrar los
valores obteniendo la mayor reflectividad durante el d́ıa. Esto va a determinar los lugares
por donde pasaron las nubes con mayor probabilidad de haber alcanzado condiciones de
convección.
Por último, el módulo de extracción que permite calcular para cada celda de GFS la
densidad de ṕıxeles de radar con valores de dBZ superiores a un umbral (en este caso
50 dBZ). Para esto se utiliza un ajuste no paramétrico para cada celda GFS utilizando
Densidad Kernel [132] y calculando la integral del área bajo la curva para valores de dBZ
mayores o iguales al umbral [21].
2.2.1. Datos de GFS
Las salidas del modelo de pronóstico GFS están disponibles en el servidor del National
Oceanic and Atmospheric Administration (NOAA) National Operational Model Archive &
Distribution System (NOMADS) para descarga [15], [104]. De este repositorio se obtuvo
un conjunto reducido de 32 variables pronosticadas que son las requeridas para el cálculo
de los ı́ndices de inestabilidad atmosférica (tabla 2.1). Además, se obtuvieron otros tres
ı́ndices pronosticados que son provistos también por GFS.
2. Materiales y Métodos 33
Tabla: 2.1: Variables e ı́ndices pronosticados por GFS que se utilizan en este trabajo. Las superficies
isobáricas están medidas en hectopascales (hPa).
Variables Superficie Isobárica [hPa] Superficie
300 500 700 850 925
Altura Geopotencial [gpm] x x x x x
Humedad Relativa [ %] x x x x x
Temperatura [K] x x x x x
u-componente del viento [m/s] x x x x x
v-componente del viento [m/s] x x x x x
Velocidad vertical (presión) [Pa/s] x x x x x
Lifted Index [K] x
Enerǵıa potencial convectiva disponible [J/kg] x
Inhibición convectiva [J/kg] x
En el trabajo se utilizaron tres pronósticos para determinar las condiciones atmosféricas
a las 12 hs UTC de un d́ıa. Lashoras previas utilizadas son: 12, 18 y 24 de las corridas 00,
18 y 12 respectivamente (tabla 2.2). En la figura 2.3 se puede ver de manera esquemática
cómo se trabajó con los pronósticos para la hora de referencia de un d́ıa. Por lo tanto, el
conjunto de datos provenientes de GFS se compone de 84 variables pronosticadas para las
12z. Esto surge de las 24 variables de cada uno de los tres pronósticos previos.
Tabla: 2.2: Corridas y pronósticos GFS utilizados en el trabajo
Dı́a Corrida Pronóstico
12 18 24
Ayer 12 x
18 x
Hoy 00 x
2. Materiales y Métodos 34
Los datos del pronóstico GFS son provistos en grillas regulares de 0.25 grados en for-
mato GRIB/GRIdded Binary [38]. Estos archivos disponibles v́ıa web son descargados
utilizando un programa de procesamiento por lotes con un conjunto de parámetros que
permiten la descarga únicamente de las variables de interés, en las superficies isobáricas y
las fechas solicitadas. En relación a la disponibilidad temporal de los archivos en el reposi-
torio cabe mencionar que los mismos se encuentran publicados en una ventana deslizante
de 14 d́ıas. Es decir, NOMADS pone a disposición los últimos catorce d́ıas para descargar
luego los pronósticos se pierden.
Figura: 2.3: Esquema de las corridas y pronósticos GFS utilizados para la hora del pronóstico de
referencia de la 12z
Una vez que los datos fueron descargados, se procedió a calcular otras variables deri-
vadas y que son necesarias para computar los ı́ndices. Estas fueron calculadas combinando
variables en similares superficies isobáricas (por ejemplo: 300 hPa, 700 hPa y aśı para cada
una). Las variables calculadas fueron a) Temperatura del punto de roćıo [77], b) Dirección
del viento [87] y c) Velocidad del viento [87]. En la tabla 2.3 se listan las variables calcula-
das, las diferentes entradas utilizadas para su cálculo y la respectiva fórmula que permite
obtenerla.
2. Materiales y Métodos 35
Tabla: 2.3: Variables que se calcularon a partir de los datos de GFS para una misma superficie
isobárica.
Variable Variables de entrada Fórmula
Temperatura del punto de roćıo Temperatura (T ) 35 ∗ log( hr100) + T
Humedad Relativa (hr)
Dirección del viento u-componente del viento (uv) 270− (arctan (vc, uc) ∗ π180)
v-componente del viento (vc)
Velocidad del viento u-componente del viento
√
uc2 + vc2
v-componente del viento
Para la obtención de los ı́ndices atmosféricos (vistos en el Capitulo 1) que no son pro-
vistos por GFS se desarrollaron un conjunto de módulos de procesamiento que permitieron
leer los datos en formatos GRIB/GRIdded Binary [38], procesarlos y guardarlos en Geo-
TIFF [120] para facilitar su manejo y reducir el espacio en disco. La implementación de
los módulos fue realizada en lenguaje Python 2.7 1 y se utilizó la libreŕıa GDAL/OGR
[55] para poder acceder a los datos y traducir los formatos. La implementación consta de
cuatro módulos:
GFSMap: Permite mapear cada una de las variables GFS en una estructura de
datos basadas en Numpy Array [145]. Y además, calcula las variables atmosféricas
que se calculan con GFS (tabla 2.3).
GFSIndex: Implementa el cálculo de todos los ı́ndices atmosféricos.
GFSOutput: Genera la salida en GeoTiff para todas las variables procesadas y los
ı́ndices calculados.
GFSRedim: Realiza una redimensión de los datos GFS, esto implica: recortar el
GRIB/GRIdded al área de estudio, realizar una transformación de la imagen y se
reproyecta a coordenadas geográficas (WGS84).
1 https://www.python.org/
https://www.python.org/
2. Materiales y Métodos 36
También fue necesario implementar el cálculo de la parcela que asciende por un procesos
adiabático. Para esto se tradujo a Python el desarrollo de [122] que implementa el método
de la parcela utilizando un proceso reversible [89]. Aśı fue posible, por ejemplo, calcular
la temperatura de la parcela que asciende desde 850 hPa hasta 500 hPa para calcular el
ı́ndice Showalter.
Tabla: 2.4: Resumen de las principales caracteŕısticas del conjunto de datos de GFS.
Caracteŕıstica Detalle
Peŕıodo 2015-01-26 a 2016-07-31
# de archivos 19019
Tamaño (TB) 1.5
Archivos por d́ıa 40 (Aprox. 2 GB)
# de archivos faltantes 496
La base de datos completa de GFS que se armo abarca el peŕıodo desde Enero de 2015
hasta Julio de 2016, aunque con varios d́ıas de datos faltantes. En promedio un archivo
con todas las 35 variables ocupa en disco 50 MB en promedio. En la Tabla 2.4 se muestra
un resumen que caracteriza los datos GFS, alĺı puede observarse que el volumen total de
datos es de 1.5 TB y el tamaño diario es 2 GB aproximadamente.
2.2.2. Datos de RADAR
Se utilizaron los datos de RADAR [76] que se generan sin polarimetŕıa, únicamente
fueron incluidos los datos de reflectividad medidos en dBZ. A partir estos datos se cons-
truyó una variable objetivo utilizando umbrales [42] conocidos para estos datos que son
indicadores de convección con gran probabilidad de granizo.
Las tareas de preprocesamiento de estos datos consistieron en realizar una agregaciones
diarias de las dos primeras elevaciones (0.5◦ y 1.3◦) de un volumen de RADAR (Figura
2.4). Con los 144 archivos diarios (uno cada 10 minutos), se realizó un producto similar a
Composite Reflectivity (o CMAX) [8] pero que reúne la máxima reflectividad diaria.
2. Materiales y Métodos 37
Figura: 2.4: Detalle de las elevaciones utilizadas (izquierda), el stack de barridos diarios para las
dos elevaciones (centro) y la resolución espacial de una imagen de RADAR, esa es la
representación de una elevación (derecha).
Los datos de radar y GFS tienen diferentes escalas temporales y espaciales. La tem-
poralidad se maneja haciendo una agregación diaria donde se construye una imagen de
todo el d́ıa siguiendo y conservando los ṕıxeles de mayor reflectividad. Para lograr que
exista una coincidencia espacial se genera una medida resumen que analiza la distribución
de ṕıxeles de RADAR dentro de una celda GFS. Aśı para cada celda del pronóstico glo-
bal se extraen los ṕıxeles con los valores de dBZ y se estima una función de densidad de
probabilidad utilizando el método de Densidad Kernel [132].
Por último, se calcula la integral definida para los valores mayores o igual al umbral de
50 dBZ [8] y se obtiene aśı la probabilidad acumulada a partir de ese valor. Inicialmente se
trabajó con valores más bajos de reflectividad como umbral (30 dBZ) y se fue ajustando
emṕıricamente ese valor ya que se encontró que los valores más bajos introducen ruido
y promueven la aparición de falsos positivos. En la Figura 2.5 se muestra el detalle del
método, donde la función de densidad para una celda GFS con gran actividad de convección
aglutina una alta cantidad de valores con reflectividad superior al umbral. Para el ejemplo
la probabilidad de encontrar celdas mayores a 50 dBZ es del 0.503.
Para la realización de estos cálculos se implementó un conjunto de scripts de procesa-
miento que recorren las celdas GFS y para cada una de estas hacen una extracción de los
ṕıxeles de RADAR y el cálculo de las probabilidades.
2. Materiales y Métodos 38
Figura: 2.5: Detalle del método utilizado para la construcción de la variable objetivo. Para una
celda GFS con gran actividad convectiva (derecha) se estima una función de densidad
probabiĺıstica utilizando Densidad Kernel (izquierda).
A continuación se describe en detalle cuales fueron los pasos para el preprocesamiento
de los datos de RADAR para convertir los volúmenes de cada barrido en grillas carte-
sianas. Para esto se requirió la implementación de un script Bash [115] que organiza el
procesamiento en cinco pasos con sus respectivos módulos:
1. Recuperación de los volúmenes desde el backup de RADAR. Este módulo recupe-
ra a partir de la fecha/hora y un valor delta que representa las horas previas y
posteriores de esa hora todos los volúmenes necesarios para el cálculo.Para esto se
implementó un programa Python que solo utiliza las libreŕıas estándares del lenguaje
[90].
2. Conversión de formato vol a cfRadial [39] que es una adptación de netCDF [117].
Dado que los archivos de RADAR están en un formato propietario de la aplicación
Rainbow [56] (.vol) estos son convertidos a netCDF para facilitar el procesamiento.
Para esto se utilizó el comando RadxConvert de la libreŕıa Radx [40].
3. Conversión a grillas cartesianas. Los archivos de RADAR por defecto están en coor-
denadas polares, en este paso son convertidos a coordenadas planas utilizando un
2. Materiales y Métodos 39
proceso de grillado e interpolación de los datos. Esta tarea, se realiza con un script
Python que utiliza la libreŕıa Py-ART [70].
4. Cálculo de Composite Reflectivity (o CMAX). Este módulo integra las grillas de todo
el d́ıa y retorna una grilla con los valores máximos de dBZ. La implementación fue
en Python utilizando la libreŕıa GDAL/OGR [55].
5. Extracción de los valores de RADAR para cada celda GFS. Este proceso de extrac-
ción y cálculo de probabilidades con el método de Densidad Kernel fue implementado
con Python y R. En R se hizo el cálculo de densidades y la integral definida (utili-
zando el módulo sfsmisc [93]) desde el umbral de 50 dBZ hasta el valor máximo de
dBZ y con Python utilizando la libreŕıa GDAL/OGR se recorrió la grilla de GFS
formando un poĺıgono que representa la celda y a partir de ese vector se extraen los
ṕıxeles de RADAR como se mostró en la Figura 2.5.
Se procesaron un total de 429 fechas de los tres radares para el 2015 (Tabla 2.5), en
total unos 61776 archivos. Para cada radar y cada una de las fechas fue calculado el CMAX
como medida resumen de ese d́ıa y radar. El tamaño resultante de ese procesamiento es
de 257 GB.
Tabla: 2.5: Resumen de los datos procesados de radar
Radar Cantidad de d́ıas Tamaño (GB)
Anguil 132 61
Paraná 152 106
Pergamino 145 90
Total 429 257
2.2.3. Datos de campo
El número de personas que participan activamente en sitios de redes sociales continua
aumentando rápidamente. Twitter tiene hoy en d́ıa más de 600 millones de usuarios y se
publican en promedio un total de 58 millones de tweets cada d́ıa [6]. La utilización de redes
sociales como insumo de aplicaciones colaborativas relacionadas con el clima, el control
2. Materiales y Métodos 40
del tránsito o en tareas de concientización combinada con diferentes redes de sensores es
cada vez más común.
Se comenzará describiendo cuál ha sido el método para ubicar espacialmente, deter-
minando la latitud y longitud, publicaciones realizadas en la red social Twitter [33] a
partir de la extracción de nombre de entidades (o NER del inglés Named Entity Recog-
nition) correspondientes a ubicaciones. Si bien en esta red social existe información de
posicionamiento es provista por su API, esta no siempre es publicada por los usuarios.
Figura: 2.6: Distribución de puntos provenientes de Twitter que fueron ubicados utilizando NER
Se ha implementado un framework (figura 2.7) para el acopio y procesamiento de
tweets que consta de varios módulos entre los que se incluyen la captura, que facilita la
obtención de tweets realizando búsquedas sobre la interfaz REST provista por Twitter y
filtrando por palabras claves que identifican al granizo. Y por otro lado, el módulo que
aplica técnicas de NER con extracción y posterior clasificación de las entidades. Esas
entidades de ubicaciones encontradas son comparadas con las existentes en un gazzeteer
[61], [72] que es una lista de nombres geográficos junto con su ubicación geográfica y alguna
información adicional.
Para cada nombre de un lugar, ciudad, provincia, páıs, etc. que fue obtenido de Geo-
2. Materiales y Métodos 41
names [138] se recuperan las coordenadas geográficas como latitud y longitud con datum
WGS842. Los puntos que se obtienen son validados con información obtenida de la red de
radares meteorológicos del Instituto Nacional de Tecnoloǵıa Agropecuaria (INTA).
Figura: 2.7: Arquitectura del framework de procesamiento de gestión de tweets
Se implementaron dos bases de datos para almacenar diferentes componentes de este
problema. Por un lado, se trabajó con una base de tweets donde a partir del procesamiento
de la estructura de datos recuperada a través de la API REST de Twitter se procede a
guardar en una base de datos relacional los datos de: autor, lugar y tweet. Los que se
van procesando se integran en otra base de datos que tiene capacidad de gestión de datos
georeferenciados.
Con este método de recolección de evidencia de eventos de granizo se consiguió una
cantidad importante de puntos de validación para el área de estudio. En la tabla 2.6, se
2 El WGS84 es un sistema de coordenadas geográficas mundial que permite localizar cualquier punto
de la Tierra (sin necesitar otro de referencia) por medio de tres unidades dadas. WGS84 son las siglas en
inglés de World Geodetic System 84 (que significa Sistema Geodésico Mundial 1984) [107].
2. Materiales y Métodos 42
resume el total de eventos por cada radar.
Tabla: 2.6: Eventos relevados de Twitter para cada radar
Radar Total Eventos
Anguil 49
Paraná 1825
Pergamino 3008
Total 4882
El principal obstáculo que se encontró al utilizar NER para este problema ha sido la
ambigüedad de los nombres de las ubicaciones. Este es un problema t́ıpico de esta disciplina
y para esos casos se definieron algunas heuŕısticas a partir de la información que se extrae
del usuario de Twitter.
Figura: 2.8: Validación de puntos para el evento del d́ıa 16 de Septiembre de 2015.
Como se mencionó anteriormente, la validación de los puntos se realizó utilizando
información de los radares de INTA. En la figura 2.8 pueden observarse un conjunto de
2. Materiales y Métodos 43
puntos de ejemplo para un evento del d́ıa 16 de Septiembre de 2015 donde la denuncia del
evento en la red social coincide con zonas de reflectividad alta. Todos los puntos que se
obtuvieron se validaron superponiendo cada tweet sobre imágenes del producto CMAX de
RADAR utilizando una reflectividad diaria del producto Composite Reflectivity [8].
La segunda fuente de puntos de validación provinieron de las compañ́ıas de seguros
agŕıcolas que son importantes generadoras de información georeferenciada indispensable
para validación de los modelos. El procedimiento que estas organizaciones siguen comienza
con la denuncia de un evento por parte del productor y los tasadores de la empresa verifican
in situ la ocurrencia del evento para poder evaluar y tasar el daño. En este trabajo solo
es necesario confirmar la ocurrencia del evento por lo tanto el porcentaje de daño no
será tenido en cuenta. En esta etapa se concretó un convenio de vinculación con la empresa
Sancor Seguros a través del cuál se pudo acceder a un gran número de puntos aptos para
realizar la validación.
480
310
77
570
220
0 2 13 20
669
4148
2633
0
1000
2000
3000
4000
1 2 3 4 5 6 7 8 9 10 11 12
Mes
C
a
n
ti
d
a
d
Cantidad de puntos por mes
provistos por aseguradoras
Figura: 2.9: Gráfico de barras mensuales relevados por empresas aseguradoras de granizo.
En total de empresas de seguro contra granizo se relevaron un total de 168 fechas y 9142
puntos. En la Figura 2.9 se muestra la cantidad de puntos por mes provistos por empresas
2. Materiales y Métodos 44
aseguradoras de granizo. Como se puede observar los datos de estas organizaciones se
encuentran sesgados a las diferentes campañas agŕıcolas. Donde en la intersección entre
campañas durante Junio, Julio y Agosto prácticamente no hay eventos.
2.2.4. Generación de los datasets
La generación de datasets se separó según las diferentes etapas de modelado. En este
trabajo se siguieron dos caminos de análisis, por un lado la determinación de áreas con-
vectivas utilizando GFS y validando con RADAR a través de

Continuar navegando