Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Septiembre de 2014 Lingüística y Bigdata Dan Rozenfarb (dan@keepcon.com) Adrián Lisenberg (adrian@keepcon.com) 2Keepcon | Hablemos de Big Data 2014, Argentina ¿Qué hacemos? �Clasificados �Medios �Comunidades online �… Moderación de UGC 3Keepcon | Hablemos de Big Data 2014, Argentina consolador de ultima moda bibraciones estupendas encontraras tu punto g y no lo soltaras ni para buscar a tus ijos al colejio Comprensión “ ” 4Keepcon | Hablemos de Big Data 2014, Argentina Shakira sos buenísima me regustan tus caderas Texto correcto Conjugación verbal (tiempo, modo, persona, número) Flexión de Género Flexión de Número Sufijos (aument., diminut., peyorativo, superlativo, etc.) Prefijos (intensidad, oposición, negación, etc.) 5Keepcon | Hablemos de Big Data 2014, Argentina T3 kon testo enel forrrooo, hest@ vien? Texto incorrecto Símbolos y números Errores ortográficos y de tipeo Splitting Merging Letras repetidas 6Keepcon | Hablemos de Big Data 2014, Argentina 640 4 40 19,200 576,000 38,300,000 1,600,000 Estúpido / Estúpida/ Estúpidos/ Estúpidas Estupidito/ Estupidazo/ Estupidísimo/Estupidote/ … Superestúpido/ Hiperestúpido/ Reestúpido/ … Etupido / Estup1d0/ 3stupido/ Stúpido/ Eztupido/ Estupidus/… Estupidoooooo/ Estuupido/ … e.s.t.u.p.i.d.o / est upi do/ est….u…p..idoo/ …. Eresunestu pido/ estu pidototal/ Sonmuyes tu pidos/ Género y Número Sufijos Prefijos Ortografía / Fonética/ Gráfica / Flexiones Regionales/ Merging Repeticiones Splitting Combinaciones de “estúpido” 7Keepcon | Hablemos de Big Data 2014, Argentina Detección de no-palabras Asasjldkaldf Tecladismo :) :( Emoticones 8===) Arte ASCII jajjaja Risas Idioma 8Keepcon | Hablemos de Big Data 2014, Argentina Morfología Googleadoras Google verbo femen. pluraladj. Google a a sdor 9Keepcon | Hablemos de Big Data 2014, Argentina Arma un combo Vendo un arma Desgracia la para suerte qué Sintaxis 10Keepcon | Hablemos de Big Data 2014, Argentina Semántica La lata descansa casas verdes La pasé mal Me gustó mal 11Keepcon | Hablemos de Big Data 2014, Argentina Pragmática Esta mañana me tomé un submarino 12Keepcon | Hablemos de Big Data 2014, Argentina Real-time Analytics en un cliente �4MM por día �50k reglas �< 200ms 13Keepcon | Hablemos de Big Data 2014, Argentina Arquitectura Previa �SQL Server �Escalabilidad Vertical �1 físico: 64GB, 16 cores, 6TB �Analysis Services + Sharepoint �Cubo con 30 min. de delay �Compilación incremental 14Keepcon | Hablemos de Big Data 2014, Argentina Arquitectura Nueva ElasticSearch + Cassandra 15Keepcon | Hablemos de Big Data 2014, Argentina Arquitectura Nueva ElasticSearch 1.0: �5 físicos, 32GB, 4 cores, 1TB SSD �Aggregations para gráficos casi RT �100 index request por segundo �700 MM documentos (TTL de 6 meses) �Inestabilidad x OOM �Gráficos < 5 segundos 16Keepcon | Hablemos de Big Data 2014, Argentina Arquitectura Nueva Cassandra 2.0: �3 físicos, 8GB, 4 cores, 8TB c/u �1200 MM documentos sin TTL �Objetos serializados completos �Acceso por ID. Búsquedas en ES 17Keepcon | Hablemos de Big Data 2014, Argentina 13% 87% Tipos de información Anotada Fuente: Computer World, Meryll Lynch, IDC´s Digital Universe Study 2012 No anotada 20% 80% Estructurada Desestructurada Información «útil» 18Keepcon | Hablemos de Big Data 2014, Argentina Dificultades �Info. estructurada + fácil �Desestructurada difícil 19Keepcon | Hablemos de Big Data 2014, Argentina Preguntas ¿Eh?
Compartir