Logo Studenta

p3-drozenfarb

¡Este material tiene más páginas!

Vista previa del material en texto

Septiembre de 2014
Lingüística y Bigdata
Dan Rozenfarb (dan@keepcon.com)
Adrián Lisenberg (adrian@keepcon.com)
2Keepcon | Hablemos de Big Data 2014, Argentina
¿Qué hacemos?
�Clasificados
�Medios
�Comunidades online
�…
Moderación de UGC
3Keepcon | Hablemos de Big Data 2014, Argentina
consolador de ultima moda 
bibraciones estupendas encontraras 
tu punto g y no lo soltaras ni para 
buscar a tus ijos al colejio
Comprensión
“
”
4Keepcon | Hablemos de Big Data 2014, Argentina
Shakira sos buenísima me regustan tus caderas
Texto correcto
Conjugación verbal (tiempo, modo, persona, número)
Flexión de Género
Flexión de Número
Sufijos (aument., diminut., peyorativo, superlativo, etc.)
Prefijos (intensidad, oposición, negación, etc.)
5Keepcon | Hablemos de Big Data 2014, Argentina
T3 kon testo enel forrrooo, hest@ vien?
Texto incorrecto
Símbolos y números
Errores ortográficos y de tipeo
Splitting
Merging
Letras repetidas
6Keepcon | Hablemos de Big Data 2014, Argentina
640
4
40
19,200
576,000
38,300,000
1,600,000
Estúpido / Estúpida/ Estúpidos/ Estúpidas
Estupidito/ Estupidazo/ 
Estupidísimo/Estupidote/ …
Superestúpido/ Hiperestúpido/ 
Reestúpido/ …
Etupido / Estup1d0/ 3stupido/ 
Stúpido/ Eztupido/ Estupidus/…
Estupidoooooo/ 
Estuupido/ …
e.s.t.u.p.i.d.o / est upi do/ 
est….u…p..idoo/ ….
Eresunestu pido/ 
estu pidototal/
Sonmuyes tu pidos/
Género y Número
Sufijos
Prefijos
Ortografía / Fonética/ 
Gráfica / Flexiones 
Regionales/
Merging
Repeticiones
Splitting
Combinaciones de “estúpido”
7Keepcon | Hablemos de Big Data 2014, Argentina
Detección de no-palabras
Asasjldkaldf Tecladismo
:) :( Emoticones
8===) Arte ASCII
jajjaja Risas Idioma
8Keepcon | Hablemos de Big Data 2014, Argentina
Morfología
Googleadoras
Google verbo femen. pluraladj.
Google a a sdor
9Keepcon | Hablemos de Big Data 2014, Argentina
Arma un combo
Vendo un arma
Desgracia la para suerte qué
Sintaxis
10Keepcon | Hablemos de Big Data 2014, Argentina
Semántica
La lata descansa casas verdes
La pasé mal
Me gustó mal
11Keepcon | Hablemos de Big Data 2014, Argentina
Pragmática
Esta mañana me tomé un submarino
12Keepcon | Hablemos de Big Data 2014, Argentina
Real-time Analytics en un cliente
�4MM por día
�50k reglas
�< 200ms
13Keepcon | Hablemos de Big Data 2014, Argentina
Arquitectura Previa
�SQL Server
�Escalabilidad Vertical
�1 físico: 64GB, 16 cores, 6TB
�Analysis Services + Sharepoint
�Cubo con 30 min. de delay
�Compilación incremental
14Keepcon | Hablemos de Big Data 2014, Argentina
Arquitectura Nueva
ElasticSearch + Cassandra
15Keepcon | Hablemos de Big Data 2014, Argentina
Arquitectura Nueva
ElasticSearch 1.0:
�5 físicos, 32GB, 4 cores, 1TB SSD
�Aggregations para gráficos casi RT
�100 index request por segundo
�700 MM documentos (TTL de 6 
meses)
�Inestabilidad x OOM
�Gráficos < 5 segundos
16Keepcon | Hablemos de Big Data 2014, Argentina
Arquitectura Nueva
Cassandra 2.0:
�3 físicos, 8GB, 4 cores, 8TB c/u
�1200 MM documentos sin TTL
�Objetos serializados completos
�Acceso por ID. Búsquedas en ES
17Keepcon | Hablemos de Big Data 2014, Argentina
13%
87%
Tipos de información
Anotada
Fuente: Computer World, Meryll Lynch, IDC´s Digital Universe Study 2012
No anotada
20%
80%
Estructurada
Desestructurada
Información «útil»
18Keepcon | Hablemos de Big Data 2014, Argentina
Dificultades
�Info. estructurada + fácil
�Desestructurada difícil
19Keepcon | Hablemos de Big Data 2014, Argentina
Preguntas
¿Eh?

Continuar navegando

Materiales relacionados

35 pag.
2

San Francisco De Uco

User badge image

ancrve03

176 pag.
Tesis-RamArez-Gervacio

User badge image

Los Mejores Materiales