Logo Studenta

Guía de Planificación para Big Data

¡Este material tiene más páginas!

Vista previa del material en texto

Guía de planificación 
Comenzando con Big Data
Cómo avanzar con una implementación exitosa
Junio de 2014
Por qué debería leer este documento
Esta guía de planificación proporciona información valiosa y medidas 
prácticas para los administradores de TI que quieran planificar e 
implementar iniciativas de análisis de Big Data, incluyendo:
• El panorama de TI de hoy para Big Data y los desafíos y 
oportunidades asociados con esta fuerza disruptiva.
• Tecnologías de Big Data, con foco en el marco Apache 
Hadoop* y en el análisis en memoria. 
• La importancia de colocar la infraestructura correcta en 
su lugar para una implementación óptima de Big Data.
• Tres “próximos pasos” básicos y una lista de verificación para 
ayudar a los administradores de TI a avanzar con la planificación 
y la implementación de su propio proyecto de Big Data.
Contenido 3 El panorama de TI actual para el análisis de Big Data 
 4 Comprender las tecnologías de Big Data
 6 Implementar las soluciones de Big Data
11 Comience con el análisis de Big Data: 
Tres pasos básicos 
14 Recursos Intel para conocer más
3 Intel IT Center Guía de planificación | Comenzando con Big Data
El panorama de TI de hoy para 
el análisis de Big Data
El interés por Big Data ha pasado del entusiasmo desmedido 
a ser una conversación más focalizada. Las tecnologías que 
están aún madurando, la falta de destrezas, y los cambios 
en la manera en que TI y la empresa trabajan juntas son la 
nueva realidad: Explotar Big Data no es fácil. 
Sin embargo, el caso de negocios para Big Data sigue siendo 
contundente. A pesar de las reacciones negativas de los 
escépticos que se desilusionaron con las promesas económicas 
de Big Data, las organizaciones siguen avanzando. Por ejemplo, 
la encuesta de 200 administradores de TI en los Estados Unidos 
realizada en 2013 por Intel sobre Big Data descubrió que más 
de la mitad de los encuestados ya habían implementado o 
están implementando actualmente una distribución Apache 
Hadoop*.1 Si se mantiene el status quo se corre el riesgo 
demasiado grande de ser superado por la competencia.
Hoy día, los proveedores ofrecen un número creciente de 
plataformas y soluciones listas para la empresa e integrales 
que construyen sobre las innovaciones tecnológicas. La 
conversación ha pasado de concentrase en: “¿Hay valor en 
Big Data?” a “¿Cómo puedo usarlo para crear valor y ventajas 
competitivas para mi organización?”
Qué es lo próximo para Big Data: Análisis 
predictivo y la Internet de las cosas
Big Data deriva la mayoría de su valor de la información 
que produce cuando se lo analiza; lo que ayuda a las 
organizaciones a descubrir patrones, encontrar significados, 
tomar decisiones, y responder en última instancia al mundo 
con inteligencia. A medida que madure la tecnología y la 
conversación continúe evolucionando, las organizaciones 
desarrollarán nuevas formas de obtener información 
adoptando nuevos enfoques respecto de Big Data que 
solían estar fuera del alcance de la empresa tradicional.
Por ejemplo, las organizaciones se están volcando al 
análisis predictivo porque las ayuda a profundizar su 
interacción con los clientes, a optimizar los procesos, y a 
reducir los costos operativos. La combinación de flujos de 
datos en tiempo real y el análisis predictivo -al que suele 
denominarse procesamiento sin fin- tiene el potencial de 
ofrecer una ventaja competitiva significativa a la empresa. 
Para una descripción del análisis predictivo, incluyendo por 
qué es importante y cómo las empresas pueden ponerlo en 
funcionamiento, ver Análisis predictivo 101: Inteligencia de 
Big Data de próxima generación (en inglés).
La Internet de las cosas (IoT)—dispositivos con Internet habilitada 
que se conectan y comunican entre sí y la nube—también está 
impulsando la innovación en el análisis de Big Data. IDC estima 
que IoT incluirá 212.000 millones de “cosas” para fines 
de 2020,2 generando cantidades masivas de datos en un 
flujo de datos de rápido movimiento. La mayoría de estos 
datos serán generados por máquinas mediante sensores y 
actuadores incorporados conectados por redes alámbricas 
e inalámbricas que se comunican usando el mismo 
protocolo que conecta a la Internet. Los datos generados 
por humanos desde dispositivos como teléfonos móviles 
y tabletas también serán parte de la combinación. Este 
dato puede utilizarse para desbloquear correlaciones entre 
eventos, automatizar sistemas inteligentes, y proporcionar la 
información necesaria para resolver problemas empresariales 
y sociales más complejos. Conozca más sobre la perspectiva 
de Intel sobre datos generados por máquinas en Data Mining 
y Big Data distribuidos (en inglés).
¿Qué es “Big Data” exactamente?
Big Data se refiere a grandes conjuntos de datos que 
son más grandes en términos de orden de magnitud 
(volumen); son más diversos, incluyendo datos 
semiestructurados, y no estructurados (variedad); y que 
llegan más rápido (velocidad) que lo que usted o su 
organización ha tenido que procesar antes. Este flujo 
de datos está generado por dispositivos conectados, 
desde PCs y teléfonos inteligentes a sensores como 
lectores RFID y cámaras de tráfico. Además, es 
heterogéneo y viene en muchos formatos, incluyendo 
textos, documentos, imágenes, videos, registros web, 
transacciones, y más.
mailto:?subject=Getting%20Started%20with%20Big%20Data%20Planning%20Guide&body=Thought%20you%20might%20be%20interested%20in%20this%20big%20data%20planning%20guide%20from%20Intel%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp%20%23ITCenter
http://www.linkedin.com/shareArticle?mini=true&url=http%3A%2F%2Fintel.ly%2F1glmlgp&title=Getting%20Started%20with%20Big%20Data&source=&summary=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20IT%20Center.%20%23ITCenter
http://twitter.com/intent/tweet?text=Get%20started%20with%20%23BigData%20with%20this%20planning%20guide%20from%20%40Intel%20%23ITCenter%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp
https://www.facebook.com/dialog/feed?app_id=123050457758183&link=http%3A%2F%2Fintel.ly%2F1glmlgp&picture=&name=Getting%20Started%20with%20Big%20Data&caption=%20&description=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20Business%20Center.%20%23ITCenter&redirect_uri=http%3A%2F%2Fwww.facebook.com%2F
http://www.intel.com/content/www/us/en/big-data/big-data-predictive-analytics-overview.html
http://www.intel.com/content/www/us/en/big-data/big-data-predictive-analytics-overview.html
http://www.intel.com/content/www/xa/en/big-data/distributed-data-mining-paper.html
http://www.intel.com/content/www/xa/en/big-data/distributed-data-mining-paper.html
4 Intel IT Center Guía de planificación | Comenzando con Big Data
Mayor presión sobre TI
Con tanto en juego para la empresa, las iniciativas de Big 
Data no pueden sucederse aisladamente. TI debe forjar una 
asociación fuerte con los líderes empresariales para identificar 
las oportunidades de Big Data y avanzar con la asistencia 
necesaria. Big Data también requiere nuevas destrezas 
empresariales, técnicas y analíticas para ayudar a modelar 
problemas empresariales complejos y descubrir información, 
integrar sistemas, construir bases de datos masivas, y 
administrar marcos de software distribuido. 
La adopción completa del análisis de Big Data involucra tres 
pasos básicos de alto nivel. El orden es importante, aunque las 
actividades se superpondrán a medida que usted avance:
1. Trabaje con los líderes empresariales para determinar 
las fronteras culturas de su implementación, interna 
y externamente.
2. Adquiera el conjunto de destrezas empresariales, 
tecnológicas y analíticas que necesita, como científicos de 
datos, arquitectos de sistemas, e ingenieros de datos.
3. Identifique los requerimientos de tecnología e implemente 
el grupo de soluciones. 
A pesar de que los 3 pasos son igualmente críticos para 
el éxito, esta guía se concentraen el paso 3: implementar 
las soluciones de Big Data. El International Institute for 
Analytics es una excelente fuente de recursos para los 
primeros dos pasos.
Comprender las tecnologías de Big Data
Las herramientas e infraestructura tradicionales no son eficientes 
funcionando con conjuntos de datos más grandes, variados y que 
se generan con rapidez. Para que las organizaciones puedan realizar 
el potencial completo de Big Data, deben encontrar un nuevo 
enfoque para capturar, almacenar, y analizar datos. 
Las tecnologías de Big Data usan la potencia de la red distribuida 
de los recursos de computación y “arquitectura que no comparte 
nada”, marcos de procesamiento distribuido, y bases de datos no 
relacionales para redefinir la forma en que los datos se administran 
y analizan. Las innovaciones en los servidores y las soluciones 
de análisis en memoria escalables facilitan la optimización de la 
potencia de computación, escalabilidad, confiabilidad, y costo total 
de propiedad para las cargas de trabajo de análisis más exigentes.
El grupo de soluciones de Big Data
Dependiendo del caso de uso, su grupo de soluciones de Big 
Data incluye una infraestructura de alto desempeño que da vida 
a alguna combinación de marcos de procesamiento distribuido 
como el software Apache Hadoop, bases de datos de análisis 
relacionales y no relacionales, y aplicaciones analíticas. 
Desde un punto de vista funcional, estas tecnologías se 
complementan y trabajan juntas como una plataforma flexible 
de Big Data que también puede aprovechar la arquitectura 
existente de administración de datos. Por ejemplo, el análisis 
histórico de Hadoop* puede trasportarse a bases de datos 
analíticas o integrarse con datos estructurados en los 
almacenes de datos empresariales tradicionales (enterprise 
data warehouses, EDW) para mayor análisis.
Software Apache Hadoop* 
El software Apache Hadoop es un marco completo de código 
abierto para Big Data y ha surgido como uno de los mejores 
enfoques para procesar conjuntos de datos grandes y variados. 
El marco Hadoop proporciona un modelo de programación 
simple para el procesamiento distribuido de grandes conjuntos 
de datos. Incluye Apache* Hadoop Distributed File System 
(HDFS*), un marco para programación de trabajos llamado 
Apache Hadoop YARN, y un marco de procesamiento paralelo 
llamado Apache Hadoop MapReduce. Varios componentes 
respaldan la ingestión de datos (el servicio Apache Flume*), 
consultas y análisis (software Apache Pig*, Apache Hive*,y 
Apache HBase*), y coordinación de flujos de trabajo (Apache 
Oozie), así como también administración y monitoreo del cluster 
de servidores subyacente (software Apache Ambari*).
Escuche de los expertos Apache Hadoop*
Una forma de conocer sobre el software Apache 
Hadoop* y sus componentes es escuchar directamente 
a los expertos muy comprometidos con la comunidad 
de código abierto y su trabajo de desarrollo. Escuche 
los podcasts de entrevistas de los líderes de la 
comunidad para Apache Hadoop MapReduce, Apache* 
Hadoop* Distributed File System (HDFS*), Apache 
Hive*, Apache Pig*, y HCatalog, describiendo cómo 
funciona cada uno, dónde se ubican dentro del grupo 
Hadoop, y los planes de desarrollo continuo. Archivos 
PDF acompañan cada podcast.
mailto:?subject=Getting%20Started%20with%20Big%20Data%20Planning%20Guide&body=Thought%20you%20might%20be%20interested%20in%20this%20big%20data%20planning%20guide%20from%20Intel%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp%20%23ITCenter
http://www.linkedin.com/shareArticle?mini=true&url=http%3A%2F%2Fintel.ly%2F1glmlgp&title=Getting%20Started%20with%20Big%20Data&source=&summary=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20IT%20Center.%20%23ITCenter
http://twitter.com/intent/tweet?text=Get%20started%20with%20%23BigData%20with%20this%20planning%20guide%20from%20%40Intel%20%23ITCenter%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp
https://www.facebook.com/dialog/feed?app_id=123050457758183&link=http%3A%2F%2Fintel.ly%2F1glmlgp&picture=&name=Getting%20Started%20with%20Big%20Data&caption=%20&description=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20Business%20Center.%20%23ITCenter&redirect_uri=http%3A%2F%2Fwww.facebook.com%2F
http://hadoop.apache.org/
5 Intel IT Center Guía de planificación | Comenzando con Big Data
Combinados, los componentes del software Apache son un 
marco poderoso para el procesamiento y análisis de datos 
distribuidos en lote para análisis históricos. 
El marco Hadoop está disponible a través de la comunidad 
de código abierto o como un paquete de distribución de 
proveedores que incluyen software y servicios con valor 
agregado (como administración, capacitación, y soporte). 
Muchas de estas distribuciones pueden integrarse con EDW, 
sistemas de administración de bases de datos relacionales 
(relational database management systems, RDBM), y otros 
sistemas de administración de datos de modo que los datos 
pueden moverse entre clusters de Hadoop y otros ambientes 
para expandir el conjunto de datos a procesar o consultas.
Análisis en memoria 
La computación en memoria tiene el potencial de impactar 
significativamente la potencia y la velocidad del análisis de 
Big Data. Gartner reconoce su valor estratégico, identificando 
la computación en memoria como una de las 10 tendencias 
tecnológicas estratégicas de 2013.3 Con la computación 
en memoria, es posible tomar decisiones en tiempo real, 
impulsadas por los datos. 
La computación en memoria elimina una de las principales 
limitaciones a muchas soluciones de Big Data: la alta latencia y 
los cuellos de botella de E/S causados por acceder a los datos 
desde el almacenamiento basado en disco. La computación en 
memoria mantiene a todos los datos relevantes en la memoria 
principal del sistema de computación. Se puede acceder a los 
datos con órdenes de magnitud más rápidas, de modo que 
están disponibles para un análisis inmediato; y la información 
empresarial está disponible casi instantáneamente. Con la 
computación en memoria, grandes bloques de datos funcionales 
y almacenes de datos completos pueden enviarse a DRAM para 
el análisis inmediato de todo el conjunto de datos. 
El análisis en memoria integra aplicaciones de análisis y bases de 
datos en memoria en servidores dedicados. Esto es ideal para 
escenarios analíticos con requerimientos de computación pesada 
y procesamiento de datos en tiempo real. Ejemplos de soluciones 
de bases de datos en memoria incluyen la plataforma SAP 
HANA* (desarrollada conjuntamente por Intel y SAP), Opción en 
memoria de base de datos Oracle* para Oracle 12c, sistemas en 
memoria IBM* con Aceleración BLU, y análisis en memoria SAS*.
Para obtener más información sobre cómo las soluciones en 
memoria actuales de proveedores están cambiando la forma en 
la que las empresas analizan Big Data, lea el documento técnico 
Cambiando la forma en la que las empresas hacen computación 
y compiten con análisis (en inglés).
Intel y Cloudera unen fuerzas
En marzo de 2014, Intel anunció una inversión sustancial 
en capital (USD 740 millones) y en propiedad intelectual 
en Cloudera, proveedor de la versión de software más 
popular de Apache Hadoop* en el mercado. Intel también 
anunció que saldría del mercado de software de análisis 
de Big Data con su propia distribución y trabajo con 
Cloudera para integrar optimizaciones de la Distribución 
Intel® para Apache Hadoop (también conocida como 
Plataforma de datos de Intel) en la distribución de 
Cloudera incluyendo Apache Hadoop (CDH). 
Juntos, Intel y Cloudera continúan impulsando la 
innovación a través de las tecnologías de código abierto, 
concentrándose en la seguridad, el desempeño, la 
administración, y las aplicaciones. Cloudera también está 
trabajando estrechamente con Intel para asegurarse de 
que sus productos aprovechen al máximo las tecnologías 
de centro de datos de Intel. La colaboración tecnológicaentre Intel y Cloudera también combina esfuerzos en las 
tecnologías fundacionales Hadoop* para ayudar a avanzar 
el marco de software y alentar a los desarrolladores de 
código abierto a innovar en y sobre la plataforma.
Para obtener más información sobre CDH, visite 
cloudera.com.
Computación en memoria: 
Más potencia y velocidad
La computación en memoria ha existido durante un 
tiempo como redes de datos distribuidas e instalaciones 
grandes y costosas. Sin embargo, los sistemas en 
memoria de hoy son más rápidos, más poderosos, y 
más económicos. ¿Por qué? Como lo predijo la Ley de 
Moore, el costo de la memoria continúa cayendo -los 
costos de la memoria flash DRAM y NAND han bajado 
dramáticamente—al mismo tiempo que el número de 
procesadores por chip está aumentando. Con la familia 
de procesadores Intel® Xeon® E7 v2, un servidor de cuatro 
sockets puede configurarse con hasta 6 terabytes (TB) 
de memoria y un servidor de ocho sockets con hasta 12 
TB, suficiente para alojar muchas de las bases de datos 
actuales dentro de la memoria de un único servidor.
Esto, combinado con las innovaciones de servidores 
como las mejoras de desempeño (por ejemplo, tecnología 
hyper-threading) y la madurez de las plataformas de 
software de análisis, hace que las arquitecturas de bases 
de datos en memoria sean más asequibles.
mailto:?subject=Getting%20Started%20with%20Big%20Data%20Planning%20Guide&body=Thought%20you%20might%20be%20interested%20in%20this%20big%20data%20planning%20guide%20from%20Intel%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp%20%23ITCenter
http://www.linkedin.com/shareArticle?mini=true&url=http%3A%2F%2Fintel.ly%2F1glmlgp&title=Getting%20Started%20with%20Big%20Data&source=&summary=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20IT%20Center.%20%23ITCenter
http://twitter.com/intent/tweet?text=Get%20started%20with%20%23BigData%20with%20this%20planning%20guide%20from%20%40Intel%20%23ITCenter%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp
https://www.facebook.com/dialog/feed?app_id=123050457758183&link=http%3A%2F%2Fintel.ly%2F1glmlgp&picture=&name=Getting%20Started%20with%20Big%20Data&caption=%20&description=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20Business%20Center.%20%23ITCenter&redirect_uri=http%3A%2F%2Fwww.facebook.com%2F
http://www.intel.com/content/www/us/en/big-data/big-data-xeon-e7-v2-in-memory-computing-paper.html
http://cloudera.com
6 Intel IT Center Guía de planificación | Comenzando con Big Data
Bases de datos NoSQL 
Estas bases de datos no relacionales vienen con cuatro tipos 
diferentes de almacenamiento -valor clave, columnar, gráficos, 
o documentos- y proporcionan almacenamiento de alto 
desempeño y alta disponibilidad a escala Web. Son útiles para 
manejar flujos de datos masivos y esquemas flexibles y tipos 
de datos con tiempos de respuesta rápidos. Las bases de datos 
NoSQL usan una arquitectura distribuida y tolerante a fallos, 
que proporciona dependencia y escalabilidad de sistemas. 
Ejemplos de bases de datos NoSQL incluyen Apache HBase, 
Apache Cassandra*, MongoDB*, y software Apache CouchDB*.
Bases de datos analíticas columnares 
Las bases de datos basadas en grids almacenan datos 
usando columnas en lugar de filas, reduciendo el número de 
elementos de datos que se deben leer mientras se procesan 
las consultas, y proporcionando desempeño rápido para 
ejecutar un gran número de consultas simultáneas. Las bases 
de datos analíticas columnares son ambientes de solo lectura 
que ofrecen ventajas de desempeño y de escalabilidad 
en términos de precio sobre los sistemas convencionales 
de RDBMS. Se utilizan para EDW y otras aplicaciones 
intensivas en consultas y optimizadas para almacenamiento y 
recuperación de análisis avanzado. SAP* Sybase* IQ, ParAccel* 
Analytic Platform, y HP* Vertica* Analytics Platform dependen 
de bases de datos analíticas columnares.
Bases de datos gráficas y herramientas analíticas
Las bases de datos gráficas son un tipo de base de dato 
NoSQL que está aumentando en importancia. Estas bases 
de datos son particularmente útiles para datos altamente 
conectados en los cuales las relaciones son más numerosas 
o más importantes que las entidades individuales. Las 
estructuras de datos gráficos son flexibles y facilitan la 
conexión y modelado de datos. Son más rápidas para 
consultar, y más intuitivas para modelar y visualizar. La mayoría 
del crecimiento en Big Data es gráfico por naturaleza.
Las bases de datos gráficas funcionan solas o junto con 
otras herramientas gráficas, como visualizaciones gráficas, 
análisis gráficos, y aprendizaje automático. Por ejemplo, 
con el aprendizaje automático, las bases de datos gráficas 
pueden usarse para analizar y predecir relaciones a fin de 
solucionar una gama de problemas.
Implementar soluciones de Big Data 
Las implementaciones de Big Data pueden tener requerimientos de 
gran infraestructura. Las opciones de hardware y software realizadas 
al momento del diseño pueden tener un impacto significativo sobre 
el desempeño y el costo total de propiedad. TI puede aprovechar 
al máximo la implementación de Big Data asegurándose de que 
la infraestructura correcta esté implementada para el caso de uso 
particular y que Hadoop y el software analítico estén optimizados y 
ajustados para el mejor desempeño. 
Una plataforma de Big Data flexible 
y extensible 
Con una plataforma de Big Data flexible y extensible, TI puede 
construir las capacidades que necesita la empresa y elegir al 
mismo tiempo los sistemas más económicos para manejar cada 
caso de uso. Los siguientes tres modelos de uso se fortalecen 
mutuamente para proporcionar mayor valor. 
Extraer, transformar y cargar (extract, transform and load, ETL) 
El modelo de extraer, transformar y cargar (ETL) agrega, 
preprocesa, y almacena datos, pero las soluciones tradicionales 
de ETL no pueden manejar el volumen, la velocidad, y la variedad 
que caracteriza Big Data. Dado que la plataforma Hadoop 
almacena y procesa datos en un ambiente distribuido, Hadoop 
separa los datos entrantes en partes y maneja el procesamiento 
de volúmenes grandes en paralelo. La escalabilidad inherente 
de Hadoop acelera los trabajos ELT de modo que se reduce 
significativamente el tiempo de análisis. Conozca más sobre ETL 
usando el software Hadoop en el documento técnico Extraer, 
transformar y cargar Big Data con Apache Hadoop* (en inglés).
Consultas interactivas 
Combinar el marco Hadoop con un EDW moderno basado 
en arquitectura de procesamiento masivamente paralelo 
(massively parallel processing, MPP) extiende su plataforma 
de Big Data para manejar consultas interactivas y más 
análisis avanzados. Hadoop puede ingerir y procesar grandes 
volúmenes de datos en streaming y cargarlos en el EDW para 
consultas, análisis e informes ad hoc en lenguaje de consulta 
estructurado (Structured Query Language, SQL). Dado que 
Hadoop procesa una amplia variedad de tipos de datos, EDW 
está enriquecido con datos que no son generalmente factibles 
de almacenar en EDW tradicionales. Además, los datos 
almacenados en la infraestructura Hadoop pueden persistir 
a lo largo de una duración mucho mayor, permitiéndole 
proporcionar datos más granulares y detallados mediante el 
EDW para análisis de alta fidelidad.
mailto:?subject=Getting%20Started%20with%20Big%20Data%20Planning%20Guide&body=Thought%20you%20might%20be%20interested%20in%20this%20big%20data%20planning%20guide%20from%20Intel%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp%20%23ITCenter
http://www.linkedin.com/shareArticle?mini=true&url=http%3A%2F%2Fintel.ly%2F1glmlgp&title=Getting%20Started%20with%20Big%20Data&source=&summary=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20IT%20Center.%20%23ITCenter
http://twitter.com/intent/tweet?text=Get%20started%20with%20%23BigData%20with%20this%20planning%20guide%20from%20%40Intel%20%23ITCenter%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgphttps://www.facebook.com/dialog/feed?app_id=123050457758183&link=http%3A%2F%2Fintel.ly%2F1glmlgp&picture=&name=Getting%20Started%20with%20Big%20Data&caption=%20&description=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20Business%20Center.%20%23ITCenter&redirect_uri=http%3A%2F%2Fwww.facebook.com%2F
http://software.intel.com/sites/default/files/article/402274/etl-big-data-with-hadoop.pdf
http://software.intel.com/sites/default/files/article/402274/etl-big-data-with-hadoop.pdf
7 Intel IT Center Guía de planificación | Comenzando con Big Data
Análisis predictivo 
El análisis predictivo extrae mayor valor de los datos usando 
datos históricos para predecir qué puede ocurrir en el 
futuro. TI de Intel recomienda combinar un EDW basado en 
la arquitectura MPP que puede realizar análisis predictivo 
complejo rápidamente con un cluster Hadoop para un ETL 
rápido, escalable y económico. El cluster Hadoop puede 
también extenderse con herramientas y otros componentes 
para realizar funciones adicionales de procesamiento y análisis 
de datos. Para obtener más detalles sobre el modelo de uso, 
lea la arquitectura de referencia Realizar análisis predictivo y 
consultas interactivas sobre Big Data (en inglés). 
Plataforma de Big Data de TI de Intel 
Gracias a que TI de Intel ha trabajado con la empresa para 
desarrollar caso de uso de Big Data, se han combinado elementos 
de los dos primeros modelos de uso con análisis predictivo para 
una infraestructura de análisis híbrido y flexible. 
TI de Intel usa Hadoop para administrar la ingestión, 
transformación, e integración de datos no estructurados de 
redes sociales, tráfico Web, y registros de sensores en un EDW 
basado en arquitectura MPP. La ventaja aquí es que al agregar 
estructura a los datos heterogéneos en Hadoop durante la 
extracción y la transformación, y luego al cargarlos en el EDW, 
los usuarios pueden aplicar inteligencia de negocios tradicional 
(BI) y herramientas analíticas para consultas interactivas y otros 
análisis avanzados.
TI de Intel implementa el software Hadoop con la familia 
de procesadores Intel® Xeon® E5 para ingestión de datos 
heterogéneos, indexación Web, y análisis de redes sociales. El 
software Hadoop filtra los datos como fuera necesario para el 
análisis y los envía al sistema de almacenamiento de datos.
El sistema de almacenamiento de datos está basado en la 
arquitectura MPP y se usa para realizar análisis predictivo complejo 
con rapidez y exploración interactiva de datos con resultados 
en tiempo real. El sistema de almacenamiento de datos es una 
solución de terceros construida sobre la familia del procesador 
Intel Xeon E7 v2 para ofrecer alto desempeño y disponibilidad 
a un costo relativamente bajo. El dispositivo se integra con las 
soluciones existentes de BI y brinda soporte para herramientas 
analíticas avanzadas como el paquete estadístico R.
TI de Intel extendió más su plataforma de Big Data 
desarrollando un motor analítico predictivo interno para 
proporcionar servicios predictivos continuos. Un primer caso 
de uso es la implementación de un servicio de recomendación 
en tiempo real. Para este servicio, el equipo de BI desarrolló 
algoritmos predictivos usando la biblioteca de data mining 
Apache Mahout*. Estos algoritmos actúan en los datos 
históricos almacenados en Hadoop, y luego transfieren los 
resultados a la base de datos NoSQL Cassandra*. El software 
Cassandra proporciona la recuperación de datos rápida y 
de baja latencia requerida para los escenarios de uso en 
tiempo real. Durante una interacción de usuario en línea, 
los resultados se recuperan de la base de datos Cassandra 
y se combinan con datos contextuales (datos ingresados 
y ubicación del usuario, por ejemplo) para brindar las 
recomendaciones más adecuadas en tiempo real. 
Para brindar la capacidad de respuesta extrema a consultas 
requerida para el análisis en tiempo real de conjuntos de datos 
de alto volumen, TI de Intel condujo pruebas para determinar 
la plataforma óptima para una solución BI en memoria, de alto 
desempeño y económica. Ver en Configurar una plataforma 
BI en memoria para desempeño extremo mejores prácticas 
relacionadas con la combinación de la velocidad del servidor, 
el número de núcleos por procesador, tamaño de la caché, y 
memoria para los servidores basados en procesadores Intel 
Xeon estándar de la industria.
mailto:?subject=Getting%20Started%20with%20Big%20Data%20Planning%20Guide&body=Thought%20you%20might%20be%20interested%20in%20this%20big%20data%20planning%20guide%20from%20Intel%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp%20%23ITCenter
http://www.linkedin.com/shareArticle?mini=true&url=http%3A%2F%2Fintel.ly%2F1glmlgp&title=Getting%20Started%20with%20Big%20Data&source=&summary=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20IT%20Center.%20%23ITCenter
http://twitter.com/intent/tweet?text=Get%20started%20with%20%23BigData%20with%20this%20planning%20guide%20from%20%40Intel%20%23ITCenter%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp
https://www.facebook.com/dialog/feed?app_id=123050457758183&link=http%3A%2F%2Fintel.ly%2F1glmlgp&picture=&name=Getting%20Started%20with%20Big%20Data&caption=%20&description=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20Business%20Center.%20%23ITCenter&redirect_uri=http%3A%2F%2Fwww.facebook.com%2F
http://software.intel.com/sites/default/files/managed/f4/78/wp-perform-predictive-analytics-and-interactive-queries-on-big-data.pdf
http://www.intel.com/content/www/us/en/it-management/intel-it-best-practices/configuring-in-memory-bi-platform-for-extreme-performance.html
http://www.intel.com/content/www/us/en/it-management/intel-it-best-practices/configuring-in-memory-bi-platform-for-extreme-performance.html
8 Intel IT Center Guía de planificación | Comenzando con Big Data
Infraestructura para el marco Hadoop*
Servidores 
El marco Hadoop funciona sobre el principio de acercar 
la computación a donde residen los datos, y el marco 
típicamente se ejecuta en grandes clusters de servidores 
usando hardware estándar. El marco se escala fácilmente 
en servidores basados en procesadores Intel Xeon. La 
combinación del marco Hadoop con las plataformas de 
servidores estándar proporciona la base para una plataforma 
de análisis de alto desempeño para aplicaciones paralelas.
Desde una perspectiva de costo/beneficio, los servidores de 
dos sockets basados en la familia del procesador Intel Xeon 
E5 son la elección óptima para la mayoría de las cargas de 
trabajo Apache Hadoop. Estos servidores son generalmente 
más eficientes para ambientes de computación distribuida 
que las plataformas multiprocesador a gran escala. Brindan 
desempeño excepcional y proporcionan mayor eficiencias en 
balanceo de carga y rendimiento paralelo que los servidores 
más pequeños y de único socket. Las tecnologías para acelerar 
la encripción, reducir la latencia, y aumentar el ancho de banda 
están integradas en los procesadores.
Algunas cargas de trabajo ETL, como la clasificación de datos 
simples, no requieren la potencia de procesamiento de los 
procesadores Intel Xeon. En ese caso, usted podrá ejecutar 
dichas cargas de trabajo livianas más eficientemente en 
los microservidores basados en la familia de productos del 
procesador Intel Atom™ C2000. Estos procesadores de clase de 
servidor proporcionan consumo de energía extremadamente 
bajo (de tan solo 6 vatios) y alta densidad.
Tanto los procreadores Intel Xeon como los procesadores 
Intel Atom son compatibles con la memoria de código 
de corrección de errores (error-correcting code, ECC) que 
automáticamente detecta y corrige errores de memoria, 
una fuente común de corrupción de datos e inactividad 
del servidor. Un cluster Apache Hadoop tiene mucha 
memoria (típicamente 64 gigabytes [GB] o más por servidor), 
convirtiendo a la memoria ECC en una característica crítica. 
Conexiónde red y almacenamiento 
Las plataformas de servidores para Big Data se benefician de las 
mejoras significativas en la computación tradicional y los recursos 
de almacenamiento y están complementadas por soluciones de 
Ethernet de 10 gigabits (10 GbE) para un sistema balanceado. 
Plataforma flexible de Big Data de TI de Intel
A medida que se desarrollan nuevos casos de uso, TI de Intel pueden extender la plataforma de Big Data de la compañía. A medida 
que aumenten las capacidades, TI de Intel tiene la flexibilidad de ejecutar cargas de trabajo sobre la arquitectura de más bajo costo.
Plataforma de procesamiento
masivamente paralelo
Marco Apache Hadoop*
Motor de análisis
predictivo
• Solución de terceros
• Procesamiento más veloz que los sistemas tradicionales
• Construida sobre la familia del procesador Intel® Xeon® E7
• Desarrollado internamente
• Permite servicio predictivo continuo en tiempo real
• Construido sobre la familia del procesador Intel Xeon E7
• Optimizado para la familia del procesador Intel Xeon E5, unidades Intel Solid-State Drives,
e Intel Ethernet de 10 gigabits
• Sistema de archivo distribuido que puede escalarse linealmente 
• Base de datos NoSQL Apache HBase
mailto:?subject=Getting%20Started%20with%20Big%20Data%20Planning%20Guide&body=Thought%20you%20might%20be%20interested%20in%20this%20big%20data%20planning%20guide%20from%20Intel%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp%20%23ITCenter
http://www.linkedin.com/shareArticle?mini=true&url=http%3A%2F%2Fintel.ly%2F1glmlgp&title=Getting%20Started%20with%20Big%20Data&source=&summary=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20IT%20Center.%20%23ITCenter
http://twitter.com/intent/tweet?text=Get%20started%20with%20%23BigData%20with%20this%20planning%20guide%20from%20%40Intel%20%23ITCenter%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp
https://www.facebook.com/dialog/feed?app_id=123050457758183&link=http%3A%2F%2Fintel.ly%2F1glmlgp&picture=&name=Getting%20Started%20with%20Big%20Data&caption=%20&description=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20Business%20Center.%20%23ITCenter&redirect_uri=http%3A%2F%2Fwww.facebook.com%2F
http://www.intel.com/content/www/us/en/servers/microservers.html
9 Intel IT Center Guía de planificación | Comenzando con Big Data
Procesador Intel® para el marco Apache Hadoop* 
Familia del procesador 
Xeon® E5 v2
• Construida sobre la microarquitectura Ivy Bridge usando la tecnología Intel de transistores 
3D Tri-Gate de 22 nanómetros (nm) líder de la industria para un desempeño y eficiencia 
energética superiores
• Escalamiento elástico para adaptarse a la carga de trabajo fluctuante y mayores 
demandas de red y almacenamiento
• Mejoras de desempeño y de E/S para mejorar y equilibrar el desempeño general del 
sistema y aumentar la eficiencia de los servidores 
• Alto ancho de banda, baja latencia para aplicaciones de computación de alto desempeño
• Permite una rápida encripción y desencripción para alentar la protección persistente de datos 
• Memoria de código de corrección de errores (ECC)
• Compatible con conexión integrada de Ethernet de 10 gigabits (10 GbE) e infraestructura 
de centro de datos simplificada
• Monitoreo y administración de energía a nivel de servidor y de centro de datos para 
optimizar el consumo de energía
• Desempeño para aplicaciones de uno y múltiples subprocesos, incluyendo computación de 
alto desempeño
• Compatible con soluciones abiertas e interoperables
Familia del procesador 
Intel Atom™
• Desempeño para cargas de trabajo livianas escalables
• El sistema sobre el chip (SoC) ofrece densidad extrema que maximizar el espacio en rack
• Muy bajo consumo de energía, con rangos de potencia de tan solo 6 vatios
• Memoria ECC
 
Intel ofrece opciones flexibles para implementaciones Apache Hadoop* económicas y de alto desempeño.
El mayor ancho de banda asociado con 10 GbE es crítico para 
importar y replicar grandes conjuntos de datos entre servidores. 
Las soluciones Intel 10 gigabit Ethernet proporcionan conexiones 
de alto rendimiento, y las unidades de estado sólido Intel (Intel 
Solid-State Drives, SSDs) son discos rígidos de alto desempeño, y 
alto rendimiento para almacenamiento sin procesar. 
Para mejorar la eficiencia, el almacenamiento necesita 
ser compatible con las capacidades avanzadas como la 
compresión, la encripción, la jerarquización automática de 
datos, la deduplicación de datos, la codificación de borrado, y 
el aprovisionamiento delgado; todo lo cual es compatible con la 
familia del procesador Intel Xeon E5. Conozca más sobre construir 
clusters Hadoop en 10 GbE, que sean balanceados y económicos.
Intel ha hecho pruebas considerables usando servidores basados 
en la familia del procesador Intel Xeon E5 como la plataforma de 
servidor básica para los clusters Hadoop. Un equipo de expertos 
de Intel en Big Data, redes y almacenamiento midió los resultados 
de desempeño de Apache Hadoop para diferentes combinaciones 
de componentes de red y almacenamiento. Balancear los recursos 
de computación, almacenamiento, y redes proporcionó una ventaja 
de desempeño significativa -de acuerdo con los benchmarks 
TeraSort, el tiempo de procesamiento se redujo de 4 horas a 12 
minutos—resultados en tiempo casi real.4, 5, 6 Para obtener más 
información sobre los clusters Hadoop de alto desempeño sobre 
tecnologías Intel, ver el documento técnico Tecnología de Big Data 
para resultados en tiempo casi real (en inglés). 
mailto:?subject=Getting%20Started%20with%20Big%20Data%20Planning%20Guide&body=Thought%20you%20might%20be%20interested%20in%20this%20big%20data%20planning%20guide%20from%20Intel%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp%20%23ITCenter
http://www.linkedin.com/shareArticle?mini=true&url=http%3A%2F%2Fintel.ly%2F1glmlgp&title=Getting%20Started%20with%20Big%20Data&source=&summary=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20IT%20Center.%20%23ITCenter
http://twitter.com/intent/tweet?text=Get%20started%20with%20%23BigData%20with%20this%20planning%20guide%20from%20%40Intel%20%23ITCenter%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp
https://www.facebook.com/dialog/feed?app_id=123050457758183&link=http%3A%2F%2Fintel.ly%2F1glmlgp&picture=&name=Getting%20Started%20with%20Big%20Data&caption=%20&description=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20Business%20Center.%20%23ITCenter&redirect_uri=http%3A%2F%2Fwww.facebook.com%2F
http://www.intel.com/network/connectivity/resources/technologies/10_gigabit_ethernet.htm
http://www.intel.com/content/www/us/en/solid-state-drives/solid-state-drives-ssd.html
http://www.intel.com/content/www/us/en/solid-state-drives/solid-state-drives-ssd.html
www.intel.com/content/dam/www/public/us/en/documents/white-papers/10gbe-10gbase-t-hadoop-clusters-paper.pdf
www.intel.com/content/dam/www/public/us/en/documents/white-papers/10gbe-10gbase-t-hadoop-clusters-paper.pdf
http://www.intel.com/content/www/us/en/big-data/big-data-apache-hadoop-technologies-for-results-whitepaper.html
http://www.intel.com/content/www/us/en/big-data/big-data-apache-hadoop-technologies-for-results-whitepaper.html
10 Intel IT Center Guía de planificación | Comenzando con Big Data
Infraestructura para soluciones 
analíticas en memoria
Servidores 
El marco Hadoop funciona sobre el principio de acercar 
la computación a donde residen los datos, y el marco 
típicamente se ejecuta en grandes clusters de servidores 
usando hardware estándar. El marco se escala fácilmente 
en servidores basados en procesadores Intel Xeon. La 
combinación del marco Hadoop con las plataformas de 
servidores estándar proporciona la base para una plataforma 
de análisis de alto desempeño para aplicaciones paralelas.
Desde una perspectiva de costo/beneficio, los servidores de 
dos sockets basados en la familia del procesador Intel Xeon 
E5son la elección óptima para la mayoría de las cargas de 
trabajo Apache Hadoop. Estos servidores son generalmente 
más eficientes para ambientes de computación distribuida 
que las plataformas multiprocesador a gran escala. Brindan 
desempeño excepcional y proporcionan mayor eficiencias en 
balanceo de carga y rendimiento paralelo que los servidores 
más pequeños y de único socket. Las tecnologías para acelerar 
la encripción, reducir la latencia, y aumentar el ancho de banda 
están integradas en los procesadores.
Algunas cargas de trabajo ETL, como la clasificación de datos 
simples, no requieren la potencia de procesamiento de los 
procesadores Intel Xeon. En ese caso, usted podrá ejecutar 
dichas cargas de trabajo livianas más eficientemente en 
los microservidores basados en la familia de productos del 
procesador Intel Atom™ C2000. Estos procesadores de clase de 
servidor proporcionan consumo de energía extremadamente 
bajo (de tan solo 6 vatios) y alta densidad.
Procesadores Intel® para análisis en memoria
La familia del procesador Intel® Xeon® E7 v2 acelera el análisis para cargas de trabajo intensivas en datos y escalables y para 
bases de datos en memoria.
• Construida sobre la tecnología Intel de transistores 3D Tri-Gate de 22 nanómetros (nm) líder de la industria para un 
desempeño y eficiencia energética superiores 
• Gran capacidad de memoria:
- Las configuraciones de cuatro y ocho sockets con hasta 1,5 terabytes (TB) de memoria por socket para hasta 6 TB 
o 12 TB de memoria por servidor
- Hasta tres módulos de memoria dual en línea (DIMM) por canal (DPC) y hasta ocho canales (total de hasta 24 
DIMMs), con capacidad de DIMM individual de DIMMs de carga reducida (LR) de hasta 64 gigabytes (GB)
- Escalabilidad de más allá de ocho sockets usando un controlador de nodo de terceros (OEM)
• Mayor caché con hasta 37,5 megabytes (MB) de caché de tercer nivel por procesador
• Hasta 50 por ciento más núcleos y procesos que los procesadores de generación anterior (hasta 60 núcleos y 120 procesos en 
un servidor de cuatro sockets para la rápida ejecución de transacciones simultáneas y consultas grandes y complejas)
• Ancho de banda de E/S hasta cuatro veces superior§, en comparación con procesadores de generación anterior
• Desempeño para aplicaciones de uno y múltiples subprocesos, incluyendo computación de alto desempeño escalable 
y aplicaciones técnicas
• Capacidad y flexibilidad extra para el almacenamiento y conexiones de red con puertos PCI Express* (PCIe*) 3.0 
integrados, lo que mejora el ancho de banda y es compatible con discos de estado sólido basados en PCIe
• Características avanzadas de confiabilidad, disponibilidad, y calidad de servicio (reliability, availability, and serviceability, RAS) para mejorar 
la integridad de los datos y el tiempo de actividad para cargas de trabajo analíticas de misión crítica con Intel Run Sure Technology‡ 
§Ningún sistema de computación puede proporcionar confiabilidad, disponibilidad o capacidad de servicio absoluta. Requiere un sistema habilitado para Intel” 
Run Sure Technology, incluyendo un procesador Intel habilitado y tecnlogía(s) habilitada(s). Las características de confiabilidad incorporada disponibles en 
ciertos procesadores Intel pueden requerir software, hardware y servicios adicionales y/o conexión a Internet. Los resultados pueden variar dependiendo de la 
configuración. Consulte al fabricante de su sistema para obtener más detalles.
‡Afirmación de ancho de banda de E/S hasta 4 veces superior basada en estimaciones internas de Intel del desempeño de la familia de productos del procesador 
Intel Xeon E7-4890 v2; desempeño normalizado contra las mejoras sobre la familia de productos del procesador Intel Xeon E7-4870 con doble IOH usando una 
herramienta de ancho de banda interna que ejecuta la prueba 1R1W.
mailto:?subject=Getting%20Started%20with%20Big%20Data%20Planning%20Guide&body=Thought%20you%20might%20be%20interested%20in%20this%20big%20data%20planning%20guide%20from%20Intel%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp%20%23ITCenter
http://www.linkedin.com/shareArticle?mini=true&url=http%3A%2F%2Fintel.ly%2F1glmlgp&title=Getting%20Started%20with%20Big%20Data&source=&summary=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20IT%20Center.%20%23ITCenter
http://twitter.com/intent/tweet?text=Get%20started%20with%20%23BigData%20with%20this%20planning%20guide%20from%20%40Intel%20%23ITCenter%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp
https://www.facebook.com/dialog/feed?app_id=123050457758183&link=http%3A%2F%2Fintel.ly%2F1glmlgp&picture=&name=Getting%20Started%20with%20Big%20Data&caption=%20&description=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20Business%20Center.%20%23ITCenter&redirect_uri=http%3A%2F%2Fwww.facebook.com%2F
http://www.intel.com/content/www/us/en/processors/xeon/xeon-processor-e7-family.html
http://www.intel.com/content/www/us/en/processors/xeon/xeon-processor-e7-family.html
Intel IT Center Guía de planificación | Comenzando con Big Data11
Tanto los procreadores Intel Xeon como los procesadores 
Intel Atom son compatibles con la memoria de código 
de corrección de errores (error-correcting code, ECC) que 
automáticamente detecta y corrige errores de memoria, 
una fuente común de corrupción de datos e inactividad del 
servidor. Un cluster Apache Hadoop tiene mucha memoria 
(típicamente 64 gigabytes [GB] o más por servidor), 
convirtiendo a la memoria ECC en una característica crítica.
Optimizar y sintonizar para el 
mejor desempeño
Intel es un importante contribuyente a las iniciativas de 
código abierto como software Linux*, OpenStack*, KVM, y 
Xen*. Intel también dedicó recursos para caracterizaciones 
de análisis, prueba, y desempeño de Hadoop, tanto 
internamente como en colaboración con HP, Super Micro, 
y Cloudera. Mediante estos esfuerzos técnicos, Intel ha 
observado muchas concesiones en hardware, software, y 
configuraciones de sistema que tiene implicancias en los 
centros de datos. Diseñar el conjunto de soluciones para 
maximizar la productividad, limitar el consumo de energía, 
y reducir el costo total de propiedad puede ayudar a 
optimizar la utilización de recursos al mismo tiempo que se 
minimizan los costos operativos.
Los ajustes para el ambiente Hadoop son un factor clave 
para obtener el beneficio completo del resto de las 
soluciones de hardware y software. Basado en pruebas 
extensas de benchmark en el laboratorio y en los sitios 
de clientes usando arquitectura basada en el procesador 
Intel, Ias recomendaciones de optimización y ajuste de 
Intel para el sistema Hadoop pueden ayudarlo a configurar 
y administrar su ambiente Hadoop en términos de 
desempeño y de costo.
Configurar los ajustes correctamente requiere significativo 
tiempo al inicio porque los requerimientos para cada 
sistema Hadoop empresarial variará dependiendo del 
trabajo o la carga de trabajo. El tiempo dedicado a 
optimizar para sus cargas de trabajo específicas redundará 
en un mejor desempeño, tanto como en un costo total 
de propiedad más bajo para el ambiente Hadoop. Ver 
Optimizando las implementaciones Hadoop* (en inglés) para 
ajustes específicos.
Desempeño de benchmark 
El análisis comparativo (benchmarking) es la base 
cuantitativa para medir la eficiencia de cualquier sistema 
de computación. Intel desarrolló la suite HiBench como un 
conjunto integral de pruebas de benchmark para ambientes 
Hadoop.9 Las medidas individuales representan 10 cargas 
de trabajo Hadoop importantes con una combinación 
de características de uso de hardware. HiBench incluye 
microbenchmarks así como también aplicaciones Hadoop 
que representen una gama más amplia de análisis de datos 
como indexación de búsquedas, aprendizaje automático, 
y consultas. HiBench 2.2 está ahora disponible como 
software de código abierto bajo la Licencia Apache 2.0. 
Usted puede descargar el software, aprender más sobre 
cargasde trabajo específicas, y conocer cómo comenzar en 
https://github.com/intel-hadoop/HiBench. 
Comience con el análisis de Big Data: 
Tres pasos básicos
Si ha leído hasta aquí, ya tiene una buena idea del panorama de TI para Big Data, su valor potencial para las organizaciones, y las 
tecnologías que lo pueden ayudar a obtener información sobre los recursos estructurados, semiestructurados, y no estructurados. 
Además, usted tiene una buena descripción general de lo esencial para tener la infraestructura correcta implementada y 
ejecutándose sin inconvenientes para soportar sus iniciativas de Big Data.
Usted puede comenzar con su proyecto de análisis de Big Data siguiendo los tres pasos básicos que describimos en las primeras 
páginas de esta guía. A pesar de que esta guía está concentrada en la tecnología y el paso 3, puede usar la siguiente lista de 
verificación ya que lo ayudará a trabajar en las actividades críticas de los tres pasos.
mailto:?subject=Getting%20Started%20with%20Big%20Data%20Planning%20Guide&body=Thought%20you%20might%20be%20interested%20in%20this%20big%20data%20planning%20guide%20from%20Intel%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp%20%23ITCenter
http://www.linkedin.com/shareArticle?mini=true&url=http%3A%2F%2Fintel.ly%2F1glmlgp&title=Getting%20Started%20with%20Big%20Data&source=&summary=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20IT%20Center.%20%23ITCenter
http://twitter.com/intent/tweet?text=Get%20started%20with%20%23BigData%20with%20this%20planning%20guide%20from%20%40Intel%20%23ITCenter%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp
https://www.facebook.com/dialog/feed?app_id=123050457758183&link=http%3A%2F%2Fintel.ly%2F1glmlgp&picture=&name=Getting%20Started%20with%20Big%20Data&caption=%20&description=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20Business%20Center.%20%23ITCenter&redirect_uri=http%3A%2F%2Fwww.facebook.com%2F
http://software.intel.com/sites/default/files/Optimizing%20Hadoop%20Deployments.pdf
https://github.com/intel-hadoop/HiBench
Intel IT Center Guía de planificación | Comenzando con Big Data12
Paso 1: Entender cómo Big Data impactará su organización culturalmente. 
• Comprender el valor que el análisis de Big Data puede traer a su organización. 
a Hable con sus colegas de TI y en la empresa.
a Aproveche los recursos de Intel IT Center para Big Data para estar actualizado sobre las tecnologías..
a Comprenda las ofertas de los proveedores.
a Vea los tutoriales y analice la documentación para usuarios que ofrece Apache.
• Colaborar con los líderes empresariales en una estrategia y enfoque de Big Data. Desarrollar:
a El caso de negocios para Big Data: ¿Cómo creará valor para la empresa el análisis de Big Data? ¿Cuáles son los desafíos 
empresariales clave que abordará? 
a Objetivos a corto, medio y largo plazo: ¿Cuáles son las fases clave para lograr sus objetivos de Big Data?
a Estado actual y futuro de la infraestructura de TI: ¿Su centro de datos puede soportar la plataforma de Big Data? Evalúe 
su tecnología actual de centro de datos y describa, si fuera necesario, su plan para actualizar los recursos de computación, 
almacenamiento, y conexión de red.
a Fuentes de datos y calidad de los datos: ¿Cuáles son las fuentes principales de datos internamente? ¿Qué datos 
adicionales podría usted comprar? ¿Cómo garantizará usted la calidad?
a Plataformas y herramientas de Big Data: ¿Qué plataformas utilizará para construir su solución? ¿Qué software y 
herramientas se necesitan para lograr su propósito?
a Métrica para medir el éxito. ¿Cómo medirá usted el desempeño del sistema? Base su éxito en cuántos trabajos se 
presentan, se procesan paralelamente, y se completan eficientemente.
• Trabajar con sus usuarios empresariales para descubrir grandes oportunidades.
a Identifique y colabore con usuarios empresariales (analistas, científicos de datos, profesionales de comercialización, y 
demás) para descubrir las mejores oportunidades empresariales para el análisis de Big Data en su organización. Por 
ejemplo, considere un problema empresarial existente; especialmente uno difícil, costoso, o imposible de resolver 
con sus fuentes de datos y sistemas analíticos actuales. O considere un problema que nunca se había abordado antes 
porque las fuentes de datos son nuevas o no estructuradas.
a Priorice su lista de oportunidades y seleccione un proyecto con un retorno discernible sobre la inversión. Para 
identificar el mejor proyecto, considere sus respuestas a las siguientes preguntas:
- ¿Qué estoy tratando de lograr? 
- ¿Este proyecto se alinea con objetivos empresariales estratégicos? 
- ¿Puede obtener el respaldo de la gerencia para el proyecto?
- ¿El análisis de Big Data es prometedor en lo que respecta a la información comparado con el análisis tradicional? 
- ¿Qué acciones puedo emprender basado en los resultados de mi proyecto?
- ¿Cuál es el retorno potencial sobre la inversión para mi empresa? 
- ¿Puedo hacer que este proyecto genere valor en 6 a 12 meses?
- ¿Están disponibles los datos que necesito? ¿Qué tengo? ¿Qué necesito adquirir?
- ¿Los datos se recopilan en tiempo real, o son datos históricos?
mailto:?subject=Getting%20Started%20with%20Big%20Data%20Planning%20Guide&body=Thought%20you%20might%20be%20interested%20in%20this%20big%20data%20planning%20guide%20from%20Intel%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp%20%23ITCenter
http://www.linkedin.com/shareArticle?mini=true&url=http%3A%2F%2Fintel.ly%2F1glmlgp&title=Getting%20Started%20with%20Big%20Data&source=&summary=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20IT%20Center.%20%23ITCenter
http://twitter.com/intent/tweet?text=Get%20started%20with%20%23BigData%20with%20this%20planning%20guide%20from%20%40Intel%20%23ITCenter%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp
https://www.facebook.com/dialog/feed?app_id=123050457758183&link=http%3A%2F%2Fintel.ly%2F1glmlgp&picture=&name=Getting%20Started%20with%20Big%20Data&caption=%20&description=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20Business%20Center.%20%23ITCenter&redirect_uri=http%3A%2F%2Fwww.facebook.com%2F
Intel IT Center Guía de planificación | Comenzando con Big Data13
Paso 2: Contratar las destrezas que necesita. 
• Comprender y planificar las destrezas que necesita en la empresa y en TI.
a ¿Qué destrezas necesita para implementar la iniciativa con éxito? ¿Cuenta con esos recursos internamente? 
a ¿Construirá destrezas desde dentro de la empresa? ¿Contratará nuevo talento? ¿Tercerizará? 
a ¿Dónde se ubicarán estas personas dentro de la empresa? ¿En TI?
Paso 3: Implementar su solución de Big Data. 
• Desarrollar uno/varios caso(s) de uso para su proyecto.
a Identifique los casos de uso requeridos para llevar a cabo su proyecto.
a Delinee los flujos de datos para ayudar a definir qué capacidades de tecnología y de Big Data son necesarias para 
resolver el problema empresarial.
a Decida qué datos incluir y cuáles dejar de lado. Identificar sólo los datos estratégicos que conducirán a 
información significativa.
a Determine cómo los datos se interrelacionan y la complejidad de las reglas empresariales.
a Identifique las consultas analíticas y los algoritmos requeridos para generar los resultados deseados. 
a Considere si necesita soportar análisis avanzado como consultas interactivas o análisis predictivo, o soportar 
flujos de datos en tiempo real.
• Identificar las brechas entre las capacidades actuales y futuras.
a ¿Qué requerimientos de calidad de datos adicionales tendrá para compilar, depurar, y acumular datos en formatos utilizables?
a ¿Qué políticas de gobernanza de datos necesitará implementar para clasificar datos, definir su relevancia y almace- 
 narlos, analizarlos, y acceder a ellos?
a ¿Qué capacidades de infraestructura necesitará implementar para garantizar la escalabilidad,la baja latencia, y el 
desempeño incluyendo capacidades de computación, almacenamiento, y de red?
a ¿Necesita agregar los componentes especializados como una base de datos NoSQL para búsquedas de baja 
latencia en grandes volúmenes de datos heterogéneos?
a Si usted planifica procesar un flujo continuo de datos en tiempo real, ¿qué capacidades de infraestructura y 
memoria adicionales necesitará? ¿Usted requerirá un dispositivo de análisis en memoria MPP? ¿Una solución CEP?
a ¿Usted considera la computación en la nube para su modelo de servicio? ¿Qué tipo de ambiente de nube usará? 
¿Privado, híbrido, público?
a ¿Cómo se presentarán los datos a los usuarios? Los hallazgos necesitan entregarse de una manera fácil de 
entender a una variedad de usuarios empresariales, desde ejecutivos sénior hasta profesionales informáticos.
• Desarrollar un ambiente de prueba para una versión de producción.
a Adapte las arquitecturas de referencia para su empresa. Intel está trabajando con socios líderes para desarrollar 
arquitecturas de referencia que pueden ayudar a ser parte del programa Intel Cloud Builders alrededor de casos 
de uso de Big Data.
mailto:?subject=Getting%20Started%20with%20Big%20Data%20Planning%20Guide&body=Thought%20you%20might%20be%20interested%20in%20this%20big%20data%20planning%20guide%20from%20Intel%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp%20%23ITCenter
http://www.linkedin.com/shareArticle?mini=true&url=http%3A%2F%2Fintel.ly%2F1glmlgp&title=Getting%20Started%20with%20Big%20Data&source=&summary=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20IT%20Center.%20%23ITCenter
http://twitter.com/intent/tweet?text=Get%20started%20with%20%23BigData%20with%20this%20planning%20guide%20from%20%40Intel%20%23ITCenter%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp
https://www.facebook.com/dialog/feed?app_id=123050457758183&link=http%3A%2F%2Fintel.ly%2F1glmlgp&picture=&name=Getting%20Started%20with%20Big%20Data&caption=%20&description=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20Business%20Center.%20%23ITCenter&redirect_uri=http%3A%2F%2Fwww.facebook.com%2F
14 Intel IT Center Guía de planificación | Comenzando con Big Data
a Defina el nivel de presentación, el nivel de aplicación analítica, el almacenamiento de datos, y si fuera aplicable, 
la administración de datos de nube privada o pública.
a Determine las herramientas que los usuarios requieren para presentar resultados de manera significativa. La 
adopción de herramientas por parte del usuario influenciará significativamente el éxito general de su proyecto.
Recursos Intel para conocer más
Además de los recursos ya citados en este documento, visite los siguientes recursos interesantes.
Sitios Web
Para obtener recursos adicionales sobre Big Data:
• Big data: intel.com/bigdata
• Familia del procesador Intel Xeon E5: intel.com/xeone5
• Familia del procesador Intel Xeon E7: intel.com/xeone7
 
Sobre las plataformas para Big Data
Acelerar el análisis de Big Data con tecnologías Intel® 
Este documento describe las tecnologías disponibles de Intel que las empresas pueden usar para escalar los clusters Apache Hadoop a fin 
de manejar el creciente volumen, variedad y velocidad de los datos. Al usar menos servidores más poderosos, las empresas pueden reducir 
significativamente sus costos operativos. intel.com/content/www/us/en/big-data/big-data-analysis-intel-technologies-paper.html
Big Data Mining en la empresa para una mejor inteligencia de negocios 
Este documento técnico de Intel describe cómo Intel está implementando los sistemas y las destrezas para analizar Big Data e 
impulsar así las eficiencias operativas y la ventaja competitiva. TI de Intel, en colaboración con los grupos empresariales de Intel, está 
implementado varias pruebas de concepto para una plataforma de Big Data, incluyendo detección de malware, validación de diseño 
de chips, inteligencia de mercado, y un sistema de recomendación. intel.com/content/www/us/en/it-management/intel-it-best-
practices/mining-big-data-In-the-enterprise-for-better-business-intelligence.html
Extraer el valor de Big Data para la empresa 
Este informe de solución describe cómo el marco Apache Hadoop proporciona las bases que usted puede implementar hoy para valor 
esperado, y después expandir para satisfacer crecientes necesidades. http://software.intel.com/sites/default/files/article/402151/extract-
business-value-from-big-data.pdf 
Investigación de colegas: Análisis de Big Data (2013) 
Lea el informe completo de los resultados de le encuesta 2013 de Intel de 200 administradores de TI que proporciona información 
sobre cómo las organizaciones están usando análisis de Big Data hoy día, incluyendo por qué las organizaciones necesitan avanzar y 
qué significa la investigación para la industria de TI. Los puntos esenciales se destacan en el video “Los administradores de TI hablan 
sobre el análisis de Big Data”. Esta investigación expande sobre los resultados de la Encuesta 2012 de Intel sobre Big Data. intel.com/
Información en su idioma: DialogoTI.intel.com
mailto:?subject=Getting%20Started%20with%20Big%20Data%20Planning%20Guide&body=Thought%20you%20might%20be%20interested%20in%20this%20big%20data%20planning%20guide%20from%20Intel%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp%20%23ITCenter
http://www.linkedin.com/shareArticle?mini=true&url=http%3A%2F%2Fintel.ly%2F1glmlgp&title=Getting%20Started%20with%20Big%20Data&source=&summary=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20IT%20Center.%20%23ITCenter
http://twitter.com/intent/tweet?text=Get%20started%20with%20%23BigData%20with%20this%20planning%20guide%20from%20%40Intel%20%23ITCenter%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp
https://www.facebook.com/dialog/feed?app_id=123050457758183&link=http%3A%2F%2Fintel.ly%2F1glmlgp&picture=&name=Getting%20Started%20with%20Big%20Data&caption=%20&description=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20Business%20Center.%20%23ITCenter&redirect_uri=http%3A%2F%2Fwww.facebook.com%2F
http://www.intel.com/content/www/us/en/big-data/big-data-analytics-turning-big-data-into-intelligence.html
http://www.intel.com/content/www/us/en/processors/xeon/xeon-processor-5000-sequence.html
http://www.intel.com/content/www/us/en/processors/xeon/xeon-processor-e7-family.html
http://www.intel.com/content/www/us/en/big-data/big-data-analysis-intel-technologies-paper.html
http://www.intel.com/content/www/us/en/it-management/intel-it-best-practices/mining-big-data-In-the-enterprise-for-better-business-intelligence.html
http://www.intel.com/content/www/us/en/it-management/intel-it-best-practices/mining-big-data-In-the-enterprise-for-better-business-intelligence.html
http://software.intel.com/sites/default/files/article/402151/extract-business-value-from-big-data.pdf
http://software.intel.com/sites/default/files/article/402151/extract-business-value-from-big-data.pdf
http://www.intel.com/content/www/us/en/big-data/big-data-analytics-peer-research-linda-feldt-video.html
http://www.intel.com/content/www/us/en/big-data/big-data-analytics-2013-peer-research-report.html
http://dialogoti.intel.com
15 Intel IT Center Guía de planificación | Comenzando con Big Data
content/www/us/en/big-data/big-data-analytics-2013-peer-research-report.html
Análisis predictivo: Use todos sus datos para competir y ganar 
Cómo analizar Big Data es tan importante como los datos mismos. El informe de solución describe cómo las organizaciones 
pueden implementar de manera económica plataformas extensibles de Big Data para el análisis descriptivo, las consultas 
interactivas, y el análisis predictivo. 
software.intel.com/sites/default/files/article/486773/sb-use-all-your-data-to-compete-and-win.pdf 
Convertir a Big Data en un gran valor: Una estrategia práctica 
Las innovaciones de Intel en el silicón, los sistemas, y el software pueden ayudarloa implementar tres modelos de uso (ETL 
usando software Apache Hadoop, consultas interactivas, y análisis predictivo sobre la plataforma Hadoop) y otras soluciones 
de Big Data con desempeño, costo y eficiencia energética óptimos. 
software.intel.com/sites/default/files/article/402150/turn-big-data-into-big-value.pdf 
mailto:?subject=Getting%20Started%20with%20Big%20Data%20Planning%20Guide&body=Thought%20you%20might%20be%20interested%20in%20this%20big%20data%20planning%20guide%20from%20Intel%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp%20%23ITCenter
http://www.linkedin.com/shareArticle?mini=true&url=http%3A%2F%2Fintel.ly%2F1glmlgp&title=Getting%20Started%20with%20Big%20Data&source=&summary=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20IT%20Center.%20%23ITCenter
http://twitter.com/intent/tweet?text=Get%20started%20with%20%23BigData%20with%20this%20planning%20guide%20from%20%40Intel%20%23ITCenter%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp
https://www.facebook.com/dialog/feed?app_id=123050457758183&link=http%3A%2F%2Fintel.ly%2F1glmlgp&picture=&name=Getting%20Started%20with%20Big%20Data&caption=%20&description=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20Business%20Center.%20%23ITCenter&redirect_uri=http%3A%2F%2Fwww.facebook.com%2F
http://www.intel.com/content/www/us/en/big-data/big-data-analytics-2013-peer-research-report.html
http://software.intel.com/sites/default/files/article/486773/sb-use-all-your-data-to-compete-and-win.pdf
16 Intel IT Center Guía de planificación | Comenzando con Big Data
1. Investigación de colegas sobre el análisis de Big Data: 
Encuesta 2013 de Intel de administradores de TI sobre cómo 
las organizaciones están usando Big Data Intel (agosto de 
2013) (en inglés). intel.com/content/www/us/en/big-data/big-
data-analytics-2013-peer-research-report.html
2. “La Internet de las cosas está preparada para cambiar todo, 
dice IDC.” Business Wire (3 de octubre de 2013) (en inglés). 
businesswire.com/news/home/20131003005687/en/
Internet-Poised-Change-IDC#.UvFfLfldXzg
3. Elliott, Timo. “¿Por qué la computación en memoria es más barata 
y lo cambia todo?” Business Analytics (blog) (17 de abril de 2013) 
(en inglés). http://timoelliott.com/blog/2013/04/why-in-memory-
computing-is-cheaper-and-changes-everything.html 
4. El software y las cargas de trabajo utilizadas en las pruebas de 
desempeño podrían haber sido optimizadas para desempeño 
únicamente en microprocesadores Intel. Las pruebas de 
desempeño, como SYSmark* y MobileMark*, se miden utilizando 
sistemas de computación, componentes, software, operaciones y 
funciones específicos. Cualquier cambio en alguno de estos factores 
puede dar lugar a que los resultados varíen. Debe consultar otra 
información y pruebas de desempeño que lo ayuden a evaluar en 
forma completa sus compras contempladas, incluido el desempeño 
de ese producto cuando se lo combina con otros productos.
 
5. Los benchmarks TeraSort realizados por Intel en diciembre 
de 2012. Ajustes personalizados: mapred.reduce.tasks=100 
y mapred.job.reuse.jvm.num.tasks=-1. Para obtener mas 
información visite http://hadoop.apache.org/docs/current/api/org/
apache/hadoop/examples/terasort/package-summary.html.
6. Configuración del cluster: Un nodo cabezal (nodo de nombre, 
rastreador de trabajos), 10 trabajadores (nodos de datos, 
rastreadores de tareas), switch Cisco Nexus* 5020 10 Gigabit. Nodo 
trabajador básico: servidores 1U SuperMicro* SYS-1026T-URF con 
dos procesadores Intel Xeon X5690 a 3,47 GHz, 48 GB de RAM, 
unidades de disco duro SATA de 700 GB y 7200 RPM, Adaptador 
de servidor Intel® Ethernet I350-T2, software Apache Hadoop 
1.0.3, sistema operativo Red Hat Enterprise Linux* 6.3, plataforma 
Oracle Java* 1.7.0_05. Procesador y sistema base actualizados en 
nodo trabajador: Servidores 2U Dell PowerEdge* R720 con dos 
procesadores de la familia de productos Intel® Xeon® E5-2690 a 
2,90 GHz, 128 GB de RAM. Almacenamiento actualizado en nodo 
trabajador: Intel® Solid-State Drive serie 520. Adaptador de red 
actualizado en nodo trabajador: Adaptador de Red Convergente 
Intel Ethernet X520-DA2. Software actualizado en nodo trabajador: 
Distribución Intel® para el software Apache Hadoop* 2.1.1.
7. En una plataforma de cuatro sockets conectada nativamente: 
La familia del procesador Intel Xeon E7 soporta 64 DIMMs, 
memoria máxima por DIMM de DIMMM registrada de 32 GB 
(RDIMM); la familia de procesadores Intel Xeon E7 v2 soporta 
96 DIMMs, max. memoria por DIMM de RDIMM de 64 GB . Esto 
permite un incremento de tres veces en la memoria. 
8. El desempeño de la base de datos usando la solución en memoria, 
resultados del benchmark basados en un benchmark de Prueba 
de desempeño y escalabilidad (POPS) de base de datos interna 
de 10 TB con IBM* DB2*: intel.com/content/www/us/en/big-
data/big-data-xeon-e7-v2-unlock-the-value-ibm-paper.html. La 
mejora del desempeño aparece como el acumulado de todas 
las consultas en la carga de trabajo. Los resultados individuales 
variarán dependiendo de las cargas de trabajo, las configuraciones 
y las condiciones particulares. Común a las tres configuraciones: 
servidor SuSE* LINUX Enterprise 11 SP3 x86-64, 1.024 GB de 
memoria, almacenamiento IBM* XIV* Gen3 incorporado con Fibre 
Channel (FC) de 8 Gbps vía switch SAN de 8 GB con espacio total no 
procesado de 111 TB (discos de 2 TB x 12/módulos pModule x 11 
XIV). Configuración base de software de “software de generación 
anterior”: IBM DB2 10.1 + procesador Intel Xeon E7-4870 de 4 
sockets usando la solución IBM Gen3 XIV FC SAN completando 
las consultas en alrededor de 3,75 horas en comparación con la 
nueva configuración de la “nueva generación”: IBM DB2 10.5 con 
Aceleración BLU + familia de productos del procesador Intel Xeon 
E7-4890 v2 de 4 sockets usando tablas en memoria (1TB total) 
completando las mismas consultas en alrededor de 90 minutos.
9. Huang, Shengsheng, Jie Huang, Jinquan Dai, Tao Xie, Bo Huang. 
La suite dl benchmark HiBench: Caracterización del análisis de 
datos basado en MapReduce (en Inglés) IEEE (marzo de 2010).
Notas finales
Los resultados se han simulado y se ofrecen con fines informativos exclusivamente. Los resultados se obtuvieron usando simulaciones ejecutadas en un 
simulador o modelo de arquitectura. Cualquier diferencia en el diseño o la configuración del hardware o software del sistema podría afectar el desempeño real. 
El desempeño relativo se calcula asignando un valor base de 1,0 a un resultado del benchmark, dividiendo luego el resultado real del 
benchmark correspondiente a la plataforma base por cada uno de los resultados específicos del benchmark de las demás plataformas, y 
asignándoles un número de desempeño relativo que se corresponda con las mejoras del desempeño informadas. 
Los compiladores de Intel pueden o no optimizarse al mismo nivel para los microprocesadores que no son de Intel para optimizaciones que no son 
exclusivas para los microprocesadores Intel. Estas optimizaciones incluyen conjuntos de instrucciones SSE2, SSE3 y SSSE3 y otras optimizaciones. Intel 
no garantiza la disponibilidad, funcionalidad o efectividad de cualquier optimización de microprocesadores no fabricados por Intel. Las optimizaciones 
dependientes del microprocesador en este producto han sido diseñadas para uso en microprocesadores Intel. Ciertas optimizaciones no específicas de 
la microarquitectura Intel están reservadas para microprocesadores Intel. Consulte las Guías de Usuario y Referencia de producto correspondientes para 
obtener más información sobre los conjuntos específicos de instrucciones que cubre esta notificación: Revisión de la notificación #20110804
Los números de procesadores Intel no son una medida del desempeño. Los números de procesadores diferencian características dentro de cada 
familia de procesador, no a través de diferentes familias de procesadores. Visitar intel.com/content/www/us/en/processors/processor-numbers.html.mailto:?subject=Getting%20Started%20with%20Big%20Data%20Planning%20Guide&body=Thought%20you%20might%20be%20interested%20in%20this%20big%20data%20planning%20guide%20from%20Intel%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp%20%23ITCenter
http://www.linkedin.com/shareArticle?mini=true&url=http%3A%2F%2Fintel.ly%2F1glmlgp&title=Getting%20Started%20with%20Big%20Data&source=&summary=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20IT%20Center.%20%23ITCenter
http://twitter.com/intent/tweet?text=Get%20started%20with%20%23BigData%20with%20this%20planning%20guide%20from%20%40Intel%20%23ITCenter%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp
https://www.facebook.com/dialog/feed?app_id=123050457758183&link=http%3A%2F%2Fintel.ly%2F1glmlgp&picture=&name=Getting%20Started%20with%20Big%20Data&caption=%20&description=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20Business%20Center.%20%23ITCenter&redirect_uri=http%3A%2F%2Fwww.facebook.com%2F
http://www.intel.com/content/www/us/en/big-data/big-data-analytics-2013-peer-research-report.html
http://www.intel.com/content/www/us/en/big-data/big-data-analytics-2013-peer-research-report.html
http://www.businesswire.com/news/home/20131003005687/en/Internet-Poised-Change-IDC#.Uw_ArSSTxxN
http://www.businesswire.com/news/home/20131003005687/en/Internet-Poised-Change-IDC#.Uw_ArSSTxxN
http://timoelliott.com/blog/2013/04/why-in-memory-computing-is-cheaper-and-changes-everything.html
http://timoelliott.com/blog/2013/04/why-in-memory-computing-is-cheaper-and-changes-everything.html
http://hadoop.apache.org/docs/current/api/org/apache/hadoop/examples/terasort/package-summary.html
http://hadoop.apache.org/docs/current/api/org/apache/hadoop/examples/terasort/package-summary.html
http://www.intel.com/content/www/us/en/big-data/big-data-xeon-e7-v2-unlock-the-value-ibm-paper.html
http://www.intel.com/content/www/us/en/big-data/big-data-xeon-e7-v2-unlock-the-value-ibm-paper.html
http://www.intel.com/content/www/us/en/processors/processor-numbers.html
Más sobre Intel® IT Center
La Guía de planificación “Comenzando con Big Data” es presentada por Intel® IT Center. Intel IT Center está diseñado 
para proporcionar información directa y sin rodeos para ayudar a los profesionales de TI a implementar proyectos 
estratégicos en su plan de trabajo, incluyendo la virtualización, el diseño del centro de datos, Big Data y la seguridad 
de la nube, de las PCs cliente y de la infraestructura. Visite Intel IT Center para conocer sobre:
• Guías de planificación, investigación de colegas y puntos destacados de soluciones para ayudarlo a implementar 
proyectos clave 
• Casos de estudio del mundo real que muestran cómo sus colegas han abordado los mismos desafíos que usted enfrenta 
• Información sobre cómo la propia organización de TI de Intel está implementando la nube, la virtualización, la seguridad, y 
otras iniciativas estratégicas 
• Información sobre eventos donde usted podrá escuchar a expertos de productos Intel así como también a los 
propios profesionales de TI de Intel
Comparta con colegas
Legales
Este documento se ofrece con fines meramente informativos. ESTE DOCUMENTO SE SUMINISTRA “COMO ESTÁ” SIN INCLUIR NINGÚN TIPO DE GARANTÍA, 
INCLUYENDO CUALQUIER GARANTÍA RELACIONADA CON LA COMERCIABILIDAD, LA NO INFRACCIÓN, LA IDONEIDAD PARA UN FIN DETERMINADO, O CUALQUIER 
GARANTÍA QUE SURJA DE CUALQUIER TIPO DE PROPUESTA, ESPECIFICACIÓN O MUESTRA. Intel rechaza toda responsabilidad, incluyendo la responsabilidad 
por infracción de derechos de propiedad, relacionados con el uso de esta información. Este documento no concede ninguna licencia, ni expresa ni implícita, ni por 
exclusión ni de ninguna otra manera, sobre ningún derecho de propiedad intelectual.
Copyright © 2014 Intel Corporation. Todos los derechos reservados. Intel, el logotipo de Intel, Intel Atom, el logotipo de Look Inside, y Xeon son marcas comerciales 
de Intel Corporation en los EE.UU. y en otros países.
*Otros nombres y marcas pueden ser reclamados como propiedad de terceros. 
0614/RF/ME/PDF-SP 330278-001
Para conocer más información en su idioma visite
DialogoTI.intel.com
mailto:?subject=Getting%20Started%20with%20Big%20Data%20Planning%20Guide&body=Thought%20you%20might%20be%20interested%20in%20this%20big%20data%20planning%20guide%20from%20Intel%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp%20%23ITCenter
http://www.linkedin.com/shareArticle?mini=true&url=http%3A%2F%2Fintel.ly%2F1glmlgp&title=Getting%20Started%20with%20Big%20Data&source=&summary=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20IT%20Center.%20%23ITCenter
http://twitter.com/intent/tweet?text=Get%20started%20with%20%23BigData%20with%20this%20planning%20guide%20from%20%40Intel%20%23ITCenter%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp
https://www.facebook.com/dialog/feed?app_id=123050457758183&link=http%3A%2F%2Fintel.ly%2F1glmlgp&picture=&name=Getting%20Started%20with%20Big%20Data&caption=%20&description=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20Business%20Center.%20%23ITCenter&redirect_uri=http%3A%2F%2Fwww.facebook.com%2F
http://dialogoti.intel.com

Continuar navegando