Upsa abril2014 slide 0

Upsa abril2014

  • Published on
    28-Oct-2014

  • View
    370

  • Download
    2

DESCRIPTION

Conferencia en Salamanca, Universidad Pontificia de Salamanca: Big Data. La revolucin de los datos, 3 de abril 2014

Transcript

1. 11 Prof. Luis Joyanes Aguilar U UNIVERSIDAD PONTIFICIA DE SALAMANCA BIG DATA La revolucin de los datos Salamanca, abril 2014 2. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Pgina 2 3. 33 ESTADO DEL ARTE DE CLOUD COMPUTING Prof. Luis Joyanes Aguilar COMPUTACIN EN LA NUBE La nueva era de la computacin 4. 4 5. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 BIG DATA Y MINERA DE DATOS Pgina 5 6. 6 7. 77 ANALTICA DE DATOS (Analytics) Prof. Luis Joyanes Aguilar BIG DATA El universo digital de datos 8. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 LA ERA DEL PETABYTE (1.000 TB), Wired , julio 2008 (www.wired.com) Sensores en todas partes, almacenamiento infinito y Nubes (clouds) de procesadores Nuestra capacidad para capturar, almacenar y comprender cantidades masivas de datos est cambiando la ciencia, medicina, negocios y tecnologa. A medida que aumenta nuestra coleccin de hechos y figuras, crece la oportunidad de encontrar respuestas a preguntas fundamentales. Because in the era of big data, more isnt just more. More is different Pgina 8 9. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 LA ERA DEL PETABYTE -2- . Wired , julio 2008 (www.wired.com) 1TB (250.000 canciones) 20 TB (fotos uploaded a Facebook cada mes) 120 TB (todos los datos e imgenes recogidos por el telescopio espacial Hubble) ; 460 TB (todos los datos del tiempo climtico en EEU compilados por el National Climatic Data Center); 530 TB (Todos los vdeos de YouTube); 600 TB (base de datos de genealoga, incluye todos los censos de EEUU 1790-2000) 1 PB (datos procesados por los servidores de Google cada 75 minutos) Pgina 9 10. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Tabla de unidades de almacenamiento (The Economist, febrero 2010): data, data everywhere www.economist.com/specialreports/displaystory.cfm?story_id=15557421 Pgina 10 11. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 UN EJEMPLO DE ALMACENAMIENTO DE 1 TB Pgina 11 12. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 El Universo Digital EMC / IDC Pgina 12 13. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 El Universo Digital EMC / IDC Pgina 13 14. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 El universo digital de datos, IDC 2012 Pina 14 15. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 EL UNIVERSO DIGITAL DE DATOS, 2013 EMC Corporation PUBLIC en diciembre de 2012, su estudio anual sobre el Universo Digital de IDC, patrocinado por EMC: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East. El estudio arroj que, a pesar de la expansin sin precedentes del Universo Digital debido a el Big Data que se generan a diario por personas y mquinas, IDC estima que solo 0,5% de los datos mundiales se analizan. Pgina 15 16. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 EL UNIVERSO DIGITAL DE DATOS, 2013 El ltimo estudio sobre el Universo Digital de IDC Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East (Grandes volmenes de datos, sombras digitales ms Grandes y el mayor crecimiento en el Lejano Oriente). (Diciembre 2012) Pgina 16 17. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 EL UNIVERSO DIGITAL DE DATOS, 2013 Pgina 17 18. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 EL UNIVERSO DIGITAL DE DATOS, 2013 Pgina 18 19. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 El universo digital de datos, 2012 Pgina 19 20. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 LA ERA DEL EXABYTE/ZETTABYTE CISCO LA ERA DEL EXABYTE, CISCO . Estudio Cisco Visual Networking Index (VNI) 2007-2012. Trfico mundial de datos. LA ERA DEL ZETTABYTE:Cisco VNI: Forecast and Methodology 2012: 22017. Trfico mundial de datos (publicado en 2013) Pgina 20 21. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Informe VNI CISCO 2012-2107 Durante 2012, empresas, gobiernos, industria y usuarios finales generan cada mes del ao, una tasa de trfico mensual de 44 EB (aprox. 44 millones de discos duros de 1TB apilados u 11.000 millones de DVDs). Mxico produjo en 2012 un trfico de 0,6 ExaBytes/mes. Se estima que en 2017 producir unos 1,3 EB. Para ese momento el 56% de la poblacin contar con acceso a Internet de acuerdo con el INEGI de Mxico Pgina 21 22. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Informe VNI CISCO 2012-2107 Los dispositivos que ms ayudan a generar los 44 EB por mes, segn CISCO: 0,6 EB, smartphones 2,7 tabletas 5,8 televisores 7,6 consolas de videojuegos 18,6 computadoras personales En 2017 se espera una tasa global de trfico mensual de 121 EB aprox. 1 ZB Pgina 22 23. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 LA AVALANCHA / DILUVIO DE DATOS Twitter: (redes sociales) 90 millones de tuits (tweets) por da que representan 12 Terabytes (datos de 2011) Boeing: (industria) Vuelo transocenico de un jumbo puede generar 640 Terabytes. Wal-Mart: (comercio) 1 milln de transacciones por hora que se estima que alimenta una base de datos de 2.5 petabytes. Google procesa al da 20 PB de informacin Pgina 23 24. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 LA AVALANCHA / DILUVIO DE DATOS El 90% de los datos acumulados en todo el mundo se han creado en los dos ltimos aos. Cada da se escriben 400 millones de tuits, cada minuto se crean 600 nuevos blogs y cada segundo se registran 10.000 transacciones de pagos con tarjetas. Objetos cotidianos como los carros, los relojes o las gafas estn comenzando a conectarse a Internet para alimentar nuevos servicios que requieren un constante intercambio de informacin. Pgina 24 25. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 LA AVALANCHA / DILUVIO DE DATOS Los Ayuntamientos siembran las calles con sensores de recogida de datos para facilitar la vida de los ciudadanos. Cada da se recogen 2,5 trillones de bytes de datos, y los directivos de las empresas apenas pueden manejar la mitad de los generados en su entorno porque el 80% de ellos estn desestructurados. El nmero de dispositivos en red duplicar a la poblacin mundial en 2015 y los datos que generen se convertirn en informacin utilizada por las empresas para anticipar las necesidades de los consumidores. Pgina 25 26. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 LA AVALANCHA / DILUVIO DE DATOS La respuesta para ordenar este caos es big data, la nueva herramienta para sistematizar los datos procedentes de cualquier soporte incluyendo imagen sonido, fotos, textos y convertirlos de forma automtica en informacin. Big data ayud a ganar las elecciones a Barak Obama y ha reducido de das a minutos la deteccin de uso de informacin privilegiada en Wall Street Pgina 26 27. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 LA AVALANCHA / DILUVIO DE DATOS En torno a ella se est creando un mercado evaluado por la firma de anlisis Gartner en 132.000 millones de dlares para 2015. Ese ao se crearn 4,4 millones de puestos de trabajo para abastecerlo. Los expertos comparan la herramienta con una revolucin industrial en el mundo de los datos y afirman que con ella cambiar nuestra forma de vida. Pgina 27 28. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 EL NEXO DE LAS FUERZAS- GARTNER (2012) Pgina 28 29. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 El nexo de las fuerzas- Gartner (2012) In the Nexus of Forces, information (Big Data) is the context for delivering enhanced social and mobile experiences. Mobile devices are a platform for effective social networking and new ways of work. Social links people to their work and each other in new and unexpected ways. Cloud enables delivery of information and functionality to users and systems. The forces of the Nexus are intertwined to create a user- driven ecosystem of modern computing. At the Core: Social, Mobile, Cloud and Information. Converge and Reinforce Pgina 29 30. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 TENDENCIAS TECNOLGICAS DE LA DCADA LAS CONSULTORAS IDC, GARTNER, FORRESTER, MCKINSEY y otras, estn de acuerdo: Cloud Computing Social Media (Medios sociales) Movilidad: Localizacin, realidad aumentada, realidad virtual Internet de las cosas (objetos) NFC, Bluetooth, RFID, QR, ZigBee, Sensores Big Data: Herramientas y Analtica Pgina 30 31. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 RESUMEN: LAS CINCO GRANDES TENDENCIAS Cloud Computing Modelos, despliegues, seguridad Social Media/Social Business Medios sociales empresa social Movilidad (Localizacin.) Plataformas, dispositivos y Web Apps Big Data: Herramientas y analtica Internet de las cosas (M2M) Pgina 31 32. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 TENDENCIAS tecnolgicas de 2014 Lo mvil (movilidad): Telfonos inteligentes (smartphones), tabletas (tablets), videoconsolas,.. (geolocalizacin, realidad aumentada, NFC, RFID, QR) Gamificacin Consumerizacin, BYOD (Bring your own device) Smart TV BIG DATA (grandes volmenes) Pgina 32 33. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 TECNOLOGAS PONIBLES (Wearables) Gafas inteligentes Relojes inteligentes Pulseras inteligentes Anillos inteligentes Ropa inteligente . Pgina 33 34. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 TECNOLOGAS MVILES ACTUALES Tecnologas NFC (NFC ,Near Field Communication). Comunicaciones en cortas distancias (10 cm -20 cm) HERRAMIENTA actual y FUTURA DE TELEPAGO Aplicaciones: Telfono como medio de pago (experiencias de Telefnica en Barcelona) Pago en aparcamientos, centros comerciales, Gestin de recetas, control de pacientes, citas mdicas, Pago de transportes pblicos (Mlaga) Fidelizacin y servicios en bibliotecas En mviles (SI, Galaxy S IV de Samsung; NO, iPhone 5) Pgina 34 35. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 TECNOLOGAS MVILES ACTUALES Tecnologas NFC Chips RFID (Identificacin por radiofrecuencia) Cdigos QR Sensores Redes Bluetooth (1.0, 2.0, 3.0, 4.0) Geolocalizacin Realidad Aumentada Pgina 35 36. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 EL TELFONO MVIL (CELULAR) con NFC como medio de pago Pgina 36 37. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 TELFONO MVIL COMO MEDIO DE PAGO Pgina 37 38. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Cdigo QR (periodicos, documentos,..) http://www.ticbeat.com/economia/auge- codigosqr-espana-infografia/ Pgina 38 http://wwhttp:// 39. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 MACHINE TO MACHINE (M2M) Intercambio de informacin en formato de datos entre dos puntos remotos, bien a travs de red fija o mvil sin interaccin humana con caractersticas especficas en cuanto a trfico y tarjetas SIM e integradas en la fabricacin de dispositivos Automatizacin de los procesos de comunicacin entre mquinas, entre dispositivos mviles (celulares) y mquinas (Mobile to Machine) y entre hombres y mquinas (Man to Machine) En 2011 haba ms de 1.500 millones de dispositivos alrededor del mundo conectados entre s; 15.000 millones en 2013. Previsiones de Cisco, 25.000 millones para 2015 Pgina 39 40. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 INTERNET DE LAS COSAS (OBJETOS) Pgina 40 41. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 INTERNET DE LAS COSAS (OBJETOS) Cada da aumenta el nmero de dispositivos de todo tipo que proporcionan acceso a Internet. Las cosas que permiten y van a permitir estos accesos ir aumentando con el tiempo. Ahora ya tenemos videoconsolas, automviles, trenes, aviones, sensores, aparatos de televisin, y pronto el acceso se realizar desde los electrodomsticos Pgina 41 42. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 World Wide Web, Internet mvil, cloud computing, INTERNET DE LAS COSAS Un mundo en el que miles de millones de objetos informarn de su posicin, identidad e historia a travs de conexiones inalmbricas mediante tecnologas RFID, bluetooth, sensores inalmbricos, NFC, La realizacin del Internet de las cosas , probablemente requerir cambios dramticos en sistemas, arquitecturas y comunicaciones, Invisible es la descripcin de las nuevas tecnologas empotradas Computacin ubicua A medida que avance su penetracin: Producir un CAMBIO SOCIAL, posiblemente, de tanto impacto y tan poco previsible, como las actuales tecnologas Web Pgina 42 43. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 APLICACIONES DE IMPACTO DEL IoT* Plataforma Satelise de Ferrovial (empresa multinacional constructora de infraestructuras, lder en Espaa) Est instalando en los peajes de autopistas una aplicacin basada en tecnologa satelital (GPS) para el pago de peajes sin barreras y la comunicacin entre el conductor y la concesionaria mediante telfonos inteligentes. Ofrecer otros servicios de valor aadido: trayectos de peaje y alternativos, informacin sobre el estado del trfico, meteorologa o cualquier tipo de incidente pretende incorporar comandos de voz para evitar distracciones del conductor al volante. *Actualidad econmica, octubre 2013 Pgina 43 44. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 APLICACIONES DE IMPACTO DEL IoT* SHODAN, buscador en la Internet de las cosas* A Google for Hackers. Shodan es una nueva herramienta utilizada por los chicos buenos y malos para encontrar todos los dispositivos conectados ahora a la Internet: luces de trficos, plantas de energa e incluso el monitor de su beb * Forbes, seccin Technology. 23 de septiembre, 2013 (n de esta semana en Espaa) Pgina 44 45. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 BUSCADOR SHODAN DE LA IoT Pgina 45 46. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 VENTAJAS Y RIESGOS DE IoT VENTAJAS Y OPORTUNIDADES CISCO, ERICSSON, prevn que para el ao 2020 habr cerca de 50 mil millones de dispositivos conectados a Internet, capaces de comunicarse entre s, desde automviles, aparatos de consumo en el hogar, telfonos inteligentes, marcapasos, televisores, carros (coches), ropa inteligente, electrodomsticos, puertas - ventanas de hogares y edificios, PCs, tabletas Infinitas ventajas RIESGOS* Hackers maliciosos, ciberespionaje * Cibereespionajes, piratas y mafias, El Pas, febrero 2013 http://elpais.com/elpais/2013/02/19/eps/1361281322_025092.html Pgina 46 47. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 MAPA DE ETIQUETAS DE BIG DATA Pgina 47 48. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 MAPA DE ETIQUETAS DE BIG DATA Pgina 48 49. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Harvard Business Review, octubre 2012 Pgina 49 50. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Foreign Affairs, mayo 2013 Pgina 50 51. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Revista BBVA, innovation edge, junio 2013 Pgina 51 52. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 ORIGEN DEL TRMINO Grandes volmenes de datos Datos masivos Macrodatos (Fundacin Funde BBVA) La era de los datos masivos se refiere a cosas que se pueden hacer a gran escala, y pone en cuestin la forma en que vivimos e interactuamos con el mundo (Mayer-Schmberg, Cukier, The Economist) Correlacin: ya no importa el porqu sino slo el qu Pgina 52 53. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 APLICACIONES DE BIG DATA Los Gigantes de Internet como Google, Amazon o Facebook basan su xito en el valor de los big data sin ellos tendran serias dudas de supervivencia. Big data es el nuevo petrleo, oro o man de la dcada. IBM, SAP ,Oracle, Cisco los han sistematizado para adaptarlas a todo tipo de empresas. Google comenz a gestionar Big Data desde su nacimiento en 1998, para indexar sus bsquedas Big data ha saltado de Internet al mundo real, y las empresas investigan sus aplicaciones para mejorar la gestin, ahorrar consumos o lanzar nuevos servicios. Pgina 53 54. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 APLICACIONES DE BIG DATA Big data empieza a dar los primeros pasos en Europa. La britnica Tesco, cuarta cadena minorista mundial, lo acaba de implantar para controlar la energa en 120 tiendas irlandesas y quiere extenderlo a las 3.000 tiendas que tiene entre Irlanda y Reino Unido para lograr un ahorro de 20 millones de euros en consumos energticos. ING Direct ha lanzado en Holanda un servicio para vigilar la interaccin de los clientes con la web que genera llamadas telefnicas automticas para ayudar a quienes no logran terminar su operacin una forma de fidelizar clientes Pgina 54 55. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 APLICACIONES DE BIG DATA La central de reservas Amadeus (lneas areas) insta a las empresas a que incorporen la herramienta junto con el uso ya creciente de MINERA DE DATOS. Investigacin realizada por el profesor Thomas Davenport, de la escuela de negocios de Harvard, sobre la experiencia de Air France-KLM, Lufthansa, British Airways, Cathay, Eurostar, Hoteles Marriott, aeropuerto de Mnich. El informe indica que las aerolneas, los aeropuertos, los hoteles, las empresas ferroviarias y los distribuidores de productos tursticos deben plantearse una estrategia big data para situarse a la vanguardia. Pgina 55 56. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 APLICACIONES DE BIG DATA La industria area comercial podra ahorrar 30 millones de dlares en 15 aos con la recogida de datos realizada por los sensores que GE coloca en los motores de los aviones. Trece de las 25 mayores cadenas hoteleras de todo el mundo efectan ya sus inversiones y sus ofertas comerciales, incluso el color de las paredes de los restaurantes o las habitaciones, cada vez ms en funcin de sofisticados sistemas de anlisis de datos de clientes (MINERA DE DATOS) Pgina 56 57. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 APLICACIONES DE BIG DATA En Espaa, un sistema privado de seguridad, Sanitas ha puesto en marcha un sistema para prevenir enfermedades entre sus 2,3 millones de clientes. En un ao hemos realizado 800.000 contactos a 100.000 clientes para darles consejos o indicarles la conveniencia de hacer pruebas de deteccin precoz cuando detectamos que por su perfil puede ser conveniente y ofrecer mejores servicios [Portavoz de Sanitas al peridico El Pas] Pgina 57 58. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 APLICACIONES DE BIG DATA Las farmacuticas y las aseguradoras de todo el mundo han sumado la fuerza de sus datos para acelerar la investigacin contra el cncer, el alzhimer y otras lacras de la sociedad. hacer predicciones de comportamientos futuros de pacientes son grandes ventajas de big data, que puede mejorarnos la vida hasta lmites insospechados. Pgina 58 59. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 APLICACIONES DE BIG DATA Una lnea de negocio importante de big data estar en las empresas de servicios. Mezclarn la informacin procedente de distintas fuentes y harn campaas de marketing (mercadotecnia) personalizado asociado a la geolocalizacin con datos de su perfil de riesgo, sus gustos y sus hbitos Pgina 59 60. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 EXPANSIN, de Wall Street Journal, 1 de abril 2013 (casos de estudio) UPS UPS comenz a instalar sensores en sus vehculos de reparto para conocer su velocidad y ubicacin, si el cinturn de seguridad del conductor est abrochado... Al combinar su informacin de GPS y los datos de sensores sobre rendimiento en ms de 46.000 vehculos, UPS recort 136 millones de kilmetros de sus rutas. Pgina 60 61. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 BIG DATA Y LA INVESTIGACIN DEL CNCER Aplicar la analtica avanzada de datos a los tratamientos basados en medicina genmica para enfermos con tumores cerebrales. ste es el gran objetivo del proyecto que acometer el Centro del Genoma de Nueva York con ayuda de IBM y, en concreto, del Grupo Watson, centrado en la llamada computacin cognitiva, un rea por la que el Gigante Azul ha apostado de lleno en los ltimos aos y para la que ha destinado mil millones de dlares, como anunciaba la compaa el pasado mes de enero*. *www.ticbeat.com *http://bigdata.ticbeat.com/watson-arma-contra-el-cancer/ Pgina 61 62. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 DEFINICIN DE BIG DATA Otro mbito ser la salud, donde toda la informacin sobre nuestra historia mdica y la de millones de personas ser accesible, tanto para el paciente como para la investigacin mdica (de forma annima), a fin de entender el impacto de las epidemias, enfermedades, y tratamientos, Pgina 62 63. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Qu es Big Data? No hay una definicin estndar Big data es una coleccin de datos grande, complejos, muy difcil de procesar a travs de herramientas de gestin y procesamiento de datos tradicionales Big Data son datos cuyo volumen, diversidad y complejidad requieren nueva arquitectura, tcnicas, algoritmos y anlisis para gestionar y extraer valor y conocimiento oculto en ellos ... Pgina 63 64. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 DEFINICIN DE BIG DATA: IBM What is big data?* Every day, we create 2.5 quintillion bytes of data so much that 90% of the data in the world today has been created in the last two years alone. This data comes from everywhere: sensors used to gather climate information, posts to social media sites, digital pictures and videos, purchase transaction records, and cell phone GPS signals to name a few. This data is big data. * www-01.ibm.com/software/data/bigdata/ Pgina 64 65. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 DEFINICIN DE BIG DATA: IBM Esta infinidad de datos, tan variados y con una gran velocidad de crecimiento esconden tras de s un gran conocimiento que puede ayudar al mundo a mejorar sus procesos e ineficiencias. Sin embargo, no sirven de nada si no se pueden almacenar, discriminar, procesar y analizar para sacar a la luz ese conocimiento. Adems, su utilidad depende tambin de que este proceso se realice en fracciones de segundo y de manera eficiente. La tecnologa ya est preparada y las herramientas de procesamiento y anlisis de datos pueden almacenar, gestionar y analizar grandes cantidades de informacin y traducirlos en inteligencia de negocio rpidamente, Pgina 65 66. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 DEFINICIN DE BIG DATA: Gartner Gartner* define Big data como un conjunto de datos de gran volumen, de gran velocidad y procedente de gran variedad de fuentes de informacin que demandan formas innovadoras y efectivas de procesar la informacin www.gartner.com/id=2100215 Pgina 66 67. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 DEFINICIN DE BIG DATA: Gartner Adems, segn el ltimo informe de Gartner, en 2015 el Big Data crear 4.4 millones de puestos de trabajo TIC (tecnologas de la informacin y la comunicacin) en todo el mundo, pero si no reciben la formacin adecuada solo habr suficientes profesionales para cubrir un tercio de ellos Pgina 67 68. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 DEFINICIN DE BIG DATA: Gartner Big Data es la capacidad de analizar grandes volmenes de datos de diferentes tipos y a gran velocidad, para mejorar los procesos de negocio actuales o crear nuevas reas de oportunidad, Pgina 68 69. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 DEFINICIN DE BIG DATA Desde el punto de vista tecnolgico seguirn apareciendo herramientas que permitirn que el trmino big (grande) de Big Data sea cada vez mayor, y con menor coste, sobre todo gracias a su implementacin en los entornos cloud". La complementacin del Big Data con los entornos cloud, permitir a casi cualquier empresa que tenga las ideas claras acceder a estas capacidades, que no sern un coto restringido a los que tienen grandes capacidades inversoras. Pgina 69 70. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 OTRAS DEFINICIONES DE BIG DATA OReilly Radar Se considera Big Data cuando el volumen de los datos se convierte en s mismo parte del problema a solventar (). EMC/IDC Las tecnologas de Big Data describen un nuevo conjunto de tecnologas y arquitecturas, diseadas para extraer valor y beneficio de grandes volmenes de datos con una amplia variedad en su naturaleza, mediante procesos que permitan capturar, descubrir y analizar informacin a alta velocidad y con un coste reducido Pgina 70 71. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 OTRAS DEFINICIONES DE BIG DATA McKinsey Global Institute (MGI) en Junio de 2011, conjuntos de datos cuyo tamao va ms all de la capacidad de captura, almacenado, gestin y anlisis de las herramientas de base de datos. The IBM Big Data Platform Big Data represents a new era of computing an inflection point of opportunity where data in any format may be explored and utilized for breakthrough insights - whether that data is in-place, in-motion, or at-rest. IBM is uniquely positioned to help clients navigate this transformation. Pgina 71 72. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 OTRAS DEFINICIONES DE BIG DATA IBM, considera que hay Big Data, si el conjunto de informacin supera el terabyte de informacin, es sensible al tiempo, y mezcla informacin estructurada con no estructurada. As, su enfoque trata de buscar la forma mejor de aprovechar estos datos, su gestin, su combinacin (datos estructurados con los que no lo son), la aplicacin de algoritmos predictivos de comportamiento, y con todo ello, permitir la toma de decisiones que aadan valor al negocio. Pgina 72 73. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 DEFINICIN DE BIG DATA: IBM Pgina 73 74. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Pgina 74 75. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 DEFINICIN DE BIG DATA: IBM VOLUMEN de datos procesados por las empresas ha crecido significativa y exponencialmente. Google procesa 20 petabytes al da En 2020 se esperan 42.000 millones de pagos electrnicos. La Bolsa de Nueva York genera UN terabyte de datos al da Twitter genera 8 TB Pgina 75 76. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 DEFINICIN DE BIG DATA: IBM VELOCIDAD. Rapidez con la que se accede a los datos. La velocidad del movimiento, proceso y captura de datos, dentro y fuera de la empresa ha aumentado considerablemente. Flujo de datos a alta velocidad. eBay se enfrenta al fraude a travs de PayPal analizando cinco millones de transacciones en tiempo real al da. Pgina 76 77. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 DEFINICIN DE BIG DATA: IBM VARIEDAD: Big data es cualquier tipo de dato estructurado y no estructurado - tales como texto, datos de sensores, datos entre mquinas (M2M), archivos logs, audio, vdeo, flujos de clicks, XML, datos en streaming, cotizaciones burstiles, medios sociales, Una creciente variedad de datos necesitan ser procesados y convertidos a informacin Pgina 77 78. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 DEFINICIN DE BIG DATA: IBM (5V-6V) Pgina 78 79. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 DEFINICIN DE BIG DATA: IBM Encierra esta idea el tratamiento de informacin que hace evolucionar los mtodos y recursos habituales para hacerse cargo de grandes volmenes de datos (de terabytes pasamos a zettabytes). Estos se generan a gran velocidad (pasamos de datos en lotes/archivos a datos en streaming) y adems se aade una posible componente de complejidad y variabilidad en el formato de esos datos (pasamos de datos estructurados a datos semi-estructurados o no estructurados). Todo ello requiere de tcnicas y tecnologas especficas para su captura, almacenamiento, distribucin, gestin y anlisis de la informacin. Pgina 79 80. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 DEFINICIN DE BIG DATA: IBM Segn IBM Research (www.research.ibm.com), el 90 por ciento de toda la informacin que existe -datos digitales- en la actualidad se ha creado en los ltimos dos aos y el 80 por ciento es informacin no estructurada, procedente de vdeos, imgenes digitales, correos electrnicos, comentarios en las redes sociales y otros textos. Este prolfico universo de informacin que crece a ritmos exponenciales ha creado lo que se ha denominado Big Data o datos masivos. Sus caractersticas son: su variedad, velocidad, volumen y veracidad, explican los expertos de IBM. Pgina 80 81. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 DEFINICIN DE BIG DATA: IBM Tambin recientemente se aade una nueva v de valor: los datos por s mismos, aun siendo muchos, no proporcionan valor a una empresa u organizacin. Es su tratamiento, a travs de un proceso de planteamiento de hiptesis, creacin de modelos estadsticos y semnticos, y definicin de algoritmos de corta o larga duracin, lo que permite descubrir el significado oculto en esos grandes volmenes de datos. Pgina 81 82. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 DEFINICIN DE BIG DATA: IBM Segn otras definiciones de Big Data de fabricantes, consultoras, NIST, etc. existen otras propiedades de los big data: Veracidad de los datos Valor de los datos 6V: +Viabilidad de la infraestructuras y las herramientas de almacenamiento Pgina 82 83. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 INTERNET EN 2020 Pgina 84 84. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Pgina 85 85. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 TRATAMIENTO DE LOS BIG DATA Pgina 86 86. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Pgina 87 87. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Qu sucede en 1 en INTERNET (2012) Pgina 88 88. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Informe de GP Bullhound, el banco de inversin lder en Europa (2012 vs 2013) Pgina 89 89. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Informe de GP Bullhound, el banco de inversin lder en Europa (2012 vs 2013) Pgina 90 90. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 http://blog.qmee.com/qmee-online-in-60-seconds/ (Noviembe-2013 Pgina 91 91. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Actividad de Internet en 1. Qmee Se producen 2 millones de bsquedas en Google Se suben 72 horas de video de Youtube En Facebook, se producen 2.460.000 post, 1.8 Me Gustan y 350GB de Datos Se registran 70 nuevos dominios Se descargan 15.000 temas desde iTunes Se miran 20 millones de fotos en flickr Se producen 278.000 Tweets por minuto Se comparten por Snapchat 104.000 fotos Amazon vende u$s 83.000 Se hacen 11.000 bsquedas de LinkedIn Hay 11.000 usuarios activos en Pinterest 216.000 fotos nuevas en Instagram 204 millones de mails enviados; 20.000 nuevas fotos en Tumblr 571 nuevos sitios creados Pgina 92 92. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Fuentes de Big Data Herramientas para anlisis de datos en grandes volmenes de datos. Infraestructuras de Big Data Fuentes de Big Data (Soares 2012): Web y Social media Machine-to-Machine (M2M, Internet de las cosas) Biometria Datos de transacciones de grandes datos (salud, telecomunicaciones) Datos generados por las personas (humanos) Pgina 93 93. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Sunil Soares (2003). Big Data Governance Emerging Pgina 94 94. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Big Data. Joyanes, MxicoDF: Alfaomega (2013) 1. Web y Social Media: Incluye contenido web e informacin que es obtenida de las medios sociales como Facebook, Twitter, LinkedIn, Foursquare, Tuenti, etc, blogs como Technorati, blogs de peridicos y televisiones, wikis como MediaWiki, Wikipedia, marcadores sociales como Del.icio.us, Stumbleupon agregadores de contenidos como Dig, Meneame En esta categora los datos se capturan, almacenan o distribuyen teniendo presente las caractersticas siguientes: Datos de los flujos de clics, tuits, retuits o entradas en general (feeds) de Twitter, Tumblr, Entradas (posting) de Facebook y contenidos web diversos. Pgina 95 95. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Big Data. Joyanes, MxicoDF: Alfaomega (2013) 2. Machine-to-Machine (M2M)/ Internet de las cosas: M2M se refiere a las tecnologas que permiten conectarse a otros diferentes dispositivos entre s. M2M utiliza dispositivos como sensores o medidores que capturan algn evento en particular (humedad, velocidad, temperatura, presin, variables meteorolgicas, variables qumicas como la salinidad, etc.) los cuales transmiten a travs de cableadas, inalmbricas y mviles a otras aplicaciones que traducen estos eventos en informacin significativa. La comunicacin M2M ha originado el conocido Internet de las cosas o de los objetos. Entre los dispositivos que se emplean para capturar datos de esta categora podemos considerar chips o etiquetas RFID, chips NFC, medidores (de temperaturas, de electricidad, presin). sensores, dispositivos GPS y ocasionan la generacin de datos mediante la lectura de los medidores, lecturas de los RFID y NFC, lectura de los sensores, seales GPS, seales de GIS, etc. Pgina 96 96. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Big Data. Joyanes, MxicoDF: Alfaomega (2013) 3.Big Data transaccionales: Grandes datos transaccionales procedentes de operaciones normales de transacciones de todo tipo. Incluye registros de facturacin, en telecomunicaciones registros detallados de las llamadas (CDR), etc. Estos datos transaccionales estn disponibles en formatos tanto semiestructurados como no estructurados. Los datos generados procedern de registros de llamada de centros de llamada, departamentos de facturacin, reclamaciones de las personas, presentacin de documentos Pgina 97 97. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Big Data. Joyanes, MxicoDF: Alfaomega (2013) 4. Biometra: La biometra o reconocimiento biomtrico. La informacin biomtrica se refiere a la identificacin automtica de una persona basada en sus caractersticas anatmicas o trazos personales. Los datos anatmicos se crean a partir de las caractersticas fsicas de una persona incluyendo huellas digitales, iris, escaneo de la retina, reconocimiento facial, gentica, DNA, reconocimiento de voz, incluso olor corporal etc. Los datos de comportamiento incluyen anlisis de pulsaciones y escritura a mano. Los avances tecnolgicos han incrementado considerablemente los datos biomtricos disponibles Pgina 98 98. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Big Data. Joyanes, MxicoDF: Alfaomega (2013) . En el rea de seguridad e inteligencia, los datos biomtricos han sido informacin importante para las agencias de investigacin. En el rea de negocios y de comercio electrnico los datos biomtricos se pueden combinar con datos procedentes de medios sociales lo que hace aumentar el volumen de datos contenidos en los datos biomtricos. Los datos generados por la biometra se pueden agrupar en dos grandes categoras: Gentica y Reconocimiento facial. An Overview of Biometric Recpgnition. http://biometrics.cse.nsu.edu/info.html Pgina 99 99. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Big Data. Joyanes, MxicoDF: Alfaomega (2013) 5. Datos generados por las personas: Las personas generan enormes y diversas cantidades de datos como la informacin que guarda un centro de llamadas telefnicas (call center) al establecer una llamada telefnica, notas de voz, correos electrnicos, documentos electrnicos, estudios y registros mdicos electrnicos, recetas mdicas, documentos papel, faxes, etc. El problema que acompaa a los documentos generados por las personas es que pueden contener informacin sensible de las personas que necesita, normalmente ser oculta, enmascarada o cifrada de alguna forma para conservar la privacidad de dichas personas. Estos datos al ser sensibles necesitan ser protegidos por las leyes nacionales o supranacionales (como es el caso de la Unin Europea o Mercosur) relativas a proteccin de datos y privacidad. Pgina 100 100. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Estructura de Big Data: tipos de datos Estructurados No estructurados No estructurados (texto, vdeo, sonido, imgenes) Semiestructurados ( a veces se conocen como multiestructurados. Tienen un formato y flujo lgico de modo que pueden ser entendidos pero el formato no es amistoso al usuario(HTML. XML, datos de web logs) Normalmente, se suelen asociar los datos estructurados a los tradicionales y los datos no estructurados a los Big Data Objetivo principal de los sistemas de gestin de datos: Integracin de datos estructurados y no estructurados Pgina 101 101. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Oportunidades en Big Data Oportunidad profesional: En 2015, Gartner predice que 4,4 millones de empleos sern creados en torno a big data. (Gartner, 2013) Fuente: http://www.gartner.com/technology/topics/big-data.jsp Pgina 102 102. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Oportunidades en Big Data http://elpais.com/elpais/2013/12/02/vinetas/13 86011115_645213.html El Roto Vieta de El Roto 3 de diciembre de 2013 Pgina 103 103. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Oportunidades en Big Data Pgina 104 104. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 RETOS Y OPORTUNIDADES IDC entiende Big data como un nuevo valor econmico basado en la toma de decisiones a partir del anlisis de grandes volmenes de datos procedentes de una amplia variedad de fuentes, desde las aplicaciones empresariales convencionales a los datos mviles, los medios sociales y el Internet de las Cosas, un campo an incipiente donde en 2020 convivirn 212.000 millones de dispositivos conectados. Big data tambin ofrece riesgos. Fundamentalmente en privacidad y seguridad de los datos. Normas legales de la Unin Europea, sus pases miembros, Amrica Pgina 105 105. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 RETOS Y OPORTUNIDADES Sus ventajas para el negocio en reas como la gestin de las relaciones con el cliente, el desarrollo de nuevos productos, la deteccin del fraude o la prediccin del comportamiento de los consumidores permiten a las compaas obtener resultados financieros un 20% por encima de sus competidores, segn estimaciones de Gartner. Se entiende as que, una vez superada la fase de evaluacin y prueba en la que todava nos encontramos, la adopcin creciente de Big data dispare un mercado que, de acuerdo con la firma de investigacin, cerrar 2013 con un volumen de negocio asociado de 34.000 millones de dlares, 6.000 millones ms que en 2012. Pgina 106 106. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 RETOS Y OPORTUNIDADES Las promesas de Big data alcanzan a prcticamente todos los sectores de actividad, como demuestran las primeras experiencias de xito emprendidas por organizaciones de finanzas, sanidad, turismo, retail o telecomunicaciones. Y su adopcin se ir extendiendo a medida que los responsables TI vayan asumiendo el valor que aportan nuevos frameworks de software como Hadoop y los nuevos sistemas avanzados de almacenamiento, bases de datos, analtica y lenguajes de programacin especialmente orientados a los grandes datos. Pgina 107 107. 108108 UNIVERSIDAD PONTIFICIA DE SALAMANCA Prof. Luis Joyanes Aguilar BIG DATA Y ANALTICA DE DATOS. Nuevas bases de datos NoSQL, In-Memory 108. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 ESTADO ACTUAL DE BIG DATA 1. Almacenamiento: hacen falta nuevas tecnologas de almacenamiento 2. Bases de datos: las BD relacionales no pueden con todo 3. Procesamiento: se requieren nuevos modelos de programacin 4. Obtencin de valor: los datos no se pueden comer crudos (en bruto) La informacin no es conocimiento accionable Pgina 109 109. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 1. Almacenamiento Hacen falta nuevas tecnologas de almacenamiento RAM vs HHD Memorias hardware. HHD 100 ms barato que RAM pero 1000 veces ms lento Solucin actual: Solid- state drive (SSD) adems no voltil Tecnologas in-memory (SAP HANA) Investigacin: Storage Class Memory (SCM) Pgina 110 110. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 2. Base de datos Las BD relacionales no pueden con todo volumen de la informacin GBs PBs Exabytes . Cada da ms populares Limitadas para almacenamiento de big data (ACID, SQL, ) ACID: Atomicity, Consistency, Isolation & Durability Pgina 111 111. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 3. Procesamiento HADOOP Se requieren nuevos modelos de programacin para manejarse con estos datos Solucin: Para conseguir procesar grandes conjuntos de datos: MapReduce de Google Pero fue el desarrollo de Hadoop (Yahoo - Apache) por parte de Yahoo, el que ha propiciado un ecosistema de herramientas open source. Pgina 112 112. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 4. Obtencin de valor Los datos no se pueden comer crudos (en bruto) la informacin no es conocimiento accionable Para ello tenemos tcnicas de Data Mining Asociacin Clasificacin Clustering Prediccin ... La mayora de algoritmos se ejecutan bien en miles de registros, pero son hoy por hoy impracticables en miles de millones. Pgina 113 113. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Bases de datos In-Memory (en-memoria) SAP Hana Oracle Times Ten In-Memory Database IBM solidDB Relacionales Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft Transferencia de datos entre Hadoop y bases de datos relacionales Legacy (jerrquicas, en red primeras relacionales) NoSQL (Cassandra, Hive, mongoDB, CouchDB, Hbase) Pgina 114 114. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 BASES DE DATOS RELACIONALES (Revisin) La mayora de las bases de datos cumplen con las propiedades ACID (atomicity, consistency, isolation, durability). Estas propiedades garantizan un comportamiento de las base de datos relacionales y el mejor de los argumentos para su utilizacin. Pgina 115 115. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 BASES DE DATOS ANALTICAS Analticas: para permitir a mltiples usuarios contestar rpidamente preguntas de negocio que requieran de grandes volmenes de informacin. Bases de datos de procesamiento paralelo masivo (MPP) Bases de datos en memoria Almacenamiento en columnas Histricamente estas bases de datos tan especializadas tenan un costo muy elevado, pero hoy el mercado nos ofrece varias alternativas que se adaptan al presupuesto de cada organizacin. Pgina 116 116. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Bases de datos analticas Bases de datos diseadas especficamente para ser utilizadas como motores de Data Warehouse. Estas bases de datos logran procesar grandes volmenes de informacin a velocidades asombrosas, gracias a la aplicacin de diferentes conceptos y tecnologas: Almacenamiento en columnas en lugar de filas (registros) Massively parallel processing (MPP) In-Memory Analytics Pgina 117 117. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 In-Memory Computing (IBM) In-memory computing is a technology that allows the processing of massive quantities of data in main memory to provide immediate results from analysis and transaction. The data to be processed is ideally real-time data (that is, data that is available for processing or analysis immediately after it is created). To achieve the desired performance, in-memory computing follows these basic concepts: Pgina 118 118. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Row-based and column-based storage models: IBM Pgina 119 119. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Almacenamiento por filas vs columnas Pgina 120 120. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Almacenamiento en columnas, no filas: FUENTE: datalytics.com Pgina 121 121. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Computacin en memoria In-Memory La computacin en memoria es una tecnologa que permite el procesamiento de cantidades masivas de datos en memoria principal para proporcionar resultados inmediatos del anlisis y de las transacciones. Los datos a procesar, idealmente son datos en tiempo real (es decir, datos que estn disponibles para su procesamiento o anlisis inmediatamente despus que se han creado). Existen un amplio conjunto de tecnologas que emplean bases de datos en memoria. SAP HANA es una de las ms acreditadas y populares (Oracle, IBM,) Pgina 122 122. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Pgina 123 123. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 BASES DE DATOS NoSQL Las bases de datos no-relacionales son comnmente llamadas bases de datos NoSQL ya que la gran mayora de ellas comparte el hecho de no utilizar el lenguaje SQL para realizar las consultas Es una definicin controvertida, aunque la definicin ms aceptada es Not only SQL. Una de las caractersticas de las bases de datos no relacionales es que la mayora de ellas no utilizan esquemas de datos rgidos como las bases de datos relacionales. Esto hace que estas bases de datos tambin se les llame Schema-less o Schema-free (almacenamiento des-estructurado). Pgina 124 124. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 BASES DE DATOS NoSQL Distintos tipos de bases de datos para distintos tipos de aplicaciones: documentales, grafos, clave/valor, orientadas a objetos, tabulares, NoSQL: para capturar de manera segura y escalable, grandes volmenes de informacin continua generados por eventos. Caractersticas SQL: Sin (o muy poco) soporte para SQL. Datos accedidos a travs de programas Java, no consultas ACID: Sin integridad referencial, poco soporte transaccional Definicin de estructuras de datos flexibles (sobre la marcha) Pgina 125 125. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 BASES DE DATOS NoSQL Beneficios Facilidad de escalamiento horizontal (clusters baratos) Almacenamiento de grandes volmenes (no generan cuellos de botella) Excelentes para lecturas masivas de registros tipo clave/valor. Desafos Son de distintos vendedores y no estn integradas Estos tipos de DBs se utilizan por lo general en conjunto Se utilizan y administran de distinta manera; utilizan distintos lenguajes: no SQL! Dependencia de sistemas: vuelta a las races? Pgina 126 126. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Taxonoma de Bases de datos NoSQL Los principales tipos de BBDD de acuerdo con su implementacin son los siguientes: Almacenes de Clave-Valor Almacenes de Familia de Columnas (columnares) Almacenes de documentos (orientadas a documentos) Almacenes de Grafos (orientadas a grafos) - Cachs de memoria Pgina 127 127. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 SOLUCIONES DE BASES DE DATOS NoSQL Pgina 128 128. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 MongoDB MongoDB es un sistema de base de datos NoSQL orientado a documentos, desarrollado bajo el concepto de cdigo abierto. MongoDB forma parte de los sistemas de base de datos NoSQL, almacena los datos no en tablas, sino en documentos tipo JSON con un esquema dinmico (formato BSON), haciendo que la integracin de los datos sea ms fcil y rpida. Pgina 129 129. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Neo4j Neo4j es una base de datos de grficos, de cdigo abierto soportada por Neo Technology. Neo4j almacena los datos en nodos conectados por relaciones dirigidas y tipificadas, con las propiedades de ambos, tambin conocidas como Grfico de Propiedad (Property Graph). Pgina 130 130. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Apache CouchDB Base de datos de cdigo abierto, NoSQL que emplea JSON para documentos, JavaScript como lenguaje de consulta para MapReduce y HTTP como API. Se distribuye bajo una licencia Apache 2.0 y es utilizada por mltiples organizaciones, como la BBC que usa CouchDB para su plataforma dinmica de contenidos, mientras que Credit Suisse's lo utiliza para almacenar los detalles de configuracin de su framework Python de mercado de datos49. Pgina 131 131. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 HyPertable Sistema Gestor de Bases de Datos de cdigo abierto desarrollado en C++ por la compaa Zvents, basado en el modelo Big Table de Google. Es un sistema de almacenamiento de datos distribuido, escalable, no relacional, no soporta transacciones y de alto desempeo, ideal para aplicaciones que necesitan manejar datos que evolucionan rpidamente y diseado para soportar una gran demanda de datos en tiempo real. Entre sus clientes51 se encuentran empresas como Ebay, Tiscali o Reddiff.com Pgina 132 132. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Hive Sistema data warehouse para Hadoop que facilita resmenes de datos, consultas ad- hoc, y el anlisis de grandes conjuntos de datos almacenados en los sistemas de archivos compatibles con Hadoop. Hive proporciona un mecanismo para proyectar la estructura sobre estos datos y consultar los datos utilizando un lenguaje SQL, llamado HiveQL. Pgina 133 133. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Redis Redis es un motor de base de datos en memoria, basado en el almacenamiento en tablas de hashes clave, valor) pero que opcionalmente puede ser usada como una base de datos durable o persistente. Est escrito en ANSI C patrocinado por VMware.1 2 y esta liberado bajo licencia BSD. Pgina 134 134. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Quin usa Apache Cassandra? Algunos usuarios importantes de Cassandra son: Digg Facebook Twitter Rackspace SimpleGEO Pgina 135 135. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Lenguaje R R es el lenguaje de programacin lder en el mundo para el anlisis estadstico y la realizacin de grficos. R, es un lenguaje para la minera de datos y un entorno de programacin. Se trata de un proyecto GNU, que es similar al lenguaje y al entorno de programacin S desarrollado en Bell Laboratories (antes AT&T, ahora Lucent Technologies). Pgina 136 136. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Lenguaje R R ofrece una gran variedad de tcnicas estadsticas (modelos lineales y no lineales, tests estadsticos, anlisis de series temporales, clasificacin, clustering, ...) y tcnicas grficas, y es altamente extensible. R est disponible como software libre bajo licencia de GNU Free Software Foundation. Se compila y ejecuta en una variedad de plataformas UNIX y sistemas similares (incluyendo FreeBSD y Linux), Windows y MacOS. Pgina 137 137. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Integracin con Big Data. FUENTE: datalytics.com Pgina 138 138. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Integracin con Big Data. FUENTE: datalytics.com Pgina 139 139. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Arquitectura de referencia de Big Data de Sunil Soares Pgina 140 140. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 ANALTICA PREDICTIVA. La explotacin de los Big Data Eric SIEGEL (2013). Analtica predictiva. Predecir el futuro utilizando Big Data. Madrid: Anaya La prediccin es poder. Las grandes empresas se garantizan una posicin altamente competitiva prediciendo el destino futuro y el valor de activos concretos. ANALTICA PREDICTIVA. Tecnologa que aprende de la experiencia (los datos) para predecir el futuro comportamiento de los individuos para poder tomar mejores decisiones. Pgina 141 141. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 ALGUNOS CASOS DE AP VS BIG DATA Los estudios de Hollywood predicen el xito que tendra un guin en caso de llevarse a la gran pantalla. Netflix el gigante del video, cine y TV de EEUU- premi con 1 milln de dlares al equipo de cientficos que ms mejor la capacidad del sistema de recomendaciones para predecir las pelculas que nos podrn gustar. La compaa elctrica australiana Energex predice la demanda de electricidad para poder decidir dnde implantar su red elctrica. La prediccin determina los cupones descuento que nos dan en las tiendas. EN ESPAA, LAS NUEVAS TARIFAS ELCTRICAS. Pgina 142 142. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 CIENCIA DE DATOS (DATA SCIENCE) Pgina 143 143. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 CIENCIA DE DATOS Ciencia de datos es la extraccin de informacin til de grandes volmenes de datos. La ciencia de datos necesita acceder a los datos, a la ingeniera de datos y a las tecnologas de procesamiento de datos. La Ciencia de Datos es una especializacin creciente que toca muchos de los siguientes temas: Computacin en nube, big data, matemticas, estadstica, mtodos de optimizacin, teora de negocios y teora de ciencias de la computacin. Pgina 144 144. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 CIENTFICO DE DATOS EL CIENTFICO DE DATOS (Data Scientist). Un profesional con formacin de Informtica, Estadstica, Analtica, Ciencias Fsicas y Biolgicas que analizar los Big Data para la toma de decisiones eficientes y obtener rentabilidad en los negocios. Lenguajes que deber conocer: Python, R, SQL, NoSQL Pgina 145 145. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 DISCIPLINAS CLAVE DE DATA SCIENCE Pgina 146 146. 147147 OPORTUNIDADES Y NUEVAS PROFESIONES TECNOLGICAS Y DE COMUNICACIN DEMANDADAS POR LAS EMPRESAS Prof. Luis Joyanes Aguilar 147. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 NECESIDAD DE FORMACIN PROFESIONAL AVANZADA EN CLOUD COMPUTING-BIG DATA El mercado tiene carencia de especialistas en Cloud Computing y sobre todo en Big Data. Hay miles de puestos que se debern cubrir en los prximos cinco aos segn estadsticas fiables de IDC, Gartner, Forrester, McKinsey UNA DE LAS PROFESIONES MS DEMANDADAS SER DE ESPECIALISTAS EN CIENCIAS DE DATOS (Cientficos de datos) y adems ANALISTAS DE DATOS (formados en Analytics y tecnologas Big Data Hadoop, InMemory) Se necesitan certificaciones profesionales en CLOUD COMPUTING Y BIG DATA TECNOLGICAS Y DE NEGOCIOS Pgina 148 148. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 NUEVAS CARRERAS UNIVERSITARIAS: maestrias,ingeniera, diplomados Community Manager, Social Media Manager y Analista Web y SEO Ingeniero de Cloud Computing (En Espaa hay una universidad privada que lo lanza el prximo curso) Ingeniero de negocios digitales (Digital Business Intelligence) Ingeniero de datos (Infraestructuras, Bases de datos NoSQL, Hadoop, Tecnologas in-memory) Analtica de datos (Analytics) y Analtica de Big Data Pgina 149 149. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 NUEVAS CARRERAS Y PROFESIONES Community Manager , Social Media Manager, SEO, Analistas Web cada da son ms demandadas y. Sin embargo la profesin del futuro ser: EL CIENTFICO DE DATOS (Data Scientist). Un profesional con formacin de Sistemas, Estadstica, Analtica, Ciencias Fsicas y Biolgicas que analizar los Big Data para la toma de decisiones eficientes y obtener rentabilidad en los negocios. HBR (Harvard Business Review lo declar la profesin MS SEXY del siglo XXI) Pgina 150 150. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 LAS TITULACIONES-PROFESIONES MS DEMANDADAS en TIC EN PRXIMOS AOS (HBR, Harvard Business Review) nmero de octubre de 2012 (Los datos el nuevo petrleo/oro del siglo XXI): Ciencia de los datos: Data Science (Maestra/Doctorado) En Estados Unidos, Mxico y Europa ya existen iniciativas. (EN MXICO, el ITAM en Espaa algunas universidades y escuelas de negocio) LA PROFESIN MS SEXY DEL SIGLO XXI : EL CIENTFICO DE DATOS (Data Scientist) Pgina 151 151. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Pgina 152 MUCHAS GRACIAS Preguntas? Twitter:@luisjoyanes www.facebook.com/joyanesluis www.slideshare.net/joyanes CORREO-e: luis.joyanes@upsam.es 152. 153 Prof. Luis Joyanes Aguilar BIBLIOGRAFA 153. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 BIBLIOGRAFA BSICA JOYANES, Luis (2012). Computacin en la nube. Estrategias de cloud computing para las empresas. Mxico DF: Alfaomega; Barcelona: Marcombo JOYANES, Luis (2013). BIG DATA. El anlisis de los grandes volmenes de datos. Mxico DF: Alfaomega; Barcelona: Marcombo Coleccin de libros NTiCS (Negocios, Tecnologa, Innovacin, Conocimiento y Sociedad) dirigida por el profesor Luis Joyanes y publicada en la editorial Alfaomega de Mxico DF y Marcombo en Espaa Pgina 154 154. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 BIBLIOGRAFA BSICA Tema 6.Big Data. Inteligencia de negocios. http://www.slideshare.net/joyanes/ioi-bi-tema6- bigdata Conferencia Big Data y Minera de datos, Congreso Qbit, Instituto Tecnolgico de Monterrey, Quertaro (Mxico), noviembre 2013 http://www.slideshare.net/luismackoy/ig-data-y- minera-de-datos-tec-de-monterrey-quertaro Pgina 155 155. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 BIBLIOGRAFA Innovation Edge , revista BBVA, junio 2013 https://www.centrodeinnovacionbbva.com/innova tion-edge/21-big-data SOARES, Sunil (2013). Big Data Governance. An emerging Imperative. Boise, USA: MC Press. DAVENPORT, Thomas H. y DYCH, Jill. Big Data in Big Companies. SAS. International Institute for Analytics. Datalytics. 18D Pentaho Big Data Architecture, www.datalytics.com (Pentaho) Gereon Vey, Tomas Krojzl. Ilya Krutov (2012) . In- memory Computing with SAP HANA on IBM eX5 Systems. ibm.com/redbooks. Draft Document for Review December 7, 2012 1:59 pm SG24-8086-00 Pgina 156 156. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 BIBLIOGRAFA ZIKOPOULOS, Paul C. et al (2012). Understanding Big Data. Analytics for Enterprise Class Hadoop and Streaming Data. New York: McGraw-Hill. www-01.ibm.com/software/data/bigdata/ ZIKOPOULOS, Paul C. et al (2013). Harness the Power of Big Data. The IBM Big Data Platform. New York: McGraw-Hill. Descargable libre en IBM. Pgina 157 157. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 Pgina 158 158. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 REFERENCIAS McKinsey Global Institute . Big data: The next frontier for innovation, competition, and productivity. June 2011 James G. Kobielus. The Forrester Wave: Enterprise Hadoop Solutions, Q1 2012, February 2, 2012. www-01.ibm.com/software/data/bigdata/ Diego Lz. de Ipia Glz. de Artaza. Bases de Datos No Relacionales (NoSQL). Facultad de Ingeniera, Universidad de Deusto. www.morelab.deusto.es http://paginaspersonales.deusto.es/dipina Pgina 159 159. Luis Joyanes Aguilar Big Data . La revolucin de los datos Salamanca, 3 de abril 2014 REFERENCIAS Philip Russom. BIG DATA ANALYTICS. FOURTH QUARTER 2011. TDWI.org IBM. http://www-01.ibm.com/software/data/bigdata/ Pgina 160