Qué es Big Data?
Es conjuntos de datos cuyo tamaño (volumen), complejidad (variabilidad) y velocidad de crecimiento (velocidad) dificultan su captura, gestión, procesamiento o análisis mediante tecnologías y herramientas convencionales, tales como bases de datos relacionales y estadísticas convencionales o paquetes de visualización, dentro del tiempo necesario para que sean útiles.
Precio: 2.271,75€
300 HORAS
Objetivos del curso:
- Uso y gestión de datos en bases de datos relacionales, como fuente de datos para los programas.
- Conocer funcionamiento y uso de las bd NOSQL en relación a las bases de datos tradicionales.
- Adquirir las bases necesarias del lenguaje java, para su posterior aplicación en el desarrollo de programas, así como uso de la interface gráfica, gestión de ficheros y pruebas unitarias, combinadas con la utilización de patrones y buenas prácticas de programación.
- Adquirir las bases necesarias del lenguaje Python, para su posterior aplicación en el desarrollo de programas, y pruebas unitarias, combinadas con la utilización de patrones y buenas prácticas de programación.
- Conocer las formas de procesamiento/almacenamiento de datos a gran escala. Ecosistema Hadoop.
- Conocer la programación funcional en Scala para su posterior uso en Spark.
- Conocer la arquitectura Spak y su impacto en el mundo Big Data. Procesamiento a gran escala con Spark.
Dirigido a:
- Aquellas personas que quieran adquirir las capacidades técnicas y analíticas necesarias para especializarse en Analítica de Negocio o Big Data.
- Profesionales en áreas como Tecnología, negocio o departamentos analíticos que necesitan conocer las técnicas y métodos del “business analytics” para mejorar estrategias y tener una visión más global de la organización o innovar en grandes empresas.
Salidas Laborales
- Arquitecto de soluciones Big Data
- Administrador y/o desarrollador de sistemas Big Data
- Chief Data Officer (CDO).
- Machine Learning Engineer.
- Business Analyst.
- Big Data Consultant.
- Analista de datos (Data Analyst)
- Big Data Developer.
- Big Data Engineer.
- Data Scientist.
- Data Analyst.
- NLP Consultant.
Otros Datos: Curso De Iniciación Incluido; Profesores Expertos, Formación online tutorizada, Clases/Tutorías en directo, Formación basada en la práctica y en el desarrollo de ejercicios, Programa De Becas Personalizadas y Acceso a Bolsa de Empleo.
Prácticas: Prácticas en empresas especializadas (opcionales). Disponemos de una red de empresas colaboradoras para que puedas cursar tus prácticas.
CONTENIDOS
MÓDULO 1: INTRODUCCIÓN SISTEMAS DE INFORMACIÓN
- Introducción. BI y DWH
- Sistemas operativos (LINUX, introducción a DOS y PowerShell)
- Conceptos generales de Linux
- Comandos, variables de entorno y scripts
- Control y planificación de procesos
- Sistemas de almacenamiento y sistemas de ficheros
- Administración Básica de Linux
- Introducción DOS y Powershell
- Técnicas Data Warehousing y SQL
- Conceptos generales Data Warehouse
- Gestor de base de datos.
- Lenguaje de manipulación de datos (DML), sentencias Select, insert, update, delete, merge
- Lenguaje de definición de datos (DDL), sentencias Create, Alter, Drop
- Operadores aritméticos, lógicos, de relación
- Funciones de fila simple, de grupo. Subselects, joins
- ETL, Extracción, Transformación y Carga de datos
- Introduction
- Database Vs Data Warehouse
- Preparacíon de entornos e instalacion
- Principales algoritmos en integracion de datos
- Principales ETL del mercado: (Pentaho, Talend, Qulick..)
- Lectura y escritura de ficheros planos y base de datos
- Uso de las principales funciones (agregación, join, uniones, sorters,..)
- Carga de un modelo de datos
EJERCICIO FINAL DE MÓDULO
MÓDULO 2: BASES DE DATOS NOSQL
- Introducción a las bases de datos NoSQL
- ¿Qué son?
- Tipos de BBDD NoSQL
- Ventajas y desventajas
- Introducción a BBDD NOSQL orientada a documentos (MongoDB)
- CRUD (Create, Read, Update and Delete) y el shell de Mongo DB
- Uso de cursores en MongoDB
- Sharding: distribución de la información en múltiples servidores
- Motores de almacenamiento en MongDb e índices
- Introducción a BBDD NOSQL orientada a grafos (Neo4j)
- Introducción.
- Operaciones y análisis de grafos
- Cypher Query Languaje
EJERCICIO FINAL DE MÓDULO
MÓDULO 3: VISUALIZACIÓN
- La Visualización de Datos
- Cómo desarrollar visualizaciones efectivas
- Recogida de datos y análisis
- Principales herramientas del mercado: Tableau, Qlick Sense, Power BI…
EJERCICIO FINAL DE MÓDULO
MÓDULO 4: PYTHON PARA ANÁLISIS DE DATOS
- Introducción
- Tipos: cadenas, listas, diccionarios, tuplas, etc
- Iteración: Loops e ifs
- Lectura y escritura de ficheros
- Librerías: numpy, matplotlib, pandas, etc
- Introducción a modelos predictivos.
EJERCICIO FINAL DE MÓDULO
MÓDULO 5: HADOOP Y SU ECOSISTEMA
- Apache Hadoop: Introducción
- El sistema de almacenamiento de ficheros HDFS y MapReduce
- Ecosistema Hadoop: hive, sqoop, hue, …
- Arquitectura de un cluster
- Arquitectura Yarn
- Tipos de despliegue Hadoop
- Streaming
- Seguridad
EJERCICIO FINAL DE MÓDULO
MÓDULO 6: SPARK
- Introducción a Apache Spark
- Módulos Spark:
- Spark Sql
- Spark Streaming
- Spark MLlib
- GraphX
- Creación y manejo de RDDs
- Pair RDDs
- Spark vs MapReduce
- HDFS y Spark
- Spark en cluster
- Programación en Spark:
- Spark Java API (Javadoc)
- Spark R API (Roxygen2)
- Scala API
- PySpark Python API
- Introducción a la programación en Scala y PySpark
- Estructuras de control básicas
- Tipos de datos
- Colecciones
- Funciones principales
EJERCICIO FINAL DE MÓDULO
PROYECTO FIN DE MÁSTER