Big Data Science

Qué es Big Data?

Es conjuntos de datos cuyo tamaño (volumen), complejidad (variabilidad) y velocidad de crecimiento (velocidad) dificultan su captura, gestión, procesamiento o análisis mediante tecnologías y herramientas convencionales, tales como bases de datos relacionales y estadísticas convencionales o paquetes de visualización, dentro del tiempo necesario para que sean útiles.

Precio: 2.397€

Incluye Prácticas en Empresa.

Modalidad: Online con clases en directo.

300 HORAS

Que aprenderás 

  • Python para Data Science

Te familiarizarás con los conceptos y herramientas fundamentales del Data Science y adquirirás los conocimientos de programación con Python para comenzar con el curso.

Aprenderás los elementos del lenguaje las estructuras de programación y el uso de distintas librerías que te permitirán abordar el resto del programa.

También comenzarás a utilizar entornos de desarrollo integrado como Pycharm o Jupiter Lab y sistemas de control como versiones como Git.

  • GNU/ Linux

Te familiarizarás con la administración de sistemas Linux para poder desplegar tus proyectos en Big Data en producción en la Cloud.

También se te formará en los fundamentos de la administración y el uso del sistema operativo GNU/Linux y como desplegar instancias en Cloud de Debian, Ubuntu, CentOS… para poner en producción tus proyectos de Data

  • Data Analytics

Te convertirás en un Data Analyst que será capaz de acceder a datos, explorarlos y prepararlos, y visualizaros con diferentes herramientas, para sacar conclusiones sobre datos.

Comenzarás aprendiendo librerías como Numpy y Pandas, que te permitirán analizar y modificar los datos, y explorar sus características. Además, te familiarizaras con los conceptos estadísticos que te ayuda Posteriormente visualizarás esos datos con librerías de Python como Matplotlib y Seaborn. Abordarás un proyecto de Análisis Exploratorio de Datos (EDA). Realizarás el análisis y extraerás conclusiones sobre los mismos y lo expondrás utilizando capacidades de visualización y storytelling.

  • Big Data

Aprenderás las tecnologías más relevantes a nivel empresarial del ecosistema Big Data.

Veremos las herramientas más importantes del ecosistema Big Data, tanto de manera teórica como práctica. Adéntrate en el procesamiento distribuido montando y administrando clústeres de Hadoop/Spark y programando en PySpark. Aprende cómo funcionan las Bases de Datos NoSQL y descubre como a utilizar y administrar las más usadas, como MongoDB. Descubre como ingestar datos en tiempo real mediante herramientas como Kafka y como desplegar tus desarrollos en forma de microservicios con Kubernetes y Docker 

  • Machine Learning

Aprenderás las bases del aprendizaje automático.

Como experto en Big Data en muchos equipos tu misión será ayudar a los expertos en Machine Learning a realizar los proyectos, o incluso, con el tiempo, quizás convertirte tú en un experto en Machine Learning. Por ello, en este módulo se explican las bases de qué es el Machine Learning, que tipos hay, para qué sirve y se enseñan algunos modelos simples y útiles a modo de iniciación en esta disciplina

Dirigido a:

Para realizar nuestro curso en Big Data Science no es necesario que dispongas de titulaciones académicas previas. Si estás en alguna de estas situaciones este curso es para ti.

Personas sin conocimientos técnicos: Estás en situación de desempleo o quieres cambiar de área a una que ofrezca grandes posibilidades laborales.
Personas con pocos conocimientos técnicos: Has visto algo por tu cuenta o realizado alguna formación, pero deseas aprender más y dedicarte profesionalmente al Big Data.
Personas que ya trabajan en el área tecnológica: eres programador y deseas aprender nuevas herramientas y tecnologías para desarrollarte profesionalmente.

 

Salidas Laborales

  • Trabajar como Data Engineer, Data Analyst o Data Scientist especializado en Big Data.
  • Actuar como Ingeniero de Software y programador en proyectos de ingeniería y consultoría relacionados con el dato.
  • Ser arquitecto y administrador de sistemas Big Data.
  • Liderar proyectos de datos como experto en Big Data.

TEMARIO

 

1) Módulo 1: Introducción a los sistemas Informáticos y tecnologías Big Data (5 sesiones)

– Principales componentes de un sistema informático. Sistemas Operativos, para que sirven, que tipos hay y cómo funcionan…

– Introducción a GNU/Linux

– GNU/Linux Avanzado

– Como usar GNU/Linux en Cloud (AWS)

– Introducción teórica a las tecnologías Big Data: Bases de Datos SQL/No SQL, Computación distribuida, Cloud…

2) Módulo 2: Fundamentos de Programación en Python (6 sesiones)

– Introducción a los lenguajes de programación

– Python: Sentencias Básicas y Bloques Lógicos

– Python: Funciones y Scope

– Python: Clases y Objetos y Tratamiento de Excepciones

– Python: Módulos y Uso de librerías de Python 

3) Módulo 3: Programación Orientada a Datos (3 sesiones)

– Python: Librerías básicas de Data Science: Pandas, Numpy, Matplotlib, Sklearn…

– Introducción teórica al análisis exploratorio de Datos

– Python: Ejemplificación del análisis exploratorio de datos mediate Datasets reales 

4) Módulo 4: Introducción al Machine Learning (2 sesiones)

– Desambiguación de términos: ¿Machine Learning? ¿Deep Learning? ¿Data Science? ¿Big Data? Machine Learning: Aprendizaje supervisado (regresión/clasificación), no supervisado y por refuerzo.

– Nuestros primeros pasos con el Machine Learning: Regresión Lineal y Regresión Logística. Ejemplos con datos reales en Python.

5) Módulo 5: Bases de Datos e Ingestión de datos (3 sesiones)

– Bases de datos SQL

– Bases de datos NoSQL: Clave-Valor, Columnares, Documentales y de Grafos

– Bases de Datos NoSQL Documentales: MongoDB (PyMongo)

– Sistemas de ingestión de datos en tiempo real: Kafka

6) Módulo 6: Procesamiento Distribuido (5 sesiones)

– Funcionamiento de un sistema Big Data de Procesamiento Distribuido: Ingestión, Almacenamiento, Gestión de Recursos, Cálculo Distribuido…

– Hadoop: Instalación y configuración, HDFS y YARN

– Introducción a Spark: Instalación y configuración, pySpark y DataFrame API

– Machine Learning con Spark: MLlib

– Microservicios: Kubernetes y Docker

– Arquitecturas Big Data: Lamba vs Kappa vs Microservicios