El participante adquirirá los conceptos básicos de computo distribuido y el ecosistema Big Data. Aprenderá los conceptos básicos del lenguaje en Scala para la aplicación de proyectos Big Data con Apache Spark. Explorará la abstracción de de datos como RDD, Datasets y DataFrames y conocerá las librerías como Spark SQL. Adquirirá los conocimientos necesarios para monitoreo e implementación en un clúster en la nube.

· A quien va dirigido:

Este entrenamiento es ampliamente recomendado para:
  • Empresas que desean desarrollar analizar sus datos
  • Desarrolladores que desean sumar una habilidad importante en su carrera
  • Desarrolladores Python que quieren hacer más con el lenguaje

Analizar cualquier conjunto de datos para explotarles para diseñar mejores productos de software.

· Temario del entrenamiento:

Módulo 1: Introducción a Scala  
  • Introducción a Scala.
  • REPL.
  • Cadenas.
  • Clases implícitas.
  • Números.
  • Control de flujo.
  • Funciones.
  • Estructuras de datos(Colecciones).
  • Métodos. 
  • Introducción a programación funcional. 
  • SBT.  

Módulo 2: Apache Spark  
  • Introducción a Apache Spark 
  • Spark Internals
  • Driver y Workers
  • RDDs, Daframes y Datasets
  • RDDS operations
  • SparkSQL
  • Uso de SparkSQL
  • Datasets
  • Spark-submit para ejecutar en el cluster
  • SBT for packaging
  • Amazon Elastic Map Reduce
  • Implementación en un AWS Cluster
  • Sintonización de un Cluster
  • Otras librerías, ML, Spark Streaming, Graphx

· Pre-requisitos:

Necesarios:
  • Bases sólidas de programación
  • Conocimientos esenciales de matemáticas
Recomendables:
  • Conozca el desarrollo en Python
  • Conocimientos en estadística