Certificado en Big Data

Certificado en Big Data

La tendencia mundial de las compañías es explotar el valor de los datos a través de la implementación de ecosistemas de big data y machine learning para la resolución de problemas organizacionales y para el fortalecimiento de la toma de decisiones.

El objetivo del curso es dotar a los participantes de un marco conceptual y experiencia práctica en analítica de datos, bases de datos no relacionales y machine learning.

Evaluaciones

Cada módulo tiene una instancia de evaluación obligatoria y al finalizar el curso el estudiante deberá realizar un proyecto que integra los conocimientos adquiridos durante los cuatro módulos.

Requisitos

Cada participante deberá presentarse con su propia notebook. Requisitos mínimos: CPU Intel core i5 o AMD A10, RAM: 8GB.

  • Módulo 1: Procesamiento de Datos: Análisis en modo Batch

    Duración: del 29 de abril al 12 de junio de 2019.

    De forma práctica el estudiante se familiariza con las diferentes plataformas que existen en el mercado para el procesamiento de datos en modo batch.

    El módulo se enfoca en el estudio de forma práctica de las posibilidades técnicas que ofrecen los distintos frameworks que existen en el mercado para el procesamiento de datos en modo batch, tales como Apache Hadoop, Hive y Spark.

    Se realizan prácticas con estas herramientas orientadas a procesar grandes volúmenes de datos, tanto estructurados como no estructurados en almacenamientos distribuidos.

    Se plantean las diferencias entre Spark Batch y Hive, se proponen casos de uso de cada uno y se realizan prácticas de problemas asimilables con la vida real.

    Apache Hadoop: es un framework de código abierto que permite el almacenamiento distribuido y el procesamiento de grandes conjuntos de datos. Hace posible que se pueda obtener conocimiento rápidamente a partir de cantidades masivas de datos, estructurados y no estructurados

    Herramientas

    • Sistemas de Archivos en Hadoop (HDFS)
    • Hive Base de datos (Data Warehouse)

    Áreas temáticas

    • Ecosistema: se verá una introducción a las características de big data (4 Vs), se logrará establecer el entorno de desarrollo y realizar prácticas.
    • Hadoop: se conocerán las herramientas base de todo entorno big data así como el modelo de programación map reduce.
    • Hive: se obtendrán conocimientos fundamentales del uso del framework, del lenguaje HiveQL y de su funcionamiento en el back end.
    • Spark Batch: se obtendrán conocimientos fundamentales del uso del framework, del lenguaje HiveQL y de su funcionamiento en el back end.

    Al completar el módulo, el estudiante queda preparado para:

    • Comprender los conceptos y herramientas básicas detrás de una plataforma de procesamiento de alto volumen de datos en batch.
    • Identificar áreas de aplicación de esta tecnología en la industria.
    • Idear, estructurar y desarrollar un proyecto de procesamiento de datos batch.
  • Módulo 2: Procesamiento de Datos: Análisis en modo Stream (Real Time)

    Duración: 17 de junio al 815 de julio de 2019.

    De forma práctica el estudiante se familiariza con las diferentes plataformas que existen en el mercado para el procesamiento de datos en tiempo real.

    El módulo se enfoca en el estudio, de forma práctica, de las posibilidades técnicas que ofrecen los distintos software que existen en el mercado para el procesamiento de datos en tiempo real, tales como Apache Kafka, Storm y Spark Streaming.

    Se realizan prácticas con estas herramientas orientadas a procesar grandes volúmenes de datos tanto estructurados como no estructurados en almacenamientos distribuidos.

    Áreas temáticas 

    • Apache Kafka es una plataforma de procesamiento de streams cuyo objetivo es el alto throughput y la baja latencia para el manejo de fuentes de datos en tiempo real, muy utilizada en el mercado actualmente.
    • Apache Storm es un framework distribuido para procesamientos de streams.
    • Spark Streaming es una extensión del core de Spark APIs concebidas especialmente para el procesamiento de datos en tiempo real.
    • Sistema de procesamiento paralelo con Spark.
    • Spark es una plataforma para procesamiento paralelo en clusters, está orientada a manejar grandes volúmenes de datos y ejecutar cómputo intensivo sobre ellos.

    Herramientas

    • Spark SQL
    • Spark Streaming
    • Kafka

    Al completar el módulo, el estudiante queda preparado para:

    • Comprender los conceptos y herramientas básicas detrás de una plataforma de procesamiento de grandes volúmenes de datos en tiempo real, con foco en la optimización de la velocidad de datos.
    • Identificar áreas de aplicación de esta tecnología en la industria.
    • Idear, estructurar y desarrollar un proyecto de procesamiento de datos en tiempo real.
  • Módulo 3: Bases de Datos NoSQL

    Duración: 22 de julio al 21 de agosto de 2019.

    NoSQL, siglas que significan Not Only SQL, se refiere a un grupo de sistemas de bases de datos no relacionales, cuya característica principal es que no se encuentran construidas en tablas y generalmente para manipular los datos no se usan los lenguajes comunes de SQL. Los sistemas de bases de datos NoSQL facilitan el trabajo con grandes volúmenes de datos y en particular con datos no estructurados, características típicas estas de la información a procesar para la analítica de datos de big data.

    Durante el curso se revisan los diversos tipos de bases de datos, grafos, columnares, clave valor, documentales, así como motores de bases de datos NoSQL.

    Abordaremos alguna de las siguientes tecnologías:

    BD de grafos Neo4J Graph Platform, BD Orientadas a Columnas Apache Cassandra, BD Clave Valor DynamoDB o Redis, BD NoSQL Documental MongoDB, motor de búsqueda No SQL ELK Stack (Elasticsearch-Logstash-Kivana).

    Al completar el módulo, el estudiante queda preparado para:

    • Comprender el nuevo enfoque de almacenamiento y recuperación de grandes cantidades de datos.
    • Identificar áreas de aplicación de esta tecnología en la industria.
    • Idear, estructurar y desarrollar un proyecto basado en bases de datos NoSQL teniendo la capacidad de elegir la herramienta adecuada a cada proyecto.
  • Módulo 4: Machine Learning

    Duración: 26 de agosto al 23 de setiembre de 2019.

    El módulo está orientado a presentar los principales conceptos relacionados con técnicas de aprendizaje automático (machine learning). Se pone foco en diversas técnicas actualmente usadas en la resolución de problemas reales, como predicción, clasificación, recomendación, etc.

    Se realizan en clase proyectos reales utilizando los servicios cognitivos de Azure para generar aplicaciones en diversas industrias.

    Áreas temáticas:

    Conceptos de machine learning

    • Modelos supervisados
    • Overfitting y underfitting
    • Modelos no supervisados
    • Ensemble models
    • Práctica de machine learning con Sklearn en Python

    Deep learning

    • Deep learning, Computer vision y los servicios de Azure
      Práctico: Azure computer vision
    • Natural Language Processing y los servicios de Azure
      Práctico: Azure NLP
    • Procesamiento de voz y los servicios de Azure
      Práctico: Azure voice
    • Inteligencia artificial en proyectos reales

    Machine learning en la industria

    Discusión de casos reales de aplicación de inteligencia artificial en la industria.
    Comparar y seleccionar diferentes servicios en la nube para la aplicación de machine learning en escenarios reales.

    Al completar el módulo, el estudiante queda preparado para:

    • Comprender las posibilidades que ofrece el nuevo paradigma de aprendizaje automático basado en datos.
    • Identificar áreas de aplicación de esta tecnología en la industria.
    • Idear, estructurar y desarrollar un proyecto basado en machine learning.
  • Módulo 5: Proyecto Integrador

    Duración: del 3 de octubre al 21 de noviembre de 2019.

    En modalidad de tutoría, el estudiante resuelve un caso de estudio donde debe integrar los conocimientos adquiridos durante el programa, aplicando la metodología aprendida y dando cierre al diseño e implementación de la solución propuesta.

 

Certificado en Big Data

Certificado en Big Data

Datos de contacto

Coordinador académico: Ing. Daniel Baccino, MBA

Solicitá más información

La Facultad de Ingeniería da servicios de apoyo a estudiantes avanzados y graduados para facilitar su inserción laboral. Según el último relevamiento realizado la facultad cuenta con plena inserción de sus graduados.

A través de este espacio se busca promover y dar a conocer las oportunidades que tienen las mujeres dentro del área de las Tecnologías de la Información y la Comunicación. Asimismo, se realizan diferentes actividades para impulsar a estudiar tecnología.

El Centro de Innovación y Emprendimientos (CIE) de la Universidad ORT Uruguay, promueve y desarrolla la generación de nuevos emprendedores. Sus acciones están dirigidas a fomentar la innovación, la actitud emprendedora y promover oportunidades.