PROGRAMA
Enfoque empresarial y enseñanza de excelencia
Te convertirás en un experto en la implementación de proyectos de Big Data con Inteligencia Artificial, utilizando herramientas y tecnologías líderes en la industria.
Además, contarás con el respaldo de profesionales que te guiarán a través de los desafíos y las mejores prácticas de las aplicaciones reales.
ASIGNATURAS PRESENCIALES
- PROCESAMIENTO DE DATOS CON SPARK
- TECNOLOGÍAS EN INTELIGENCIA ARTIFICIAL
- APLICACIONES DE INTELIGENCIA ARTIFICIAL EN CONTENIDOS MULTIMEDIA Y BIOMETRIA
- INTELIGENCIA ARTIFICIAL GENERATIVA Y EXPLICATIVA
- ESTADÍSTICA
- FUNDAMENTOS DE ANÁLISIS DE DATOS Y DE APRENDIZAJE AUTOMÁTICO
- EXPLOTACIÓN Y VISUALIZACIÓN DE DATOS
- INFRAESTRUCTURA PARA BIGDATA E INTELIGENCIA ARTIFICIAL
- CICLO DE VIDA ANALÍTICO DEL DATO
- SEGURIDAD, PRIVACIDAD Y PROTECCIÓN DE DATOS
CONTENIDOS (3 ECTS)
En esta asignatura se aprende a resolver problemas utilizando el paradigma de computación en paralelo de Apache Spark y manejar las APIs de Spark disponibles en distintos lenguajes de programación.
Fundamentos de Spark y Tuning en Spark
- Arquitectura y organización
- Datos en Spark: Resilient Distributed Datasets (RDDs). Transformaciones y acciones. Persistencia. Flujo de un programa spark. Entrada y salida de datos
- Vista general de las APIs ofrecidas por Spark: Scala, Java, Python, R
- SparkR: paralelización de DataFrames de R
Spark SQL
- Introducción a DataFrames. Fuentes de datos: Hive, JDBC/ODBC y API de DataFrames
Procesamiento de grafos vía Spark
- Introducción general a los operadores sobre grafos. Grafos en Spark: GraphX
- Paquetes adicionales para Spark: GraphFrames. Algoritmos de grafos sobre GraphFrames
Procesado en tiempo real: Spark Streaming
- Spark Streaming clásico: Discretized Streams (DStreams). Operaciones con DStreams: estado, robustez, ventanas
- Operaciones sobre streaming estructurado: flujos, ventanas, entregas. Fuentes de datos para streaming: Kafka
- Machine Learning sobre datos en streaming
Machine Learning: Spark ML
- Aprendizaje supervisado: clasificación y regresión
- Aprendizaje no supervisado
- Creación de pipelines de aprendizaje automático
Coordinador
Profesores
- Carlos Alaíz Gudín: Escuela Politécnica Superior
- Gonzalo Martínez Muñoz: Escuela Politécnica Superior
- Estrella Pulido Cañabate: Escuela Politécnica Superior
- Paulo Villegas: Experto en Tecnología y Científico de Datos en Telefónica
CONTENIDOS (4 ECTS)
Adicionalmente se estudian los métodos de predicción con series temporales, desde modelos estadísticos tradicionales, hasta enfoques basados en aprendizaje profundo, con aplicaciones en energías renovables.
Aprendizaje con redes neuronales clásicas
- Perceptrones de Rosenblatt y perceptrones multicapa
- Estrategias para aprendizaje de perceptrones
Aprendizaje con redes neuronales profundas (Deep Learning)
- Innovaciones, función de activación, función de coste
- Autocodificadores. Convolución. Técnicas para evitar sobreajuste
Marcos de desarrollo para Inteligencia Artificial: TensorFlow y Keras
- Introducción a Keras: Fundamentos y estructura
- Arquitectura de TensorFlow: Tensores, grafos, diagrama de flujo de datos
- Aplicaciones prácticas utilizando TensorFlow – Keras: autoencoders, redes neuronales convolucionales (CNN), redes neuronales recurrentes, GAN, aprendizaje por refuerzo.
Predicción con series temporales
- Definición y análisis de series temporales: visualización, tendencia, estacionalidad y estacionaridad.
- Predicción usando modelos clásicos autorregresivos: AR, MA, ARMA, ARIMA, SARIMA.
- Modelos de aprendizaje profundo para series temporales
Computación cognitiva
- Bases de la Computación Cognitiva. IBM Watson.
- Infraestructura para Soluciones Cognitivas. Estrategia de Soluciones Cognitivas de IBM.
- Impacto social: servicios cognitivos a través de IBM Cloud.
Coordinador
Profesores
- Carlos Alaíz Gudín: Escuela Politécnica Superior
- Ángela Fernández Pascual: Escuela Politécnica Superior
- Ana González Marcos: Escuela Politécnica Superior
- Sara Martínez Martínez, Ingeniera especialista en IA y Datos, IBM
CONTENIDOS (5 ECTS)
También se introduce la utilización de IA en sistemas de reconocimiento biométrico y sus posibilidades en el reconocimiento biométrico conductual
Aplicaciones de IA en el tratamiento de Imagen. Multimedia (imagen, video).
- Introducción al tratamiento de imagen y vídeo. Extracción de características en señales visuales: descriptores en imagen y vídeo. Descriptores globales, a nivel de región segmentada y de movimiento
- Estrategias de indexación y búsqueda de contenido visual
- Descripción y análisis de imágenes basada en redes neuronales convolucionales: fundamentos, entrenamiento, arquitecturas y transferencia de conocimiento adquirido
Aplicaciones de IA en el tratamiento de sonido. Multimedia (audio).
- Extracción de características en la señal de voz y en la señal musical
- Aplicaciones de reconocimiento de voz y detección de palabras clave
- Aplicaciones para detección de hablante, detección de idioma, reconocimiento de emociones. Segmentación y separación de hablantes
Procesamiento de Lenguaje Natural
- Introducción al PLN y lingüística computacional. Modelos grandes de Lenguaje-LLM
- IA centrada en corpus. Anotación de un corpus. Metodología de anotación
- Evaluación de un LLM. Fases de creación de un LLM. Fiabilidad de un LLM
- De vectorización a modelos del lenguaje. Word2vec. BERT
Aplicaciones de IA en análisis de textos
- Introducción al procesado de texto lingüística computacional
- Análisis de caracteres y de tokens: n-gramas, tokenización, bag of words
- Análisis morfosintáctico y análisis semántico: ontologías, NER, topic modelling
- Modelos estadísticos avanzados: redes neuronales para texto, embeddings de tokens, modelos neuronales convolucionales y recurrentes.
- Modelos grandes de lenguaje LLMs
Reconocimiento Biométrico
- Introducción al reconocimiento biométrico de personas. Métricas de rendimiento. Fusión de sistemas biométricos
- Reconocimiento facial y firma manuscrita. Particularidades del reconocimiento biométrico conductual
Coordinador
Profesores
- Marta Guerrero Nieto: Lingüista Computacional, Coordinadora en Business and Language Analytics en el Instituto de Ingeniería del Conocimiento (IIC)
- Daniel Ramos Castro: Escuela Politécnica Superior
- Juan C. Sanmiguel: Escuela Politécnica Superior
- Julián Fierrez Aguilar: Escuela Politécnica Superior
- Rubén Vera Rodríguez: Escuela Politécnica Superior
- Gonzalo Mancera: Escuela Politécnica Superior
- Sergio Gil: Data scientist del departamento de Ingeniería algorítmica en el Instituto de Ingeniería del Conocimiento (IIC)
CONTENIDOS (3 ECTS)
Se estudiarán técnicas de prompt engineering y su aplicación en la generación y edición de contenidos visuales y en el acceso inteligente a la información.
Asimismo, se introducirán métodos de Inteligencia Artificial Explicable (XAI) para la interpretación y evaluación de modelos complejos.
Aplicación de IA generativa al procesamiento de Imagen
- Introducción a modelos generativos y prompt engineering
- Edición inteligente de imágenes
- Generación de datos sintéticos para entrenamiento de modelos
Aplicación de IA generativa para acceso Inteligente a la Información
- Búsqueda avanzada de información
- Recomendación personalizada de información
- Síntesis y explicación de información recuperada
Inteligencia Artificial Explicable (XAI)
- Introducción a la XAI. Motivación, definiciones
- Algoritmos genéricos de explicabilidad (SHAP y LIME)
- Algoritmos específicos de explicabilidad para Deep Learning DL, basados en gradientes y LRP
- Comparación de algoritmos de explicabilidad: Coeficiente de Explicabilidad-Rendimiento EPC
- Introducción a la Interpretabilidad global de los modelos de DL y RNNs
Aplicación de IA Generativa en la actualidad
- Casos de uso en investigación
- Casos de uso en la empresa
Coordinador
Profesores
- Juan C. Sanmiguel: Escuela Politécnica Superior
- Ivan Cantador: Escuela Politécnica Superior
- Alejandro Bellogin: Escuela Politécnica Superior
- José Luis Jorro: Escuela Politécnica Superior
- Christian Oliva Moya: Escuela Politécnica Superior
- Daniel Perdices Burrero: Escuela Politécnica Superior
- Rafael Leira Osuna: Senior Observability Engineer, Naudit HPCN
CONTENIDOS (3 ECTS)
Asimismo, permite comprender y evaluar el comportamiento de algoritmos de aprendizaje automático desde una perspectiva cuantitativa.
Su dominio es esencial para garantizar la fiabilidad, interpretabilidad y toma de decisiones basada en datos en aplicaciones reales.
Introducción
- ¿Qué es la estadística?, modelo estadístico y método estadístico.
- Algunas herramientas de análisis de datos mediante estadística.
Descripción de los datos
- Descripción de una variable.
- Descripción multivariante.
Modelos en estadística
- Probabilidad y variables aleatorias.
- Modelos univariantes de distribución de probabilidad.
- Modelos multivariantes de distribución de probabilidad.
Inferencia Estadística
- Estimación puntual y estimación por intervalos.
- Estimación bayesiana.
- Contraste de hipótesis
Coordinador
Profesores
- Luis Lago Fernández: Escuela Politécnica Superior
- Francisco de Borja Rodríguez Ortiz: Escuela Politécnica Superior
CONTENIDOS (5 ECTS)
Se profundiza en el preprocesamiento de datos, incluyendo limpieza, tratamiento de valores atípicos y faltantes, reducción de dimensionalidad y análisis de datos no estructurados.
Se abordan modelos de clasificación y regresión. Además, se estudian técnicas de clustering y validación de modelos, identificando sus fortalezas y debilidades en el contexto de procesamiento de grandes volúmenes de datos para obtener información.
Introducción al aprendizaje automático
- Conceptos básicos, tipos de aprendizaje y flujo de trabajo en proyectos de ML
- Validación de modelos mediante tasas de error, matriz de confusión y curvas ROC
- Implementación de regresión lineal, logística y algoritmos de vecinos próximos
- Análisis de sesgo, varianza y el impacto de la maldición de la dimensionalidad
Preprocesado de datos
- Construcción, preparación y auditoría de bases de datos de múltiples fuentes
- Análisis de distribución de variables y técnicas de reducción de dimensionalidad
- Tratamiento de información no estructurada y resolución de casos prácticos
Aprendizaje automático
- Algoritmos de Clustering: K-means, jerárquico, modelos EM y DBSCAN
- Construcción y poda de árboles de decisión mediante algoritmos CART y C4.5
- Métodos de aleatorización: técnicas de Bagging, Random Forests y variantes
- Métodos de optimización: algoritmos de Boosting y Gradient Boosting
- Clasificación y regresión de margen máximo con máquinas de vectores soporte (SVM)
Coordinador
Profesores
- Carlos Alaíz Gudín: Escuela Politécnica Superior
- Ana González Marcos: Escuela Politécnica Superior
- Luis Lago Fernández: Escuela Politécnica Superior
- Gonzalo Martínez Muñoz: Escuela Politécnica Superior
- Christian Oliva Moya: Escuela Politécnica Superior
- Manuel Sánchez Montañés: Escuela Politécnica Superior
CONTENIDOS (3 ECTS)
Se estudian técnicas de visualización de distribuciones, proporciones, tendencias y relaciones entre variables, aplicando principios de diseño gráfico y percepción visual.
Introducción, importancia de la visualización
- Fundamentos de visualización gráfica eficiente, sistemas de coordenadas y uso del color
- Definición de la finalidad y el alcance estratégico de la visualización de datos
Tipos de Visualizaciones
- Técnicas para representar cantidades, distribuciones y proporciones
- Visualización de asociaciones entre variables cuantitativas, series temporales y tendencias
IBM Cognos Analytics
- Acceso a datos, creación de consolas gráficas y análisis de datos integrado
- Implementación de funciones de Inteligencia Artificial en el entorno de Cognos
Tableau
- Conexión a datos, diseño de hojas, dashboards y análisis de patrones temporales
- Visualización de información espacial y creación de gráficos interactivos con filtros
Grafana
- Gestión de roles, orígenes de datos, cuadros de mando y automatización mediante templating
- Configuración de sistemas de alertas (alerting) y uso de plugins.
Explotación de datos
- Indexación y almacenamiento de información no estructurada con Elasticsearch
- Aplicación de casos de uso prácticos integrando Elasticsearch y Grafana
Coordinadora
Profesores
- Rafael Leira Osuna: Especialista en sistemas de monitorización Big Data, Naudit
- Sara Martínez Martínez, Ingeniera especialista en IA y Datos, IBM
- Alberto Torres Barrán: CTO y co-fundador, Komorebi
CONTENIDOS (5 ECTS)
También se trabaja con soluciones basadas en virtualización, con ejecución en contenedores y se describen los fundamentos de clouds públicos y privados. Además, se hace una introducción a nuevas tendencias en computación de altas prestaciones como la prometedora computación cuántica.
Arquitecturas para tratar grandes volúmenes de información
- Evolución tecnológica: Multicore, GPUs y FPGA
- Arquitecturas de referencia para Big Data e Inteligencia Artificial
Supervisión y mantenimiento de un clúster para grandes cantidades de datos
- Configuración inicial, administración, mantenimiento y seguridad del clúster
- Gestión de logs, diagnóstico, planificación de trabajos y monitorización
Principios de programación paralela y distribuida en Python
- Paralelismo en CPU y aceleración explotando el paralelismo de GPU
- Computación distribuida en clúster
Evaluación de prestaciones y optimización
- Benchmarking, tuneado de parámetros y medidas de rendimiento en casos reales
Infraestructura para el procesamiento de datos con Spark
- Arquitectura del sistema, flujos de datos, gestión de memoria y modos de ejecución
- Ciclo de vida del programa e interfaces de monitorización (Spark UI y History Server)
Virtualización de infraestructura
- Infraestructura local vs Cloud
- Infraestructura como Servicio (IaaS)
- Soluciones de Cloud privado (Openstack) y Cloud público/hiperescalar (AWS, Google Cloud, Azure)
Virtualización basada en contenedores
- Diseño, gestión de imágenes, orquestación y seguridad de aplicaciones en contenedores
Nuevas plataformas: computación cuántica
- Principios, Qubits, puertas y circuitos cuánticos
- Paralelismo, entrelazamiento, optimizadores y algoritmos cuánticos
Coordinador
Profesores
- José Luís García Dorado: Escuela Politécnica Superior
- Francisco Gómez Arribas: Escuela Politécnica Superior
- Iván González Martínez: Escuela Politécnica Superior
- Miguel Ángel Mora: Escuela Politécnica Superior
- Javier Ramos de Santiago: Escuela Politécnica Superior
CONTENIDOS (4 ECTS)
Los componentes que se pueden involucrar en la solución final pueden ser de muy distinta naturaleza y a lo largo de las distintas asignaturas que se han visto en el Máster se han visto distintas alternativas para poder acometer un mismo resultado final. Es el momento de entender cómo se debe acometer un proyecto con el objetivo de determinar cuáles son los requerimientos que van a permitir discernir qué solución se ajusta mejor a los requerimientos iniciales.
El objetivo de esta asignatura es conocer y entender la problemática de la manipulación del dato desde el origen donde se encuentra, su acceso, control y mejora de su calidad. En ese sentido se estudian y analizan distintas tecnologías involucradas (Apache Nifi, Apache Kafka) así como las problemáticas que aportan distintas fuentes de datos como Internet de las Cosas, Industria 4.0.
Proyecto Apache Hadoop
- Sistemas de ficheros distribuido HDFS y modelo MapReduce
- Desarrollo de flujos con lenguaje Pig
Persistencia de datos
- Hive (Data Warehouse) y componentes de consulta en HBase
- ormatos de persistencia optimizados: Parquet y ORC
Análisis de datos en movimiento
- Arquitecturas y topologías con Apache Storm
- Procesamiento de flujos de datos con Apache Flink
Gobierno del Dato
- Metadatos, linaje del dato y terminología de gobernanza
- Calidad del dato con Apache Atlas y Apache Griffin
Fuentes de datos y descubrimiento
- Escenarios y plataformas de Internet de las cosas (IoT)
- Aplicación y casos de éxito en Industria 4.0
Aprovisionamiento y captura de datos
- Componentes y desarrollo con Apache NiFi
- Configuración y despliegue de Apache Kafka
Coordinador
Profesores
- Juan José Sánchez Peña: Departamento de Ciberseguridad de Movistar+
- Francisco Javier Cano Bailén: Especialista en Ciencia de Datos y Gobierno del Dato. IBM
- Pedro Luis Pérez Latorre:Smart Metering Technology Expert. Telefónica TechDa
- Daniel Perdices Burrero: Escuela Politécnica Superior
- Iván González Martínez:Escuela Politécnica Superior
CONTENIDOS (3 ECTS)
Introducción y conceptos base
- Introducción al concepto de privacidad en Big Data
- Sesgos en Inteligencia Artificial
Tecnologías criptográficas para la protección de la privacidad
- Fundamentos criptográficos de la protección de la información
- Gestión de la identidad digital y certificados digitales: estándar X.509
- Conceptos de trazabilidad, enlazado, anonimato y firmas grupales
- Navegación anónima: redes de mezcla, onion routing y ofuscación de tráfico
Privacidad como control estadístico del acceso a datos
- Análisis de datos y metadatos que permiten la re-identificación de individuos
- Valor y riesgo asociado a los datos y metadatos en abierto (Open Data)
Marco jurídico de protección de datos y transferencia internacional
- Introducción al Reglamento General de Protección de Datos (RGPD)
- Privacy Shield Framework para la transferencia entre EE.UU. y la UE
- Privacy Directive (‘cookie law’)
Implicaciones ético-legales y gobernanza
- Gobernanza de algoritmos como problema epistémico, moral, técnico y legal
- Debate sobre Algorithmic Fairness, Accountability and Transparency (FAT*)
- Riesgos de manipulación, problemas de predicción y path dependency
- Análisis del actual marco legal europeo en toma de decisiones
Coordinador
Profesores
- Sergio Galán Martín, Analista de Ciberseguridad, Cellnex Telecom
- Francisco de Borja Rodríguez Ortiz: Escuela Politécnica Superior.
- Gonzalo Mancera: Escuela Politécnica Superior
ASIGNATURAS NO PRESENCIALES (ONLINE)
CONTENIDOS (3 ECTS)
Sistema Operativo Linux
- Conceptos generales, manejo de comandos, variables de entorno y desarrollo de scripts.
- Control y planificación de procesos junto con la administración básica del sistema.
- Gestión de sistemas de almacenamiento y sistemas de ficheros.
Redes de comunicación
- Tipos de redes y conceptos de direccionamiento IP, máscara, DNS y DHCP.
- Configuración de redes TCP/IP en Linux y protocolos de acceso remoto (ssh, ftp).
- Fundamentos de seguridad mediante el uso de claves pública/privada y VPN.
Máquinas Virtuales
- Conceptos de virtualización de plataforma e instalación y gestión de máquinas virtuales.
- Creación y automatización de entornos virtuales con Vagrant.
- Infraestructura como Servicio (IaaS): provisión de máquinas bajo demanda con capacidades actualizables.
Cluster de ordenadores
- Arquitecturas de multicomputador y diseño de clusters de ordenadores.
- Construcción, despliegue y gestión operativa de un clúster.
- Planificación de tareas, balanceo de carga y aplicaciones específicas de un clúster.
Coordinador
Profesores
- José Luis García Dorado: Escuela Politécnica Superior
- Francisco Gómez Arribas: Escuela Politécnica Superior
- Víctor Moreno Martínez: Principal Data Scientist, TomTom
- Javier Ramos de Santiago: Escuela Politécnica Superior
CONTENIDOS (3 ECTS)
Python
- Introducción, instalación e intérpretes (notebooks)
- Tipos básicos, funciones lambda, imports y programación orientada a objetos
- Sentencias de control, iteración y programación funcional (map, reduce)
- Gestión de entrada y salida de ficheros
Librerías
- Manipulación de datos y cálculo numérico con numpy y pandas
- Visualización de datos con matplotlib
Lenguaje R
- Introducción, objetos y atributos en R
- Estructuras de datos: vectores, arrays, listas y data frames
- Lectura de ficheros, funciones y sentencias de control
- Generación de gráficas y depuración de código
- Uso de Notebooks y medición de tiempos
Coordinador
Profesores
- Carlos Alaíz Gudín: Escuela Politécnica Superior
- Ángela Fernández Pascual: Escuela Politécnica Superior
- Gonzalo Martínez Muñoz: Escuela Politécnica Superior
- Alberto Torres Barrán: CTO y co-fundador, Komorebi
CONTENIDOS (3 ECTS)
Introducción a las bases de datos NoSQL
- ¿Qué son?, tipos de BBDD NoSQL, ventajas y desventajas
Base de Datos MongoDB
- Organización y manejo básico de los datos
- Métodos básicos de agregación, MapReduce y Aggregation Framework
- Uso de índices
Base de Datos Redis
- Estructuras de datos y programación en Lua
- Bibliotecas de Lua y depuración de scripts Lua
Base de Datos Cassandra
- Introducción y Cassandra Query Language
Base de datos Neo4j
- Introducción y lenguaje de consulta Cypher
Coordinador
Profesores
- Carlos Delgado Calle: Analista de Software en el Instituto de Ingeniería del Conocimiento (IIC)
- Estrella Pulido Cañabate: Escuela Politécnica Superior
- Juan José Sánchez Peña: Departamento de Ciberseguridad de M+
