| Référence | ECTS |
---|
UE Projet | MSESD-UE1 | 10 |
- Liste des cours
Nom EC | Niveau LMD | Période | Langue | Référence | Heures |
---|
ProjetExpert en sciences de données Projet- Semestre 1
- Parcours Commun
- Projet
| Référence : MSESD-PROJET | Nombre d'heures : 80 h FR
L'objectif est de réaliser un projet de conception, de développement et d'évaluation d'une architrecture de traitement de données massives. Des applications concrètes en lien avec les entreprises seront considérées.
- Prérequis
UE Statistiques, UE Machine Learning, UE Optimisation, UE Informatique
- Programme
-
* Capture des données (si besoin)
* Prétraitement des données
* Identification d'une problématique d'ingénierie des données
* Prototypage d'une solution fonctionnelle
* Réalisation pratique et validation
- Évaluation
-
PROJ
PROJ
PROJ : Projet
- Types d'enseignement
-
TUT
TUT : Projet
- Calcul de la note finale
-
- Lectures conseillées
-
Aucune
Liste des intervenants- GILLES GASSO - Enseignant en Génie Informatique, Automatique et Traitement du Signal
- BRUNO PORTIER - Enseignant en Mathématiques Appliquées et Application des Maths
- STEPHANE CANU - Enseign. en Génie Informat., Automatique et Trait. du Signal
- NATHALIE CHAIGNAUD - Enseignante en Informatique
- BENOIT GAUZERE - Enseignant
- ARNAUD KNIPPEL - Enseignant en Mathématiques Appllquées et Application des Maths
| | | FR | MSESD-PROJET | 80 |
Expert en sciences de données / Liste des enseignements du semestre 1 / Parcours Commun / UE Projet
|
UE Statistiques | MSESD-UE2 | 8 |
- Liste des cours
Nom EC | Niveau LMD | Période | Langue | Référence | Heures |
---|
Analyse de Donnees fonctionnellesExpert en sciences de données Analyse de Donnees fonctionnelles- Semestre 1
- Parcours Commun
- Statistiques
| Référence : MSESD-STAT4 | Nombre d'heures : 21 h FR
L'objectif de cet EC est d'acquérir les connaissances de bases pour analyser des données fonctionnelles (courbes).
Il s'agira s'appréhender le concept de données fonctionnelles, d'étudier les méthodes de régularisation ou de réduction de dimension, ainsi que quelques méthodes spécifiques de classification et discrimination. La régression linéaire avec variable explicative fonctionnelle sera introduite.
A l'issue de ce cours, l'apprenant sera capbale d'analyser et de modéliser des données focntionnelles à l'aide du logiciel R (packages fda et refund)
- Prérequis
- Programme
-
* Introduction aux concepts de données fonctionnelles
* Statistiques de base pour les données fonctionnelles (corrélation, médiane ...)
* Méthodes de régularisation et de réduction de dimension
* Méthodes spécifiques de classification : ACP fonctionnelle
* Régression lin éaire avec variables fonctionnelles
- Évaluation
-
ECRIT
E2
ECRIT : Examen écrit
E2 : ECRIT SESSION 2
- Types d'enseignement
-
CM
CM : Analyse de Donnees fonctionnelles
- Calcul de la note finale
-
- Lectures conseillées
-
Ramsay J, Hooker G, Graves S, Functional Data Analysis with R and MATLAB, Springer-Verlag New York inc, 2009
Liste des intervenants- Responsable
- BRUNO PORTIER - Enseignant en Mathématiques Appliquées et Application des Maths
- JEAN-MARC LASGOUTTES
- JEAN MICHEL POGGI
| | | FR | MSESD-STAT4 | 21 | Methodes IterativesExpert en sciences de données Methodes Iteratives- Semestre 1
- Parcours Commun
- Statistiques
| Référence : MSESD-STAT3 | Nombre d'heures : 21 h FR
L'objectif de cet EC est de présenter et d'appliquer les modèles de mélanges finis de lois pour la modélisation et la classification de données multidimensionnelles.
On étudiera les modèles de mélange gaussien et l'algorithme EM (Espérance-Maximisation). Les problèmes de choix du nombre de classes et de sélection de modèles seront traités.
On complètera cet EC en abordant aussi les mélanges de régressions linéaires.
A l'issue de ce cours, l'apprenant sera capable d'utiliser ces outils pour traiter un jeu de données réelles avec le logiciel R (packages mclust et flexmix)
- Programme
-
* Introduction aux modèles de mélange
* Présentation de l'algorithme EM pour l'estimation des paramètres du modèle de mélange
* Modèle de mélange gaussien
* Mélange de régression linéaire
- Évaluation
-
ECRIT
E2
ECRIT : Examen écrit
E2 : ECRIT SESSION 2
- Types d'enseignement
-
CM
CM : Methodes Iteratives
- Calcul de la note finale
-
- Lectures conseillées
-
* McLachlan G., Peel D., Finite mixture models, Wiley series in probability and statistics, 2000
* Hastie T., Tibshirani R;, Friedman J;, The Elements of Statistical Learning (Data Mining, Ingerence and Prediction) ,2009
* Grun B., Leisch F., Flexmix version 2 : finite mixtures with concomitant variables and varying and cosntant parameters. Journal of Statistical Software, 28, 1e35, 2008
Liste des intervenants- Responsable
- BRUNO PORTIER - Enseignant en Mathématiques Appliquées et Application des Maths
- MICHEL BOBBIA - VAC GM
| | | FR | MSESD-STAT3 | 21 | Regression PenaliseeExpert en sciences de données Regression Penalisee- Semestre 1
- Parcours Commun
- Statistiques
| Référence : MSESD-STAT2 | Nombre d'heures : 21 h FR
L'objectif de cet EC est d'introduire les méthodes de régressions pénalisées.
Après un rappel sur la régression linéiare multiple et ses principales limites, on introduira les notions de pénalité L1 (méthode LASSO) et L2 (méthode Ridge).
Le cadre de la régression Ridge et LASSO seront abordés avec une extension à la régression logistique et aux modèles additifs non-linéaires.
A l'issue de ce cours, l'apprenant sera capable de maitriser les différents aspects de la régression pénalisée, et l'utiliser dans le cadre d'un problème réel.
- Programme
-
* Rappel sur la régression linéaire multiple
* Les objectifs de la pénalisation
* La régression Ridge
* La régression LASSO
* Extension à la régression logistique et aux modèles additifs non linéaires
- Évaluation
-
ECRIT
E2
ECRIT : Examen écrit
E2 : ECRIT SESSION 2
- Types d'enseignement
-
CM
CM : Regression Penalisee
- Calcul de la note finale
-
- Lectures conseillées
-
* Buhlmann P.,Van de Geer S, Statistics for high-Dimensional Data Methods, Theory and Applications, Springer Series in Statistics, 2011
* Hastie T, Tibshirani R, Friedman J, The Elements of Statistical Learning (Data Mining, Inference, and Prediction) 2009
Liste des intervenants- Responsable
- BRUNO PORTIER - Enseignant en Mathématiques Appliquées et Application des Maths
- MICHEL BOBBIA - VAC GM
- STEPHANE CANU - Enseign. en Génie Informat., Automatique et Trait. du Signal
| | | FR | MSESD-STAT2 | 21 | Concepts de base en statistiquesExpert en sciences de données Concepts de base en statistiques- Semestre 1
- Parcours Commun
- Statistiques
| Référence : MSESD-STAT1 | Nombre d'heures : 21 h FR
L'objectif de ce module est :
* D'acquérir les techniques de base de la sélection de variables à l'aide de méthodes classiques et plus avancées (importance des variables par les forets aléatoires par exemple)
* D'appréhender les questions et traitement des tests statistiques en grande dimension
* Présenter les différents critères de choix et de validation de modèles (critères AIC, BIC, validation croisée, bootstrap)
Les méthodes et outils abordés seront mis en oeuvre sur des exemples réels et traités avec le logiciel R.
A l'issue de ce cours, l'apprenant sera capbale de sélectionner les variables explicatives les plus pertinentes en vue de la modélisation et valider et apprécier les performances du modèle proposé.
- Programme
-
* Sélection de variables, importance des variables
* Tests statistiques dans le cadre de la grande dimension
* Sélection et validation de modèles
- Évaluation
-
ECRIT
E2
ECRIT : Examen écrit
E2 : ECRIT SESSION 2
- Types d'enseignement
-
CM
CM : Concepts de base en statistiques
- Calcul de la note finale
-
- Lectures conseillées
-
* Buhlmann P., Van de Geer S., Statistics for high-Dimensional Data Methodes, Theory and Applications, Springer Series in Statistics, 2011
* R Core Team, 2013. R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna Austria. http://www.R-project.org/.
Liste des intervenants- Responsable
- BRUNO PORTIER - Enseignant en Mathématiques Appliquées et Application des Maths
- MICHEL BOBBIA - VAC GM
| | | FR | MSESD-STAT1 | 21 |
Expert en sciences de données / Liste des enseignements du semestre 1 / Parcours Commun / UE Statistiques
|
UE Machine Learning | MSESD-UE3 | 8 |
- Liste des cours
Nom EC | Niveau LMD | Période | Langue | Référence | Heures |
---|
Ingenierie des donneesExpert en sciences de données Ingenierie des donnees- Semestre 1
- Parcours Commun
- Machine Learning
| Référence : MSESD-ML1 | Nombre d'heures : 21 h FR
Objectifs :
L'objectif est de fournir les méthodes statistiques pour l'analyse exploratoire et la description des masses de données. Ces méthodes couvriront les problématiques de description statistique des données, de projection et visualisation des données et de regroupement des données en catégories homogènes. A chaque fois, il s'agira , à partir de vraies données, d'étudier comment mettre en oeuvre informatiquement ces méthodes statistiques (des données jusqu'au code).
Compétences :
- Concevoir un système d'ingéniérie des données
- Maitriser des outils d'analyse et de description des données
- Optimiser un modèle d'ingénierie des données avec un langage haut niveau
- Prérequis
Notions de statistiques, calcul matriciel, notions de programmation dans un langage haut niveau
- Programme
-
* Introduction à l'ingénierie des données : Notion de chaine de traitements
* Analyse exploratoire de données
** Analyse en Composantes Principales (ACP)
** Analyse Factorielle des Correspondances (AFC)
** Méthode non-linéaire de projection des données
* Méthodes de regroupement des données (Clustering)
** Classification hiérarchique ascendante
** K moyennes
** Modèles de mélange
- Évaluation
-
ECRIT
E2
ECRIT : Examen écrit
E2 : ECRIT SESSION 2
- Types d'enseignement
-
CM
CM : Ingenierie des donnees
- Calcul de la note finale
-
- Lectures conseillées
-
* Christopher Bishop, pattern Recognition and Machine Learning, 2006
* Trevor Hastie, Robert Tibshirani, Jerome Friedman, The Elements of Statistical Learning (Data Mining, Inference, and Prediction), 2009
Liste des intervenants- Responsable
- GILLES GASSO - Enseignant en Génie Informatique, Automatique et Traitement du Signal
- BENOIT GAUZERE - Enseignant
| | | FR | MSESD-ML1 | 21 | Machine LearningExpert en sciences de données Machine Learning- Semestre 1
- Parcours Commun
- Machine Learning
| Référence : MSESD-ML2 | Nombre d'heures : 21 h FR
Objectifs :
Ce cours introduit aux bases de la science des données. L'objectif est de savoir identifier les différents types de problème : Apprentissage supervisé ou non supervisé, batch ou online, comment prédire la valeur de variable(s) continue(s), comment prédire une variable discrète ... et d'appliquer les méthodes de machine learning dédiées pour les résoudre. Ce cours illustrera comment utiliser des algorithmes d'optimisation (méthodes gradient, programmation linéaire et quadratique) pour résoidre des problèmes d'apprentissage et de fouille de données. Des cas concrets illustreront les méthodes présentées (des données jusqu'au code).
Compétences :
- Concevoir un système d'ingénierie des données
- Identifier les classes de problèmes d'apprentissage
- Savoir poser des modèles statistiques et mathématiques de traitement des données et développer les algorithmes de résolution
- Optimiser un modèle d'ingénierie des données avec un langage haut niveau
- Prérequis
Notions de statistiques, d'optimisation, notions de programmation dans un langage haut niveau
- Programme
-
* Introduction aux problématiques de la science des données
* Méthodes de discrimination
** K plus proches voisins
** Approche bayésienne de la décision : Cas gaussien
** Régression linéaire logistique
** Machines à vecteur support (SVM) linéaire
* Méthodes de régression linéaire
* Méthodologies de l'apprentissage statistique
- Évaluation
-
ECRIT
E2
ECRIT : Examen écrit
E2 : ECRIT SESSION 2
- Types d'enseignement
-
CM
CM : Machine Learning
- Calcul de la note finale
-
- Lectures conseillées
-
* Christopher Bishop, Pattern Recognition and Machine Leaning, 2006
* Trevor Hastie, Robert Tibshirani, Jérome Friedman, The elements of statistical Learning (Data Miningt, Inference, and prediction), 2009
* Richard Duda, Peter Hart, David Stork, Pattern Classification
Liste des intervenants- Responsable
- GILLES GASSO - Enseignant en Génie Informatique, Automatique et Traitement du Signal
| | | FR | MSESD-ML2 | 21 | Machine Learning AvanceExpert en sciences de données Machine Learning Avance- Semestre 1
- Parcours Commun
- Machine Learning
| Référence : MSESD-ML3 | Nombre d'heures : 21 h FR
Objectifs :
Ce cours vise à fournir un aperçu des avancées récentes dans les domaines de l'apprentissage statistique et les techniques statistiques utilisées dans les applications d'analyse de masse de données réelles. Les thèmes abordés seront ceux de la modélisation non linéaire, des algorithmes d'apprentissage et d'analyse de données massives et les problématiques de passage à l'échelle.33
Compétences :
* Concevoir un systèmes d'ingénierie des données
* Savoir poser des modèles statistiques et mathématiques de traitement des données et développer les algorithmes de résolution
* Optimiser un modèle d'ingénierie des données avec un langage haut niveau
- Prérequis
ML ou notions équivalentes
- Programme
-
* Méthodes à noyaux, mesures de similarités et représentations
** Splines et autres méthodes de régression à noyaux
** Machines à vecteur supports non linéaires (SVM à noyaux)
** Problèmes multi-classes et apprentissage sur des données structurées
** Passage à l'échelle
* Deep learning
* Méthodes ensemblistes (Combinaison de modèles)
** Agrégation de modèles
** Boosting
** Arbres de décision et forets aléatoires
* Méthodologies de l'apprentissage statistique
- Évaluation
-
ECRIT
E2
ECRIT : Examen écrit
E2 : ECRIT SESSION 2
- Types d'enseignement
-
CM
CM : Machine Learning Avance
- Calcul de la note finale
-
- Lectures conseillées
-
* Trevor Hastie, Robert Tibshirani, Jérome Friedman, The Elements of Statistical Learning (Data Mining, Inference, and Prediction), 2009
* Learning with Kernels (Support Vector Machines, Regularization, Optimization, and Beyond) Bernhard Scholkopf and Alexander J. Smola, MIT press, 2001
* Foundations of Machine Learning by Mehryar Mohri, Afshin Rotamizadeh and Ameet Talwalkar, MIT press, 2012
* Apprentissage artificiel : concepts et algorithmes by Antoine Cornuéjols, Laurent Miclet, 2002
Liste des intervenants- Responsable
- STEPHANE CANU - Enseign. en Génie Informat., Automatique et Trait. du Signal
- Responsable
- GILLES GASSO - Enseignant en Génie Informatique, Automatique et Traitement du Signal
- ROMAIN PICOT-CLEMENTE
- CLEMENT CHATELAIN - Enseignant en Genie informatique, Automatique et Traitement du Signal
- SEBASTIEN COLLET - VAC ASI
- YANN SOULLARD
| | | FR | MSESD-ML3 | 21 | Systemes de recommandationExpert en sciences de données Systemes de recommandation- Semestre 1
- Parcours Commun
- Machine Learning
| Référence : MSESD-ML4 | Nombre d'heures : 21 h FR
Objectifs :
Les systèmes de recommandation ont pour vocation d'aider les utilisateurs à prendre des décisions (trouver des produits, de l'information) sur la base d'informations fournies par d'autres utilisateurs. Ces systèmes se basent sur une modélisation des comportements des utilisateurs. Ce cours présente les concepts, les applications, les algorithmes, la programmation et la conception des systèmes de recommandation, ainsi que les enjeux éthiques associés.
A l'issue du cours , le candidat devra comprendre la nature des sytèmes de recommandation et etre en mesure de mettre en oeuvre un système capable de fournir des recommandations dans un domaine d'application particulier, ainsi que de critiquer une conception, de souligner ses forces et ses faiblesses.
* Compétences :
* Concevoir un système d'ingénierie des données dédié aux recommandations
* Savoir poser des modèles statistiques et mathématiques de traitement des données et développer les algorithmes de résolution
* Optimiser un modèle d'ingénierie des données avec un langage hau niveau
- Prérequis
Calcul matriciel, optimisation
- Programme
-
* Introduction aux systèmes de recommandation, évaluation et préférence
** Etudes de systèmes existants (Netflix, Amazon ...)
** Modélisation de l'utilisateur, filtrage collaboratif
* Factorisation de matrice
** Calcul de SVD en grandes dimensions, norme nucléaire, algorithmes ( Méthodes itératives, gradient stochastique)
** Modèles de variables latentes
** Méthodes avancées : factorisation non-négative, factorisation tensorielle
* Evaluation des systèmes, scoring et ordonnancement
** Algorithmes de bandits pour la recommandation
** Web marketing
** Enjeux sociétaux et éthique des systèmes de recommandation
- Évaluation
-
ECRIT
E2
ECRIT : Examen écrit
E2 : ECRIT SESSION 2
- Types d'enseignement
-
CM
CM : Systemes de recommandation
- Calcul de la note finale
-
- Lectures conseillées
-
* Recommender systems Handbook. F. Ricci, L.Rokach, B. Shapira, P.B Kantor, Springer, 2010
* Context-Aware Ranking with Factorization Steffen, Springer, 2010
Liste des intervenants- Responsable
- STEPHANE CANU - Enseign. en Génie Informat., Automatique et Trait. du Signal
- JEAN MICHEL POGGI
- ROMAIN PICOT-CLEMENTE
- SEBASTIEN COLLET - VAC ASI
| | | FR | MSESD-ML4 | 21 |
Expert en sciences de données / Liste des enseignements du semestre 1 / Parcours Commun / UE Machine Learning
|
UE Optimisation pour l'Ingenierie des donnees | MSESD-UE4 | 7 |
- Liste des cours
Nom EC | Niveau LMD | Période | Langue | Référence | Heures |
---|
Concepts et outils de resolutionExpert en sciences de données Concepts et outils de resolution- Semestre 1
- Parcours Commun
- Optimisation pour l'Ingenierie des donnees
| Référence : MSESD-OPTIM1 | Nombre d'heures : 28 h FR
L'objectif de ce cours est de
* Maitriser les concepts de base de l'optimisation : optimum global/local, convexité, point col, dualité ... et savoir interpréter ces concepts géométriquement et économiquement.
* Savoir reconnaitre la difficulté d'un problème d'optimisation.
* Savoir formuler un problème d'optimisation sous forme d'un programme mathématique, linéaire ou quadratique, continu ou discret.
Connaitre des méthodes classiques d'optimisation sous contraintes (méthodes de simplexe, méthodes de points intérieurs, méthodes de sous gradients, méthodes de plans coupants, Branch and bound ...)
* Savoir utiliser un solveur d'optimisation pour résoudre numériquement un programme mathématique avec des variables continues ou entières.
- Prérequis
Connaissances de base en algèbre linéaire, analyse et algorithmique
- Programme
-
Le programme du cours se décompose en quatre blocs de 7h :
Journée 1 : Optimisation dans Rn
* Panorama général des problèmes d'optimisation, des outils et des méthodes
* Dualité lagrangienne
* Cas différentiable : conditions d'optimalité KKT
* Exercices de modélisation et d'analyse de problèmes d'optimisation avec mise en oeuvre d'un solveur
Journée 2 : Programmation linéaire
* Polyèdres, interprétation géométrique de la programmation linéaire
* Dualité et interprétation économique
* Méthode révisée du simplexe et utilisation du tableau du simplexe
* Exercices et mise en oeuvre avec un solveur de programmation linéaire
Journée 3 : Programmation linéaire en nombres entiers
* Formulations et apporche polyédrale
* Méthode des plans coupants
* Méthode de Séparation et Evaluation progressive (Branch and Bound)
* Modélisation et résolution avec un solveur. Recherche effective de plans coupants ou prise en compte d'une relaxation lagrangienne
Journée 4 : Programmation non linéaire
* Programmation quadratique
* Programmation conique
* Programmation SDP
* Liens entre programmation quadratique et programmation linéaire en variables binaires
* Exercices et mise en oeuvre numérique avec un solveur
- Évaluation
-
ECRIT
E2
ECRIT : Examen écrit
E2 : ECRIT SESSION 2
- Types d'enseignement
-
CM
CM : Concepts et outils de resolution
- Calcul de la note finale
-
- Lectures conseillées
-
* Programmation mathématique - Michel Minoux (Dunod 2008)
* Optimisation discrète - Alain Billionnet (Dunod 2007)
* Programmation linéaire, complexité - Jean François Mauras (Springer 2002)
Liste des intervenants- Responsable
- ARNAUD KNIPPEL - Enseignant en Mathématiques Appllquées et Application des Maths
| | | FR | MSESD-OPTIM1 | 28 | Optimisation en grande dimensionExpert en sciences de données Optimisation en grande dimension- Semestre 1
- Parcours Commun
- Optimisation pour l'Ingenierie des donnees
| Référence : MSESD-OPTIM2 | Nombre d'heures : 21 h FR
Ce cours vise à résoudre des problèmes d'optimisation de grande taille et/ou avec des variables aléatoires. L'aléa peut etre inhérent au problème (prise en compte d'aléas sur les prix, la demande des clients, les mesures ...) ou du à la méthode de résolution (utilisation d'un échantillon des données).
A l'issue de ce cours, les participants sauront :
* Résoudre un problème d'optimisation en grande dimension de façon exacte ou approchée en s'appuyant sur la programmation mathématique (décomposition de Dantzig-Wolf ou de Benders et utilisation d'un solveur)
* Résoudre un problème d'optimisation par une approche de programmation dynamique
* Résoudre un problème d'optimisation stochastique ( de grande dimension ou non ) par une des deux approches précédentes.
- Prérequis
Optimisation 1: Concepts et outils de résolution
- Programme
-
Le programme du cours se décompose en trois blocs de 7 h :
Journée 1 : Méthodes de décomposition en grande dimension
* Décomposition de Dantzig-Wolf (décomposition par les prix ) et gébération de variables
* Décomposition de Benders (décomposition par les ressources) et génération de contraintes
* Exemples de problèmes industriels et mise en oeuvre avec un solveur
Journée 2 : : Programmation stochastique
* Formulation mathématique des problèmes d'optimisation stochastique
* Résolution par la méthode de Benders : algorithmes L-shaped, décomposition stochastique, CUPPS (Cutting planes and partial sampling)
* Exercices et résolution numérique avec un solveur
Journée 3 :Programmation dynamique apporchée
* Equation de Bellman. Graphe d'état. Liens avec la programmation linéaire
* Modélisation de programmes dynamiques avec ou sans variables aléatoires
* Exercices et résolution numérique
- Évaluation
-
ECRIT
E2
ECRIT : Examen écrit
E2 : ECRIT SESSION 2
- Types d'enseignement
-
CM
CM : Optimisation en grande dimension
- Calcul de la note finale
-
- Lectures conseillées
-
* Programmation mathématique - Michel Minoux (Dunod 2008)
* Approximate Dynamic programming - Solving the curses of dimensionality - Warren B. Powell (Wiley 2011)
Liste des intervenants- Responsable
- ARNAUD KNIPPEL - Enseignant en Mathématiques Appllquées et Application des Maths
- GUILLAUME ERBS
| | | FR | MSESD-OPTIM2 | 21 | Algorithmique des graphesExpert en sciences de données Algorithmique des graphes- Semestre 1
- Parcours Commun
- Optimisation pour l'Ingenierie des donnees
| Référence : MSESD-OPTIM3 | Nombre d'heures : 21 h FR
Les graphes sont un outil de modélisation important pour de nombreux problèmes, et il est alors nécessaire de savoir les coder de façon efficace, notamment lorsqu'on traire des données massives. Meme lorsque les graphes n'apparaissent pas en tant que tels dans le problème traité, ils peuvent etre utilisés au niveau des structures de données pour un codage plus efficace. A l'issu de ce cours , les participants seront capables de :
* Comprendre le vocabulaire de la théorie des graphes
* Modéliser avec des graphes au moins pour les problèmes classiques
* Coder de façon efficace les graphes en fonction de ce que l'on veut en faire
* Modéliser et formuler mathématiquement les problèmes de flots de données ou de marchandises dans les réseaux, et de les résoudre numériquement
* Modéliser et manipuler les réseaux de grande taille
- Prérequis
- Programme
-
Ce cours se décompose en 3 blocs de 7h
Journée 1 : Théorie des graphes
* Vocabulaire
* Représentant des graphes et codage
* Connexité et forte connexité, parcours de graphes, plus courts chemins et codage efficace pour un graphe de grande taille
* Isomorphisme de graphes
* Arbres couvrant : structure Union-Find pour le codage efficace des problèmes d'arbres couvrant et la classification hiérarchique
Journée 2 : Flots dans les réseaux
* Flots, potentiels
* Flot maximal et algorithmes
* Flot maximal de cout minimal et algorithmes
* Multifots
Journée 3 : Réseaux d'interaction et applications
* Graphes petit monde, recherche de communauté
* Exemples de modélisation d'interactions par des systèmes dynamiques
* Exemples de modèles stochastiques
- Évaluation
-
ECRIT
E2
ECRIT : Examen écrit
E2 : ECRIT SESSION 2
- Types d'enseignement
-
CM
CM : Algorithmique des graphes
- Calcul de la note finale
-
- Lectures conseillées
-
* Graphes et algorithmes - M.Gondran et M.Minoux (Lavoisier 2009)
* Introduction to algorithms - Cormen, Leiserson, Rivest (the MIT Electrical Engineering and computer Science Series, 1990)
Liste des intervenants- Responsable
- ARNAUD KNIPPEL - Enseignant en Mathématiques Appllquées et Application des Maths
| | | FR | MSESD-OPTIM3 | 21 |
Expert en sciences de données / Liste des enseignements du semestre 1 / Parcours Commun / UE Optimisation pour l'Ingenierie des donnees
|
UE Informatique | MSESD-UE5 | 9 |
- Liste des cours
Nom EC | Niveau LMD | Période | Langue | Référence | Heures |
---|
Bases de donnees massivesExpert en sciences de données Bases de donnees massives- Semestre 1
- Parcours Commun
- Informatique
| Référence : MSESD-INFO1 | Nombre d'heures : 28 h FR
Objectifs :
L'objectif est de fournir les notions essentielles des bases de données standard et présenter les bases de type NoSQL et les concepts associés. L'intéret pour les bases de données NoSQL est issu de l'avènement des Big Data et des problématiques de productivité associées au traitement des données non structurées. Les sujets abordés dans ce contexts concernent les problématiques base de données massives, leur mise en oeuvre (structures d'indexation, maintien de la cohérence, interrogations et vues), la gestion de données non structurées (et semi structurées), les bases de données distribuées et les principaux systèmes NoSQL;
Compétences :
* Concevoir une architecture de stockage de données massives
* Maitriser des outils d'interrogation de bases de données volumineuses
Adapter un modèle en fonction de contraintes (physiques, systèmes, temps, complexité, etc..)
- Prérequis
Notions de bases de données relationnelles
- Programme
-
* Introduction aux Systèmes de Gestion des Bases de Données
** Pratique d'un SGBD relationnel
* Systèmes NoSQL et aspects méthodologiques
** Modèles d'agrégats
** Modèles de données spécifiques (relations, graphes, base de données sans schéma)
** Modèles distribués, tables et fonctions de hachage, consistance
* Les différents types de bases de données NoSQL, leur mise en oeuvre et leurs liens
** Orienté clé/valeur (Redis)
** Orienté document (MongoDB)
** Orienté colonne (Cassandra)
** Orienté graph (Neo4j)
- Évaluation
-
ECRIT
E2
ECRIT : Examen écrit
E2 : ECRIT SESSION 2
- Types d'enseignement
-
CM
CM : Bases de donnees massives
- Calcul de la note finale
-
- Lectures conseillées
-
* NoSQL Distilled : A Brief Guide to the Emerging Worl of Polyglot Persistence, Pramod J.
Sadalage & Martin Fowler, Addison-Wesley, 2012
* Graph Databases, Ian Robinson, Jim Webber, and Emil Eifrem O'Reilly, 2013
Liste des intervenants- Responsable
- ERWAN KOFFI
| | | FR | MSESD-INFO1 | 28 | Traitement des donnees massivesExpert en sciences de données Traitement des donnees massives- Semestre 1
- Parcours Commun
- Informatique
| Référence : MSESD-INFO2 | Nombre d'heures : 28 h FR
Objectifs :
L'objectif est de fournir les outils informatiques pour la mise en oeuvre d'une architecture dédiée aux traitements des données massives. L'avènement de ces données volumineuses requiert le stockage distribué des données et le déploiement de traitements massivement parallèles sur des serveurs. Les thèmes abordés portent sur la programmation fonctionnelle, le pattern MapReduce et son instanciation Hadoop. Les outils de stockage distribué, d'extraction de données distribuées et les principales libraires de traitement statistique distribué seront abordés.
Compétences :
* Concevoir et réaliser une architecture de stockage distribué de données massives
* Maitriser les outils d'interrogation de données distribuées
* Connaitre et mettre en oeuvre les principaux outils de traitement distribué
- Prérequis
Bonnes bases de la programmation
- Programme
-
* Introduction à la programmation fonctionnelle. Mise en oeuvre sur scala
* Traitemet massivement parallèle
** Concepts
** Modèle de programmation MapReduce
* Outils de traitement et stockage massivement distribués
** Ecosystème Hadoop
** Formalisme de stockage distribué (HDFS, Avro, Parquet, Hive)
** Extraction de données (SQOOP, ETL (Talend) ou Pig)
**Traitement distribué Batch
**Outils pour le traitement distribué SQL (Impala, Spark SQL)
**Traitement distribué Machine Learning (Spark MLlib, Spark R)
** Traitement distribué Streaming (Spark Streaming, Apache Storm)
* Principaux fournisseurs de solutions cloud
- Évaluation
-
ECRIT
E2
ECRIT : Examen écrit
E2 : ECRIT SESSION 2
- Types d'enseignement
-
CM
CM : Traitement des donnees massives
- Calcul de la note finale
-
- Lectures conseillées
-
Hadoop MapReduce Cookbook, Srinath Perera and Thilina Gunarathne, 2013 open source pakt publishing
Liste des intervenants- ERWAN KOFFI
| | | FR | MSESD-INFO2 | 28 | Genie LogicielExpert en sciences de données Genie Logiciel- Semestre 1
- Parcours Commun
- Informatique
| Référence : MSESD-INFO3 | Nombre d'heures : 14 h FR
Objectifs :
L'objectif est de donner les connaissances minimales nécessaires pour participer à l'encadrement et au développement de projets système dédiés aux traitement des données massives. Il s'agira de projets où la réalisation des composants logiciels est prépondérante et en interaction avec différents acteurs.
Compétences :
* Concevoir et réaliser une architecture de stockage distribué de données massives
* Comprendre les principes du développement colaboratif d'un projet informatique
* Manager et maitriser les différentes phases de réalisation d'un projet informatique
- Programme
-
* Introduction et principe du génie logiciel
** Cycle de vie d'un logiciel (spécification, conception, intégration, implémentation, tests, livraison, maintenance)
* Modèles de cycle de vie et de processus de développement
** Cycle en V
** Agilité, développement itératif, POC
* Développement collaboratif
** Versionnement, outils
** Refactoring
** Technique de tests, intégration continue, déploiement continu
* Planification et gestion de projet informatique
- Évaluation
-
ECRIT
E2
ECRIT : Examen écrit
E2 : ECRIT SESSION 2
- Types d'enseignement
-
CM
CM : Genie Logiciel
- Calcul de la note finale
-
- Lectures conseillées
-
* B.W BOEHM : Software Engineering Economics, édition Prentice-Hall Inc
* R.O LEWIS : Independant verification and validation, a life cycle engineering process for quality software, édition J.Wiley
* B.BEIZER : Software Testing Techniques, édition Van Nostrand Reinhold
Liste des intervenants- GABRIEL BATISTA
| | | FR | MSESD-INFO3 | 14 | Securite des DonneesExpert en sciences de données Securite des Donnees- Semestre 1
- Parcours Commun
- Informatique
| Référence : MSESD-INFO4 | Nombre d'heures : 21 h FR
Ojectifs :
Ce cours présente les problématiques de la sécurité des données massives, les bases techniques pour la sécurisation des données. Sur cette base, il aborde les différentes architectures techniques et les termes qui permettent de les caractériser et de les sélectionner en fonction du niveau de risque.
Compétences :
* Concevoir et réaliser une architecture de stockage distribué de données massives
* Savoir distinguer vulnérabilités, menaces et différents risques
* Savoir identifier les différents niveaux d'attaque et identifier les outils de protection
- Programme
-
* Sécurité de l'information
** Les critères de la sécurité, définition et relation entre vulnérabilité, menace et risque
* Concepts de base de la sécurité
** Types d'attaques et attaquants
** Architecture de sécurité
** L'authentification, le chiffrement, définitions mise en oeuvre
** Signature électronique et Certificats et autorités de certification
** Politique de sécurité et prévention
* Architectures techniques de sécurité
** Les serveurs d'authentification et le Single Sign On
** Solutions techniques (VPN,Firewall,IDPS,IPS?etc ...)
** Protocoles (SSL, IPSEC, S-MIME etc ...)
** Analyse d'une Advanced persistent Thread, malwares
** Sécurité des données dans le cloud (architecture cloud, sécurité, contre-mesures type SIEM ou SOC)
- Évaluation
-
ECRIT
E2
ECRIT : Examen écrit
E2 : ECRIT SESSION 2
- Types d'enseignement
-
CM
CM : Securite des Donnees
- Calcul de la note finale
-
- Lectures conseillées
-
Aucune
Liste des intervenants- CLEMENT MICHEL - VACATAIRE
| | | FR | MSESD-INFO4 | 21 |
Expert en sciences de données / Liste des enseignements du semestre 1 / Parcours Commun / UE Informatique
|
UE Environnement Social et Societal | MSESD-UE6 | 3 |
- Liste des cours
Nom EC | Niveau LMD | Période | Langue | Référence | Heures |
---|
Economie du NumeriqueExpert en sciences de données Economie du Numerique- Semestre 1
- Parcours Commun
- Environnement Social et Societal
| Référence : MSESD-ECO1 | Nombre d'heures : 21 h FR
Objectifs :
L'objectif de ce cours est d'aborder la dimension économique des mégadonnées à savoir la compréhension des écosystèmes économiques de ce concept, le management économique de la donnée et les opportunités économiques, sociales et autres de valorisation de la donnée.
Compétences :
* Comprendre l'écosystème économique du Big Data
* Savoir construire une business intelliegence via le big data
* Pouvoir identifier des applications concrètes et imaginer de nouveaux usages et améliorer le fonctionnement de l'entreprise via le Big Data.
- Programme
-
* Ecosystème du Big Data
* Management de la donnée
** Stratégie Data (capter la valeur business de la donnée)
**Gouvernance de la donnée (exécuter la stratégie, administration fonctionnelle)
** Role du Chief Data Officer
** Nouvelles sources de données : Réseaux sociaux, Open Data, objets connectés, wearable devices, crowdsourcing
* Donnée numérique : Valorisations sociales, économiques et environnementales
** Valorisation capitalistique (publicité, marketing, nouveaux usages...) : Renforcer le business de l'entreprise et/ou générer de nouveaux business models
** Opportunités du Big Data : Santé, maitrise énergétique, développement durable, villes intelligentes, économie collaborative ...
** Impact social : Open data, administration électronique
* Etude économique du déploiement de la stratégie Big Data
- Évaluation
-
ECRIT
E2
ECRIT : Examen écrit
E2 : ECRIT SESSION 2
- Types d'enseignement
-
CM
CM : Economie du Numerique
- Calcul de la note finale
-
- Lectures conseillées
-
Aucune
Liste des intervenants- MOUNIR MEGHERBI
| | | FR | MSESD-ECO1 | 21 | Droit et Ingenierie des DonneesExpert en sciences de données Droit et Ingenierie des Donnees- Semestre 1
- Parcours Commun
- Environnement Social et Societal
| Référence : MSESD-ECO2 | Nombre d'heures : 16 h FR
Compétences :
* Savoir identifier les risques juridiques et éthiques d'un projet ingénierie des données
* Connaitre la réglementation française et européenne sur la protection des données
- Programme
-
* Notions juridiques
** Données personnelles et protection
** Loi Informatique et Libertés
** Role de la CNIL en France et réglementations européennes
* Vie privée et données personnelles
** Risques et inquiétudes
** Propriété des données personnelles, Privacy paradox
** Anonymisation et dés-anonymisation
** Complémentarité de la loi et de la technologie : Régulation et autorégulation, privacy by design
** Chief Privacy Officer
* Ethique, droit et big data
** Description des données et traçabilité
** Réglementation liées à la nature des données (santé, open data, bancaires ...)
** Propriété intellectuelle
** Usage des prédictions fournies par les algorithmes statistiques
- Évaluation
-
ECRIT
E2
ECRIT : Examen écrit
E2 : ECRIT SESSION 2
- Types d'enseignement
-
CM
CM : Droit et Ingenierie des Donnees
- Calcul de la note finale
-
- Lectures conseillées
-
aucune
Liste des intervenants- THIERRY SAMPER
| | | FR | MSESD-ECO2 | 16 |
Expert en sciences de données / Liste des enseignements du semestre 1 / Parcours Commun / UE Environnement Social et Societal
|
UE Thèse Professionnelle | MSESD-UE7 | 30 |
- Liste des cours
Nom EC | Niveau LMD | Période | Langue | Référence | Heures |
---|
Suivi Stages étudiants hors alternanceExpert en sciences de données Suivi Stages étudiants hors alternance- Semestre 1
- Parcours Commun
- Thèse Professionnelle
| Référence : MSESD-SuiviStag | FR
- Types d'enseignement
-
ST
ST : SuiviStages
Liste des intervenants- STEPHANE CANU - Enseign. en Génie Informat., Automatique et Trait. du Signal
- GILLES GASSO - Enseignant en Génie Informatique, Automatique et Traitement du Signal
- BRUNO PORTIER - Enseignant en Mathématiques Appliquées et Application des Maths
- ARNAUD KNIPPEL - Enseignant en Mathématiques Appllquées et Application des Maths
| | | FR | MSESD-SuiviStag | | These professionnelleExpert en sciences de données These professionnelle- Semestre 1
- Parcours Commun
- Thèse Professionnelle
| Référence : MSESD-ThesePRO | FR
- Évaluation
-
ORAL
ORAL
ORAL : Examen oral
- Types d'enseignement
-
ST
ST : These PRO
Liste des intervenants- STEPHANE CANU - Enseign. en Génie Informat., Automatique et Trait. du Signal
- BRUNO PORTIER - Enseignant en Mathématiques Appliquées et Application des Maths
- ARNAUD KNIPPEL - Enseignant en Mathématiques Appllquées et Application des Maths
- GILLES GASSO - Enseignant en Génie Informatique, Automatique et Traitement du Signal
- CLEMENT CHATELAIN - Enseignant en Genie informatique, Automatique et Traitement du Signal
- BENOIT GAUZERE - Enseignant
| | | FR | MSESD-ThesePRO | | Contrat PRO étudiants alternanceExpert en sciences de données Contrat PRO étudiants alternance- Semestre 1
- Parcours Commun
- Thèse Professionnelle
| Référence : MSESD-ContratPRO | FR
- Types d'enseignement
-
ST
ST : ContratPRO
Liste des intervenants- STEPHANE CANU - Enseign. en Génie Informat., Automatique et Trait. du Signal
- GILLES GASSO - Enseignant en Génie Informatique, Automatique et Traitement du Signal
- BRUNO PORTIER - Enseignant en Mathématiques Appliquées et Application des Maths
- ARNAUD KNIPPEL - Enseignant en Mathématiques Appllquées et Application des Maths
- CLEMENT CHATELAIN - Enseignant en Genie informatique, Automatique et Traitement du Signal
- BENOIT GAUZERE - Enseignant
| | | FR | MSESD-ContratPRO | |
Expert en sciences de données / Liste des enseignements du semestre 1 / Parcours Commun / UE Thèse Professionnelle
|
UE RAN | MSESD-UE8 | |
- Liste des cours
Nom EC | Niveau LMD | Période | Langue | Référence | Heures |
---|
Remise a NiveauExpert en sciences de données Remise a Niveau- Semestre 1
- Parcours Commun
- RAN
| Référence : MSESD-RAN | Nombre d'heures : 21 h FR
- Évaluation
-
ECRIT
ECRIT : Examen écrit
- Types d'enseignement
-
TD
TD : RAN
Liste des intervenants- GERALDINE DEL MONDO - Enseignante en informatique ASI/LITIS
- STEPHANE CANU - Enseign. en Génie Informat., Automatique et Trait. du Signal
- GILLES GASSO - Enseignant en Génie Informatique, Automatique et Traitement du Signal
| | | FR | MSESD-RAN | 21 |
Expert en sciences de données / Liste des enseignements du semestre 1 / Parcours Commun / UE RAN
|