1, Mener une approche méthodologique d'extraction, de classification et/ou de modélisation sur des grands jeux de données. |
---|
Sélection de variables et Validation de Modèles
INSA Rouen | Mastère spécialisé® Expert en sciences des données
- Bloc 1 : Exploiter l’information et mettre en œuvre une stratégie business
- 1, Mener une approche méthodologique d'extraction, de classification et/ou de modélisation sur des grands jeux de données.
Appréhender les questions et traitement des tests statistiques en grande dimension
Heures 21hECTS 2
Contenu
-Techniques de base de la sélection de variables à l’aide de méthodes classiques et plus avancées.
- Tests statistiques dans le cadre de la grande dimension
- Critères de choix et de validation de modèles (critères AIC, BIC, validation croisée, bootstrap)
Les méthodes et outils abordés seront mis en oeuvre sur des exemples réels et traités avec le logiciel R.
- Responsable
- Bruno PORTIER
- Établissement

- Évaluation
- ETUDE DE CAS
- Jours de formation
-
|
21 |
2 |
Régression pénalisée
INSA Rouen | Mastère spécialisé® Expert en sciences des données
- Bloc 1 : Exploiter l’information et mettre en œuvre une stratégie business
- 1, Mener une approche méthodologique d'extraction, de classification et/ou de modélisation sur des grands jeux de données.
Mettre en place des techniques de régression linéaire
Heures 21hECTS 2
Contenu
- régression linéaire multiple et ses principales limites
- les objectifs de la pénalisation; la régression ridge; la régression lasso
- extension à la régression logistique et aux modèles additifs non-linéaires
- régression linéaire multiple
- Extension à la régression logistique et aux modèles additifs non linéaires.
- Responsable
- Bruno PORTIER
- Établissement

- Évaluation
- PROJET
- Jours de formation
-
|
21 |
2 |
Méthodes itératives pour le traitement en ligne des données
INSA Rouen | Mastère spécialisé® Expert en sciences des données
- Bloc 1 : Exploiter l’information et mettre en œuvre une stratégie business
- 1, Mener une approche méthodologique d'extraction, de classification et/ou de modélisation sur des grands jeux de données.
Mettre en oeuvre des algorithmes itératifs,
stochastiques ou non, pour le traitement et l'analyse statistique de données en ligne.
Heures 21hECTS 2
Contenu
- introduction aux algorithmes stochastiques
- algorithmes pour la construction des indicateurs statistiques de base (moyenne, variance, médiane, quantile, ...)
- algorithme pour une ACP (Analyse en Composantes Principales) en ligne
- estimation récursive de la densité et de la fonction de régression
- Responsable
- Bruno PORTIER
- Établissement

- Évaluation
- PROJET
- Jours de formation
-
|
21 |
2 |
Analyse de données fonctionnelles
INSA Rouen | Mastère spécialisé® Expert en sciences des données
- Bloc 1 : Exploiter l’information et mettre en œuvre une stratégie business
- 1, Mener une approche méthodologique d'extraction, de classification et/ou de modélisation sur des grands jeux de données.
Maîtriser le concept de données fonctionnelles (courbes), les méthodes de régularisation et de discrimination
Heures 21hECTS 2
Contenu
- Introduction aux concepts de données fonctionnelles (courbes)
- Statistiques de base pour les données fonctionnelles (corrélation, médiane..)
-
Méthodes de régularisation et de réduction de dimension
-
Méthodes spécifiques de classification : ACP fonctionnelle
-
Régression linéaire avec variables fonctionnelles
- Responsable
- Bruno PORTIER
- Établissement

- Évaluation
- PROJET
- Jours de formation
-
|
21 |
2 |
2, Concevoir un système d’ingénierie de données mettant en œuvre les techniques d’apprentissage statistique pour l’analyse de masse de données réelles. |
---|
Ingénierie des Données
INSA Rouen | Mastère spécialisé® Expert en sciences des données
- Bloc 1 : Exploiter l’information et mettre en œuvre une stratégie business
- 2, Concevoir un système d’ingénierie de données mettant en œuvre les techniques d’apprentissage statistique pour l’analyse de masse de données réelles.
Fournir les méthodes statistiques pour l’analyse exploratoire et la description des masses de données.
Heures 21hECTS 2
Contenu
1) Introduction à l’ingénierie des données : notion de chaine de traitements
2) Analyse exploratoire de données
- Analyse en Composantes Principales (ACP)
- Analyse factorielle des correspondances (AFC)
- Méthode non-linéaire de projection des données
3) Méthodes de regroupement des données (Clustering)
- Classification hiérarchique ascendante
- K moyennes
- Modèles de mélange
Ces méthodes couvriront les problématiques de description statistique des données, de projection et visualisation des données et de regroupement des données en catégories homogènes.
- Responsable
- Gilles GASSO
- Établissement

- Évaluation
- EXAMEN MACHINE
- Jours de formation
-
|
21 |
2 |
Machine Learning
INSA Rouen | Mastère spécialisé® Expert en sciences des données
- Bloc 1 : Exploiter l’information et mettre en œuvre une stratégie business
- 2, Concevoir un système d’ingénierie de données mettant en œuvre les techniques d’apprentissage statistique pour l’analyse de masse de données réelles.
Savoir identifier et utiliser des algorithmes d’optimisation pour résoudre des problèmes d’apprentissage et de fouille de données.
Heures 21hECTS 2
Contenu
1) Introduction aux problématiques de la science des données
2) Méthodes de discrimination
- K plus proches voisins
- Approche bayésienne de la décision : cas gaussien
- Régression linéaire logistique
- Machines à vecteur support (SVM) linéaire
3) Méthodes de régression linéaire
4) Méthodologies de l’apprentissage statistique
- Responsable
- Gilles GASSO
- Établissement

- Évaluation
- EXAMEN MACHINE
- Jours de formation
-
|
21 |
2 |
Machine Learning Avancé
INSA Rouen | Mastère spécialisé® Expert en sciences des données
- Bloc 1 : Exploiter l’information et mettre en œuvre une stratégie business
- 2, Concevoir un système d’ingénierie de données mettant en œuvre les techniques d’apprentissage statistique pour l’analyse de masse de données réelles.
Fournir un aperçu des avancées récentes dans les domaines de l’apprentissage statistique et les techniques statistiques utilisées dans les applications d'analyse de masse de données réelles.
Heures 21hECTS 2
Contenu
Les thèmes abordés seront ceux de la modélisation non-linéaire, des algorithmes d'apprentissage et d'analyse de données massives et les problématiques de passage à l’échelle
1) Méthodes à noyaux, mesures de similarités et représentations
- Splines et autres méthodes de régression à noyaux
- Machines à vecteur supports non-linéaires (SVM à noyaux)
- Problèmes multi-classes et apprentissage sur des données structurées
- Passage à l’échelle
2) Deep learning
3) Méthodes ensemblistes (combinaison de modèles)
- Agrégation de modèles
- Boosting
- Arbres de décision et forêts aléatoires
4) Méthodologies de l’apprentissage statistique
- Responsable
- Stéphane CANU
- Établissement

- Évaluation
- EXAMEN MACHINE
- Jours de formation
-
|
21 |
2 |
Systèmes de recommandation
INSA Rouen | Mastère spécialisé® Expert en sciences des données
- Bloc 1 : Exploiter l’information et mettre en œuvre une stratégie business
- 2, Concevoir un système d’ingénierie de données mettant en œuvre les techniques d’apprentissage statistique pour l’analyse de masse de données réelles.
Comprendre la nature des systèmes de recommandation et être en mesure de mettre en œuvre un système capable de fournir des recommandations dans un domaine d'application particulier, ainsi que de critiquer une conception de souligner ses forces et ses faiblesses.
Heures 21hECTS 2
Contenu
Ce cours présente les concepts, les applications, les algorithmes, la programmation et la conception des systèmes de recommandation, ainsi que les enjeux éthiques associés. A l’issue du cours, le candidat devra comprendre la nature des systèmes de recommandation et être en mesure de mettre en œuvre un système capable de fournir des recommandations dans un domaine d'application particulier, ainsi que de critiquer une conception de souligner ses forces et ses faiblesses.
1) Introduction aux systèmes de recommandation, évaluation et préférence
- Etudes de systèmes existants (Netflix, Amazon...)
- Modélisation de l’utilisateur, Filtrage collaboratif
2) Factorisation de matrice
- Calcul de SVD en grandes dimensions, norme nucléaire, algorithmes (méthodes itératives, gradient stochastique)
- Modèles à variables latentes
- Méthodes avancées : factorisation non-négative, factorisation tensorielle
3) Evaluation des systèmes, scoring et ordonnancement
- Algorithmes de bandits pour la recommandation
- Web Marketing
- Enjeux sociétaux et éthique des systèmes de recommandation
- Responsable
- Stéphane CANU
- Établissement

- Évaluation
- EXAMEN MACHINE
- Jours de formation
-
|
21 |
2 |
3, Modéliser et résoudre des problèmes d’optimisation pour des données massives. |
---|
Optimisation 1 : concepts et outils de résolution
INSA Rouen | Mastère spécialisé® Expert en sciences des données
- Bloc 1 : Exploiter l’information et mettre en œuvre une stratégie business
- 3, Modéliser et résoudre des problèmes d’optimisation pour des données massives.
- Maîtriser les concepts de base de l'optimisation et Savoir reconnaître la difficulté d'un problème d'optimisation.
- Savoir formuler un problème d'optimisation sous forme d'un programme mathématique, linéaire ou quadratique, continu ou discret.
- Connaître des méthodes classiques d'optimisation sous contraintes
- Savoir utiliser un solveur d'optimisation pour résoudre numériquement un programme mathématique avec des variables continues ou entières.
Heures 28hECTS 3
Contenu
1) Optimisation dans Rn
- Panorama général des problèmes d'optimisation, des outils et des méthodes
- Dualité lagrangienne.
- Cas différentiable : conditions d'optimalité KKT.
- Exercices de modélisation et d'analyse de problèmes d'optimisation avec mise en œuvre d'un solveur.
2) Programmation linéaire
- Polyèdres, interprétation géométrique de la programmation linéaire
- Dualité et interprétation économique
- Méthode révisée du simplexe et utilisation du tableau du simplexe
- Exercices et mise en œuvre avec un solveur de programmation linéaire
3) Programmation linéaire en nombres entiers
- Formulations et approche polyédrale
- Méthode des plans coupants
- Méthode de Séparation et Evaluation progressive (Branch and Bound)
- Modélisation et résolution avec un solveur. Recherche effective de plans coupants ou prise en compte d'une relaxation lagrangienne.
4) Programmation non linéaire
- programmation quadratique
, programmation conique, programmation SDP
- liens entre programmation quadratique et programmation linéaire en variables binaires
- Exercices et mise en œuvre numérique avec un solveur
- Responsable
- Arnaud KNIPPEL
- Établissement

- Évaluation
- Rendus de TD/TP sur ordinateur et examen final
- Jours de formation
-
|
28 |
3 |
Optimisation 2 : Optimisation en grande dimension
INSA Rouen | Mastère spécialisé® Expert en sciences des données
- Bloc 1 : Exploiter l’information et mettre en œuvre une stratégie business
- 3, Modéliser et résoudre des problèmes d’optimisation pour des données massives.
Résoudre des problèmes d'optimisation de grande taille et/ou avec des variables aléatoires. L'aléa peut être inhérent au problème (prise en compte d'aléas sur les prix, la demande des clients, les mesures...) ou du à la méthode de résolution (utilisation d'un échantillon des données).
Heures 21hECTS 2
Contenu
1) Méthodes de décomposition en grande dimension
- Décomposition de Dantzig-Wolfe (décomposition par les prix)et génération de variables
- Décomposition de Benders (décomposition par les ressources) et génération de contraintes
- exemples de problèmes industriels et mise en œuvre avec un solveur
2) Programmation stochastique
- formulation mathématique des problèmes d'optimisation stochastique
- résolution par la méthode de Benders ; algorithmes L-shaped, décomposition stochastique, CUPPS (Cutting planes and partial sampling)
- exercices et résolution numérique avec un solveur
3) Programmation dynamique approchée
- Equation de Bellman. Graphe d'état. Liens avec la programmation linéaire
- Modélisation de programmes dynamiques avec ou sans variables aléatoires
- exercices et résolution numérique
- Responsable
- Arnaud KNIPPEL
- Établissement

- Évaluation
- Rendus de TD/TP et résumé d'articles
- Jours de formation
-
|
21 |
2 |
Algorithmique des graphes
INSA Rouen | Mastère spécialisé® Expert en sciences des données
- Bloc 1 : Exploiter l’information et mettre en œuvre une stratégie business
- 3, Modéliser et résoudre des problèmes d’optimisation pour des données massives.
Les graphes sont un outil de modélisation important pour de nombreux problèmes, et il est alors nécessaire de savoir les coder de façon efficace, notamment lorsqu'on traite des données massives. Même lorsque les graphes n'apparaissent pas en tant que tels dans le problème traité, ils peuvent être utilisés au niveau des structures de données pour un codage plus efficace
Heures 21hECTS 2
Contenu
1) Théorie des graphes
- vocabulaire
- représentation des graphes et codage
- connexité et forte connexité, parcours de graphes, plus courts chemins et codage efficace pour un graphe de grande taille
- isomorphisme de graphes
- arbre couvrant ; structure Union
-Find pour le codage efficace des problèmes d'arbres couvrant et la classification hiérarchique
2) Flots dans les réseaux
- flots, potentiels
- flot maximal et algorithmes
- flot maximal de coût minimal et algorithmes
- multiflots
3) Réseaux d'interaction et applications
- graphes petit monde, recherche de communauté
- exemples de modélisation d'interactions par des systèmes dynamiques
- exemples de modèles stochastiques
- Responsable
- Arnaud KNIPPEL
- Établissement

- Évaluation
- Rendus de TD/TP
- Jours de formation
-
|
21 |
2 |