Recherche avancée
Libres Savoirs >> Mathématiques
Responsable :

Lenka Zdeborova
  


Centre de Recherche

Niveau : 3e année

Langue du cours : Anglais

Période : option physique

Nombre d'heures : 14

Crédits ECTS : 1,5
BIGD Big data
Ressources Pédagogiques :
Cours : 14h

Objectifs

Le but de ce cours est d'introduire des notions théoriques et algorithmiques pour être en mesure de comprendre l'enthousiasme actuel pour le Big Data, son analyse et son exploitation. Le cours mettra à profit sur le matériel couvert en Physique statistique appliquée (cours de A. Maggs en 1ère année) car une partie de la structure mathématique en statistique de grande dimension et en analyse des données est étroitement liée à la physique statistique.

Contenu

Quelques sujets plus spécifiques que nous allons couvrir :

  • Comment découvrir la structure des données? Introduction à l'inférence statistique. Réduction de dimensionnalité. La notion de statistiques de grande dimension.
  • Les notions de théorie de l'information (théorie de Shannon). Notions de théorie de la complexité algorithmique. Rappel des résultats utiles de la probabilité.
  • Présentation des prototypes de problèmes d'analyse de données: Régression, clustering, classification, débruitage.
  • Méthodes de base : des moindres carrés. Qu'est-ce qu'une régularisation? Algorithmes spectraux, analyse en composantes principales.
  • Estimation bayésienne, le rôle des modèles et des prieurs. Marginalisation et maximum de vraisemblance. Formulation en termes de physique statistique, et le dictionnaire entre la physique et la probabilité.
  • Certaines méthodes de calcul pour l'estimation bayésienne: échantillonnage de Gibbs connu en physique comme Monte Carlo, estimation bayésienne variationnelle connu en physique comme la théorie du champ moyen.
  • Transitions de phase dans l'optimisation et des problèmes d'estimation, leur rapport à des transitions de phase en physique. Relation avec des limitations du a la théorie de l'information et du aux algorithmes.
  • Introduction aux réseaux neuronaux artificiels.
  • Notions de base sur l'apprentissage des machines modernes, "deep learning".

Il y aura plusieurs devoirs impliquant un peu de codage ou de l'utilisation des codes fournis et des données, pour obtenir une expérience pratique avec le matériel couvert dans le cours. Remarque : Il est utile, mais pas nécessaire, d'avoir suivi le cours de troisième année Statistique et modélisation d'Isabelle Rivals.

Dernière mise à jour : jeudi 29 juin 2017

© ESPCI 2017 - Réalisé par Winch Communication