Apprentissage par renforcement

Code interne

EI9IS320

Description

Ce cours est une introduction à une branche de l'apprentissage automatique ("machine learning") appelée apprentissage par récompense ("reinforcement learning", RL). Dans ce cours nous aborderons les modèles principaux utilisés en RL : les bandits manchots ("multi-armed bandits"), les processus de décision Markoviens ("Markov decision process"), et leurs extensions multi-agents et à observation partielle, à la fois dans le cadre dynamique et dans le cadre d'approximation de fonctions (par réseaux de neurones en particulier). Nous étudierons les algorithmes les plus importants : value iteration, strategy iteration, Q-learning, DQN (Deep Q-learning). Ils seront implémentés en Python.

Lire plus

Heures d'enseignement

CICours Intégrés21h

Syllabus

Ce cours est une introduction à une branche de l'apprentissage automatique ("machine learning") appelée apprentissage par récompense ("reinforcement learning", RL). Dans ce cours nous aborderons les modèles principaux utilisés en RL : les bandits manchots ("multi-armed bandits"), les processus de décision Markoviens ("Markov decision process"), et leurs extensions multi-agents et à observation partielle, à la fois dans le cadre dynamique et dans le cadre d'approximation de fonctions (par réseaux de neurones en particulier). Nous étudierons les algorithmes les plus importants : value iteration, strategy iteration, Q-learning, DQN (Deep Q-learning). Ils seront implémentés en Python.

Lire plus

Apprentissage par renforcement

École / Prépa

Code interne

Description

Heures d'enseignement

Syllabus

Modalités de contrôle des connaissances

Évaluation initiale / Session principale