Kursplan
1. Introduktion till Deep Reinforcement Learning
- Vad är Reinforcement Learning?
- Skillnader mellan övervakad, oövervakad och förstärkande inlärning
- Tillämpningar av DRL år 2025 (robotik, hälso- och sjukvård, finans, logistik)
- Förståelse för agent-miljöns interaktionscykel
2. Grundläggande principper för Reinforcement Learning
- Markov-beslutsprocesser (MDP)
- Tillästand, åtgärd, belöning, policy och värdefunktioner
- Handelskalkylering och utforskning vs. utnyttjande
- Monte Carlo-metoder och Temporal-Difference (TD)-inlärning
3. Implementering av grundläggande RL-algoritmer
- Tabulära metoder: Dynamisk programering, policyutvärdering och iteration
- Q-Learning och SARSA
- Epsilon-greedy utforskning och nedbrytningstekniker
- Implementering av RL-miljöer med OpenAI Gymnasium
4. Övergång till Deep Reinforcement Learning
- Begränsningar med tabulära metoder
- Användning av neurala nätverk för funktionapproximation
- Deep Q-Network (DQN) arkitektur och arbetsflöde
- Erfarenhetsåtergivning och målnätverk
5. Avancerade DRL-algoritmer
- Double DQN, Dueling DQN och Prioritized Experience Replay
- Policy Gradient-metoder: REINFORCE-algoritmen
- Aktor-kritikerarkitekturer (A2C, A3C)
- Proximal Policy Optimization (PPO)
- Soft Actor-Critic (SAC)
6. Arbete med kontinuerliga åtgärdsmängder
- Utmaningar i kontinuerlig kontroll
- Användning av DDPG (Deep Deterministic Policy Gradient)
- Twin Delayed DDPG (TD3)
7. Praktiska verktyg och ramverk
- Användning av Stable-Baselines3 och Ray RLlib
- Loggning och övervakning med TensorBoard
- Hiperparameterjustering för DRL-modeller
8. Belöningsutveckling och miljödesign
- Belöningsformning och balansering av straff
- Koncept för simuleringsbaserad överföring till realtid
- Skapande av anpassade miljöer i Gymnasium
9. Delvis observerbara miljöer och generalisering
- Hantering av ofullständig tillståndsinformation (POMDPs)
- Minnesbaserade tillvägagångssätt med LSTMs och RNNs
- Förbättring av agents robusthet och generalisering
10. Spelteori och multiagent-reinforcement learning
- Introduktion till multiagentmiljöer
- Samarbete vs. konkurrens
- Tillämpningar i motståndsträning och strategioptimering
11. Fallstudier och reella tillämpningar
- Simulationer av självkörande bilar
- Dynamisk prissättning och finansiella handelsstrategier
- Robotik och industriell automatisering
12. Felsökning och optimering
- Diagnostisering av instabil träning
- Hantering av belöningsknapphet och överanpassning
- Skalning av DRL-modeller på GPUs och distribuerade system
13. Sammanfattning och nästa steg
- Sammanfattning av DRL-arkitektur och nyckelalgoritmer
- Trender och forskningsriktningar inom branschen (t.ex. RLHF, hybridmodeller)
- Ytterligare resurser och läsningsmaterial
Krav
- Kunskap i Python-programmering
- Förståelse för differentialkalkyl och linjär algebra
- Grundläggande kunskap om sannolikhetslära och statistik
- Erfarenhet av att bygga maskininlärningsmodeller med Python och NumPy eller TensorFlow/PyTorch
Målgrupp
- Utvecklare intresserade av AI och intelligenta system
- Datavetenskapsmän som utforskar förstärkningsinlärningsramverk
- Maskininlärningsingenjörer som arbetar med autonoma system
Vittnesmål (5)
Hunter är fantastisk, mycket engagerande, extremt kunnig och personlig. Mycket bra gjort.
Rick Johnson - Laramie County Community College
Kurs - Artificial Intelligence (AI) Overview
Maskintolkat
Very flexible.
Frank Ueltzhoffer
Kurs - Artificial Neural Networks, Machine Learning and Deep Thinking
I liked the new insights in deep machine learning.
Josip Arneric
Kurs - Neural Network in R
Ann created a great environment to ask questions and learn. We had a lot of fun and also learned a lot at the same time.
Gudrun Bickelq
Kurs - Introduction to the use of neural networks
It was very interactive and more relaxed and informal than expected. We covered lots of topics in the time and the trainer was always receptive to talking more in detail or more generally about the topics and how they were related. I feel the training has given me the tools to continue learning as opposed to it being a one off session where learning stops once you've finished which is very important given the scale and complexity of the topic.