Kursplan

1. Introduktion till Deep Reinforcement Learning

  • Vad är Reinforcement Learning?
  • Skillnader mellan övervakad, oövervakad och förstärkande inlärning
  • Tillämpningar av DRL år 2025 (robotik, hälso- och sjukvård, finans, logistik)
  • Förståelse för agent-miljöns interaktionscykel

2. Grundläggande principper för Reinforcement Learning

  • Markov-beslutsprocesser (MDP)
  • Tillästand, åtgärd, belöning, policy och värdefunktioner
  • Handelskalkylering och utforskning vs. utnyttjande
  • Monte Carlo-metoder och Temporal-Difference (TD)-inlärning

3. Implementering av grundläggande RL-algoritmer

  • Tabulära metoder: Dynamisk programering, policyutvärdering och iteration
  • Q-Learning och SARSA
  • Epsilon-greedy utforskning och nedbrytningstekniker
  • Implementering av RL-miljöer med OpenAI Gymnasium

4. Övergång till Deep Reinforcement Learning

  • Begränsningar med tabulära metoder
  • Användning av neurala nätverk för funktionapproximation
  • Deep Q-Network (DQN) arkitektur och arbetsflöde
  • Erfarenhetsåtergivning och målnätverk

5. Avancerade DRL-algoritmer

  • Double DQN, Dueling DQN och Prioritized Experience Replay
  • Policy Gradient-metoder: REINFORCE-algoritmen
  • Aktor-kritikerarkitekturer (A2C, A3C)
  • Proximal Policy Optimization (PPO)
  • Soft Actor-Critic (SAC)

6. Arbete med kontinuerliga åtgärdsmängder

  • Utmaningar i kontinuerlig kontroll
  • Användning av DDPG (Deep Deterministic Policy Gradient)
  • Twin Delayed DDPG (TD3)

7. Praktiska verktyg och ramverk

  • Användning av Stable-Baselines3 och Ray RLlib
  • Loggning och övervakning med TensorBoard
  • Hiperparameterjustering för DRL-modeller

8. Belöningsutveckling och miljödesign

  • Belöningsformning och balansering av straff
  • Koncept för simuleringsbaserad överföring till realtid
  • Skapande av anpassade miljöer i Gymnasium

9. Delvis observerbara miljöer och generalisering

  • Hantering av ofullständig tillståndsinformation (POMDPs)
  • Minnesbaserade tillvägagångssätt med LSTMs och RNNs
  • Förbättring av agents robusthet och generalisering

10. Spelteori och multiagent-reinforcement learning

  • Introduktion till multiagentmiljöer
  • Samarbete vs. konkurrens
  • Tillämpningar i motståndsträning och strategioptimering

11. Fallstudier och reella tillämpningar

  • Simulationer av självkörande bilar
  • Dynamisk prissättning och finansiella handelsstrategier
  • Robotik och industriell automatisering

12. Felsökning och optimering

  • Diagnostisering av instabil träning
  • Hantering av belöningsknapphet och överanpassning
  • Skalning av DRL-modeller på GPUs och distribuerade system

13. Sammanfattning och nästa steg

  • Sammanfattning av DRL-arkitektur och nyckelalgoritmer
  • Trender och forskningsriktningar inom branschen (t.ex. RLHF, hybridmodeller)
  • Ytterligare resurser och läsningsmaterial

Krav

  • Kunskap i Python-programmering
  • Förståelse för differentialkalkyl och linjär algebra
  • Grundläggande kunskap om sannolikhetslära och statistik
  • Erfarenhet av att bygga maskininlärningsmodeller med Python och NumPy eller TensorFlow/PyTorch

Målgrupp

  • Utvecklare intresserade av AI och intelligenta system
  • Datavetenskapsmän som utforskar förstärkningsinlärningsramverk
  • Maskininlärningsingenjörer som arbetar med autonoma system
 21 timmar

Antal deltagare


Pris per deltagare

Vittnesmål (5)

Kommande Kurser

Relaterade Kategorier