Kursplan
1. Introduktion till Deep Reinforcement Learning
- Vad är Reinforcement Learning?
- Skillnader mellan övervakad, oövervakad och förstärkande inlärning
- Tillämpningar av DRL år 2025 (robotik, hälso- och sjukvård, finans, logistik)
- Förståelse för agent-miljöns interaktionscykel
2. Grundläggande principper för Reinforcement Learning
- Markov-beslutsprocesser (MDP)
- Tillästand, åtgärd, belöning, policy och värdefunktioner
- Handelskalkylering och utforskning vs. utnyttjande
- Monte Carlo-metoder och Temporal-Difference (TD)-inlärning
3. Implementering av grundläggande RL-algoritmer
- Tabulära metoder: Dynamisk programering, policyutvärdering och iteration
- Q-Learning och SARSA
- Epsilon-greedy utforskning och nedbrytningstekniker
- Implementering av RL-miljöer med OpenAI Gymnasium
4. Övergång till Deep Reinforcement Learning
- Begränsningar med tabulära metoder
- Användning av neurala nätverk för funktionapproximation
- Deep Q-Network (DQN) arkitektur och arbetsflöde
- Erfarenhetsåtergivning och målnätverk
5. Avancerade DRL-algoritmer
- Double DQN, Dueling DQN och Prioritized Experience Replay
- Policy Gradient-metoder: REINFORCE-algoritmen
- Aktor-kritikerarkitekturer (A2C, A3C)
- Proximal Policy Optimization (PPO)
- Soft Actor-Critic (SAC)
6. Arbete med kontinuerliga åtgärdsmängder
- Utmaningar i kontinuerlig kontroll
- Användning av DDPG (Deep Deterministic Policy Gradient)
- Twin Delayed DDPG (TD3)
7. Praktiska verktyg och ramverk
- Användning av Stable-Baselines3 och Ray RLlib
- Loggning och övervakning med TensorBoard
- Hiperparameterjustering för DRL-modeller
8. Belöningsutveckling och miljödesign
- Belöningsformning och balansering av straff
- Koncept för simuleringsbaserad överföring till realtid
- Skapande av anpassade miljöer i Gymnasium
9. Delvis observerbara miljöer och generalisering
- Hantering av ofullständig tillståndsinformation (POMDPs)
- Minnesbaserade tillvägagångssätt med LSTMs och RNNs
- Förbättring av agents robusthet och generalisering
10. Spelteori och multiagent-reinforcement learning
- Introduktion till multiagentmiljöer
- Samarbete vs. konkurrens
- Tillämpningar i motståndsträning och strategioptimering
11. Fallstudier och reella tillämpningar
- Simulationer av självkörande bilar
- Dynamisk prissättning och finansiella handelsstrategier
- Robotik och industriell automatisering
12. Felsökning och optimering
- Diagnostisering av instabil träning
- Hantering av belöningsknapphet och överanpassning
- Skalning av DRL-modeller på GPUs och distribuerade system
13. Sammanfattning och nästa steg
- Sammanfattning av DRL-arkitektur och nyckelalgoritmer
- Trender och forskningsriktningar inom branschen (t.ex. RLHF, hybridmodeller)
- Ytterligare resurser och läsningsmaterial
Krav
- Kunskap i Python-programmering
- Förståelse för differentialkalkyl och linjär algebra
- Grundläggande kunskap om sannolikhetslära och statistik
- Erfarenhet av att bygga maskininlärningsmodeller med Python och NumPy eller TensorFlow/PyTorch
Målgrupp
- Utvecklare intresserade av AI och intelligenta system
- Datavetenskapsmän som utforskar förstärkningsinlärningsramverk
- Maskininlärningsingenjörer som arbetar med autonoma system
Vittnesmål (3)
Jag tyckte verkligen om avslutningen där vi fick testa CHAT GPT. Rummet var dock inte optimerat för detta - istället för en stor bordskonkurrens hade ett par mindre bord hjälpt till att dela upp oss i små grupper och klura ut idéer.
Nola - Laramie County Community College
Kurs - Artificial Intelligence (AI) Overview
Maskintolkat
Att arbeta från grunderna på ett fokuserat sätt och övergå till att tillämpa fallstudier samma dag
Maggie Webb - Department of Jobs, Regions, and Precincts
Kurs - Artificial Neural Networks, Machine Learning, Deep Thinking
Maskintolkat
Att det använde riktiga företagsdata. Utbildningsledaren hade en mycket bra tillvägagångssätt genom att få deltagarna att delta och tävla
Jimena Esquivel - Zaklad Uslugowy Hakoman Andrzej Cybulski
Kurs - Applied AI from Scratch in Python
Maskintolkat