Kursplan
Machine Learning Introduktion
- Typer av maskininlärning – övervakad vs oövervakad
- Från statistisk inlärning till maskininlärning
- Dataminingprocessen: förståelse för affärsverksamheten, datapreparering, modellering, distribution
- Val av rätt algoritm för uppgiften
- Överanpassning och bias-variansavvägning
Python och översikt över ML-bibliotek
- Varför använda programspråk för ML
- Val mellan R och Python
- Python snabbkurs och Jupyter Notebooks
- Python bibliotek: pandas, NumPy, scikit-learn, matplotlib, seaborn
Testning och utvärdering av ML-algoritmer
- Generalisering, överanpassning och modellvalidering
- Utvärderingsstrategier: holdout, korsvalidering, bootstrapping
- Mått för regression: ME, MSE, RMSE, MAPE
- Mått för klassificering: noggrannhet, förvirringmatris, obalanserade klasser
- Visualisering av modellprestanda: vinstkurva, ROC-kurva, lyftkurva
- Modellval och rutnätssökning för justering
Datapreparering
- Datainport och lagring i Python
- Explorativ analys och sammanfattningsstatistik
- Hantering av saknade värden och avvikelser
- Standardisering, normalisering och transformation
- Omkodning av kvalitativa data och databearbetning med pandas
Klassificeringsalgoritmer
- Binär vs multiclass klassificering
- Logistisk regression och diskriminansfunktioner
- Naïve Bayes, k-närmaste grannar
- Beskedsträd: CART, Random Forests, Bagging, Boosting, XGBoost
- Support Vector Machines och kärnor
- Ensemble-lärande tekniker
Regression och numerisk förutsägelse
- Minsta kvadrat och variabelurval
- Regulariseringsmetoder: L1, L2
- Polynomisk regression och icke-linjära modeller
- Regressionsträd och splines
Unsupervised Learning
- Klustringstekniker: k-means, k-medoids, hierarkisk klustring, SOMs
- Dimensionalitetsreduktion: PCA, faktoranalys, SVD
- Multidimensionell skalning
Textmining
- Textförbehandling och tokenisering
- Bag-of-words, stamning och lemmatisering
- Säkerhetsanalys och ordfrekvens
- Visualisering av textdata med ordmoln
Rekommendationssystem
- Användarbaserad och objektbaserad samarbetsfiltering
- Design och utvärdering av rekommendationsmotorer
Associationsmönsterutvinning
- Vanliga artikeluppsättningar och Apriori-algoritmen
- Marknadskorgsanalys och lyftförhållande
Avvikelseupptäckt
- Extremvärdesanalys
- Avståndsbaserade och täthetsbaserade metoder
- Avvikelseupptäckt i högdimensionella data
Machine Learning Case Study
- Förståelse för affärsproblemet
- Datapreparering och funktionstillverkning
- Modellval och parameterjustering
- Utvärdering och presentation av resultat
- Distribution
Sammanfattning och nästa steg
Krav
- Grundläggande förståelse för statistik och linjär algebra
- Kunskap om dataanalys eller affärsintelligenskoncept
- Viss erfarenhet av programmering (helst Python eller R) rekommenderas
- Intresse av att lära sig tillämpad maskininlärning för datadrivna projekt
Målgrupp
- Dataanalytiker och dataforskare
- Statistiker och forskningsprofessionella
- Utvecklare och IT-professionella som utforskar maskininlärningsverktyg
- Alla inblandade i datavetenskap eller prognosanalysprojekt
Vittnesmål (3)
Trots att jag måste missa en dag på grund av kundmöten känner jag att jag har en mycket klarare förståelse för de processer och tekniker som används inom maskininlärning och när jag skulle välja en metod framför en annan. Vårt utmaning nu är att öva på det vi har lärt oss och börja tillämpa det på vårt problemområde
Richard Blewett - Rock Solid Knowledge Ltd
Kurs - Machine Learning – Data science
Maskintolkat
Jag tyckte att utbildningen var fokuserad på exempel och programmering. Jag trodde inte att det skulle vara möjligt att packa in så mycket material i tre dagars utbildning, men jag hade fel. Utbildningen täckte många ämnen, och allt utfördes på ett mycket detaljerat sätt (särskilt justeringen av modellens parametrar - jag förväntade mig inte att det skulle finnas tid för detta och var mycket överraskad).
Bartosz Rosiek - GE Medical Systems Polska Sp. Zoo
Kurs - Machine Learning – Data science
Maskintolkat
Det visar många metoder med förberedda skript – väldigt väl förberade material och lätt att spåra tillbaka.
Kamila Begej - GE Medical Systems Polska Sp. Zoo
Kurs - Machine Learning – Data science
Maskintolkat