Kursplan
Machine Learning Introduktion
- Typer av maskininlärning – övervakad vs oövervakad
- Från statistisk inlärning till maskininlärning
- Dataminingprocessen: förståelse för affärsverksamheten, datapreparering, modellering, distribution
- Val av rätt algoritm för uppgiften
- Överanpassning och bias-variansavvägning
Python och översikt över ML-bibliotek
- Varför använda programspråk för ML
- Val mellan R och Python
- Python snabbkurs och Jupyter Notebooks
- Python bibliotek: pandas, NumPy, scikit-learn, matplotlib, seaborn
Testning och utvärdering av ML-algoritmer
- Generalisering, överanpassning och modellvalidering
- Utvärderingsstrategier: holdout, korsvalidering, bootstrapping
- Mått för regression: ME, MSE, RMSE, MAPE
- Mått för klassificering: noggrannhet, förvirringmatris, obalanserade klasser
- Visualisering av modellprestanda: vinstkurva, ROC-kurva, lyftkurva
- Modellval och rutnätssökning för justering
Datapreparering
- Datainport och lagring i Python
- Explorativ analys och sammanfattningsstatistik
- Hantering av saknade värden och avvikelser
- Standardisering, normalisering och transformation
- Omkodning av kvalitativa data och databearbetning med pandas
Klassificeringsalgoritmer
- Binär vs multiclass klassificering
- Logistisk regression och diskriminansfunktioner
- Naïve Bayes, k-närmaste grannar
- Beskedsträd: CART, Random Forests, Bagging, Boosting, XGBoost
- Support Vector Machines och kärnor
- Ensemble-lärande tekniker
Regression och numerisk förutsägelse
- Minsta kvadrat och variabelurval
- Regulariseringsmetoder: L1, L2
- Polynomisk regression och icke-linjära modeller
- Regressionsträd och splines
Unsupervised Learning
- Klustringstekniker: k-means, k-medoids, hierarkisk klustring, SOMs
- Dimensionalitetsreduktion: PCA, faktoranalys, SVD
- Multidimensionell skalning
Textmining
- Textförbehandling och tokenisering
- Bag-of-words, stamning och lemmatisering
- Säkerhetsanalys och ordfrekvens
- Visualisering av textdata med ordmoln
Rekommendationssystem
- Användarbaserad och objektbaserad samarbetsfiltering
- Design och utvärdering av rekommendationsmotorer
Associationsmönsterutvinning
- Vanliga artikeluppsättningar och Apriori-algoritmen
- Marknadskorgsanalys och lyftförhållande
Avvikelseupptäckt
- Extremvärdesanalys
- Avståndsbaserade och täthetsbaserade metoder
- Avvikelseupptäckt i högdimensionella data
Machine Learning Case Study
- Förståelse för affärsproblemet
- Datapreparering och funktionstillverkning
- Modellval och parameterjustering
- Utvärdering och presentation av resultat
- Distribution
Sammanfattning och nästa steg
Krav
- Grundläggande förståelse för statistik och linjär algebra
- Kunskap om dataanalys eller affärsintelligenskoncept
- Viss erfarenhet av programmering (helst Python eller R) rekommenderas
- Intresse av att lära sig tillämpad maskininlärning för datadrivna projekt
Målgrupp
- Dataanalytiker och dataforskare
- Statistiker och forskningsprofessionella
- Utvecklare och IT-professionella som utforskar maskininlärningsverktyg
- Alla inblandade i datavetenskap eller prognosanalysprojekt
Vittnesmål (3)
Even with having to miss a day due to customer meetings, I feel I have a much clearer understanding of the processes and techniques used in Machine Learning and when I would use one approach over another. Our challenge now is to practice what we have learned and start to apply it to our problem domain
Richard Blewett - Rock Solid Knowledge Ltd
Kurs - Machine Learning – Data science
I like that training was focused on examples and coding. I thought that it is impossible to pack so much content into three days of training, but I was wrong. Training covered many topics and everything was done in a very detailed manner (especially tuning of model's parameters - I didn't expected that there will be a time for this and I was gratly surprised).
Bartosz Rosiek - GE Medical Systems Polska Sp. Zoo
Kurs - Machine Learning – Data science
It is showing many methods with pre prepared scripts- very nicely prepared materials & easy to traceback