Tack för att du skickade din fråga! En av våra teammedlemmar kontaktar dig snart.
Tack för att du skickade din bokning! En av våra teammedlemmar kontaktar dig snart.
Kursplan
Introduktion till Data Science för Big Data-Analys
- Översikt över Data Science
- Översikt över Big Data
- Datastrukturer
- Drivers och komplexiteter i Big Data
- Big Data-ekosystem och en ny ansats för analys
- Nyckeltekniker inom Big Data
- Data Mining-process och problem
- Associeringsmönstermining
- Data Clustering
- Outlier Detection
- Data Classification
Introduktion till Data Analytics livscykel
- Upptäckt
- Dataförberedelse
- Modellplanering
- Modellbyggnad
- Presentation/Kommunikation av resultat
- Operationalisering
- Övning: Fallstudie
Från och med detta kommer mest av träningstiden (80%) att tillbringas på exempel och övningar i R och relaterad big data-teknologi.
Kom igång med R
- Installation av R och Rstudio
- Funktioner i R-språket
- Objekt i R
- Data i R
- Datahantering
- Big data-utmaningar
- Övningar
Kom igång med Hadoop
- Installation av Hadoop
- Förstå Hadoop-lägen
- HDFS
- MapReduce-arkitektur
- Översikt över Hadoop-relaterade projekt
- Skrivning av program i Hadoop MapReduce
- Övningar
Integration av R och Hadoop med RHadoop
- Komponenter i RHadoop
- Installation av RHadoop och anslutning till Hadoop
- RHadoop-arkitektur
- Hadoop-streams med R
- Lösning av dataanalysproblem med RHadoop
- Övningar
Förbehandling och förberedelse av data
- Steg i dataförberedelse
- Egenskapsextraktion
- Datarening
- Dataintegration och transformation
- Datareduktion – urval, egenskapssubset
- Dimensionalitetsreduktion
- Diskretisering och binning
- Övningar och fallstudie
Explorativa dataanalysmetoder i R
- Deskriptiv statistik
- Explorativ dataanalys
- Visualisering – förberedande steg
- Visualisering av en variabel
- Undersökning av flera variabler
- Statistiska metoder för utvärdering
- Hypotesprövning
- Övningar och fallstudie
Data Visualiseringar
- Grundläggande visualiseringar i R
- Paket för datavisualisering ggplot2, lattice, plotly, lattice
- Formatering av diagram i R
- Avancerade grafer
- Övningar
Regression (Skattning av framtida värden)
- Linjär regression
- Användningsområden
- Modellbeskrivning
- Diagnostik
- Problem med linjär regression
- Shrinkagemetoder, ridge regression, lasso
- Generaliseringar och icke-linjäritet
- Regressionsplines
- Lokal polynomregression
- Generaliserade additiva modeller
- Regression med RHadoop
- Övningar och fallstudie
Klassifikation
- Klassifikationsrelaterade problem
- Bayesiansk uppfräschning
- Naïve Bayes
- Logistisk regression
- K-närmaste grannar
- Algoritm för beslutsträd
- Neuronnätverk
- Support Vector Machines
- Diagnostik av klassificerare
- Jämförelse av klassifikationsmetoder
- Skalbara klassifikationsalgoritmer
- Övningar och fallstudie
Utvärdering av modellprestanda och val
- Fördom, Varians och modellkomplexitet
- Noggrannhet vs Tydlighet
- Utvärdering av klassificerare
- Mått för modell/algoritmprestanda
- Hold-out-metoden för validering
- Korsvalidering
- Anpassning av maskininlärningsalgoritmer med caret-paketet
- Visualisering av modellprestanda med Profit ROC och Lift-kurvor
Ensemble Metoder
- Bagging
- Random Forests
- Boosting
- Gradient Boosting
- Övningar och fallstudie
Support Vector Machines för klassifikation och regression
- Maximala Margin klassificerare
- Support Vector Classifiers
- Support Vector Machines
- SVM för klassifikationsproblem
- SVM för regressionsproblem
- Övningar och fallstudie
Identifiering av okända grupperingar inom en datamängd
- Egenskapssval för klustring
- Representationsbaserade algoritmer: k-means, k-medoids
- Hierarkiska algoritmer: aggregerande och divisiva metoder
- Probabilistiska basalgoritmer: EM
- Täthetsbaserade algoritmer: DBSCAN, DENCLUE
- Klustervalidering
- Avancerade klustringskoncept
- Klustring med RHadoop
- Övningar och fallstudie
Upptäckande av samband med Länk Analys
- Koncept för länkanalys
- Mått för analys av nätverk
- Pagerank-algoritmen
- Hyperlink-Induced Topic Search
- Länkprediktion
- Övningar och fallstudie
Associeringsmönstermining
- Frekvent mönstermineringsmodell
- Skalbarhetsproblem i frekvent mönsterminering
- Brute Force-algoritmer
- Apriori-algoritmen
- FP-growth-ansatsen
- Utvärdering av kandidatregler
- Användningar av associeringsregler
- Validering och testning
- Diagnostik
- Associeringsregler med R och Hadoop
- Övningar och fallstudie
Konstruktion av rekommendationsmotorer
- Förståelse för rekommendationssystem
- Dataminingstekniker använda i rekommendationssystem
- Rekommendationssystem med recommenderlab-paketet
- Utvärdering av rekommendationssystem
- Rekommendationer med RHadoop
- Övning: Byggande av rekommendationsmotor
Textanalys
- Steg i textanalys
- Samling av rå text
- Bag of words
- Term Frequency – Inverse Document Frequency
- Bestämning av känslor
- Övningar och fallstudie
35 timmar
Vittnesmål (2)
Intensity, Training materials and expertise, Clarity, Excellent communication with Alessandra
Marija Hornis Dmitrovic - Marija Hornis
Kurs - Data Science for Big Data Analytics
The example and training material were sufficient and made it easy to understand what you are doing.