Kursplan

Introduktion till Data Science för Big Data-Analys

  • Översikt över Data Science
  • Översikt över Big Data
  • Datastrukturer
  • Drivers och komplexiteter i Big Data
  • Big Data-ekosystem och en ny ansats för analys
  • Nyckeltekniker inom Big Data
  • Data Mining-process och problem
    • Associeringsmönstermining
    • Data Clustering
    • Outlier Detection
    • Data Classification

Introduktion till Data Analytics livscykel

  • Upptäckt
  • Dataförberedelse
  • Modellplanering
  • Modellbyggnad
  • Presentation/Kommunikation av resultat
  • Operationalisering
  • Övning: Fallstudie

Från och med detta kommer mest av träningstiden (80%) att tillbringas på exempel och övningar i R och relaterad big data-teknologi.

Kom igång med R

  • Installation av R och Rstudio
  • Funktioner i R-språket
  • Objekt i R
  • Data i R
  • Datahantering
  • Big data-utmaningar
  • Övningar

Kom igång med Hadoop

  • Installation av Hadoop
  • Förstå Hadoop-lägen
  • HDFS
  • MapReduce-arkitektur
  • Översikt över Hadoop-relaterade projekt
  • Skrivning av program i Hadoop MapReduce
  • Övningar

Integration av R och Hadoop med RHadoop

  • Komponenter i RHadoop
  • Installation av RHadoop och anslutning till Hadoop
  • RHadoop-arkitektur
  • Hadoop-streams med R
  • Lösning av dataanalysproblem med RHadoop
  • Övningar

Förbehandling och förberedelse av data

  • Steg i dataförberedelse
  • Egenskapsextraktion
  • Datarening
  • Dataintegration och transformation
  • Datareduktion – urval, egenskapssubset
  • Dimensionalitetsreduktion
  • Diskretisering och binning
  • Övningar och fallstudie

Explorativa dataanalysmetoder i R

  • Deskriptiv statistik
  • Explorativ dataanalys
  • Visualisering – förberedande steg
  • Visualisering av en variabel
  • Undersökning av flera variabler
  • Statistiska metoder för utvärdering
  • Hypotesprövning
  • Övningar och fallstudie

Data Visualiseringar

  • Grundläggande visualiseringar i R
  • Paket för datavisualisering ggplot2, lattice, plotly, lattice
  • Formatering av diagram i R
  • Avancerade grafer
  • Övningar

Regression (Skattning av framtida värden)

  • Linjär regression
  • Användningsområden
  • Modellbeskrivning
  • Diagnostik
  • Problem med linjär regression
  • Shrinkagemetoder, ridge regression, lasso
  • Generaliseringar och icke-linjäritet
  • Regressionsplines
  • Lokal polynomregression
  • Generaliserade additiva modeller
  • Regression med RHadoop
  • Övningar och fallstudie

Klassifikation

  • Klassifikationsrelaterade problem
  • Bayesiansk uppfräschning
  • Naïve Bayes
  • Logistisk regression
  • K-närmaste grannar
  • Algoritm för beslutsträd
  • Neuronnätverk
  • Support Vector Machines
  • Diagnostik av klassificerare
  • Jämförelse av klassifikationsmetoder
  • Skalbara klassifikationsalgoritmer
  • Övningar och fallstudie

Utvärdering av modellprestanda och val

  • Fördom, Varians och modellkomplexitet
  • Noggrannhet vs Tydlighet
  • Utvärdering av klassificerare
  • Mått för modell/algoritmprestanda
  • Hold-out-metoden för validering
  • Korsvalidering
  • Anpassning av maskininlärningsalgoritmer med caret-paketet
  • Visualisering av modellprestanda med Profit ROC och Lift-kurvor

Ensemble Metoder

  • Bagging
  • Random Forests
  • Boosting
  • Gradient Boosting
  • Övningar och fallstudie

Support Vector Machines för klassifikation och regression

  • Maximala Margin klassificerare
    • Support Vector Classifiers
    • Support Vector Machines
    • SVM för klassifikationsproblem
    • SVM för regressionsproblem
  • Övningar och fallstudie

Identifiering av okända grupperingar inom en datamängd

  • Egenskapssval för klustring
  • Representationsbaserade algoritmer: k-means, k-medoids
  • Hierarkiska algoritmer: aggregerande och divisiva metoder
  • Probabilistiska basalgoritmer: EM
  • Täthetsbaserade algoritmer: DBSCAN, DENCLUE
  • Klustervalidering
  • Avancerade klustringskoncept
  • Klustring med RHadoop
  • Övningar och fallstudie

Upptäckande av samband med Länk Analys

  • Koncept för länkanalys
  • Mått för analys av nätverk
  • Pagerank-algoritmen
  • Hyperlink-Induced Topic Search
  • Länkprediktion
  • Övningar och fallstudie

Associeringsmönstermining

  • Frekvent mönstermineringsmodell
  • Skalbarhetsproblem i frekvent mönsterminering
  • Brute Force-algoritmer
  • Apriori-algoritmen
  • FP-growth-ansatsen
  • Utvärdering av kandidatregler
  • Användningar av associeringsregler
  • Validering och testning
  • Diagnostik
  • Associeringsregler med R och Hadoop
  • Övningar och fallstudie

Konstruktion av rekommendationsmotorer

  • Förståelse för rekommendationssystem
  • Dataminingstekniker använda i rekommendationssystem
  • Rekommendationssystem med recommenderlab-paketet
  • Utvärdering av rekommendationssystem
  • Rekommendationer med RHadoop
  • Övning: Byggande av rekommendationsmotor

Textanalys

  • Steg i textanalys
  • Samling av rå text
  • Bag of words
  • Term Frequency – Inverse Document Frequency
  • Bestämning av känslor
  • Övningar och fallstudie
 35 timmar

Antal deltagare


Pris per deltagare

Vittnesmål (2)

Kommande Kurser

Relaterade Kategorier