Kursplan

spark.mllib: datatyper, algoritmer och verktyg

    Datatyper Grundläggande statistik sammanfattning statistik korrelationer stratifierad sampling hypotestestning streaming signifikanstestning slumpmässig datagenerering
Klassificering och regression linjära modeller (SVM, logistisk regression, linjär regression)
  • naiva Bayes
  • beslutsträd
  • ensembler av träd (Random Forests och gradientförstärkta träd)
  • isotonisk regression
  • Kollaborativ filtrering av alternerande minsta kvadrater (ALS)
  • Klustring av k-medel
  • Gaussisk blandning
  • power iteration clustering (PIC)
  • latent Dirichlet-allokering (LDA)
  • halverande k-medel
  • strömmande k-medel
  • Dimensionalitetsreduktion singular value decomposition (SVD)
  • huvudkomponentanalys (PCA)
  • Funktionsextraktion och transformation
  • Frekvent mönsterbrytning FP-tillväxt
  • föreningens regler
  • PrefixSpan
  • Utvärderingsmått
  • Export av PMML-modeller
  • Optimering (utvecklare) stokastisk gradientnedstigning
  • BFGS med begränsat minne (L-BFGS)
  • spark.ml: API:er på hög nivå för ML-pipelines
  • Översikt: estimatorer, transformatorer och pipelines Extrahera, transformera och välja funktioner Klassificering och regression Klustring Avancerade ämnen

    Krav

    Kunskaper om något av följande:

    • Java
    • Scala
    • Python
    • SparkR.
     35 timmar

    Antal deltagare


    Price per participant

    Vittnesmål (1)

    Upcoming Courses