Kursplan

Introduktion till Data Science for Big Data Analytics

    Data Science Översikt Big Data Översikt Datastrukturer Drivkrafter och komplexitet i Big Data Big Data-ekosystemet och ett nytt tillvägagångssätt för analys Nyckelteknologier i Big Data Data Mining process och problem Association Pattern Mining Data Clustering Outlier Detection Data Classification

Introduktion till Data Analytics livscykel

    Upptäckt Dataförberedelse Modellplanering Modellbyggnad Presentation/Communication av resultat Operationalisering Övning: Fallstudie

Från denna tidpunkt kommer det mesta av träningstiden (80%) att läggas på exempel och övningar i R och relaterad big data-teknologi.

Komma igång med R

    Installera R och Rstudio Funktioner för R-språkobjekt i R Data i R Datamanipulation Big data-problem Övningar

Komma igång med Hadoop

    Installera Hadoop Förstå Hadoop lägen HDFS MapReduce-arkitektur Hadoop relaterade projektöversikt Skriva program i Hadoop MapReduce Exercises

Integrering av R och Hadoop med RHadoop

    Komponenter i RHadoop Installera RHadoop och ansluta till Hadoop Arkitekturen för RHadoop Hadoop streaming med R Dataanalys problemlösning med RHadoop Övningar

Förbearbetning och förberedelse av data

    Dataförberedande steg Funktionsextraktion Datarensning Dataintegration och transformation Datareduktion – sampling, urval av funktionsdelmängder, dimensionsreduktion Diskretisering och binning Övningar och fallstudie

Exploratoriska dataanalysmetoder i R

    Beskrivande statistik Explorativ dataanalys Visualisering – preliminära steg Visualisering av en enda variabel Undersöka flera variabler Statistiska metoder för utvärdering Hypotestestning Övningar och fallstudie

Data Visualizations

    Grundläggande visualiseringar i R Paket för datavisualisering ggplot2, lattice, plotly, lattice Formatera plotter i R Avancerade grafer Övningar

Regression (uppskattning av framtida värden)

    Linjär regression Användningsfall Modellbeskrivning Diagnostik Problem med linjär regression Krympningsmetoder, åsregression, lassot Generaliseringar och olinjäritet Regression splines Lokal polynomregression Generaliserade additiva modeller Regression med RHadoop Övningar och fallstudie

Klassificering

    Klassificeringsrelaterade problem Bayesiansk uppfriskning Naiv Bayes Logistisk regression K-närmaste grannar Beslutsträdalgoritm Neurala nätverk Stöd vektormaskiner Diagnostik av klassificerare Jämförelse av klassificeringsmetoder Scalable klassificeringsalgoritmer Övningar och fallstudie

Bedöma modellprestanda och val

    Bias, Varians och modellkomplexitet Noggrannhet vs Tolkbarhet Utvärdera klassificerare Mått på modell/algoritmprestanda Håll-out metod för validering Korsvalidering Tuning av maskininlärningsalgoritmer med cartpaket Visualisering av modellprestanda med Profit ROC och Lift-kurvor

Ensemblemetoder

    Bagging Random Forests Boosting Gradient boosting övningar och fallstudie

Stöd vektormaskiner för klassificering och regression

    Maximal Margin-klassificerare Stöd vektorklassificerare Stöd vektormaskiner SVM:er för klassificeringsproblem SVM:er för regressionsproblem
Övningar och fallstudie
  • Identifiera okända grupperingar inom en datamängd
  • Funktionsval för klustring Representativt baserade algoritmer: k-medel, k-medoider Hierarkiska algoritmer: agglomerativa och uppdelningsmetoder Probabilistiska basalgoritmer: EM Densitetsbaserade algoritmer: DBSCAN, DENCLUE Klustervalidering Avancerade klusterkoncept Klustring med RHadoop övningar

      Upptäck kopplingar med länkanalys

    Länkanalyskoncept Metrik för att analysera nätverk Pagerank-algoritmen Hyperlink-induced Topic Search Länkförutsägelseövningar och fallstudie

      Association Pattern Mining

    Frequent Pattern Mining Model Scalaförmågasproblem vid frekvent mönsterutvinning Brute Force-algoritmer Apriori-algoritmen FP-tillväxtmetoden Utvärdering av kandidatregler Tillämpningar av associationsregler Validering och testning av diagnostik Associationsregler med R- och Hadoop-övningar och fallstudie

      Konstruera rekommendationsmotorer

    Förstå rekommendatorsystem Datautvinningstekniker som används i rekommendatorsystem Rekommendationssystem med recommenderlab-paket Utvärdera rekommendationssystemen Rekommendationer med RHadoop Övning: Bygg rekommendationsmotor

      Textanalys

    Textanalyssteg Samla in råtext Påse med ord Term Frekvens – Omvänd dokumentfrekvens Bestämma känslor Övningar och fallstudie

     35 timmar

    Antal deltagare



    Price per participant

    Vittnesmål (1)

    Relaterade Kurser

    Kaggle

    14 timmar

    Accelerating Python Pandas Workflows with Modin

    14 timmar

    GPU Data Science with NVIDIA RAPIDS

    14 timmar

    Anaconda Ecosystem for Data Scientists

    14 timmar

    Data Vault: Building a Scalable Data Warehouse

    28 timmar

    Spark Streaming with Python and Kafka

    7 timmar

    Confluent KSQL

    7 timmar

    Apache Ignite for Developers

    14 timmar

    Unified Batch and Stream Processing with Apache Beam

    14 timmar

    Apache Apex: Processing Big Data-in-Motion

    21 timmar

    Apache Storm

    28 timmar

    Apache NiFi for Administrators

    21 timmar

    Apache NiFi for Developers

    7 timmar

    Apache Flink Fundamentals

    28 timmar

    Python and Spark for Big Data (PySpark)

    21 timmar

    Relaterade Kategorier