Programming med Big Data i R Träningskurs
Big Data är ett begrepp som avser lösningar för lagring och bearbetning av stora datamängder. Ursprungligen utvecklade av Google, har dessa Big Data-lösningar utvecklats och inspirerat andra liknande projekt, många av vilka är tillgängliga som open-source. R är ett populärt programspråk inom den finansiella branschen.
Kursplan
Introduktion till Programming Big Data med R (bpdR)
- Ställa in din miljö för att använda pbdR
- Omfattning och verktyg finns i pbdR
- Paket som vanligtvis används med Big Data tillsammans med pbdR
Message Passing Interface (MPI)
- Använder pbdR MPI 5
- Parallell bearbetning
- Punkt till punkt kommunikation
- Skicka matriser
- Summeringsmatriser
- Kollektiv kommunikation
- Summera matriser med Reducera
- Scatter / Samla
- Annan MPI-kommunikation
Distribuerade matriser
- Skapa en distribuerad diagonal matris
- SVD för en distribuerad matris
- Att bygga en distribuerad matris parallellt
Statistics Tillämpningar
- Monte Carlo integration
- Läser datamängder
- Läser om alla processer
- Sändning från en process
- Läser partitionerade data
- Distribuerad regression
- Distribuerad Bootstrap
Öppna Utbildningskurser kräver 5+ deltagare.
Programming med Big Data i R Träningskurs - Bokning
Programming med Big Data i R Träningskurs - Fråga
Programming med Big Data i R - Konsultfråga
Vittnesmål (2)
The subject matter and the pace were perfect.
Tim - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada
Kurs - Programming with Big Data in R
Maskintolkat
Michael the trainer is very knowledgeable and skillful about the subject of Big Data and R. He is very flexible and quickly customize the training meeting clients' need. He is also very capable to solve technical and subject matter problems on the go. Fantastic and professional training!.
Xiaoyuan Geng - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada
Kurs - Programming with Big Data in R
Maskintolkat
Kommande Kurser
Relaterade Kurser
Big Data Analytics med Gogogle, Colab och Apache Spark
14 TimmarDenna instruktörsledda, liveutbildning på plats (online eller på plats) riktar sig till datavetare och ingenjörer på mellannivå som vill använda Google Colab och Apache Spark för bearbetning och analys av stora datamängder.
Efter avslutad utbildning kommer deltagarna att kunna:
- Sätt upp en miljö för stora datamängder med hjälp av Google Colab och Spark.
- Bearbeta och analysera stora datamängder effektivt med Apache Spark.
- Visualisera stora datamängder i en samarbetsmiljö.
- Integrera Apache Spark med molnbaserade verktyg.
Big Data Analytics in Health
21 TimmarBig data analytics innebär processen med att granska stora mängder varierade datamängder för att upptäcka korrelationer, dolda mönster och andra användbara insikter.
Hälsosektorn har enorma mängder komplexa och heterogena medicinska och kliniska data. Att tillämpa big data analytics på hälsovårdsdata erbjuder stort potential för att härleda insikter som kan förbättra leveransen av hälso- och sjukvård. Men storleken på dessa datamängder utgör stora utmaningar i analysen och praktiska tillämpningar i en klinisk miljö.
I detta instruktörsledda, live-träning (distant), kommer deltagarna att lära sig hur man utför big data analytics inom hälsosektorn genom att gå igenom en serie praktiska övningar i ett laboratoriemiljö.
När kurserna är avslutade kommer deltagarna kunna:
- Installera och konfigurera big data analytics-verktyg som Hadoop MapReduce och Spark
- Förstå egenskaperna hos medicinska data
- Tillämpa big data-tekniker för att hantera medicinska data
- Studera big data-system och algoritmer i sammanhanget av hälsoapplikationer
Målgrupp
- Utvecklare
- Data vetenskapsmän
Kursformat
- Delen föreläsning, delen diskussion, övningar och mycket praktisk handledning.
Notering
- För att begära en anpassad utbildning för denna kurs, vänligen kontakta oss för att ordna det.
Hadoop och Spark för Administratörer
35 TimmarDenna instruktörssvärd, liveutbildning i Sverige (online eller på plats) riktas till systemadministratörer som vill lära sig hur man sätter upp, distribuerar och hanterar Hadoop-kluster inom deras organisation.
Till slut av denna utbildning kommer deltagarna att kunna:
- Installera och konfigurera Apache Hadoop.
- Förstå de fyra huvudkomponenterna i Hadoop-ekosystemet: HDFS, MapReduce, YARN och Hadoop Common.
- Använda Hadoop Distributed File System (HDFS) för att skala ett kluster till hundra eller tusen noder.
- Ställ in HDFS som lagringsslänk för lokala Spark-distributioner.
- Ställ in Spark för att komma åt alternativa lagringslösningar såsom Amazon S3 och NoSQL-databasystem som Redis, Elasticsearch, Couchbase, Aerospike etc.
- Framföra administrativa uppgifter som tilldelning, hantering, övervakning och säkring av ett Apache Hadoop-kluster.
En praktisk introduktion till strömhantering
21 TimmarI denna instruktörledd, liveutbildning i Sverige (plats eller fjärr) kommer deltagarna att lära sig hur man sätter upp och integrerar olika strömhanteringsramverk med existerande stordatasparkeringssystem och relaterade mjukvaruapplikationer och mikrotjänster.
När denna utbildning är avslutad kommer deltagarna att kunna:
- Installera och konfigurera olika strömhanteringsramverk, såsom Spark Streaming och Kafka Streaming.
- Fatta beslut om vilket ramverk som är mest lämpligt för uppgiften.
- Behandla data kontinuerligt, samtidigt och post för post.
- Integrera strömhanteringslösningar med existerande databaser, datalager, datasejor etc.
- Integrera det mest lämpliga strömbearbetningsbiblioteket med företagsapplikationer och mikrotjänster.
SMACK Stack för Data Science
14 TimmarDenna instruktörförledd, live-träning i Sverige (online eller på plats) är riktad till data scientist som vill använda SMACK-stacken för att bygga dataprocesserande plattformar för stora datalösningar.
Vid slutet av denna träning kommer deltagarna att kunna:
- Implementera en data pipeline-arkitektur för att processera stora datamängder.
- Utveckla en klusterinfrastruktur med Apache Mesos och Docker.
- Analysera data med Spark och Scala.
- Hantera ostrukturerade data med Apache Cassandra.
Apache Spark Grundläggande
21 TimmarDenna instruktörsguidade, liveutbildning i Sverige (online eller på plats) riktar sig till ingenjörer som vill konfigurera och distribuera Apache Spark-systemet för att bearbeta väldigt stora mängder data.
Genom denna utbildning kommer deltagarna att kunna:
- Installera och konfigurera Apache Spark.
- Bearbeta och analysera väldigt stora datamängder snabbt.
- Förstå skillnaden mellan Apache Spark och Hadoop MapReduce, samt när man ska använda vilket.
- Integrera Apache Spark med andra maskininlärningsverktyg.
Administration of Apache Spark
35 TimmarDen här instruktörsledda, liveutbildningen i Sverige (online eller på plats) riktar sig till systemadministratörer på nybörjar- till mellannivå som vill distribuera, underhålla och optimera Spark-kluster.
I slutet av denna utbildning kommer deltagarna att kunna:
- Installera och konfigurera Apache Spark i olika miljöer.
- Hantera klusterresurser och övervaka Spark-program.
- Optimera prestanda för Spark-kluster.
- Implementera säkerhetsåtgärder och säkerställ hög tillgänglighet.
- Felsöka och felsöka vanliga Spark-problem.
Apache Spark in Molnet
21 TimmarApache Sparks inlärningskurva stiger långsamt i början och kräver mycket ansträngning för att få den första återbetalningen. Denna kurs syftar till att hoppa över den första svåra delen. Efter att ha gått den här kursen kommer deltagarna att förstå grunderna i Apache Spark, de kommer tydligt att skilja mellan RDD och DataFrame, de kommer att lära sig Python och Scala API, de kommer att förstå executors och tasks, etc. Kursen följer också bästa praxis och fokuserar starkt på molnplacering, Databricks och AWS. Studenterna kommer också att förstå skillnaderna mellan AWS EMR och AWS Glue, en av AWS senaste Spark-tjänster.
MÅLGRUPP:
Data Engineer, DevOps, Data Scientist
Spark för utvecklare
21 TimmarMÅL:
Denna kurs introducerar Apache Spark. Studerande kommer att lära sig hur Spark passar in i Big Data-ekosystemet och hur man använder Spark för dataanalys. Kursen täcker Spark-shell för interaktiv dataanalys, Spark-internals, Spark-API:er, Spark SQL, Spark-strömning och maskininlärning samt GraphX.
MÅLGRUPP :
Utvecklare / Dataanalytiker
Skalning av Data Pipelines med Spark NLP
14 TimmarDen här instruktörsledda, live-utbildningen i Sverige (online eller på plats) riktar sig till dataforskare och utvecklare som vill använda Spark NLP, byggd ovanpå Apache Spark, för att utveckla, implementera och skala modeller och pipelines för textbearbetning på naturligt språk.
I slutet av denna utbildning kommer deltagarna att kunna:
- Konfigurera den nödvändiga utvecklingsmiljön för att börja bygga NLP-pipelines med Spark NLP.
- Förstå funktionerna, arkitekturen och fördelarna med att använda Spark NLP.
- Använd de förtränade modellerna som är tillgängliga i Spark NLP för att implementera textbearbetning.
- Lär dig hur du skapar, tränar och skalar Spark NLP modeller för projekt i produktionsklass.
- Tillämpa klassificering, slutsatsdragning och attitydanalys på verkliga användningsfall (kliniska data, insikter om kundbeteende osv.).
Python och Spark för Big Data (PySpark)
21 TimmarI denna instruktörsledda, liveträning i Sverige kommer deltagarna att lära sig hur man använder Python och Spark tillsammans för att analysera big data medan de arbetar med praktiska övningar.
I slutet av denna utbildning kommer deltagarna att kunna:
- Lär dig hur du använder Spark med Python för att analysera Big Data.
- Arbeta med övningar som efterliknar verkliga fall.
- Använda olika verktyg och tekniker för analys av stora datamängder med hjälp av PySpark.
Python, Spark och Hadoop för Big Data
21 TimmarDen här instruktörsledda, liveutbildningen i Sverige (online eller på plats) riktar sig till utvecklare som vill använda och integrera Spark, Hadoop och Python för att bearbeta, analysera och transformera stora och komplexa datamängder.
I slutet av denna utbildning kommer deltagarna att kunna:
- Konfigurera den miljö som krävs för att börja bearbeta stordata med Spark, Hadoop och Python.
- Förstå funktionerna, kärnkomponenterna och arkitekturen i Spark och Hadoop.
- Lär dig hur du integrerar Spark, Hadoop och Python för bearbetning av stordata.
- Utforska verktygen i Spark-ekosystemet (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka och Flume).
- Skapa rekommendationssystem för samarbetsfiltrering som liknar Netflix, YouTube, Amazon, Spotify och Google.
- Använd Apache Mahout för att skala maskininlärningsalgoritmer.
Apache Spark SQL
7 TimmarSpark SQL är Apache Sparks modul för att arbeta med strukturerade och ostrukturerade data. Spark SQL ger information om datans struktur samt de beräkningar som utförs. Denna information kan användas för att genomföra optimeringar. Två vanliga användningsområden för Spark SQL är:
- att köra SQL-frågor.
- att läsa data från en befintlig Hive-installation.
I denna instruktörsvägledade, liveutbildning (platsbaserad eller på distans) lär deltagarna hur de kan analysera olika typer av datamängder med Spark SQL.
När utbildningen är avslutad kommer deltagarna att kunna:
- Installera och konfigurera Spark SQL.
- Genomföra dataanalys med Spark SQL.
- Fråga datamängder i olika format.
- Visualisera data och frågeresultat.
Kursformat
- Interaktiv föreläsning och diskussion.
- Många övningar och praktik.
- Hands-on implementering i en live-lab-miljö.
Kursanpassningsalternativ
- För att begära en anpassad utbildning för denna kurs, kontakta oss för att ordna det.
Stratio: Rocket och Intelligence Modules med PySpark
14 TimmarStratio är en datacentrisk plattform som integrerar stora data, AI och styrning i en enda lösning. Dess Rocket- och Intelligence-moduler möjliggör snabb datautforskning, transformering och avancerad analys i företagsmiljöer.
Denna instruktörsledda, levande utbildning (online eller på plats) riktar sig till mellannivådatafagliga personer som vill använda Rocket- och Intelligence-modulerna i Stratio effektivt med PySpark, med fokus på loopstrukturer, användardefinierade funktioner och avancerad datalogi.
Vid slutet av denna utbildning kommer deltagarna att kunna:
- Navigera och arbeta inom Stratio-plattformen med Rocket- och Intelligence-modulerna.
- Använda PySpark i samband med datainsamling, transformering och analys.
- Använda loopar och villkorlig logik för att kontrollera datarutiner och funktioner för databehandling.
- Skapa och hantera användardefinierade funktioner (UDFs) för återanvändbara databehandlingsoperationer i PySpark.
Kursformat
- Interaktiv föreläsning och diskussion.
- Många övningar och praktik.
- Hands-on-implementering i en levande labbmiljö.
Kursanpassningsalternativ
- För att begära en anpassad utbildning för denna kurs, kontakta oss för att arrangera.
Introduktion till datavisualisering med Tidyverse och R
7 TimmarMålgrupp
Kursformat
Efter detta utbildning kommer deltagarna att kunna:
I denna instruktörsledda, liveutbildning lär sig deltagarna hur man manipulerar och visualiserar data med verktygen som ingår i Tidyverse.
Tidyverse är en samling flexibla R-paket för att rensa, bearbeta, modellera och visualisera data. Några av de paket som ingår är: ggplot2, dplyr, tidyr, readr, purrr och tibble.
- Nybörjare till R-språket
- Nybörjare till dataanalys och datavisualisering
- Delvis föreläsningar, delvis diskussioner, övningar och mycket praktisk övning
- Utföra dataanalys och skapa tilltalande visualiseringar
- Dra användbara slutsatser från olika datasets med provdata
- Filtrera, sortera och summera data för att svara på utforskande frågor
- Omvandla bearbetade data till informativa linjediagram, stapeldiagram, histogramm
- Importera och filtrera data från olika datakällor, inklusive Excel, CSV och SPSS-filer