Programming with Big Data in R Träningskurs
Big Data är en term som avser lösningar avsedda för lagring och bearbetning av stora datamängder. Dessa Big Data lösningar har utvecklats initialt av Go ogle och har utvecklats och inspirerat andra liknande projekt, av vilka många är tillgängliga som open source. R är ett populärt programmeringsspråk inom finansbranschen.
Kursplan
Introduktion till Programming Big Data med R (bpdR)
- Ställa in din miljö för att använda pbdR
- Omfattning och verktyg finns i pbdR
- Paket som vanligtvis används med Big Data tillsammans med pbdR
Message Passing Interface (MPI)
- Använder pbdR MPI 5
- Parallell bearbetning
- Punkt till punkt kommunikation
- Skicka matriser
- Summeringsmatriser
- Kollektiv kommunikation
- Summera matriser med Reducera
- Scatter / Samla
- Annan MPI-kommunikation
Distribuerade matriser
- Skapa en distribuerad diagonal matris
- SVD för en distribuerad matris
- Att bygga en distribuerad matris parallellt
Statistics Tillämpningar
- Monte Carlo integration
- Läser datamängder
- Läser om alla processer
- Sändning från en process
- Läser partitionerade data
- Distribuerad regression
- Distribuerad Bootstrap
Open Training Courses require 5+ participants.
Programming with Big Data in R Träningskurs - Booking
Programming with Big Data in R Träningskurs - Enquiry
Programming with Big Data in R - Consultancy Enquiry
Vittnesmål (2)
The subject matter and the pace were perfect.
Tim - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada
Kurs - Programming with Big Data in R
Michael the trainer is very knowledgeable and skillful about the subject of Big Data and R. He is very flexible and quickly customize the training meeting clients' need. He is also very capable to solve technical and subject matter problems on the go. Fantastic and professional training!.
Xiaoyuan Geng - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada
Kurs - Programming with Big Data in R
Upcoming Courses
Relaterade Kurser
Introduction to Data Visualization with Tidyverse and R
7 timmarTidyverse är en samling mångsidiga R-paket för rengöring, bearbetning, modellering och visualisering av data. Några av de paket som ingår är: ggplot2, dplyr, tidyr, readr, purrr och tibble.
I denna instruktörsledda, liveträning, kommer deltagarna att lära sig att manipulera och visualisera data med hjälp av verktygen som ingår i Tidyverse .
I slutet av denna träning kommer deltagarna att kunna:
- Utför dataanalys och skapa tilltalande visualiseringar
- Dra användbara slutsatser från olika datamängder av provdata
- Filtrera, sortera och sammanfatta data för att besvara utforskande frågor
- Förvandla bearbetade data till informativa raddiagram, stapelldiagram, histogram
- Importera och filtrera data från olika datakällor, inklusive Excel , CSV- och SPSS-filer
Publik
- Nybörjare till R-språket
- Nybörjare till dataanalys och datavisualisering
Kursformat
- Delföreläsning, delvis diskussion, övningar och tung praktisk övning
Data Vault: Building a Scalable Data Warehouse
28 timmarI denna instruktörsledda, liveutbildning i Sverige kommer deltagarna att lära sig hur man bygger en Data Vault.
I slutet av denna utbildning kommer deltagarna att kunna:
- Förstå arkitekturen och designkoncepten bakom Data Vault 2.0, och dess interaktion med Big Data, NoSQL och AI.
- Använd datavalvtekniker för att möjliggöra granskning, spårning och inspektion av historiska data i ett datalager.
- Utveckla en konsekvent och repeterbar ETL-process (extrahera, transformera, ladda).
- Bygg och distribuera mycket skalbara och repeterbara lager.
Spark Streaming with Python and Kafka
7 timmarDenna instruktörsledda, liveutbildning i Sverige (online eller på plats) riktar sig till dataingenjörer, datavetare och programmerare som vill använda Spark Streaming funktioner för att bearbeta och analysera realtidsdata.
I slutet av denna utbildning kommer deltagarna att kunna använda Spark Streaming för att bearbeta livedataströmmar för användning i databaser, filsystem och live-instrumentpaneler.
Confluent KSQL
7 timmarDenna instruktörsledda, liveutbildning i Sverige (online eller på plats) riktar sig till utvecklare som vill implementera Apache Kafka strömbehandling utan att skriva kod.
I slutet av denna utbildning kommer deltagarna att kunna:
- Installera och konfigurera Confluent KSQL.
- Konfigurera en pipeline för strömbehandling med endast SQL-kommandon (ingen Java- eller Python-kodning).
- Utför datafiltrering, transformationer, aggregering, sammanfogningar, fönster och sessionsisering helt och hållet i SQL.
- Designa och distribuera interaktiva, kontinuerliga frågor för streaming av ETL och realtidsanalys.
Apache Ignite for Developers
14 timmarDen här instruktörsledda, liveutbildningen i Sverige (online eller på plats) riktar sig till utvecklare som vill lära sig principerna bakom beständig och ren minneslagring när de går igenom skapandet av ett exempel på in-memory computing-projekt.
I slutet av denna utbildning kommer deltagarna att kunna:
- Använd Ignite för in-memory, on-disk persistens samt en rent distribuerad in-memory databas. Uppnå uthållighet utan att synkronisera data tillbaka till en relationsdatabas. Använd Ignite för att utföra SQL och fördelade sammanfogningar. Förbättra prestandan genom att flytta data närmare CPU:n, använda RAM som lagring. Sprid datamängder över ett kluster för att uppnå horisontell skalbarhet. Integrera Ignite med RDBMS, NoSQL, Hadoop och maskininlärningsprocessorer.
Unified Batch and Stream Processing with Apache Beam
14 timmarApache Beam är en enhetlig programmeringsmodell med öppen källkod för att definiera och utföra parallella pipelines för databehandling. Dess kraft ligger i dess förmåga att köra både batch- och streamingpipelines, där exekveringen utförs av en av Beams stödda distribuerade bearbetningsbackends: Apache Apex, Apache Flink, Apache Spark och Google Cloud Dataflow. Apache Beam är användbar för ETL-uppgifter (Extrahera, Transformera och Ladda) som att flytta data mellan olika lagringsmedier och datakällor, omvandla data till ett mer önskvärt format och ladda data till ett nytt system.
I denna instruktörsledda, live-utbildning (på plats eller på distans) kommer deltagarna att lära sig hur man implementerar Apache Beam SDK:er i en Java- eller Python-applikation som definierar en databehandlingspipeline för att bryta ner en stor datamängd i mindre bitar för oberoende, parallell bearbetning.
I slutet av denna utbildning kommer deltagarna att kunna:
- Installera och konfigurera Apache Beam. Använd en enda programmeringsmodell för att utföra både batch- och strömbehandling från deras Java- eller Python-applikation. Utför pipelines över flera miljöer.
Kursens format
- Delföreläsning, deldiskussion, övningar och tung praktisk praktik
Notera
- Den här kursen kommer att finnas tillgänglig Scala i framtiden. Kontakta oss för att ordna.
Apache Apex: Processing Big Data-in-Motion
21 timmarApache Apex är en YARN-inbyggd plattform som förenar ström- och batchbehandling. Den bearbetar stor data-i-rörelse på ett sätt som är skalbar, performant, feltolerant, tillståndsfull, säker, distribuerad och lättanvändbar.
Den här instruktörsledda, liveträningen introducerar Apache Apex enhetliga strömbearbetningsarkitektur och leder deltagarna genom skapandet av en distribuerad applikation med Apex på Hadoop .
I slutet av denna träning kommer deltagarna att kunna:
- Förstå dataledningens rörledningskoncept som anslutningar för källor och sänkor, vanliga datatransformationer, etc.
- Bygg, skala och optimera en Apex-applikation
- Bearbeta dataströmmar i realtid pålitligt och med minimal latens
- Använd Apex Core och Apex Malhar-biblioteket för att möjliggöra snabb applikationsutveckling
- Använd Apex API för att skriva och återanvända befintlig Java kod
- Integrera Apex i andra applikationer som en processmotor
- Ställa in, testa och skala Apex-applikationer
Kursformat
- Interaktiv föreläsning och diskussion.
- Massor av övningar och träning.
- Praktisk implementering i en levande lab-miljö.
Alternativ för kursanpassning
- För att begära en anpassad utbildning för denna kurs, vänligen kontakta oss för att ordna.
Apache Storm
28 timmarApache Storm är en distribuerad, realtid beräkningsmotor som används för att möjliggöra realtid business intelligence. Det gör det genom att tillåta applikationer att på ett tillförlitligt sätt behandla obegränsade dataflöden (t.ex. och strömbearbetning).
"Storm är för realtid bearbetning vad Hadoop är för batch bearbetning!"
I denna instruktörledda live-träning lär deltagarna hur man installerar och konfigurerar Apache Storm, sedan utvecklar och implementerar en Apache Storm applikation för bearbetning av stora data i realtid.
Några av de ämnen som ingår i denna utbildning inkluderar:
- Apache Storm i samband med Hadoop
- Arbeta med obegränsade data
- Kontinuerlig beräkning
- Realtidsanalys
- Distribuerad RPC och ETL-behandling
Be om denna kurs nu!
Publiken
- Programvara och ETL utvecklare
- Mainframe professionella
- Data forskare
- Big data analytiker
- [ 0 ] Professionella
Format av kursen
- Del föreläsning, del diskussion, övningar och tung praxis
Apache NiFi for Administrators
21 timmarI denna instruktörsledda, liveutbildning i Sverige (på plats eller på distans) kommer deltagarna att lära sig hur man distribuerar och hanterar Apache NiFi i en levande labbmiljö.
I slutet av denna utbildning kommer deltagarna att kunna:
- Installera och konfigurera Apachi NiFi.
- Källa, transformera och hantera data från olika, distribuerade datakällor, inklusive databaser och stora datasjöar.
- Automatisera dataflöden.
- Aktivera strömningsanalys.
- Tillämpa olika metoder för dataintag.
- Förvandla Big Data och till affärsinsikter.
Apache NiFi for Developers
7 timmarI denna instruktörsledda, liveutbildning i Sverige kommer deltagarna att lära sig grunderna i flödesbaserad programmering när de utvecklar ett antal demotillägg, komponenter och processorer med Apache NiFi.
I slutet av denna utbildning kommer deltagarna att kunna:
- Förstå NiFis arkitektur och dataflödeskoncept.
- Utveckla tillägg med hjälp av NiFi och tredje parts API:er.
- Skräddarsytt utveckla sin egen Apache Nifi-processor.
- Ta in och bearbeta realtidsdata från olika och ovanliga filformat och datakällor.
Apache Flink Fundamentals
28 timmarDenna instruktörsledda, liveutbildning i Sverige (online eller på plats) introducerar principerna och tillvägagångssätten bakom distribuerad ström- och batchdatabehandling, och leder deltagarna genom skapandet av en dataströmningsapplikation i realtid i Apache Flink.
I slutet av denna utbildning kommer deltagarna att kunna:
- Skapa en miljö för att utveckla dataanalysapplikationer. Förstå hur Apache Flinks grafbehandlingsbibliotek (Gelly) fungerar. Paketera, kör och övervaka Flink-baserade, feltoleranta dataströmningsapplikationer. Hantera olika arbetsbelastningar. Utför avancerad analys. Konfigurera ett Flink-kluster med flera noder. Mät och optimera prestanda. Integrera Flink med olika Big Data system. Jämför Flink-kapaciteten med andra ramverk för big data-bearbetning.
Python and Spark for Big Data (PySpark)
21 timmarI denna instruktörsledda, liveutbildning i Sverige kommer deltagarna att lära sig hur man använder Python och Spark tillsammans för att analysera big data medan de arbetar med praktiska övningar.
I slutet av denna utbildning kommer deltagarna att kunna:
- Lär dig hur du använder Spark med Python för att analysera Big Data.
- Arbeta med övningar som efterliknar verkliga fall.
- Använd olika verktyg och tekniker för big data-analys med PySpark.
Introduction to Graph Computing
28 timmarI denna instruktörsledda, liveutbildning i Sverige kommer deltagarna att lära sig om teknikerbjudandena och implementeringsmetoder för bearbetning av grafdata. Syftet är att identifiera verkliga objekt, deras egenskaper och relationer, sedan modellera dessa relationer och bearbeta dem som data med en Graph Computing (även känd som Graph Analytics) tillvägagångssätt. Vi börjar med en bred översikt och begränsar oss till specifika verktyg när vi går igenom en serie fallstudier, praktiska övningar och livedistributioner.
I slutet av denna utbildning kommer deltagarna att kunna:
- Förstå hur grafdata bevaras och korsas.
- Välj det bästa ramverket för en given uppgift (från grafdatabaser till ramverk för batchbearbetning.)
- Implementera Hadoop, Spark, GraphX och Pregel för att utföra grafberäkning över många maskiner parallellt.
- Se verkliga big data-problem i form av grafer, processer och övergångar.
Apache Spark MLlib
35 timmarMLlib är Sparks maskinlärningsbibliotek. Målet är att göra praktisk maskininlärning skalbar och enkel. Det består av vanliga inlärningsalgoritmer och verktyg, inklusive klassificering, regression, klustering, samarbetsfiltrering, dimensionalitetsminskning samt primitiv för optimering av lägre nivåer och API: er på högre nivå.
Den delar upp i två paket:
spark.mllib innehåller det ursprungliga API som är byggt ovanpå RDD: er.
spark.ml tillhandahåller API på högre nivå byggd ovanpå DataFrames för konstruktion av ML-rörledningar.
Publik
Kursen riktar sig till ingenjörer och utvecklare som vill använda ett inbyggt maskinbibliotek för Apache Spark
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 timmarDen här kursen är avsedd för utvecklare och datavetare som vill förstå och implementera AI i sina applikationer. Särskild uppmärksamhet ägnas åt dataanalys, distribuerad artificiell intelligens och naturlig språkbehandling.