Programming with Big Data in R Träningskurs
Big Data är en term som avser lösningar avsedda för lagring och bearbetning av stora datamängder. Dessa Big Data lösningar har utvecklats initialt av Go ogle och har utvecklats och inspirerat andra liknande projekt, av vilka många är tillgängliga som open source. R är ett populärt programmeringsspråk inom finansbranschen.
Kursplan
Introduktion till Programming Big Data med R (bpdR)
- Ställa in din miljö för att använda pbdR
- Omfattning och verktyg finns i pbdR
- Paket som vanligtvis används med Big Data tillsammans med pbdR
Message Passing Interface (MPI)
- Använder pbdR MPI 5
- Parallell bearbetning
- Punkt till punkt kommunikation
- Skicka matriser
- Summeringsmatriser
- Kollektiv kommunikation
- Summera matriser med Reducera
- Scatter / Samla
- Annan MPI-kommunikation
Distribuerade matriser
- Skapa en distribuerad diagonal matris
- SVD för en distribuerad matris
- Att bygga en distribuerad matris parallellt
Statistics Tillämpningar
- Monte Carlo integration
- Läser datamängder
- Läser om alla processer
- Sändning från en process
- Läser partitionerade data
- Distribuerad regression
- Distribuerad Bootstrap
Open Training Courses require 5+ participants.
Programming with Big Data in R Träningskurs - Booking
Programming with Big Data in R Träningskurs - Enquiry
Programming with Big Data in R - Consultancy Enquiry
Consultancy Enquiry
Vittnesmål (2)
The subject matter and the pace were perfect.
Tim - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada
Kurs - Programming with Big Data in R
Michael the trainer is very knowledgeable and skillful about the subject of Big Data and R. He is very flexible and quickly customize the training meeting clients' need. He is also very capable to solve technical and subject matter problems on the go. Fantastic and professional training!.
Xiaoyuan Geng - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada
Kurs - Programming with Big Data in R
Upcoming Courses
Relaterade Kurser
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 timmarDen här kursen är avsedd för utvecklare och datavetare som vill förstå och implementera AI i sina applikationer. Särskild uppmärksamhet ägnas åt dataanalys, distribuerad artificiell intelligens och behandling av naturligt språk.
Unified Batch and Stream Processing with Apache Beam
14 timmarApache Beam är en enhetlig programmeringsmodell med öppen källkod för att definiera och köra parallella databehandlingspipelines. Styrkan ligger i dess förmåga att köra både batch- och strömningspipelines, där körningen utförs av en av Beams stödda distribuerade bearbetningsserverdelar: Apache Apex, Apache Flink, Apache Spark och Google Cloud Dataflow. Apache Beam är användbart för ETL-uppgifter (Extract, Transform, and Load) som att flytta data mellan olika lagringsmedier och datakällor, omvandla data till ett mer önskvärt format och ladda data till ett nytt system.
I denna instruktörsledda, liveträning (på plats eller fjärrkontroll) kommer deltagarna att lära sig hur man implementerar Apache Beam SDK:er i en Java eller Python applikation som definierar en databehandlingspipeline för att dela upp en stor datamängd i mindre bitar för oberoende, parallell bearbetning.
I slutet av denna utbildning kommer deltagarna att kunna:
- Installera och konfigurera Apache Beam.
- Använd en enda programmeringsmodell för att utföra både batch- och strömbearbetning inifrån deras Java eller Python program.
- Kör pipelines i flera miljöer.
Kursens upplägg
- Delvis föreläsning, delvis diskussion, övningar och tung praktisk övning
Not
- Denna kurs kommer att finnas tillgänglig Scala i framtiden. Kontakta oss för att ordna.
Data Vault: Building a Scalable Data Warehouse
28 timmarI denna instruktörsledda, liveträning i Sverige kommer deltagarna att lära sig hur man bygger en Data Vault.
I slutet av denna utbildning kommer deltagarna att kunna:
- Förstå arkitektur- och designkoncepten bakom Data Vault 2.0 och dess interaktion med Big Data, NoSQL och AI.
- Använd datavalvstekniker för att möjliggöra granskning, spårning och inspektion av historiska data i ett informationslager.
- Utveckla en konsekvent och repeterbar ETL-process (Extract, Transform, Load).
- Bygg och distribuera mycket skalbara och repeterbara lager.
Apache Flink Fundamentals
28 timmarDenna instruktörsledda, live-utbildning i Sverige (online eller på plats) introducerar principerna och tillvägagångssätten bakom distribuerad dataström- och batchdatabehandling och vägleder deltagarna genom skapandet av en realtidsapplikation för dataströmning i Apache Flink.
I slutet av denna utbildning kommer deltagarna att kunna:
- Konfigurera en miljö för att utveckla program för dataanalys.
- Förstå hur Apache Flink:s grafbehandlingsbibliotek (Gelly) fungerar.
- Paketera, köra och övervaka Flink-baserade, feltoleranta dataströmningsprogram.
- Hantera olika arbetsbelastningar.
- Utför avancerad analys.
- Konfigurera ett Flink-kluster med flera noder.
- Mät och optimera prestanda.
- Integrera Flink med olika Big Data system.
- Jämför Flink-funktionerna med de i andra ramverk för bearbetning av stordata.
Introduction to Graph Computing
28 timmarI denna instruktörsledda, liveträning i Sverige kommer deltagarna att lära sig om teknikerbjudandena och implementeringsmetoderna för bearbetning av grafdata. Målet är att identifiera verkliga objekt, deras egenskaper och relationer, sedan modellera dessa relationer och bearbeta dem som data med hjälp av en Graph Computing (även känd som Graph Analytics) metod. Vi börjar med en bred översikt och begränsar oss till specifika verktyg när vi går igenom en serie fallstudier, praktiska övningar och live-distributioner.
I slutet av denna utbildning kommer deltagarna att kunna:
- Förstå hur diagramdata bevaras och gås igenom.
- Välj det bästa ramverket för en viss uppgift (från grafdatabaser till ramverk för batchbearbetning).
- Implementera Hadoop, Spark, GraphX och Pregel för att utföra grafberäkning på många datorer parallellt.
- Se verkliga big data-problem i form av grafer, processer och traverser.
Hortonworks Data Platform (HDP) for Administrators
21 timmarDen här instruktörsledda, liveutbildningen i Sverige (online eller på plats) introducerar Hortonworks Data Platform (HDP) och vägleder deltagarna genom distributionen av Spark + Hadoop-lösningen.
I slutet av denna utbildning kommer deltagarna att kunna:
- Använd Hortonworks för att på ett tillförlitligt sätt köra Hadoop i stor skala.
- Förena Hadoop:s säkerhets-, styrnings- och driftfunktioner med Sparks flexibla analysarbetsflöden.
- Använd Hortonworks för att undersöka, validera, certifiera och stödja var och en av komponenterna i ett Spark-projekt.
- Bearbeta olika typer av data, inklusive strukturerade, ostrukturerade, i rörelse och i vila.
Data Analysis with Hive/HiveQL
7 timmarDenna kurs behandlar hur man använder Hive SQL språk (AKA: Hive HQL, SQL på Hive , Hive QL) för personer som extraherar data från Hive
Impala for Business Intelligence
21 timmarCloudera Impala är en öppen källkod för massivt parallell bearbetning (MPP) SQL frågemotor för Apache Hadoop-kluster.
Impala gör det möjligt för användare att utfärda frågor med låg latens SQL till data som lagras i Hadoop Distributed File System och Apache Hbase utan att data flyttas eller transformeras.
Publik
Kursen riktar sig till analytiker och datavetare som utför analyser på data som lagras i Hadoop via Business Intelligence eller SQL verktyg.
Efter denna kurs kommer delegaterna att kunna
- Extrahera meningsfull information från Hadoop kluster med Impala.
- Skriv specifika program för att underlätta Business Intelligens på Impala SQL Dialekt.
- Felsök Impala.
Confluent KSQL
7 timmarDenna instruktörsledda, liveutbildning i Sverige (online eller på plats) riktar sig till utvecklare som vill implementera Apache Kafka strömbearbetning utan att skriva kod.
I slutet av denna utbildning kommer deltagarna att kunna:
- Installera och konfigurera Confluent KSQL.
- Konfigurera en pipeline för dataströmbearbetning med endast SQL kommandon (ingen Java eller Python kodning).
- Utför datafiltrering, transformationer, aggregeringar, kopplingar, fönster och sessionisering helt i SQL.
- Utforma och distribuera interaktiva, kontinuerliga frågor för strömmande ETL och realtidsanalys.
Apache NiFi for Administrators
21 timmarI denna instruktörsledda, liveträning i Sverige (på plats eller fjärrkontroll) kommer deltagarna att lära sig hur man distribuerar och hanterar Apache NiFi i en skarp labbmiljö.
I slutet av denna utbildning kommer deltagarna att kunna:
- Installera och konfigurera Apachi NiFi.
- Källa, transformera och hantera data från olika, distribuerade datakällor, inklusive databaser och stordatasjöar.
- Automatisera dataflöden.
- Aktivera strömningsanalys.
- Tillämpa olika metoder för datainmatning.
- Omvandla Big Data och till affärsinsikter.
Apache NiFi for Developers
7 timmarI denna instruktörsledda, liveträning i Sverige kommer deltagarna att lära sig grunderna i flödesbaserad programmering när de utvecklar ett antal demotillägg, komponenter och processorer med hjälp av Apache NiFi.
I slutet av denna utbildning kommer deltagarna att kunna:
- Förstå NiFi:s arkitektur och dataflödesbegrepp.
- Utveckla tillägg med NiFi och API:er från tredje part.
- Skräddarsy sin egen Apache Nifi-processor.
- Mata in och bearbeta realtidsdata från olika och ovanliga filformat och datakällor.
Python and Spark for Big Data (PySpark)
21 timmarI denna instruktörsledda, liveträning i Sverige kommer deltagarna att lära sig hur man använder Python och Spark tillsammans för att analysera big data medan de arbetar med praktiska övningar.
I slutet av denna utbildning kommer deltagarna att kunna:
- Lär dig hur du använder Spark med Python för att analysera Big Data.
- Arbeta med övningar som efterliknar verkliga fall.
- Använda olika verktyg och tekniker för analys av stora datamängder med hjälp av PySpark.
Spark Streaming with Python and Kafka
7 timmarDenna instruktörsledda, liveutbildning i Sverige (online eller på plats) riktar sig till dataingenjörer, datavetare och programmerare som vill använda Spark Streaming funktioner för att bearbeta och analysera realtidsdata.
I slutet av den här utbildningen kommer deltagarna att kunna använda Spark Streaming för att bearbeta livedataströmmar för användning i databaser, filsystem och live-instrumentpaneler.
Apache Spark MLlib
35 timmarMLlib är Sparks maskinlärningsbibliotek. Målet är att göra praktisk maskininlärning skalbar och enkel. Det består av vanliga inlärningsalgoritmer och verktyg, inklusive klassificering, regression, klustering, samarbetsfiltrering, dimensionalitetsminskning samt primitiv för optimering av lägre nivåer och API: er på högre nivå.
Den delar upp i två paket:
spark.mllib innehåller det ursprungliga API som är byggt ovanpå RDD: er.
spark.ml tillhandahåller API på högre nivå byggd ovanpå DataFrames för konstruktion av ML-rörledningar.
Publik
Kursen riktar sig till ingenjörer och utvecklare som vill använda ett inbyggt maskinbibliotek för Apache Spark
Introduction to Data Visualization with Tidyverse and R
7 timmarTidyverse är en samling mångsidiga R-paket för rengöring, bearbetning, modellering och visualisering av data. Några av de paket som ingår är: ggplot2, dplyr, tidyr, readr, purrr och tibble.
I denna instruktörsledda, liveträning, kommer deltagarna att lära sig att manipulera och visualisera data med hjälp av verktygen som ingår i Tidyverse .
I slutet av denna träning kommer deltagarna att kunna:
- Utför dataanalys och skapa tilltalande visualiseringar
- Dra användbara slutsatser från olika datamängder av provdata
- Filtrera, sortera och sammanfatta data för att besvara utforskande frågor
- Förvandla bearbetade data till informativa raddiagram, stapelldiagram, histogram
- Importera och filtrera data från olika datakällor, inklusive Excel , CSV- och SPSS-filer
Publik
- Nybörjare till R-språket
- Nybörjare till dataanalys och datavisualisering
Kursformat
- Delföreläsning, delvis diskussion, övningar och tung praktisk övning