Talend Big Data Integration Träningskurs
Talend Open Studio for Big Data är ett open source ETL-verktyg för bearbetning av stora datamängder. Det inkluderar en utvecklingsmiljö för att interagera med Big Data-källor och -mål, och köra jobb utan att behöva skriva kod.
Denna instruktörledd, live-träning (online eller på plats) är riktad till tekniska personer som önskar distribuera Talend Open Studio for Big Data för att förenkla processen med att läsa och bearbeta stora datamängder.
Vid slutet av denna utbildning kommer deltagarna att kunna:
- Installera och konfigurera Talend Open Studio for Big Data.
- Koppla upp sig med Big Data-system som Cloudera, HortonWorks, MapR, Amazon EMR och Apache.
- Förstå och konfigurera Open Studios komponenter och kopplingar för stora datamängder.
- Konfigurera parametrar för att generera MapReduce-kod automatiskt.
- Använda Open Studios dra-och-släpp-gränssnitt för att köra Hadoop-jobb.
- Prototypa stora datamängderpipelines.
- Automatisera stora datamängderintegreringsprojekt.
Kursformat
- Interaktiv föreläsning och diskussion.
- Många övningar och praktik.
- Praktisk implementation i en live-labbmiljö.
Kursanpassningsalternativ
- För att begära en anpassad utbildning för denna kurs, vänligen kontakta oss för att ordna.
Kursplan
Introduktion
Översikt över "Open Studio for Big Data"-funktioner och arkitektur
Inställning av Open Studio for Big Data
Navigering i gränssnittet
Förståelse för Big Data-komponenter och kopplingar
Anslutning till en Hadoop-kluster
Läsning och skrivning av data
Bearbetning av data med Hive och MapReduce
Analys av resultaten
Förbättring av stora datamängders kvalitet
Bygga en pipeline för stora datamängder
Hantering av användare, grupper, roller och projekt
Distribuera Open Studio till produktion
Övervakning av Open Studio
Felsökning
Sammanfattning och slutsats
Krav
- En förståelse för relationella databaser
- En förståelse för datalager
- En förståelse för ETL (Extract, Transform, Load)-begrepp
Målgrupp
- Business intelligence-professionals
- Databasprofessionals
- SQL-utvecklare
- ETL-utvecklare
- Lösteknikerarkitekter
- Datalagerarkitekter
- Datalagerprofessionals
- Systemadministratörer och integratörer
Öppna Utbildningskurser kräver 5+ deltagare.
Talend Big Data Integration Träningskurs - Bokning
Talend Big Data Integration Träningskurs - Fråga
Talend Big Data Integration - Konsultfråga
Vittnesmål (1)
Praktiska övningar. Klassen hade egentligen sett ut att vara fem dagar lång, men de tre dagarna hjälpte till att klargöra många frågor som jag hade från att arbeta med NiFi.
James - BHG Financial
Kurs - Apache NiFi for Administrators
Maskintolkat
Kommande Kurser
Relaterade Kurser
Administratörsutbildning för Apache Hadoop
35 TimmarMålgrupp:
Kurset riktar sig till IT-specialister som söker en lösning för att lagra och bearbeta stora datamängder i en distribuerad systemmiljö
Förkunskap:
Djup kunskap om Apache Zookeeper-administration.
Big Data Analytics med Gogogle, Colab och Apache Spark
14 TimmarDenna instruktörsledda, liveutbildning på plats (online eller på plats) riktar sig till datavetare och ingenjörer på mellannivå som vill använda Google Colab och Apache Spark för bearbetning och analys av stora datamängder.
Efter avslutad utbildning kommer deltagarna att kunna:
- Sätt upp en miljö för stora datamängder med hjälp av Google Colab och Spark.
- Bearbeta och analysera stora datamängder effektivt med Apache Spark.
- Visualisera stora datamängder i en samarbetsmiljö.
- Integrera Apache Spark med molnbaserade verktyg.
Big Data Analytics in Health
21 TimmarBig data analytics innebär processen med att granska stora mängder varierade datamängder för att upptäcka korrelationer, dolda mönster och andra användbara insikter.
Hälsosektorn har enorma mängder komplexa och heterogena medicinska och kliniska data. Att tillämpa big data analytics på hälsovårdsdata erbjuder stort potential för att härleda insikter som kan förbättra leveransen av hälso- och sjukvård. Men storleken på dessa datamängder utgör stora utmaningar i analysen och praktiska tillämpningar i en klinisk miljö.
I detta instruktörsledda, live-träning (distant), kommer deltagarna att lära sig hur man utför big data analytics inom hälsosektorn genom att gå igenom en serie praktiska övningar i ett laboratoriemiljö.
När kurserna är avslutade kommer deltagarna kunna:
- Installera och konfigurera big data analytics-verktyg som Hadoop MapReduce och Spark
- Förstå egenskaperna hos medicinska data
- Tillämpa big data-tekniker för att hantera medicinska data
- Studera big data-system och algoritmer i sammanhanget av hälsoapplikationer
Målgrupp
- Utvecklare
- Data vetenskapsmän
Kursformat
- Delen föreläsning, delen diskussion, övningar och mycket praktisk handledning.
Notering
- För att begära en anpassad utbildning för denna kurs, vänligen kontakta oss för att ordna det.
Hadoop för administratörer
21 TimmarApache Hadoop är det mest populära ramverket för bearbetning av Big Data på klustren av servrar. På denna tre (eventuellt fyra) dagars kurs lär deltagarna sig om affärsfördelar och användningsområden för Hadoop och dess ekosystem, hur man planerar klusterdistribution och tillväxt, hur man installerar, underhåller, övervakar, felsöker och optimerar Hadoop. De kommer också att öva på massbelastning av klusterdata, bekanta sig med olika Hadoop-distributioner och öva på installation och hantering av Hadoop-ekosystemverktyg. Kursen avslutas med en diskussion om hur man säkrar klustret med Kerberos.
“…Materialet var mycket väl förberett och täckte grundligt. Laboratoriet var mycket användbart och väl organiserat”
— Andrew Nguyen, Principal Integration DW Engineer, Amazon Web Services
Målgrupp
Hadoop-administratörer
Format
Föreläsningar och praktiska laborationer, ungefär 60% föreläsningar och 40% laborationer.
Hadoop för utvecklare (4 dagar)
28 TimmarApache Hadoop är den mest populära ramverket för att bearbeta stora datamängder på servrar. Denna kurs kommer att introducera en utvecklare till olika komponenter i Hadoop-ekosystemet (HDFS, MapReduce, Pig, Hive och HBase).
Avancerad Hadoop för utvecklare
21 TimmarApache Hadoop är en av de mest populära ramverken för bearbetning av stora datamängder på servrarkluster. Denna kurs går djupet in i datahantering i HDFS, avancerad Pig, Hive och HBase. Dessa avancerade programmeringstekniker kommer att vara till nytta för erfarna Hadoop-utvecklare.
Målgrupp: utvecklare
Varaktighet: tre dagar
Format: föreläsningar (50%) och praktiska övningar (50%).
Hadoop Administration på MapR
28 TimmarMålgrupp:
Den här kursen syftar till att förklara big data/hadoop-teknik och visa att den inte är svår att förstå.
Hadoop och Spark för Administratörer
35 TimmarDenna instruktörssvärd, liveutbildning i Sverige (online eller på plats) riktas till systemadministratörer som vill lära sig hur man sätter upp, distribuerar och hanterar Hadoop-kluster inom deras organisation.
Till slut av denna utbildning kommer deltagarna att kunna:
- Installera och konfigurera Apache Hadoop.
- Förstå de fyra huvudkomponenterna i Hadoop-ekosystemet: HDFS, MapReduce, YARN och Hadoop Common.
- Använda Hadoop Distributed File System (HDFS) för att skala ett kluster till hundra eller tusen noder.
- Ställ in HDFS som lagringsslänk för lokala Spark-distributioner.
- Ställ in Spark för att komma åt alternativa lagringslösningar såsom Amazon S3 och NoSQL-databasystem som Redis, Elasticsearch, Couchbase, Aerospike etc.
- Framföra administrativa uppgifter som tilldelning, hantering, övervakning och säkring av ett Apache Hadoop-kluster.
HBase för Utvecklare
21 TimmarDenna kurs introducerar HBase – en NoSQL-databas ovanpå Hadoop. Kursen är avsedd för utvecklare som kommer att använda HBase för att utveckla applikationer, och administratörer som kommer att hantera HBase-kluster.
Vi leder en utvecklare genom HBase-arkitektur, datamodellering och applikationsutveckling med HBase. Kursen diskuterar också användningen av MapReduce med HBase, samt några administrativa ämnen relaterade till prestandaoptimering. Kursen är mycket praktisk med många laborationer.
Varaktighet: 3 dagar
Målgrupp: Utvecklare & Administratörer
Apache NiFi för Administratörer
21 TimmarApache NiFi är ett öppen-källkodat, flödesbaserat plattform för dataintegrering och händelsebehandling. Det möjliggör automatiserad, realtidsdataflöde, transformation och systemmedling mellan olika system, med en webbaserad användargränssnitts-UI och detaljerad kontroll.
Denna instruktörledd träningskurs (platsutbildning eller fjärrutbildning) riktar sig till mellannivåadministratörer och ingenjörer som vill distribuera, hantera, säkra och optimera NiFi-dataflöden i produktionsmiljöer.
Till slutet av denna utbildning kommer deltagarna att kunna:
- Installera, konfigurera och underhålla Apache NiFi-kluster.
- Utforma och hantera dataflöden från olika källor och mottagare.
- Implementera flödesautomatisering, routning och transformering.
- Optimera prestanda, övervaka operationer och felsöka problem.
Kursformat
- Interaktiv föreläsning med diskussion om verkliga arkitekturer.
- Praktiska övningar: bygga, distribuera och hantera flöden.
- Situationsspecifika uppgifter i ett live-labbmiljö.
Kursanpassningsalternativ
- För att begära en anpassad utbildning för denna kurs, vänligen kontakta oss för att ordna.
Apache NiFi för Utvecklare
7 TimmarI denna instruktörsledda, liveträning i Sverige kommer deltagarna att lära sig grunderna i flödesbaserad programmering när de utvecklar ett antal demotillägg, komponenter och processorer med hjälp av Apache NiFi.
I slutet av denna utbildning kommer deltagarna att kunna:
- Förstå NiFi:s arkitektur och dataflödesbegrepp.
- Utveckla tillägg med NiFi och API:er från tredje part.
- Skräddarsy sin egen Apache Nifi-processor.
- Mata in och bearbeta realtidsdata från olika och ovanliga filformat och datakällor.
PySpark och Maskininlärning
21 TimmarDenna utbildning ger en praktisk introduktion till att bygga skalbara dataprocesserings- och maskininlärningsflöden med hjälp av PySpark. Deltagarna lär sig hur Apache Spark fungerar inom moderna Big Data-miljöer och hur man effektivt bearbetar stora datamängder med hjälp av principer för distribuerad beräkning.
Python och Spark för Big Data (PySpark)
21 TimmarI denna instruktörsledda, liveträning i Sverige kommer deltagarna att lära sig hur man använder Python och Spark tillsammans för att analysera big data medan de arbetar med praktiska övningar.
I slutet av denna utbildning kommer deltagarna att kunna:
- Lär dig hur du använder Spark med Python för att analysera Big Data.
- Arbeta med övningar som efterliknar verkliga fall.
- Använda olika verktyg och tekniker för analys av stora datamängder med hjälp av PySpark.
Python, Spark och Hadoop för Big Data
21 TimmarDen här instruktörsledda, liveutbildningen i Sverige (online eller på plats) riktar sig till utvecklare som vill använda och integrera Spark, Hadoop och Python för att bearbeta, analysera och transformera stora och komplexa datamängder.
I slutet av denna utbildning kommer deltagarna att kunna:
- Konfigurera den miljö som krävs för att börja bearbeta stordata med Spark, Hadoop och Python.
- Förstå funktionerna, kärnkomponenterna och arkitekturen i Spark och Hadoop.
- Lär dig hur du integrerar Spark, Hadoop och Python för bearbetning av stordata.
- Utforska verktygen i Spark-ekosystemet (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka och Flume).
- Skapa rekommendationssystem för samarbetsfiltrering som liknar Netflix, YouTube, Amazon, Spotify och Google.
- Använd Apache Mahout för att skala maskininlärningsalgoritmer.
Stratio: Rocket och Intelligence Modules med PySpark
14 TimmarStratio är en datacentrisk plattform som integrerar stora data, AI och styrning i en enda lösning. Dess Rocket- och Intelligence-moduler möjliggör snabb datautforskning, transformering och avancerad analys i företagsmiljöer.
Denna instruktörsledda, levande utbildning (online eller på plats) riktar sig till mellannivådatafagliga personer som vill använda Rocket- och Intelligence-modulerna i Stratio effektivt med PySpark, med fokus på loopstrukturer, användardefinierade funktioner och avancerad datalogi.
Vid slutet av denna utbildning kommer deltagarna att kunna:
- Navigera och arbeta inom Stratio-plattformen med Rocket- och Intelligence-modulerna.
- Använda PySpark i samband med datainsamling, transformering och analys.
- Använda loopar och villkorlig logik för att kontrollera datarutiner och funktioner för databehandling.
- Skapa och hantera användardefinierade funktioner (UDFs) för återanvändbara databehandlingsoperationer i PySpark.
Kursformat
- Interaktiv föreläsning och diskussion.
- Många övningar och praktik.
- Hands-on-implementering i en levande labbmiljö.
Kursanpassningsalternativ
- För att begära en anpassad utbildning för denna kurs, kontakta oss för att arrangera.