Dataströmning och realtidsdatahantering Träningskurs
Kursöversikt
Denna kurs ger en praktisk och strukturerad introduktion till att bygga system för realtidsdataströmning. Den täcker grundläggande koncept, arkitekturmodeller och branschverksamheter som används för att behandla kontinuerlig data i stor skala. Deltagarna lär sig hur man designar, implementerar och optimerar dataströmningspipeline med moderna ramverk. Kursen går från grundläggande idéer till praktiska tillämpningar, vilket gör att deltagarna kan bygga produktionsklara lösningar för realtidsdata med självförtroende.
Format för utbildning
• Instruktörsledda sessioner med vägledande förklaringar
• Genomgång av koncept med verkliga exempel
• Praktiska demonstrationer och programmeringsövningar
• Progressiva labbar som är kopplade till dagens teman
• Interaktiva diskussioner och frågor och svar
Kursmål
• Förstå realtidsdataströmning och systemarkitektur
• Skilja mellan batch- och strömningsmodeller för databehandling
• Designa skalbara och felresistenta strömningspipeline
• Arbeta med distribuerade strömningsverktyg och ramverk
• Tillämpa händelsetidsbehandling, fönsterteknik och tillståndsbehandling
• Bygg och optimera realtidsdatalösningar för affärsbehov
Kursplan
Kursmål dag 1
• Introduktion till dataströmning
• Grundläggande om batch- och realtidsbehandling
• Grundläggande om händelsedrevet arkitektur
• Vanliga användningsområden inom branschen
• Översikt över strömningsökossystemet
Dag 2
• Arkitekturdesign för strömningslösningar
• Grundläggande om distribuerade meddelandesystem
• Producenter och konsumenter
• Teman, partitioner och dataflöden
• Inmatningsstrategier för data
Dag 3
• Koncept och ramverk för strömningsbehandling
• Händelsetid vs bearbetningstid
• Fönsterteknik och användningsområden
• Tillståndsbehandling av dataströmmar
• Grundläggande om felresistens och kontrollering
Dag 4
• Datatransformation i dataströmningspipeline
• ETL och ELT i realtidsystem
• Schemahantering och utveckling
• Strömkoppling och berikning
• Introduktion till molnbaserade strömningslösningar
Dag 5
• Övervakning och insyn i strömningslösningar
• Grundläggande om säkerhet och åtkomstkontroll
• Prestandaoptimering
• Genomgång av end-to-end design
• Verkliga användningsfall som bedrägeridetektering och IoT-bearbetning
Öppna Utbildningskurser kräver 5+ deltagare.
Dataströmning och realtidsdatahantering Träningskurs - Bokning
Dataströmning och realtidsdatahantering Träningskurs - Fråga
Dataströmning och realtidsdatahantering - Konsultfråga
Vittnesmål (1)
Praktiska övningar. Klassen hade egentligen sett ut att vara fem dagar lång, men de tre dagarna hjälpte till att klargöra många frågor som jag hade från att arbeta med NiFi.
James - BHG Financial
Kurs - Apache NiFi for Administrators
Maskintolkat
Kommande Kurser
Relaterade Kurser
Administratörsutbildning för Apache Hadoop
35 TimmarMålgrupp:
Kurset riktar sig till IT-specialister som söker en lösning för att lagra och bearbeta stora datamängder i en distribuerad systemmiljö
Förkunskap:
Djup kunskap om Apache Zookeeper-administration.
Big Data Analytics med Gogogle, Colab och Apache Spark
14 TimmarDenna instruktörsledda, liveutbildning på plats (online eller på plats) riktar sig till datavetare och ingenjörer på mellannivå som vill använda Google Colab och Apache Spark för bearbetning och analys av stora datamängder.
Efter avslutad utbildning kommer deltagarna att kunna:
- Sätt upp en miljö för stora datamängder med hjälp av Google Colab och Spark.
- Bearbeta och analysera stora datamängder effektivt med Apache Spark.
- Visualisera stora datamängder i en samarbetsmiljö.
- Integrera Apache Spark med molnbaserade verktyg.
Big Data Analytics in Health
21 TimmarBig data analytics innebär processen med att granska stora mängder varierade datamängder för att upptäcka korrelationer, dolda mönster och andra användbara insikter.
Hälsosektorn har enorma mängder komplexa och heterogena medicinska och kliniska data. Att tillämpa big data analytics på hälsovårdsdata erbjuder stort potential för att härleda insikter som kan förbättra leveransen av hälso- och sjukvård. Men storleken på dessa datamängder utgör stora utmaningar i analysen och praktiska tillämpningar i en klinisk miljö.
I detta instruktörsledda, live-träning (distant), kommer deltagarna att lära sig hur man utför big data analytics inom hälsosektorn genom att gå igenom en serie praktiska övningar i ett laboratoriemiljö.
När kurserna är avslutade kommer deltagarna kunna:
- Installera och konfigurera big data analytics-verktyg som Hadoop MapReduce och Spark
- Förstå egenskaperna hos medicinska data
- Tillämpa big data-tekniker för att hantera medicinska data
- Studera big data-system och algoritmer i sammanhanget av hälsoapplikationer
Målgrupp
- Utvecklare
- Data vetenskapsmän
Kursformat
- Delen föreläsning, delen diskussion, övningar och mycket praktisk handledning.
Notering
- För att begära en anpassad utbildning för denna kurs, vänligen kontakta oss för att ordna det.
Hadoop för administratörer
21 TimmarApache Hadoop är det mest populära ramverket för bearbetning av Big Data på klustren av servrar. På denna tre (eventuellt fyra) dagars kurs lär deltagarna sig om affärsfördelar och användningsområden för Hadoop och dess ekosystem, hur man planerar klusterdistribution och tillväxt, hur man installerar, underhåller, övervakar, felsöker och optimerar Hadoop. De kommer också att öva på massbelastning av klusterdata, bekanta sig med olika Hadoop-distributioner och öva på installation och hantering av Hadoop-ekosystemverktyg. Kursen avslutas med en diskussion om hur man säkrar klustret med Kerberos.
“…Materialet var mycket väl förberett och täckte grundligt. Laboratoriet var mycket användbart och väl organiserat”
— Andrew Nguyen, Principal Integration DW Engineer, Amazon Web Services
Målgrupp
Hadoop-administratörer
Format
Föreläsningar och praktiska laborationer, ungefär 60% föreläsningar och 40% laborationer.
Hadoop för utvecklare (4 dagar)
28 TimmarApache Hadoop är den mest populära ramverket för att bearbeta stora datamängder på servrar. Denna kurs kommer att introducera en utvecklare till olika komponenter i Hadoop-ekosystemet (HDFS, MapReduce, Pig, Hive och HBase).
Avancerad Hadoop för utvecklare
21 TimmarApache Hadoop är en av de mest populära ramverken för bearbetning av stora datamängder på servrarkluster. Denna kurs går djupet in i datahantering i HDFS, avancerad Pig, Hive och HBase. Dessa avancerade programmeringstekniker kommer att vara till nytta för erfarna Hadoop-utvecklare.
Målgrupp: utvecklare
Varaktighet: tre dagar
Format: föreläsningar (50%) och praktiska övningar (50%).
Hadoop Administration på MapR
28 TimmarMålgrupp:
Den här kursen syftar till att förklara big data/hadoop-teknik och visa att den inte är svår att förstå.
Hadoop och Spark för Administratörer
35 TimmarDenna instruktörssvärd, liveutbildning i Sverige (online eller på plats) riktas till systemadministratörer som vill lära sig hur man sätter upp, distribuerar och hanterar Hadoop-kluster inom deras organisation.
Till slut av denna utbildning kommer deltagarna att kunna:
- Installera och konfigurera Apache Hadoop.
- Förstå de fyra huvudkomponenterna i Hadoop-ekosystemet: HDFS, MapReduce, YARN och Hadoop Common.
- Använda Hadoop Distributed File System (HDFS) för att skala ett kluster till hundra eller tusen noder.
- Ställ in HDFS som lagringsslänk för lokala Spark-distributioner.
- Ställ in Spark för att komma åt alternativa lagringslösningar såsom Amazon S3 och NoSQL-databasystem som Redis, Elasticsearch, Couchbase, Aerospike etc.
- Framföra administrativa uppgifter som tilldelning, hantering, övervakning och säkring av ett Apache Hadoop-kluster.
HBase för Utvecklare
21 TimmarDenna kurs introducerar HBase – en NoSQL-databas ovanpå Hadoop. Kursen är avsedd för utvecklare som kommer att använda HBase för att utveckla applikationer, och administratörer som kommer att hantera HBase-kluster.
Vi leder en utvecklare genom HBase-arkitektur, datamodellering och applikationsutveckling med HBase. Kursen diskuterar också användningen av MapReduce med HBase, samt några administrativa ämnen relaterade till prestandaoptimering. Kursen är mycket praktisk med många laborationer.
Varaktighet: 3 dagar
Målgrupp: Utvecklare & Administratörer
Apache NiFi för Administratörer
21 TimmarApache NiFi är ett öppen-källkodat, flödesbaserat plattform för dataintegrering och händelsebehandling. Det möjliggör automatiserad, realtidsdataflöde, transformation och systemmedling mellan olika system, med en webbaserad användargränssnitts-UI och detaljerad kontroll.
Denna instruktörledd träningskurs (platsutbildning eller fjärrutbildning) riktar sig till mellannivåadministratörer och ingenjörer som vill distribuera, hantera, säkra och optimera NiFi-dataflöden i produktionsmiljöer.
Till slutet av denna utbildning kommer deltagarna att kunna:
- Installera, konfigurera och underhålla Apache NiFi-kluster.
- Utforma och hantera dataflöden från olika källor och mottagare.
- Implementera flödesautomatisering, routning och transformering.
- Optimera prestanda, övervaka operationer och felsöka problem.
Kursformat
- Interaktiv föreläsning med diskussion om verkliga arkitekturer.
- Praktiska övningar: bygga, distribuera och hantera flöden.
- Situationsspecifika uppgifter i ett live-labbmiljö.
Kursanpassningsalternativ
- För att begära en anpassad utbildning för denna kurs, vänligen kontakta oss för att ordna.
Apache NiFi för Utvecklare
7 TimmarI denna instruktörsledda, liveträning i Sverige kommer deltagarna att lära sig grunderna i flödesbaserad programmering när de utvecklar ett antal demotillägg, komponenter och processorer med hjälp av Apache NiFi.
I slutet av denna utbildning kommer deltagarna att kunna:
- Förstå NiFi:s arkitektur och dataflödesbegrepp.
- Utveckla tillägg med NiFi och API:er från tredje part.
- Skräddarsy sin egen Apache Nifi-processor.
- Mata in och bearbeta realtidsdata från olika och ovanliga filformat och datakällor.
PySpark och Maskininlärning
21 TimmarDenna utbildning ger en praktisk introduktion till att bygga skalbara dataprocesserings- och maskininlärningsflöden med hjälp av PySpark. Deltagarna lär sig hur Apache Spark fungerar inom moderna Big Data-miljöer och hur man effektivt bearbetar stora datamängder med hjälp av principer för distribuerad beräkning.
Python och Spark för Big Data (PySpark)
21 TimmarI denna instruktörsledda, liveträning i Sverige kommer deltagarna att lära sig hur man använder Python och Spark tillsammans för att analysera big data medan de arbetar med praktiska övningar.
I slutet av denna utbildning kommer deltagarna att kunna:
- Lär dig hur du använder Spark med Python för att analysera Big Data.
- Arbeta med övningar som efterliknar verkliga fall.
- Använda olika verktyg och tekniker för analys av stora datamängder med hjälp av PySpark.
Python, Spark och Hadoop för Big Data
21 TimmarDen här instruktörsledda, liveutbildningen i Sverige (online eller på plats) riktar sig till utvecklare som vill använda och integrera Spark, Hadoop och Python för att bearbeta, analysera och transformera stora och komplexa datamängder.
I slutet av denna utbildning kommer deltagarna att kunna:
- Konfigurera den miljö som krävs för att börja bearbeta stordata med Spark, Hadoop och Python.
- Förstå funktionerna, kärnkomponenterna och arkitekturen i Spark och Hadoop.
- Lär dig hur du integrerar Spark, Hadoop och Python för bearbetning av stordata.
- Utforska verktygen i Spark-ekosystemet (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka och Flume).
- Skapa rekommendationssystem för samarbetsfiltrering som liknar Netflix, YouTube, Amazon, Spotify och Google.
- Använd Apache Mahout för att skala maskininlärningsalgoritmer.
Stratio: Rocket och Intelligence Modules med PySpark
14 TimmarStratio är en datacentrisk plattform som integrerar stora data, AI och styrning i en enda lösning. Dess Rocket- och Intelligence-moduler möjliggör snabb datautforskning, transformering och avancerad analys i företagsmiljöer.
Denna instruktörsledda, levande utbildning (online eller på plats) riktar sig till mellannivådatafagliga personer som vill använda Rocket- och Intelligence-modulerna i Stratio effektivt med PySpark, med fokus på loopstrukturer, användardefinierade funktioner och avancerad datalogi.
Vid slutet av denna utbildning kommer deltagarna att kunna:
- Navigera och arbeta inom Stratio-plattformen med Rocket- och Intelligence-modulerna.
- Använda PySpark i samband med datainsamling, transformering och analys.
- Använda loopar och villkorlig logik för att kontrollera datarutiner och funktioner för databehandling.
- Skapa och hantera användardefinierade funktioner (UDFs) för återanvändbara databehandlingsoperationer i PySpark.
Kursformat
- Interaktiv föreläsning och diskussion.
- Många övningar och praktik.
- Hands-on-implementering i en levande labbmiljö.
Kursanpassningsalternativ
- För att begära en anpassad utbildning för denna kurs, kontakta oss för att arrangera.