Talend Big Data Integration Träningskurs
Talend Open Studio för Big Data är ett öppet ETL-verktyg för bearbetning av stora data. Det inkluderar en utvecklingsmiljö för att interagera med Big Data källor och mål, och köra jobb utan att behöva skriva kod.
Denna instruktörledda, live-utbildning (online eller on-site) riktar sig till tekniska personer som vill implementera Talend Open Studio för Big Data för att förenkla processen med läsning och krunching genom Big Data.
Vid slutet av denna utbildning kommer deltagarna att kunna:
- Installera och konfigurera Talend Open Studio för Big Data.
- Anslut till Big Data system som Cloudera, HortonWorks, MapR, Amazon EMR och Apache.
- Förstå och installera Open Studio's stora data komponenter och anslutningar.
- Konfigurera parametrar för att automatiskt generera MapReduce-kod.
- Använd Open Studio's drag-and-drop gränssnitt för att köra Hadoop jobb.
- Prototyp Big Data Pipelines.
- Automatisera stora dataintegrationsprojekt.
Format för kursen
- Interaktiv föreläsning och diskussion.
- Många övningar och övningar.
- Hand-on implementering i en live-lab miljö.
Kursanpassningsalternativ
- För att begära en anpassad utbildning för denna kurs, vänligen kontakta oss för att arrangera.
Kursplan
Introduktion
Översikt över "Öppen studio för Big Data" funktioner och arkitektur
Konfigurera Open Studio för Big Data
Navigera i användargränssnittet
Förstå Big Data Komponenter och kontakter
Ansluter till ett Hadoop kluster
Läsa och skriva data
Bearbetar data med Hive och MapReduce
Analysera resultaten
Förbättra kvaliteten på Big Data
Bygga en Big Data rörledning
Hantera användare, grupper, roller och projekt
Distribuera Open Studio till produktion
Övervakar Open Studio
Felsökning
Sammanfattning och slutsats
Krav
- Förståelse för relationsdatabaser
- En förståelse för datalagring
- En förståelse för ETL-koncept (Extract, Transform, Load).
Publik
- Business intelligence proffs
- Databasproffs
- SQL Utvecklare
- ETL-utvecklare
- Lösningsarkitekter
- Dataarkitekter
- Proffs inom datalagring
- Systemadministratörer och integratörer
Open Training Courses require 5+ participants.
Talend Big Data Integration Träningskurs - Booking
Talend Big Data Integration Träningskurs - Enquiry
Talend Big Data Integration - Consultancy Enquiry
Vittnesmål (5)
Många praktiska exempel, olika sätt att närma sig samma problem, och ibland inte så uppenbara knep för att förbättra den nuvarande lösningen
Rafał - Nordea
Kurs - Apache Spark MLlib
Machine Translated
how the trainor shows his knowledge in the subject he's teachign
john ernesto ii fernandez - Philippine AXA Life Insurance Corporation
Kurs - Data Vault: Building a Scalable Data Warehouse
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Kurs - Apache NiFi for Administrators
That I had it in the first place.
Peter Scales - CACI Ltd
Kurs - Apache NiFi for Developers
practice tasks
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Kurs - Python and Spark for Big Data (PySpark)
Upcoming Courses
Relaterade Kurser
Data Vault: Building a Scalable Data Warehouse
28 timmarI denna instruktörsledda, liveutbildning i Sverige kommer deltagarna att lära sig hur man bygger en Data Vault.
I slutet av denna utbildning kommer deltagarna att kunna:
- Förstå arkitekturen och designkoncepten bakom Data Vault 2.0, och dess interaktion med Big Data, NoSQL och AI.
- Använd datavalvtekniker för att möjliggöra granskning, spårning och inspektion av historiska data i ett datalager.
- Utveckla en konsekvent och repeterbar ETL-process (extrahera, transformera, ladda).
- Bygg och distribuera mycket skalbara och repeterbara lager.
Spark Streaming with Python and Kafka
7 timmarDenna instruktörsledda, liveutbildning i Sverige (online eller på plats) riktar sig till dataingenjörer, datavetare och programmerare som vill använda Spark Streaming funktioner för att bearbeta och analysera realtidsdata.
I slutet av denna utbildning kommer deltagarna att kunna använda Spark Streaming för att bearbeta livedataströmmar för användning i databaser, filsystem och live-instrumentpaneler.
Confluent KSQL
7 timmarDenna instruktörsledda, liveutbildning i Sverige (online eller på plats) riktar sig till utvecklare som vill implementera Apache Kafka strömbehandling utan att skriva kod.
I slutet av denna utbildning kommer deltagarna att kunna:
- Installera och konfigurera Confluent KSQL.
- Konfigurera en pipeline för strömbehandling med endast SQL-kommandon (ingen Java- eller Python-kodning).
- Utför datafiltrering, transformationer, aggregering, sammanfogningar, fönster och sessionsisering helt och hållet i SQL.
- Designa och distribuera interaktiva, kontinuerliga frågor för streaming av ETL och realtidsanalys.
Apache Ignite for Developers
14 timmarDen här instruktörsledda, liveutbildningen i Sverige (online eller på plats) riktar sig till utvecklare som vill lära sig principerna bakom beständig och ren minneslagring när de går igenom skapandet av ett exempel på in-memory computing-projekt.
I slutet av denna utbildning kommer deltagarna att kunna:
- Använd Ignite för in-memory, on-disk persistens samt en rent distribuerad in-memory databas. Uppnå uthållighet utan att synkronisera data tillbaka till en relationsdatabas. Använd Ignite för att utföra SQL och fördelade sammanfogningar. Förbättra prestandan genom att flytta data närmare CPU:n, använda RAM som lagring. Sprid datamängder över ett kluster för att uppnå horisontell skalbarhet. Integrera Ignite med RDBMS, NoSQL, Hadoop och maskininlärningsprocessorer.
Unified Batch and Stream Processing with Apache Beam
14 timmarApache Beam är en enhetlig programmeringsmodell med öppen källkod för att definiera och utföra parallella pipelines för databehandling. Dess kraft ligger i dess förmåga att köra både batch- och streamingpipelines, där exekveringen utförs av en av Beams stödda distribuerade bearbetningsbackends: Apache Apex, Apache Flink, Apache Spark och Google Cloud Dataflow. Apache Beam är användbar för ETL-uppgifter (Extrahera, Transformera och Ladda) som att flytta data mellan olika lagringsmedier och datakällor, omvandla data till ett mer önskvärt format och ladda data till ett nytt system.
I denna instruktörsledda, live-utbildning (på plats eller på distans) kommer deltagarna att lära sig hur man implementerar Apache Beam SDK:er i en Java- eller Python-applikation som definierar en databehandlingspipeline för att bryta ner en stor datamängd i mindre bitar för oberoende, parallell bearbetning.
I slutet av denna utbildning kommer deltagarna att kunna:
- Installera och konfigurera Apache Beam. Använd en enda programmeringsmodell för att utföra både batch- och strömbehandling från deras Java- eller Python-applikation. Utför pipelines över flera miljöer.
Kursens format
- Delföreläsning, deldiskussion, övningar och tung praktisk praktik
Notera
- Den här kursen kommer att finnas tillgänglig Scala i framtiden. Kontakta oss för att ordna.
Apache Apex: Processing Big Data-in-Motion
21 timmarApache Apex är en YARN-inbyggd plattform som förenar ström- och batchbehandling. Den bearbetar stor data-i-rörelse på ett sätt som är skalbar, performant, feltolerant, tillståndsfull, säker, distribuerad och lättanvändbar.
Den här instruktörsledda, liveträningen introducerar Apache Apex enhetliga strömbearbetningsarkitektur och leder deltagarna genom skapandet av en distribuerad applikation med Apex på Hadoop .
I slutet av denna träning kommer deltagarna att kunna:
- Förstå dataledningens rörledningskoncept som anslutningar för källor och sänkor, vanliga datatransformationer, etc.
- Bygg, skala och optimera en Apex-applikation
- Bearbeta dataströmmar i realtid pålitligt och med minimal latens
- Använd Apex Core och Apex Malhar-biblioteket för att möjliggöra snabb applikationsutveckling
- Använd Apex API för att skriva och återanvända befintlig Java kod
- Integrera Apex i andra applikationer som en processmotor
- Ställa in, testa och skala Apex-applikationer
Kursformat
- Interaktiv föreläsning och diskussion.
- Massor av övningar och träning.
- Praktisk implementering i en levande lab-miljö.
Alternativ för kursanpassning
- För att begära en anpassad utbildning för denna kurs, vänligen kontakta oss för att ordna.
Apache Storm
28 timmarApache Storm är en distribuerad, realtid beräkningsmotor som används för att möjliggöra realtid business intelligence. Det gör det genom att tillåta applikationer att på ett tillförlitligt sätt behandla obegränsade dataflöden (t.ex. och strömbearbetning).
"Storm är för realtid bearbetning vad Hadoop är för batch bearbetning!"
I denna instruktörledda live-träning lär deltagarna hur man installerar och konfigurerar Apache Storm, sedan utvecklar och implementerar en Apache Storm applikation för bearbetning av stora data i realtid.
Några av de ämnen som ingår i denna utbildning inkluderar:
- Apache Storm i samband med Hadoop
- Arbeta med obegränsade data
- Kontinuerlig beräkning
- Realtidsanalys
- Distribuerad RPC och ETL-behandling
Be om denna kurs nu!
Publiken
- Programvara och ETL utvecklare
- Mainframe professionella
- Data forskare
- Big data analytiker
- [ 0 ] Professionella
Format av kursen
- Del föreläsning, del diskussion, övningar och tung praxis
Apache NiFi for Administrators
21 timmarI denna instruktörsledda, liveutbildning i Sverige (på plats eller på distans) kommer deltagarna att lära sig hur man distribuerar och hanterar Apache NiFi i en levande labbmiljö.
I slutet av denna utbildning kommer deltagarna att kunna:
- Installera och konfigurera Apachi NiFi.
- Källa, transformera och hantera data från olika, distribuerade datakällor, inklusive databaser och stora datasjöar.
- Automatisera dataflöden.
- Aktivera strömningsanalys.
- Tillämpa olika metoder för dataintag.
- Förvandla Big Data och till affärsinsikter.
Apache NiFi for Developers
7 timmarI denna instruktörsledda, liveutbildning i Sverige kommer deltagarna att lära sig grunderna i flödesbaserad programmering när de utvecklar ett antal demotillägg, komponenter och processorer med Apache NiFi.
I slutet av denna utbildning kommer deltagarna att kunna:
- Förstå NiFis arkitektur och dataflödeskoncept.
- Utveckla tillägg med hjälp av NiFi och tredje parts API:er.
- Skräddarsytt utveckla sin egen Apache Nifi-processor.
- Ta in och bearbeta realtidsdata från olika och ovanliga filformat och datakällor.
Apache Flink Fundamentals
28 timmarDenna instruktörsledda, liveutbildning i Sverige (online eller på plats) introducerar principerna och tillvägagångssätten bakom distribuerad ström- och batchdatabehandling, och leder deltagarna genom skapandet av en dataströmningsapplikation i realtid i Apache Flink.
I slutet av denna utbildning kommer deltagarna att kunna:
- Skapa en miljö för att utveckla dataanalysapplikationer. Förstå hur Apache Flinks grafbehandlingsbibliotek (Gelly) fungerar. Paketera, kör och övervaka Flink-baserade, feltoleranta dataströmningsapplikationer. Hantera olika arbetsbelastningar. Utför avancerad analys. Konfigurera ett Flink-kluster med flera noder. Mät och optimera prestanda. Integrera Flink med olika Big Data system. Jämför Flink-kapaciteten med andra ramverk för big data-bearbetning.
Python and Spark for Big Data (PySpark)
21 timmarI denna instruktörsledda, liveutbildning i Sverige kommer deltagarna att lära sig hur man använder Python och Spark tillsammans för att analysera big data medan de arbetar med praktiska övningar.
I slutet av denna utbildning kommer deltagarna att kunna:
- Lär dig hur du använder Spark med Python för att analysera Big Data.
- Arbeta med övningar som efterliknar verkliga fall.
- Använd olika verktyg och tekniker för big data-analys med PySpark.
Introduction to Graph Computing
28 timmarI denna instruktörsledda, liveutbildning i Sverige kommer deltagarna att lära sig om teknikerbjudandena och implementeringsmetoder för bearbetning av grafdata. Syftet är att identifiera verkliga objekt, deras egenskaper och relationer, sedan modellera dessa relationer och bearbeta dem som data med en Graph Computing (även känd som Graph Analytics) tillvägagångssätt. Vi börjar med en bred översikt och begränsar oss till specifika verktyg när vi går igenom en serie fallstudier, praktiska övningar och livedistributioner.
I slutet av denna utbildning kommer deltagarna att kunna:
- Förstå hur grafdata bevaras och korsas.
- Välj det bästa ramverket för en given uppgift (från grafdatabaser till ramverk för batchbearbetning.)
- Implementera Hadoop, Spark, GraphX och Pregel för att utföra grafberäkning över många maskiner parallellt.
- Se verkliga big data-problem i form av grafer, processer och övergångar.
Apache Spark MLlib
35 timmarMLlib är Sparks maskinlärningsbibliotek. Målet är att göra praktisk maskininlärning skalbar och enkel. Det består av vanliga inlärningsalgoritmer och verktyg, inklusive klassificering, regression, klustering, samarbetsfiltrering, dimensionalitetsminskning samt primitiv för optimering av lägre nivåer och API: er på högre nivå.
Den delar upp i två paket:
spark.mllib innehåller det ursprungliga API som är byggt ovanpå RDD: er.
spark.ml tillhandahåller API på högre nivå byggd ovanpå DataFrames för konstruktion av ML-rörledningar.
Publik
Kursen riktar sig till ingenjörer och utvecklare som vill använda ett inbyggt maskinbibliotek för Apache Spark
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 timmarDen här kursen är avsedd för utvecklare och datavetare som vill förstå och implementera AI i sina applikationer. Särskild uppmärksamhet ägnas åt dataanalys, distribuerad artificiell intelligens och naturlig språkbehandling.
Knowledge Discovery in Databases (KDD)
21 timmarKunskap upptäckt i databaser (KDD) är processen att upptäcka användbar kunskap från en insamling av data. Verkliga applikationer för denna data mining teknik inkluderar marknadsföring, bedrägeri upptäckt, telekommunikation och tillverkning.
I denna instruktörledda, levande kurs introducerar vi de processer som är inblandade i KDD och utför en serie övningar för att öva genomförandet av dessa processer.
Publiken
- Dataanalytiker eller någon som är intresserad av att lära sig hur man tolkar data för att lösa problem
Format för kursen
- Efter en teoretisk diskussion om KDD kommer instruktören att presentera verkliga fall som kräver tillämpningen av KDD för att lösa ett problem. Deltagarna kommer att förbereda, välja och rengöra provdata uppsättningar och använda sina tidigare kunskaper om data för att föreslå lösningar baserat på resultaten av sina observationer.