Hortonworks Data Platform (HDP) for Administrators Träningskurs
Hortonworks Data Platform (HDP) är en Apache Hadoop supportplattform med öppen källkod som ger en stabil grund för att utveckla big data-lösningar på Apache Hadoop-ekosystemet.
Den här instruktörsledda liveutbildningen (online eller på plats) introducerar Hortonworks Data Platform (HDP) och vägleder deltagarna genom distributionen av Spark + Hadoop-lösningen.
I slutet av denna utbildning kommer deltagarna att kunna:
- Använd Hortonworks för att på ett tillförlitligt sätt köra Hadoop i stor skala.
- Förena Hadoop:s säkerhets-, styrnings- och driftfunktioner med Sparks flexibla analysarbetsflöden.
- Använd Hortonworks för att undersöka, validera, certifiera och stödja var och en av komponenterna i ett Spark-projekt.
- Bearbeta olika typer av data, inklusive strukturerade, ostrukturerade, i rörelse och i vila.
Kursens upplägg
- Interaktiv föreläsning och diskussion.
- Massor av övningar och övning.
- Praktisk implementering i en live-lab-miljö.
Alternativ för kursanpassning
- För att begära en anpassad utbildning för denna kurs, vänligen kontakta oss för att ordna.
Kursplan
Introduktion till Hortonworks Data Platform (HDP)
Översikt över Big Data och Apache Hadoop
Installera och konfigurera HDP
Konfigurera, distribuera och hantera Hadoop-kluster
Förstå och konfigureraYARN och MapReduce
Översikt över finplanering
Säkerställa dataintegritet
Förstå dataflytt för företag
Använda HDFS-kommandon och -tjänster
Överföra data med hjälp av Flume
Arbeta med Hive
Schemaläggning av arbetsflöde med Oozie
Utforska Hadoop 2.x
Förstå Hbase-arkitektur
Övervaka HDP2-tjänster med Ambari
Nya funktioner i HDP
Felsökning
Sammanfattning och nästa steg
Krav
- En förståelse för Hadoop och big data
- En förståelse för Spark
- Kunskaper om kommandoraden
- Erfarenhet av systemadministration
Publik
- Hadoop Administratörer
Open Training Courses require 5+ participants.
Hortonworks Data Platform (HDP) for Administrators Träningskurs - Booking
Hortonworks Data Platform (HDP) for Administrators Träningskurs - Enquiry
Hortonworks Data Platform (HDP) for Administrators - Consultancy Enquiry
Consultancy Enquiry
Vittnesmål (5)
Många praktiska exempel, olika sätt att närma sig samma problem, och ibland inte så uppenbara knep för att förbättra den nuvarande lösningen
Rafal - Nordea
Kurs - Apache Spark MLlib
Machine Translated
The live examples
Ahmet Bolat - Accenture Industrial SS
Kurs - Python, Spark, and Hadoop for Big Data
very interactive...
Richard Langford
Kurs - SMACK Stack for Data Science
Sufficient hands on, trainer is knowledgable
Chris Tan
Kurs - A Practical Introduction to Stream Processing
Get to learn spark streaming , databricks and aws redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Kurs - Apache Spark in the Cloud
Upcoming Courses
Relaterade Kurser
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 timmarDen här kursen är avsedd för utvecklare och datavetare som vill förstå och implementera AI i sina applikationer. Särskild uppmärksamhet ägnas åt dataanalys, distribuerad artificiell intelligens och behandling av naturligt språk.
Big Data Analytics in Health
21 timmarBig data-analys innefattar processen att undersöka stora mängder olika datauppsättningar för att avslöja korrelationer, dolda mönster och andra användbara insikter.
Hälsoindustrin har enorma mängder komplexa heterogena medicinska och kliniska data. Att tillämpa big data-analyser på hälsodata ger en stor potential att få insikter för att förbättra leveransen av sjukvård. Emellertid innebär enorma mängder av dessa datamängder stora utmaningar i analyser och praktiska tillämpningar i en klinisk miljö.
I denna instruktörsledda, live-träning (fjärrkontroll) kommer deltagarna att lära sig att utföra big data-analys i hälsa när de går igenom en serie praktiska live-lab-övningar.
I slutet av denna träning kommer deltagarna att kunna:
- Installera och konfigurera big data-analysverktyg som Hadoop MapReduce och Spark
- Förstå egenskaperna för medicinsk information
- Använd big data-tekniker för att hantera medicinska data
- Studera big data system och algoritmer i samband med hälsoapplikationer
Publik
- utvecklare
- Datavetare
Kursformat
- Delföreläsning, delvis diskussion, övningar och tung praktisk övning.
Notera
- För att begära en anpassad utbildning för denna kurs, vänligen kontakta oss för att ordna.
Introduction to Graph Computing
28 timmarI denna instruktörsledda, liveträning i Sverige kommer deltagarna att lära sig om teknikerbjudandena och implementeringsmetoderna för bearbetning av grafdata. Målet är att identifiera verkliga objekt, deras egenskaper och relationer, sedan modellera dessa relationer och bearbeta dem som data med hjälp av en Graph Computing (även känd som Graph Analytics) metod. Vi börjar med en bred översikt och begränsar oss till specifika verktyg när vi går igenom en serie fallstudier, praktiska övningar och live-distributioner.
I slutet av denna utbildning kommer deltagarna att kunna:
- Förstå hur diagramdata bevaras och gås igenom.
- Välj det bästa ramverket för en viss uppgift (från grafdatabaser till ramverk för batchbearbetning).
- Implementera Hadoop, Spark, GraphX och Pregel för att utföra grafberäkning på många datorer parallellt.
- Se verkliga big data-problem i form av grafer, processer och traverser.
Hadoop and Spark for Administrators
35 timmarDenna instruktörsledda, liveutbildning i Sverige (online eller på plats) riktar sig till systemadministratörer som vill lära sig hur man konfigurerar, distribuerar och hanterar Hadoop kluster inom sin organisation.
I slutet av denna utbildning kommer deltagarna att kunna:
- Installera och konfigurera Apache Hadoop.
- Förstå de fyra huvudkomponenterna i Hadoop ekosystem: HDFS, MapReduce, YARN och Hadoop Common.
- Använd Hadoop Distributed File System (HDFS) för att skala ett kluster till hundratals eller tusentals noder.
- Konfigurera HDFS för att fungera som lagringsmotor för Spark-distributioner på plats.
- Ställ in Spark för att komma åt alternativa lagringslösningar som Amazon S3 och NoSQL databassystem som Redis, Elasticsearch, Couchbase, Aerospike, etc.
- Utför administrativa uppgifter som provisionering, hantering, övervakning och säkrande av ett Apache Hadoop-kluster.
A Practical Introduction to Stream Processing
21 timmarI denna instruktörsledda, liveutbildning i Sverige (på plats eller på distans) kommer deltagarna att lära sig hur man ställer in och integrerar olika Stream Processing ramverk med befintliga big data-lagringssystem och relaterade mjukvaruapplikationer och mikrotjänster.
I slutet av denna utbildning kommer deltagarna att kunna:
- Installera och konfigurera olika Stream Processing ramverk, som Spark Streaming och Kafka Streaming.
- Förstå och välj det mest lämpliga ramverket för jobbet.
- Bearbeta data kontinuerligt, samtidigt och på ett rekord-för-post-sätt.
- Integrera Stream Processing lösningar med befintliga databaser, datalager, datasjöar etc.
- Integrera det mest lämpliga strömbehandlingsbiblioteket med företagsapplikationer och mikrotjänster.
SMACK Stack for Data Science
14 timmarDenna instruktörsledda, liveutbildning i Sverige (online eller på plats) riktar sig till datavetare som vill använda SMACK-stacken för att bygga databehandlingsplattformar för big data-lösningar.
I slutet av denna utbildning kommer deltagarna att kunna:
- Implementera en datapipeline-arkitektur för bearbetning av big data.
- Utveckla en klusterinfrastruktur med Apache Mesos och Docker.
- Analysera data med Spark och Scala.
- Hantera ostrukturerad data med Apache Cassandra.
Apache Spark Fundamentals
21 timmarDenna instruktörsledda, liveutbildning i Sverige (online eller på plats) riktar sig till ingenjörer som vill sätta upp och distribuera Apache Spark system för att bearbeta mycket stora mängder data.
I slutet av denna utbildning kommer deltagarna att kunna:
- Installera och konfigurera Apache Spark.
- Bearbeta och analysera snabbt mycket stora datamängder.
- Förstå skillnaden mellan Apache Spark och Hadoop MapReduce och när du ska använda vilken.
- Integrera Apache Spark med andra verktyg för maskininlärning.
Administration of Apache Spark
35 timmarDen här instruktörsledda, liveutbildningen i Sverige (online eller på plats) riktar sig till systemadministratörer på nybörjar- till mellannivå som vill distribuera, underhålla och optimera Spark-kluster.
I slutet av denna utbildning kommer deltagarna att kunna:
- Installera och konfigurera Apache Spark i olika miljöer.
- Hantera klusterresurser och övervaka Spark-program.
- Optimera prestanda för Spark-kluster.
- Implementera säkerhetsåtgärder och säkerställ hög tillgänglighet.
- Felsöka och felsöka vanliga Spark-problem.
Apache Spark in the Cloud
21 timmarApache Spark inlärningskurva ökar långsamt i början, det krävs mycket ansträngning för att få den första returen. Denna kurs syftar till att hoppa igenom den första tuffa delen. Efter att ha tagit den här kursen kommer deltagarna att förstå grunderna i Apache Spark , de kommer tydligt att differentiera RDD från DataFrame, de kommer att lära sig Python och Scala API, de kommer att förstå exekutörer och uppgifter, osv. Genom att följa bästa praxis fokuserar den här kursen starkt på molnutsättning, Databricks och AWS. Studenterna kommer också att förstå skillnaderna mellan AWS EMR och AWS Glue, en av de senaste Spark-tjänsterna i AWS.
PUBLIK:
Data Engineer, DevOps , Data Scientist
Spark for Developers
21 timmarMÅL:
Denna kurs kommer att introducera Apache Spark . Studenterna kommer att lära sig hur Spark passar in i Big Data ekosystemet och hur man använder Spark för dataanalys. Kursen täcker gnisterskal för interaktiv dataanalys, gnistinternaler, gnist-API: er, gnist SQL , gnistrströmning, och maskininlärning och grafX.
PRIS:
Utvecklare / dataanalytiker
Scaling Data Pipelines with Spark NLP
14 timmarDen här instruktörsledda, live-utbildningen i Sverige (online eller på plats) riktar sig till dataforskare och utvecklare som vill använda Spark NLP, byggd ovanpå Apache Spark, för att utveckla, implementera och skala modeller och pipelines för textbearbetning på naturligt språk.
I slutet av denna utbildning kommer deltagarna att kunna:
- Konfigurera den nödvändiga utvecklingsmiljön för att börja bygga NLP-pipelines med Spark NLP.
- Förstå funktionerna, arkitekturen och fördelarna med att använda Spark NLP.
- Använd de förtränade modellerna som är tillgängliga i Spark NLP för att implementera textbearbetning.
- Lär dig hur du skapar, tränar och skalar Spark NLP modeller för projekt i produktionsklass.
- Tillämpa klassificering, slutsatsdragning och attitydanalys på verkliga användningsfall (kliniska data, insikter om kundbeteende osv.).
Python and Spark for Big Data (PySpark)
21 timmarI denna instruktörsledda, liveträning i Sverige kommer deltagarna att lära sig hur man använder Python och Spark tillsammans för att analysera big data medan de arbetar med praktiska övningar.
I slutet av denna utbildning kommer deltagarna att kunna:
- Lär dig hur du använder Spark med Python för att analysera Big Data.
- Arbeta med övningar som efterliknar verkliga fall.
- Använda olika verktyg och tekniker för analys av stora datamängder med hjälp av PySpark.
Python, Spark, and Hadoop for Big Data
21 timmarDen här instruktörsledda, liveutbildningen i Sverige (online eller på plats) riktar sig till utvecklare som vill använda och integrera Spark, Hadoop och Python för att bearbeta, analysera och transformera stora och komplexa datamängder.
I slutet av denna utbildning kommer deltagarna att kunna:
- Konfigurera den miljö som krävs för att börja bearbeta stordata med Spark, Hadoop och Python.
- Förstå funktionerna, kärnkomponenterna och arkitekturen i Spark och Hadoop.
- Lär dig hur du integrerar Spark, Hadoop och Python för bearbetning av stordata.
- Utforska verktygen i Spark-ekosystemet (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka och Flume).
- Skapa rekommendationssystem för samarbetsfiltrering som liknar Netflix, YouTube, Amazon, Spotify och Google.
- Använd Apache Mahout för att skala maskininlärningsalgoritmer.
Apache Spark SQL
7 timmar Spark SQL är Apache Spark modul för att arbeta med strukturerad och ostrukturerad data. Spark SQL ger information om datastrukturen och beräkningen som utförs. Denna information kan användas för att utföra optimeringar. Två vanliga användningar för Spark SQL är:
- för att köra SQL frågor.
- att läsa data från en befintlig Hive installation.
I denna instruktörsledda, liveträning (på plats eller fjärrkontroll) kommer deltagarna att lära sig att analysera olika typer av datamängder med Spark SQL .
I slutet av denna träning kommer deltagarna att kunna:
- Installera och konfigurera Spark SQL .
- Utför dataanalys med hjälp av Spark SQL .
- Frågeställningar i olika format.
- Visualisera data och sökresultat.
Kursformat
- Interaktiv föreläsning och diskussion.
- Massor av övningar och träning.
- Praktisk implementering i en levande lab-miljö.
Alternativ för kursanpassning
- För att begära en anpassad utbildning för denna kurs, vänligen kontakta oss för att ordna.
Apache Spark MLlib
35 timmarMLlib är Sparks maskinlärningsbibliotek. Målet är att göra praktisk maskininlärning skalbar och enkel. Det består av vanliga inlärningsalgoritmer och verktyg, inklusive klassificering, regression, klustering, samarbetsfiltrering, dimensionalitetsminskning samt primitiv för optimering av lägre nivåer och API: er på högre nivå.
Den delar upp i två paket:
spark.mllib innehåller det ursprungliga API som är byggt ovanpå RDD: er.
spark.ml tillhandahåller API på högre nivå byggd ovanpå DataFrames för konstruktion av ML-rörledningar.
Publik
Kursen riktar sig till ingenjörer och utvecklare som vill använda ett inbyggt maskinbibliotek för Apache Spark