Python, Spark, and Hadoop for Big Data Träningskurs
Python är ett skalbart, flexibelt och allmänt använt programmeringsspråk för datavetenskap och maskininlärning. Spark är en databehandlingsmotor som används för att fråga, analysera och transformera stordata, medan Hadoop är ett ramverk för programvarubibliotek för storskalig datalagring och bearbetning.
Denna instruktörsledda, liveutbildning (online eller på plats) riktar sig till utvecklare som vill använda och integrera Spark, Hadoop och Python för att bearbeta, analysera och transformera stora och komplexa datamängder.
I slutet av denna utbildning kommer deltagarna att kunna:
- Konfigurera den miljö som krävs för att börja bearbeta stordata med Spark, Hadoop och Python.
- Förstå funktionerna, kärnkomponenterna och arkitekturen i Spark och Hadoop.
- Lär dig hur du integrerar Spark, Hadoop och Python för bearbetning av stordata.
- Utforska verktygen i Spark-ekosystemet (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka och Flume).
- Skapa rekommendationssystem för samarbetsfiltrering som liknar Netflix, YouTube, Amazon, Spotify och Google.
- Använd Apache Mahout för att skala maskininlärningsalgoritmer.
Kursens upplägg
- Interaktiv föreläsning och diskussion.
- Massor av övningar och övning.
- Praktisk implementering i en live-labbmiljö.
Alternativ för anpassning av kurser
- För att begära en anpassad utbildning för denna kurs, vänligen kontakta oss för att ordna.
Kursplan
Införandet
- Översikt över funktioner och arkitektur i Spark och Hadoop
- Förstå big data
- Python Grunderna i programmering
Komma igång
- Ställa in Python, Spark och Hadoop
- Förstå datastrukturer i Python
- Förstå PySpark API
- Så här fungerar HDFS och MapReduce
Integrera Spark och Hadoop med Python
- Implementera Spark RDD i Python
- Bearbeta data med hjälp av MapReduce
- Skapa distribuerade datamängder i HDFS
Machine Learning med Spark MLlib
Bearbetning Big Data med Spark Streaming
Arbeta med rekommendationssystem
Arbeta med Kafka, Sqoop, Kafka och Flume
Apache Mahout med Spark och Hadoop
Felsökning
Sammanfattning och nästa steg
Krav
- Erfarenhet av Spark och Hadoop
- Python Erfarenhet av programmering
Publik
- Datavetare
- Utvecklare
Open Training Courses require 5+ participants.
Python, Spark, and Hadoop for Big Data Träningskurs - Booking
Python, Spark, and Hadoop for Big Data Träningskurs - Enquiry
Python, Spark, and Hadoop for Big Data - Consultancy Enquiry
Consultancy Enquiry
Vittnesmål (3)
The fact that we were able to take with us most of the information/course/presentation/exercises done, so that we can look over them and perhaps redo what we didint understand first time or improve what we already did.
Raul Mihail Rat - Accenture Industrial SS
Kurs - Python, Spark, and Hadoop for Big Data
I liked that it managed to lay the foundations of the topic and go to some quite advanced exercises. Also provided easy ways to write/test the code.
Ionut Goga - Accenture Industrial SS
Kurs - Python, Spark, and Hadoop for Big Data
The live examples
Ahmet Bolat - Accenture Industrial SS
Kurs - Python, Spark, and Hadoop for Big Data
Upcoming Courses
Relaterade Kurser
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 timmarDen här kursen är avsedd för utvecklare och datavetare som vill förstå och implementera AI i sina applikationer. Särskild uppmärksamhet ägnas åt dataanalys, distribuerad artificiell intelligens och behandling av naturligt språk.
Big Data Analytics in Health
21 timmarBig data-analys innefattar processen att undersöka stora mängder olika datauppsättningar för att avslöja korrelationer, dolda mönster och andra användbara insikter.
Hälsoindustrin har enorma mängder komplexa heterogena medicinska och kliniska data. Att tillämpa big data-analyser på hälsodata ger en stor potential att få insikter för att förbättra leveransen av sjukvård. Emellertid innebär enorma mängder av dessa datamängder stora utmaningar i analyser och praktiska tillämpningar i en klinisk miljö.
I denna instruktörsledda, live-träning (fjärrkontroll) kommer deltagarna att lära sig att utföra big data-analys i hälsa när de går igenom en serie praktiska live-lab-övningar.
I slutet av denna träning kommer deltagarna att kunna:
- Installera och konfigurera big data-analysverktyg som Hadoop MapReduce och Spark
- Förstå egenskaperna för medicinsk information
- Använd big data-tekniker för att hantera medicinska data
- Studera big data system och algoritmer i samband med hälsoapplikationer
Publik
- utvecklare
- Datavetare
Kursformat
- Delföreläsning, delvis diskussion, övningar och tung praktisk övning.
Notera
- För att begära en anpassad utbildning för denna kurs, vänligen kontakta oss för att ordna.
Introduction to Graph Computing
28 timmarI denna instruktörsledda, liveträning i Sverige kommer deltagarna att lära sig om teknikerbjudandena och implementeringsmetoderna för bearbetning av grafdata. Målet är att identifiera verkliga objekt, deras egenskaper och relationer, sedan modellera dessa relationer och bearbeta dem som data med hjälp av en Graph Computing (även känd som Graph Analytics) metod. Vi börjar med en bred översikt och begränsar oss till specifika verktyg när vi går igenom en serie fallstudier, praktiska övningar och live-distributioner.
I slutet av denna utbildning kommer deltagarna att kunna:
- Förstå hur diagramdata bevaras och gås igenom.
- Välj det bästa ramverket för en viss uppgift (från grafdatabaser till ramverk för batchbearbetning).
- Implementera Hadoop, Spark, GraphX och Pregel för att utföra grafberäkning på många datorer parallellt.
- Se verkliga big data-problem i form av grafer, processer och traverser.
Hortonworks Data Platform (HDP) for Administrators
21 timmarDen här instruktörsledda, liveutbildningen i Sverige (online eller på plats) introducerar Hortonworks Data Platform (HDP) och vägleder deltagarna genom distributionen av Spark + Hadoop-lösningen.
I slutet av denna utbildning kommer deltagarna att kunna:
- Använd Hortonworks för att på ett tillförlitligt sätt köra Hadoop i stor skala.
- Förena Hadoop:s säkerhets-, styrnings- och driftfunktioner med Sparks flexibla analysarbetsflöden.
- Använd Hortonworks för att undersöka, validera, certifiera och stödja var och en av komponenterna i ett Spark-projekt.
- Bearbeta olika typer av data, inklusive strukturerade, ostrukturerade, i rörelse och i vila.
Data Analysis with Hive/HiveQL
7 timmarDenna kurs behandlar hur man använder Hive SQL språk (AKA: Hive HQL, SQL på Hive , Hive QL) för personer som extraherar data från Hive
Impala for Business Intelligence
21 timmarCloudera Impala är en öppen källkod för massivt parallell bearbetning (MPP) SQL frågemotor för Apache Hadoop-kluster.
Impala gör det möjligt för användare att utfärda frågor med låg latens SQL till data som lagras i Hadoop Distributed File System och Apache Hbase utan att data flyttas eller transformeras.
Publik
Kursen riktar sig till analytiker och datavetare som utför analyser på data som lagras i Hadoop via Business Intelligence eller SQL verktyg.
Efter denna kurs kommer delegaterna att kunna
- Extrahera meningsfull information från Hadoop kluster med Impala.
- Skriv specifika program för att underlätta Business Intelligens på Impala SQL Dialekt.
- Felsök Impala.
A Practical Introduction to Stream Processing
21 timmarI denna instruktörsledda, liveutbildning i Sverige (på plats eller på distans) kommer deltagarna att lära sig hur man ställer in och integrerar olika Stream Processing ramverk med befintliga big data-lagringssystem och relaterade mjukvaruapplikationer och mikrotjänster.
I slutet av denna utbildning kommer deltagarna att kunna:
- Installera och konfigurera olika Stream Processing ramverk, som Spark Streaming och Kafka Streaming.
- Förstå och välj det mest lämpliga ramverket för jobbet.
- Bearbeta data kontinuerligt, samtidigt och på ett rekord-för-post-sätt.
- Integrera Stream Processing lösningar med befintliga databaser, datalager, datasjöar etc.
- Integrera det mest lämpliga strömbehandlingsbiblioteket med företagsapplikationer och mikrotjänster.
SMACK Stack for Data Science
14 timmarDenna instruktörsledda, liveutbildning i Sverige (online eller på plats) riktar sig till datavetare som vill använda SMACK-stacken för att bygga databehandlingsplattformar för big data-lösningar.
I slutet av denna utbildning kommer deltagarna att kunna:
- Implementera en datapipeline-arkitektur för bearbetning av big data.
- Utveckla en klusterinfrastruktur med Apache Mesos och Docker.
- Analysera data med Spark och Scala.
- Hantera ostrukturerad data med Apache Cassandra.
Apache Spark Fundamentals
21 timmarDenna instruktörsledda, liveutbildning i Sverige (online eller på plats) riktar sig till ingenjörer som vill sätta upp och distribuera Apache Spark system för att bearbeta mycket stora mängder data.
I slutet av denna utbildning kommer deltagarna att kunna:
- Installera och konfigurera Apache Spark.
- Bearbeta och analysera snabbt mycket stora datamängder.
- Förstå skillnaden mellan Apache Spark och Hadoop MapReduce och när du ska använda vilken.
- Integrera Apache Spark med andra verktyg för maskininlärning.
Apache Spark in the Cloud
21 timmarApache Spark inlärningskurva ökar långsamt i början, det krävs mycket ansträngning för att få den första returen. Denna kurs syftar till att hoppa igenom den första tuffa delen. Efter att ha tagit den här kursen kommer deltagarna att förstå grunderna i Apache Spark , de kommer tydligt att differentiera RDD från DataFrame, de kommer att lära sig Python och Scala API, de kommer att förstå exekutörer och uppgifter, osv. Genom att följa bästa praxis fokuserar den här kursen starkt på molnutsättning, Databricks och AWS. Studenterna kommer också att förstå skillnaderna mellan AWS EMR och AWS Glue, en av de senaste Spark-tjänsterna i AWS.
PUBLIK:
Data Engineer, DevOps , Data Scientist
Spark for Developers
21 timmarMÅL:
Denna kurs kommer att introducera Apache Spark . Studenterna kommer att lära sig hur Spark passar in i Big Data ekosystemet och hur man använder Spark för dataanalys. Kursen täcker gnisterskal för interaktiv dataanalys, gnistinternaler, gnist-API: er, gnist SQL , gnistrströmning, och maskininlärning och grafX.
PRIS:
Utvecklare / dataanalytiker
Python and Spark for Big Data (PySpark)
21 timmarI denna instruktörsledda, liveträning i Sverige kommer deltagarna att lära sig hur man använder Python och Spark tillsammans för att analysera big data medan de arbetar med praktiska övningar.
I slutet av denna utbildning kommer deltagarna att kunna:
- Lär dig hur du använder Spark med Python för att analysera Big Data.
- Arbeta med övningar som efterliknar verkliga fall.
- Använda olika verktyg och tekniker för analys av stora datamängder med hjälp av PySpark.
Apache Spark SQL
7 timmar Spark SQL är Apache Spark modul för att arbeta med strukturerad och ostrukturerad data. Spark SQL ger information om datastrukturen och beräkningen som utförs. Denna information kan användas för att utföra optimeringar. Två vanliga användningar för Spark SQL är:
- för att köra SQL frågor.
- att läsa data från en befintlig Hive installation.
I denna instruktörsledda, liveträning (på plats eller fjärrkontroll) kommer deltagarna att lära sig att analysera olika typer av datamängder med Spark SQL .
I slutet av denna träning kommer deltagarna att kunna:
- Installera och konfigurera Spark SQL .
- Utför dataanalys med hjälp av Spark SQL .
- Frågeställningar i olika format.
- Visualisera data och sökresultat.
Kursformat
- Interaktiv föreläsning och diskussion.
- Massor av övningar och träning.
- Praktisk implementering i en levande lab-miljö.
Alternativ för kursanpassning
- För att begära en anpassad utbildning för denna kurs, vänligen kontakta oss för att ordna.
Apache Spark MLlib
35 timmarMLlib är Sparks maskinlärningsbibliotek. Målet är att göra praktisk maskininlärning skalbar och enkel. Det består av vanliga inlärningsalgoritmer och verktyg, inklusive klassificering, regression, klustering, samarbetsfiltrering, dimensionalitetsminskning samt primitiv för optimering av lägre nivåer och API: er på högre nivå.
Den delar upp i två paket:
spark.mllib innehåller det ursprungliga API som är byggt ovanpå RDD: er.
spark.ml tillhandahåller API på högre nivå byggd ovanpå DataFrames för konstruktion av ML-rörledningar.
Publik
Kursen riktar sig till ingenjörer och utvecklare som vill använda ett inbyggt maskinbibliotek för Apache Spark