SMACK Stack for Data Science Träningskurs
SMACK är en samling av dataplattform programvara, nämligen Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, och Apache Kafka. Med hjälp av SMACK stack kan användare skapa och skala databehandlingsplattformar.
Denna instruktörledda, live-utbildning (online eller on-site) riktar sig till datavetenskapsmän som vill använda SMACK stack för att bygga databehandlingsplattformar för stora datalösningar.
Vid slutet av denna utbildning kommer deltagarna att kunna:
- Implementera en data pipeline arkitektur för bearbetning av stora data.
- Utveckla en klusterinfrastruktur med Apache Mesos och Docker.
- Analysera data med Spark och Scala.
- Hantera obestrukturerade data med Apache Cassandra.
Format för kursen
- Interaktiv föreläsning och diskussion.
- Många övningar och övningar.
- Hand-on implementering i en live-lab miljö.
Kursanpassningsalternativ
- För att begära en anpassad utbildning för denna kurs, vänligen kontakta oss för att arrangera.
Kursplan
Införandet
Översikt över SMACK-stacken
- Vad är Apache Spark? Apache Spark Funktioner
- Vad är Apache Mesos? Apache Mesos Funktioner
- Vad är Apache Akka? Apache Akka funktioner
- Vad är Apache Cassandra? Apache Cassandra funktioner
- Vad är Apache Kafka? Apache Kafka Funktioner
Scala Språk
- Scala Syntax och struktur
- Scala Kontrollflöde
Förberedelse av utvecklingsmiljön
- Installera och konfigurera SMACK-stacken
- Installera och konfigurera Docker
Apache Akka
- Använda skådespelare
Apache Cassandra
- Skapa en databas för läsåtgärder
- Arbeta med säkerhetskopiering och återställning
Kontakter
- Skapa en ström
- Skapa ett Akka-program
- Lagra data med Cassandra
- Granska anslutningsappar
Apache Kafka
- Arbeta med kluster
- Skapa, publicera och använda meddelanden
Apache Mesos
- Fördelning av resurser
- Kluster som körs
- Arbeta med Apache Aurora och Docker
- Köra tjänster och jobb
- Distribuera Spark, Cassandra och Kafka på Mesos
Apache Spark
- Hantera dataflöden
- Arbeta med RDD:er och dataramar
- Utföra dataanalys
Felsökning
- Hantera fel på tjänster och fel
Sammanfattning och slutsats
Krav
- En förståelse för databehandlingssystem
Publik
- Dataforskare
Open Training Courses require 5+ participants.
SMACK Stack for Data Science Träningskurs - Booking
SMACK Stack for Data Science Träningskurs - Enquiry
SMACK Stack for Data Science - Consultancy Enquiry
Vittnesmål (1)
very interactive...
Richard Langford
Kurs - SMACK Stack for Data Science
Upcoming Courses
Relaterade Kurser
Kaggle
14 timmarDenna instruktörsledda, liveutbildning i Sverige (online eller på plats) riktar sig till datavetare och utvecklare som vill lära sig och bygga sina karriärer i Data Science med hjälp av Kaggle.
I slutet av denna utbildning kommer deltagarna att kunna:
- Lär dig mer om datavetenskap och maskininlärning.
- Utforska dataanalys.
- Lär dig mer om Kaggle och hur det fungerar.
Accelerating Python Pandas Workflows with Modin
14 timmarDenna instruktörsledda, liveutbildning i Sverige (online eller på plats) riktar sig till datavetare och utvecklare som vill använda Modin för att bygga och implementera parallella beräkningar med Pandas för snabbare dataanalys.
I slutet av denna utbildning kommer deltagarna att kunna:
- Konfigurera den miljö som krävs för att börja utveckla Pandas arbetsflöden i stor skala med Modin.
- Förstå funktionerna, arkitekturen och fördelarna med Modin.
- Känn till skillnaderna mellan Modin, Dask och Ray.
- Utför Pandas operationer snabbare med Modin.
- Implementera hela Pandas API:et och funktionerna.
GPU Data Science with NVIDIA RAPIDS
14 timmarDen här instruktörsledda, liveutbildningen i Sverige (online eller på plats) riktar sig till datavetare och utvecklare som vill använda RAPIDS för att skapa GPU-accelererade datapipelines, arbetsflöden och visualiseringar, genom att tillämpa maskininlärningsalgoritmer, till exempel XGBoost, cuML osv.
I slutet av denna utbildning kommer deltagarna att kunna:
- Konfigurera den utvecklingsmiljö som krävs för att bygga datamodeller med NVIDIA RAPIDS.
- Förstå funktionerna, komponenterna och fördelarna med RAPIDS.
- Utnyttja GPUs för att påskynda pipelines för data och analys från slutpunkt till slutpunkt.
- Implementera GPU-accelererad dataförberedelse och ETL med cuDF och Apache Arrow.
- Lär dig hur du utför maskininlärningsuppgifter med XGBoost- och cuML-algoritmer.
- Bygg datavisualiseringar och utför grafanalys med cuXfilter och cuGraph.
Anaconda Ecosystem for Data Scientists
14 timmarDenna instruktörsledda, liveutbildning i Sverige (online eller på plats) riktar sig till datavetare som vill använda Anaconda-ekosystemet för att fånga, hantera och distribuera paket och arbetsflöden för dataanalys på en enda plattform.
I slutet av denna utbildning kommer deltagarna att kunna:
- Installera och konfigurera Anaconda komponenter och bibliotek.
- Förstå de grundläggande begreppen, funktionerna och fördelarna med Anaconda.
- Hantera paket, miljöer och kanaler med hjälp av Anaconda Navigator.
- Använd Conda-, R- och Python-paket för datavetenskap och maskininlärning.
- Lär känna några praktiska användningsfall och tekniker för att hantera flera datamiljöer.
Python and Spark for Big Data (PySpark)
21 timmarI denna instruktörsledda, liveträning i Sverige kommer deltagarna att lära sig hur man använder Python och Spark tillsammans för att analysera big data medan de arbetar med praktiska övningar.
I slutet av denna utbildning kommer deltagarna att kunna:
- Lär dig hur du använder Spark med Python för att analysera Big Data.
- Arbeta med övningar som efterliknar verkliga fall.
- Använda olika verktyg och tekniker för analys av stora datamängder med hjälp av PySpark.
Introduction to Graph Computing
28 timmarI denna instruktörsledda, liveträning i Sverige kommer deltagarna att lära sig om teknikerbjudandena och implementeringsmetoderna för bearbetning av grafdata. Målet är att identifiera verkliga objekt, deras egenskaper och relationer, sedan modellera dessa relationer och bearbeta dem som data med hjälp av en Graph Computing (även känd som Graph Analytics) metod. Vi börjar med en bred översikt och begränsar oss till specifika verktyg när vi går igenom en serie fallstudier, praktiska övningar och live-distributioner.
I slutet av denna utbildning kommer deltagarna att kunna:
- Förstå hur diagramdata bevaras och gås igenom.
- Välj det bästa ramverket för en viss uppgift (från grafdatabaser till ramverk för batchbearbetning).
- Implementera Hadoop, Spark, GraphX och Pregel för att utföra grafberäkning på många datorer parallellt.
- Se verkliga big data-problem i form av grafer, processer och traverser.
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 timmarDen här kursen är avsedd för utvecklare och datavetare som vill förstå och implementera AI i sina applikationer. Särskild uppmärksamhet ägnas åt dataanalys, distribuerad artificiell intelligens och behandling av naturligt språk.
Apache Spark MLlib
35 timmarMLlib är Sparks maskinlärningsbibliotek. Målet är att göra praktisk maskininlärning skalbar och enkel. Det består av vanliga inlärningsalgoritmer och verktyg, inklusive klassificering, regression, klustering, samarbetsfiltrering, dimensionalitetsminskning samt primitiv för optimering av lägre nivåer och API: er på högre nivå.
Den delar upp i två paket:
spark.mllib innehåller det ursprungliga API som är byggt ovanpå RDD: er.
spark.ml tillhandahåller API på högre nivå byggd ovanpå DataFrames för konstruktion av ML-rörledningar.
Publik
Kursen riktar sig till ingenjörer och utvecklare som vill använda ett inbyggt maskinbibliotek för Apache Spark
Introduction to Data Science and AI using Python
35 timmarDetta är en 5-dagars introduktion till Data Science och AI.
Kursen levereras med exempel och övningar med Python
AWS Cloud9 for Data Science
28 timmarDenna instruktörsledda, liveutbildning i Sverige (online eller på plats) riktar sig till datavetare och analytiker på mellannivå som vill använda AWS Cloud9 för strömlinjeformade arbetsflöden för datavetenskap.
I slutet av denna utbildning kommer deltagarna att kunna:
- Konfigurera en datavetenskapsmiljö i AWS Cloud9.
- Utför dataanalys med hjälp av Python, R och Jupyter Notebook i Cloud9.
- Integrera AWS Cloud9 med AWS-datatjänster som S3, RDS och Redshift.
- Använd AWS Cloud9 för utveckling och distribution av maskininlärningsmodeller.
- Optimera molnbaserade arbetsflöden för dataanalys och bearbetning.
Big Data Business Intelligence for Telecom and Communication Service Providers
35 timmarÖversikt
Communications tjänsteleverantörer (CSP) står inför tryck för att minska kostnaderna och maximera genomsnittliga intäkter per användare (ARPU), samtidigt som en utmärkt kundupplevelse säkerställs, men datavolymerna fortsätter att växa. Den globala mobila datatrafiken kommer att växa med en kombinerad årlig tillväxthastighet (CAGR) på 78 procent mot 2016, upp till 10,8 exabytes per månad.
Samtidigt genererar CSPs stora volymer av data, inklusive samtaldetaljer (CDR), nätverksdata och kunddata. Företag som fullt ut utnyttjar dessa data får en konkurrenskraftig marginal. Enligt en ny undersökning av The Economist Intelligence Unit, företag som använder data-driven beslutsfattande njuter av en 5-6% ökning i produktivitet. Men 53% av företagen använder bara hälften av sina värdefulla data, och en fjärdedel av respondenterna noterade att enorma mängder användbara data går oförglömliga. Datavolymerna är så höga att manuell analys är omöjlig, och de flesta legacy mjukvarusystem kan’t behålla, vilket resulterar i värdefulla data som tas bort eller ignoreras.
Med Big Data & Analytics’ höghastighet, skalbar stordata programvara, kan CSPs gruva alla sina data för bättre beslutsfattande på mindre tid. Olika Big Data produkter och tekniker ger en end-to-end programplattform för att samla in, förbereda, analysera och presentera insikter från stora data. Tillämpningsområdena inkluderar nätverksprestandaövervakning, bedrägeridetektion, kundchurndetektion och kreditriskanalys. Big Data & Analytics produkter skala för att hantera terabytes av data men genomförandet av sådana verktyg kräver en ny typ av molnbaserad databassystem som Hadoop eller massiv skala parallell dataprocessor (KPU etc.)
Denna kurs arbetar på Big Data BI för Telco täcker alla framväxande nya områden där CSP investerar för produktivitetsökning och öppnar nya affärsinkomster. Kursen kommer att ge en komplett 360-grad överblick av Big Data BI i Telco så att beslutsfattare och chefer kan ha en mycket bred och omfattande översikt över möjligheter Big Data BI i Telco för produktivitet och inkomstvinster.
Kursens mål
Huvudsyftet med kursen är att introducera nya Big Data affärsintelligence tekniker i 4 sektorer av Telecom Business (Marketing/Sales, Network Operation, Financial Operation och Customer Relation Management). Studenter kommer att introduceras till att följa:
- Introduktion till Big Data-vad är 4Vs (volym, hastighet, variation och sannolikhet) i Big Data- Generation, utvinning och hantering från Telco perspektiv
- Hur Big Data analytik skiljer sig från arvdata analytik
- In-house motivering av Big Data -Telco perspektiv
- Introduktion till Hadoop Ecosystem- bekantskap med alla Hadoop verktyg som Hive, Pig, SPARC –när och hur de används för att lösa Big Data problem
- Hur Big Data extraheras för analys för analysverktyg-hur Business Analysis’s kan minska sina smärtspunkter av insamling och analys av data genom integrerad Hadoop dashboardmetod
- Grundläggande introduktion av Insight-analys, visualiseringsanalys och prediktiv analys för Telco
- Customer Churn analytics och Big Data-how Big Data analytics kan minska kundchurn och kund missnöje i Telco-case studier
- Analys av nätverksfel och servicefel från nätverksmetadata och IPDR
- Finansiell analys - bedrägeri, vassage och ROI-bedömning från försäljning och operativa data
- Kundens förvärvsproblem-Targetmarknadsföring, kundsegmentering och cross-sales från försäljningsdata
- Introduktion och sammanfattning av alla Big Data analytiska produkter och var de passar i Telco analytiska utrymme
- Slutsats-hur man tar steg för steg tillvägagångssätt för att introducera Big Data Business Intelligence i din organisation
Målgrupp
- Nätverksoperationer, finansiella chefer, CRM-chefer och topp IT-chefer i Telco CIO-kontoret.
- Business Analytiker i Telco
- CFO kontorsledare/analytiker
- Operativa chefer
- QA ledare
Introduction to Google Colab for Data Science
14 timmarDenna instruktörsledda, liveutbildning i Sverige (online eller på plats) riktar sig till datavetare på nybörjarnivå och IT-proffs som vill lära sig grunderna i datavetenskap med hjälp av Google Colab.
I slutet av denna utbildning kommer deltagarna att kunna:
- Ställ in och navigera Google Colab.
- Skriv och exekvera grundläggande Python kod.
- Importera och hantera datauppsättningar.
- Skapa visualiseringar med hjälp av Python bibliotek.
A Practical Introduction to Data Science
35 timmarData Science for Big Data Analytics
35 timmarBig data är datauppsättningar som är så omfattande och komplexa att traditionell applikationsprogramvara för databehandling är otillräcklig för att hantera dem. Stora datautmaningar inkluderar fånga data, datalagring, dataanalys, sökning, delning, överföring, visualisering, fråga, uppdatering och informationssekretess.
Data Science essential for Marketing/Sales professionals
21 timmarDen här kursen är avsedd för Marketing säljare som har för avsikt att gå djupare in i tillämpningen av datavetenskap i Marketing/försäljning. Kursen ger detaljerad täckning av olika datavetenskapliga tekniker som används för "uppförsäljning", "korsförsäljning", marknadssegmentering, varumärkesbyggande och CLV.
Skillnaden mellan Marketing och försäljning - Hur är det att försäljning och marknadsföring är olika?
I mycket enkla ord kan försäljning betecknas som en process som fokuserar eller riktar sig till individer eller små grupper. Marketing å andra sidan riktar sig till en större grupp eller allmänheten. Marketing omfattar forskning (identifiering av kundens behov), utveckling av produkter (tillverkning av innovativa produkter) och marknadsföring av produkten (genom reklam) och skapa medvetenhet om produkten bland konsumenterna. Som sådan innebär marknadsföring att generera potentiella kunder eller prospekt. När produkten väl är ute på marknaden är det säljarens uppgift att övertala kunden att köpa produkten. Försäljning innebär att omvandla leads eller prospekt till köp och beställningar, medan marknadsföringen är inriktad på längre sikt, försäljningen avser kortare mål.