SMACK Stack for Data Science Träningskurs
SMACK är en samling av dataplattform programvara, nämligen Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, och Apache Kafka. Med hjälp av SMACK stack kan användare skapa och skala databehandlingsplattformar.
Denna instruktörledda, live-utbildning (online eller on-site) riktar sig till datavetenskapsmän som vill använda SMACK stack för att bygga databehandlingsplattformar för stora datalösningar.
Vid slutet av denna utbildning kommer deltagarna att kunna:
- Implementera en data pipeline arkitektur för bearbetning av stora data.
- Utveckla en klusterinfrastruktur med Apache Mesos och Docker.
- Analysera data med Spark och Scala.
- Hantera obestrukturerade data med Apache Cassandra.
Format för kursen
- Interaktiv föreläsning och diskussion.
- Många övningar och övningar.
- Hand-on implementering i en live-lab miljö.
Kursanpassningsalternativ
- För att begära en anpassad utbildning för denna kurs, vänligen kontakta oss för att arrangera.
Kursplan
Införandet
Översikt över SMACK-stacken
- Vad är Apache Spark? Apache Spark Funktioner
- Vad är Apache Mesos? Apache Mesos Funktioner
- Vad är Apache Akka? Apache Akka funktioner
- Vad är Apache Cassandra? Apache Cassandra funktioner
- Vad är Apache Kafka? Apache Kafka Funktioner
Scala Språk
- Scala Syntax och struktur
- Scala Kontrollflöde
Förberedelse av utvecklingsmiljön
- Installera och konfigurera SMACK-stacken
- Installera och konfigurera Docker
Apache Akka
- Använda skådespelare
Apache Cassandra
- Skapa en databas för läsåtgärder
- Arbeta med säkerhetskopiering och återställning
Kontakter
- Skapa en ström
- Skapa ett Akka-program
- Lagra data med Cassandra
- Granska anslutningsappar
Apache Kafka
- Arbeta med kluster
- Skapa, publicera och använda meddelanden
Apache Mesos
- Fördelning av resurser
- Kluster som körs
- Arbeta med Apache Aurora och Docker
- Köra tjänster och jobb
- Distribuera Spark, Cassandra och Kafka på Mesos
Apache Spark
- Hantera dataflöden
- Arbeta med RDD:er och dataramar
- Utföra dataanalys
Felsökning
- Hantera fel på tjänster och fel
Sammanfattning och slutsats
Krav
- En förståelse för databehandlingssystem
Publik
- Dataforskare
Open Training Courses require 5+ participants.
SMACK Stack for Data Science Träningskurs - Booking
SMACK Stack for Data Science Träningskurs - Enquiry
SMACK Stack for Data Science - Consultancy Enquiry
Consultancy Enquiry
Vittnesmål (1)
very interactive...
Richard Langford
Kurs - SMACK Stack for Data Science
Upcoming Courses
Relaterade Kurser
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 timmarDen här kursen är avsedd för utvecklare och datavetare som vill förstå och implementera AI i sina applikationer. Särskild uppmärksamhet ägnas åt dataanalys, distribuerad artificiell intelligens och behandling av naturligt språk.
Anaconda Ecosystem for Data Scientists
14 timmarDenna instruktörsledda, liveutbildning i Sverige (online eller på plats) riktar sig till datavetare som vill använda Anaconda-ekosystemet för att fånga, hantera och distribuera paket och arbetsflöden för dataanalys på en enda plattform.
I slutet av denna utbildning kommer deltagarna att kunna:
- Installera och konfigurera Anaconda komponenter och bibliotek.
- Förstå de grundläggande begreppen, funktionerna och fördelarna med Anaconda.
- Hantera paket, miljöer och kanaler med hjälp av Anaconda Navigator.
- Använd Conda-, R- och Python-paket för datavetenskap och maskininlärning.
- Lär känna några praktiska användningsfall och tekniker för att hantera flera datamiljöer.
Big Data Business Intelligence for Telecom and Communication Service Providers
35 timmarÖversikt
Communications tjänsteleverantörer (CSP) står inför tryck för att minska kostnaderna och maximera genomsnittliga intäkter per användare (ARPU), samtidigt som en utmärkt kundupplevelse säkerställs, men datavolymerna fortsätter att växa. Den globala mobila datatrafiken kommer att växa med en kombinerad årlig tillväxthastighet (CAGR) på 78 procent mot 2016, upp till 10,8 exabytes per månad.
Samtidigt genererar CSPs stora volymer av data, inklusive samtaldetaljer (CDR), nätverksdata och kunddata. Företag som fullt ut utnyttjar dessa data får en konkurrenskraftig marginal. Enligt en ny undersökning av The Economist Intelligence Unit, företag som använder data-driven beslutsfattande njuter av en 5-6% ökning i produktivitet. Men 53% av företagen använder bara hälften av sina värdefulla data, och en fjärdedel av respondenterna noterade att enorma mängder användbara data går oförglömliga. Datavolymerna är så höga att manuell analys är omöjlig, och de flesta legacy mjukvarusystem kan’t behålla, vilket resulterar i värdefulla data som tas bort eller ignoreras.
Med Big Data & Analytics’ höghastighet, skalbar stordata programvara, kan CSPs gruva alla sina data för bättre beslutsfattande på mindre tid. Olika Big Data produkter och tekniker ger en end-to-end programplattform för att samla in, förbereda, analysera och presentera insikter från stora data. Tillämpningsområdena inkluderar nätverksprestandaövervakning, bedrägeridetektion, kundchurndetektion och kreditriskanalys. Big Data & Analytics produkter skala för att hantera terabytes av data men genomförandet av sådana verktyg kräver en ny typ av molnbaserad databassystem som Hadoop eller massiv skala parallell dataprocessor (KPU etc.)
Denna kurs arbetar på Big Data BI för Telco täcker alla framväxande nya områden där CSP investerar för produktivitetsökning och öppnar nya affärsinkomster. Kursen kommer att ge en komplett 360-grad överblick av Big Data BI i Telco så att beslutsfattare och chefer kan ha en mycket bred och omfattande översikt över möjligheter Big Data BI i Telco för produktivitet och inkomstvinster.
Kursens mål
Huvudsyftet med kursen är att introducera nya Big Data affärsintelligence tekniker i 4 sektorer av Telecom Business (Marketing/Sales, Network Operation, Financial Operation och Customer Relation Management). Studenter kommer att introduceras till att följa:
- Introduktion till Big Data-vad är 4Vs (volym, hastighet, variation och sannolikhet) i Big Data- Generation, utvinning och hantering från Telco perspektiv
- Hur Big Data analytik skiljer sig från arvdata analytik
- In-house motivering av Big Data -Telco perspektiv
- Introduktion till Hadoop Ecosystem- bekantskap med alla Hadoop verktyg som Hive, Pig, SPARC –när och hur de används för att lösa Big Data problem
- Hur Big Data extraheras för analys för analysverktyg-hur Business Analysis’s kan minska sina smärtspunkter av insamling och analys av data genom integrerad Hadoop dashboardmetod
- Grundläggande introduktion av Insight-analys, visualiseringsanalys och prediktiv analys för Telco
- Customer Churn analytics och Big Data-how Big Data analytics kan minska kundchurn och kund missnöje i Telco-case studier
- Analys av nätverksfel och servicefel från nätverksmetadata och IPDR
- Finansiell analys - bedrägeri, vassage och ROI-bedömning från försäljning och operativa data
- Kundens förvärvsproblem-Targetmarknadsföring, kundsegmentering och cross-sales från försäljningsdata
- Introduktion och sammanfattning av alla Big Data analytiska produkter och var de passar i Telco analytiska utrymme
- Slutsats-hur man tar steg för steg tillvägagångssätt för att introducera Big Data Business Intelligence i din organisation
Målgrupp
- Nätverksoperationer, finansiella chefer, CRM-chefer och topp IT-chefer i Telco CIO-kontoret.
- Business Analytiker i Telco
- CFO kontorsledare/analytiker
- Operativa chefer
- QA ledare
Data Science for Big Data Analytics
35 timmarBig data är datauppsättningar som är så omfattande och komplexa att traditionell applikationsprogramvara för databehandling är otillräcklig för att hantera dem. Stora datautmaningar inkluderar fånga data, datalagring, dataanalys, sökning, delning, överföring, visualisering, fråga, uppdatering och informationssekretess.
Data Science essential for Marketing/Sales professionals
21 timmarDen här kursen är avsedd för Marketing säljare som har för avsikt att gå djupare in i tillämpningen av datavetenskap i Marketing/försäljning. Kursen ger detaljerad täckning av olika datavetenskapliga tekniker som används för "uppförsäljning", "korsförsäljning", marknadssegmentering, varumärkesbyggande och CLV.
Skillnaden mellan Marketing och försäljning - Hur är det att försäljning och marknadsföring är olika?
I mycket enkla ord kan försäljning betecknas som en process som fokuserar eller riktar sig till individer eller små grupper. Marketing å andra sidan riktar sig till en större grupp eller allmänheten. Marketing omfattar forskning (identifiering av kundens behov), utveckling av produkter (tillverkning av innovativa produkter) och marknadsföring av produkten (genom reklam) och skapa medvetenhet om produkten bland konsumenterna. Som sådan innebär marknadsföring att generera potentiella kunder eller prospekt. När produkten väl är ute på marknaden är det säljarens uppgift att övertala kunden att köpa produkten. Försäljning innebär att omvandla leads eller prospekt till köp och beställningar, medan marknadsföringen är inriktad på längre sikt, försäljningen avser kortare mål.
Introduction to Graph Computing
28 timmarI denna instruktörsledda, liveträning i Sverige kommer deltagarna att lära sig om teknikerbjudandena och implementeringsmetoderna för bearbetning av grafdata. Målet är att identifiera verkliga objekt, deras egenskaper och relationer, sedan modellera dessa relationer och bearbeta dem som data med hjälp av en Graph Computing (även känd som Graph Analytics) metod. Vi börjar med en bred översikt och begränsar oss till specifika verktyg när vi går igenom en serie fallstudier, praktiska övningar och live-distributioner.
I slutet av denna utbildning kommer deltagarna att kunna:
- Förstå hur diagramdata bevaras och gås igenom.
- Välj det bästa ramverket för en viss uppgift (från grafdatabaser till ramverk för batchbearbetning).
- Implementera Hadoop, Spark, GraphX och Pregel för att utföra grafberäkning på många datorer parallellt.
- Se verkliga big data-problem i form av grafer, processer och traverser.
Jupyter for Data Science Teams
7 timmarThis instructor-led, live training in Sverige (online or onsite) introduces the idea of collaborative development in data science and demonstrates how to use Jupyter to track and participate as a team in the "life cycle of a computational idea". It walks participants through the creation of a sample data science project based on top of the Jupyter ecosystem.
By the end of this training, participants will be able to:
- Install and configure Jupyter, including the creation and integration of a team repository on Git.
- Use Jupyter features such as extensions, interactive widgets, multiuser mode and more to enable project collaboraton.
- Create, share and organize Jupyter Notebooks with team members.
- Choose from Scala, Python, R, to write and execute code against big data systems such as Apache Spark, all through the Jupyter interface.
Kaggle
14 timmarDenna instruktörsledda, liveutbildning i Sverige (online eller på plats) riktar sig till datavetare och utvecklare som vill lära sig och bygga sina karriärer i Data Science med hjälp av Kaggle.
I slutet av denna utbildning kommer deltagarna att kunna:
- Lär dig mer om datavetenskap och maskininlärning.
- Utforska dataanalys.
- Lär dig mer om Kaggle och hur det fungerar.
MATLAB Fundamentals, Data Science & Report Generation
35 timmarI den första delen av den här utbildningen går vi igenom grunderna i MATLAB och dess funktion som både ett språk och en plattform. I den här diskussionen ingår en introduktion till MATLAB syntax, matriser och matriser, datavisualisering, skriptutveckling och objektorienterade principer.
I den andra delen visar vi hur man använder MATLAB för datautvinning, maskininlärning och prediktiv analys. För att ge deltagarna ett tydligt och praktiskt perspektiv på MATLABs tillvägagångssätt och kraft gör vi jämförelser mellan att använda MATLAB och att använda andra verktyg som kalkylblad, C, C++ och Visual Basic.
I den tredje delen av utbildningen lär sig deltagarna hur de kan effektivisera sitt arbete genom att automatisera sin databehandling och rapportgenerering.
Under hela kursen kommer deltagarna att omsätta de idéer som de lärt sig genom praktiska övningar i en labbmiljö i praktiken. I slutet av utbildningen kommer deltagarna att ha ett grundligt grepp om MATLAB:s kapacitet och kommer att kunna använda den för att lösa verkliga datavetenskapsproblem samt för att effektivisera sitt arbete genom automatisering.
Bedömningar kommer att genomföras under hela kursen för att mäta framstegen.
Kursens upplägg
- Kursen innehåller teoretiska och praktiska övningar, inklusive falldiskussioner, provkodsinspektion och praktisk implementering.
Not
- Övningssessioner kommer att baseras på förarrangerade exempeldatarapportmallar. Om du har specifika krav, vänligen kontakta oss för att ordna.
Machine Learning for Data Science with Python
21 timmarDenna instruktörsledda, liveutbildning online eller på plats är riktad till dataanalytiker, utvecklare eller blivande dataforskare på mellannivå som vill tillämpa maskininlärningstekniker i Python för att dra slutsatser, göra förutsägelser och automatisera datadrivna beslut.
Vid kursens slut kommer deltagarna kunna:
- Förstå och skilja mellan olika viktiga maskininlärningsparadigm.
- Uppleva förberedelsetekniker för data och modellutvärderingsmått.
- Tillämpa maskininlärningsalgoritmer för att lösa verkliga dataproblem.
- Använda Python bibliotek och Jupyter-notebooks för praktisk utveckling.
- Bygga modeller för förutsägelser, klassificering, rekommendationer och klusteranalys.
Accelerating Python Pandas Workflows with Modin
14 timmarDenna instruktörsledda, liveutbildning i Sverige (online eller på plats) riktar sig till datavetare och utvecklare som vill använda Modin för att bygga och implementera parallella beräkningar med Pandas för snabbare dataanalys.
I slutet av denna utbildning kommer deltagarna att kunna:
- Konfigurera den miljö som krävs för att börja utveckla Pandas arbetsflöden i stor skala med Modin.
- Förstå funktionerna, arkitekturen och fördelarna med Modin.
- Känn till skillnaderna mellan Modin, Dask och Ray.
- Utför Pandas operationer snabbare med Modin.
- Implementera hela Pandas API:et och funktionerna.
Python Programming for Finance
35 timmarPython är ett programmeringsspråk som har vunnit enorm popularitet inom finansbranschen. Antaget av de största investeringsbankerna och hedgefonderna används det för att bygga ett brett utbud av finansiella applikationer, allt från kärnhandelsprogram till riskhanteringssystem.
I denna instruktörsledda, liveträning, kommer deltagarna att lära sig att använda Python att utveckla praktiska applikationer för att lösa ett antal specifika finansrelaterade problem.
I slutet av denna träning kommer deltagarna att kunna:
- Förstå grunderna i programmeringsspråket Python
- Ladda ner, installera och underhålla de bästa utvecklingsverktygen för att skapa finansiella applikationer i Python
- Välja och använda de mest lämpliga Python-paketen och programmeringsteknikerna för att organisera, visualisera och analysera finansiell data från olika källor (CSV, Excel, databaser, webb, etc.)
- Bygga applikationer som löser problem relaterade till tillgångsallokering, riskanalys, investeringsresultat och mer
- Felsöka, integrera, distribuera och optimera en Python-applikation
Publik
- Utvecklare
- Analytiker
- Kvantitativa analytiker
Kursformat
- Delvis föreläsning, delvis diskussion, övningar och omfattande praktisk övning
Notera
- Denna utbildning syftar till att tillhandahålla lösningar för några av de viktigaste problemen som finansproffs står inför. Om du dock har ett specifikt ämne, verktyg eller teknik som du vill fördjupa dig i eller utarbeta ytterligare, vänligen kontakta oss för att ordna detta.
GPU Data Science with NVIDIA RAPIDS
14 timmarDen här instruktörsledda, liveutbildningen i Sverige (online eller på plats) riktar sig till datavetare och utvecklare som vill använda RAPIDS för att skapa GPU-accelererade datapipelines, arbetsflöden och visualiseringar, genom att tillämpa maskininlärningsalgoritmer, till exempel XGBoost, cuML osv.
I slutet av denna utbildning kommer deltagarna att kunna:
- Konfigurera den utvecklingsmiljö som krävs för att bygga datamodeller med NVIDIA RAPIDS.
- Förstå funktionerna, komponenterna och fördelarna med RAPIDS.
- Utnyttja GPUs för att påskynda pipelines för data och analys från slutpunkt till slutpunkt.
- Implementera GPU-accelererad dataförberedelse och ETL med cuDF och Apache Arrow.
- Lär dig hur du utför maskininlärningsuppgifter med XGBoost- och cuML-algoritmer.
- Bygg datavisualiseringar och utför grafanalys med cuXfilter och cuGraph.
Python and Spark for Big Data (PySpark)
21 timmarI denna instruktörsledda, liveträning i Sverige kommer deltagarna att lära sig hur man använder Python och Spark tillsammans för att analysera big data medan de arbetar med praktiska övningar.
I slutet av denna utbildning kommer deltagarna att kunna:
- Lär dig hur du använder Spark med Python för att analysera Big Data.
- Arbeta med övningar som efterliknar verkliga fall.
- Använda olika verktyg och tekniker för analys av stora datamängder med hjälp av PySpark.
Apache Spark MLlib
35 timmarMLlib är Sparks maskinlärningsbibliotek. Målet är att göra praktisk maskininlärning skalbar och enkel. Det består av vanliga inlärningsalgoritmer och verktyg, inklusive klassificering, regression, klustering, samarbetsfiltrering, dimensionalitetsminskning samt primitiv för optimering av lägre nivåer och API: er på högre nivå.
Den delar upp i två paket:
spark.mllib innehåller det ursprungliga API som är byggt ovanpå RDD: er.
spark.ml tillhandahåller API på högre nivå byggd ovanpå DataFrames för konstruktion av ML-rörledningar.
Publik
Kursen riktar sig till ingenjörer och utvecklare som vill använda ett inbyggt maskinbibliotek för Apache Spark