Hem
Big Data Utbildning
Data Science for Big Data Analytics Träningskurs

Data Science for Big Data Analytics Träningskurs

Big data är datauppsättningar som är så omfattande och komplexa att traditionell applikationsprogramvara för databehandling är otillräcklig för att hantera dem. Stora datautmaningar inkluderar fånga data, datalagring, dataanalys, sökning, delning, överföring, visualisering, fråga, uppdatering och informationssekretess.

Tack för att du skickade din fråga! En av våra teammedlemmar kontaktar dig snart.

Tack för att du skickade din bokning! En av våra teammedlemmar kontaktar dig snart.

Kursplan

Introduktion till Data Science för Big Data-Analys

Översikt över Data Science
Översikt över Big Data
Datastrukturer
Drivers och komplexiteter i Big Data
Big Data-ekosystem och en ny ansats för analys
Nyckeltekniker inom Big Data
Data Mining-process och problem
- Associeringsmönstermining
- Data Clustering
- Outlier Detection
- Data Classification

Introduktion till Data Analytics livscykel

Upptäckt
Dataförberedelse
Modellplanering
Modellbyggnad
Presentation/Kommunikation av resultat
Operationalisering
Övning: Fallstudie

Från och med detta kommer mest av träningstiden (80%) att tillbringas på exempel och övningar i R och relaterad big data-teknologi.

Kom igång med R

Installation av R och Rstudio
Funktioner i R-språket
Objekt i R
Data i R
Datahantering
Big data-utmaningar
Övningar

Kom igång med Hadoop

Installation av Hadoop
Förstå Hadoop-lägen
HDFS
MapReduce-arkitektur
Översikt över Hadoop-relaterade projekt
Skrivning av program i Hadoop MapReduce
Övningar

Integration av R och Hadoop med RHadoop

Komponenter i RHadoop
Installation av RHadoop och anslutning till Hadoop
RHadoop-arkitektur
Hadoop-streams med R
Lösning av dataanalysproblem med RHadoop
Övningar

Förbehandling och förberedelse av data

Steg i dataförberedelse
Egenskapsextraktion
Datarening
Dataintegration och transformation
Datareduktion – urval, egenskapssubset
Dimensionalitetsreduktion
Diskretisering och binning
Övningar och fallstudie

Explorativa dataanalysmetoder i R

Deskriptiv statistik
Explorativ dataanalys
Visualisering – förberedande steg
Visualisering av en variabel
Undersökning av flera variabler
Statistiska metoder för utvärdering
Hypotesprövning
Övningar och fallstudie

Data Visualiseringar

Grundläggande visualiseringar i R
Paket för datavisualisering ggplot2, lattice, plotly, lattice
Formatering av diagram i R
Avancerade grafer
Övningar

Regression (Skattning av framtida värden)

Linjär regression
Användningsområden
Modellbeskrivning
Diagnostik
Problem med linjär regression
Shrinkagemetoder, ridge regression, lasso
Generaliseringar och icke-linjäritet
Regressionsplines
Lokal polynomregression
Generaliserade additiva modeller
Regression med RHadoop
Övningar och fallstudie

Klassifikation

Klassifikationsrelaterade problem
Bayesiansk uppfräschning
Naïve Bayes
Logistisk regression
K-närmaste grannar
Algoritm för beslutsträd
Neuronnätverk
Support Vector Machines
Diagnostik av klassificerare
Jämförelse av klassifikationsmetoder
Skalbara klassifikationsalgoritmer
Övningar och fallstudie

Utvärdering av modellprestanda och val

Fördom, Varians och modellkomplexitet
Noggrannhet vs Tydlighet
Utvärdering av klassificerare
Mått för modell/algoritmprestanda
Hold-out-metoden för validering
Korsvalidering
Anpassning av maskininlärningsalgoritmer med caret-paketet
Visualisering av modellprestanda med Profit ROC och Lift-kurvor

Ensemble Metoder

Bagging
Random Forests
Boosting
Gradient Boosting
Övningar och fallstudie

Support Vector Machines för klassifikation och regression

Maximala Margin klassificerare
- Support Vector Classifiers
- Support Vector Machines
- SVM för klassifikationsproblem
- SVM för regressionsproblem
Övningar och fallstudie

Identifiering av okända grupperingar inom en datamängd

Egenskapssval för klustring
Representationsbaserade algoritmer: k-means, k-medoids
Hierarkiska algoritmer: aggregerande och divisiva metoder
Probabilistiska basalgoritmer: EM
Täthetsbaserade algoritmer: DBSCAN, DENCLUE
Klustervalidering
Avancerade klustringskoncept
Klustring med RHadoop
Övningar och fallstudie

Upptäckande av samband med Länk Analys

Koncept för länkanalys
Mått för analys av nätverk
Pagerank-algoritmen
Hyperlink-Induced Topic Search
Länkprediktion
Övningar och fallstudie

Associeringsmönstermining

Frekvent mönstermineringsmodell
Skalbarhetsproblem i frekvent mönsterminering
Brute Force-algoritmer
Apriori-algoritmen
FP-growth-ansatsen
Utvärdering av kandidatregler
Användningar av associeringsregler
Validering och testning
Diagnostik
Associeringsregler med R och Hadoop
Övningar och fallstudie

Konstruktion av rekommendationsmotorer

Förståelse för rekommendationssystem
Dataminingstekniker använda i rekommendationssystem
Rekommendationssystem med recommenderlab-paketet
Utvärdering av rekommendationssystem
Rekommendationer med RHadoop
Övning: Byggande av rekommendationsmotor

Textanalys

Steg i textanalys
Samling av rå text
Bag of words
Term Frequency – Inverse Document Frequency
Bestämning av känslor
Övningar och fallstudie

35 Timmar

Antal deltagare

Online

Klassrum

Välj Plats

Vänligen välj ett Föreläsningssal

Pris per deltagare

Öppna Utbildningskurser kräver 5+ deltagare.

Data Science for Big Data Analytics Träningskurs - Bokning

Fullständigt namn *

E-post *

Telefonnummer *

Jobbtitel

Företagsnamn

Adress 1 *

Stad *

Län / Provins

Land *

Postnummer *

Startdatum

Moms-ID

Datum är beroende av tillgänglighet och äger rum mellan 09:30 och 16:30.

Betalning *

Banköverföring (Faktura, EK)

Debetkort / Kreditkort

Kommentarer

Villkor *

Jag är en auktoriserad representant för ovan nämnda kund och önskar boka de ovan nämnda kurserna eller tjänsterna i enlighet med NobleProgs villkor och personuppgiftspolicy.

Informera mig om rabatter och erbjudanden

Läs vår integritetspolicy för att se hur vi använder dina uppgifter

Data Science for Big Data Analytics Träningskurs - Fråga

Fullständigt namn *

E-post *

Telefonnummer *

Antal deltagare

Företagsnamn

Företagsadress

Hur vill du delta på kursen?

Kundlokaler

Online

Klassrum

Kommentarer

Informera mig om rabatter och erbjudanden

Läs vår integritetspolicy för att se hur vi använder dina uppgifter

Data Science for Big Data Analytics - Konsultfråga

Fullständigt namn *

Telefonnummer *

E-post *

Företagsnamn

Konsulttäcke *

Konsulmål

Vem kommer konsulten att arbeta med?

Konsultbrådskap *

Kommentarer

Informera mig om rabatter och erbjudanden

Läs vår integritetspolicy för att se hur vi använder dina uppgifter

Vittnesmål (2)

Intensitet, Träningsmaterial och expertis, Tydlighet, Utmärkt kommunikation med Alessandra

Marija Hornis Dmitrovic - Marija Hornis

Kurs - Data Science for Big Data Analytics

Maskintolkat

The example and training material were sufficient and made it easy to understand what you are doing.

Teboho Makenete

Kurs - Data Science for Big Data Analytics

Maskintolkat

Kommande Kurser

Data Science for Big Data Analytics

2026-06-22 09:30

35 timmar

Västerås

6250 EUR (Online)

7250 EUR (Klassrum)

Data Science for Big Data Analytics

2026-07-06 09:30

35 timmar

Örebro, City Center

6250 EUR (Online)

7250 EUR (Klassrum)

Data Science for Big Data Analytics

2026-07-20 09:30

35 timmar

Linköping

6250 EUR (Online)

7250 EUR (Klassrum)

Data Science for Big Data Analytics

2026-08-03 09:30

35 timmar

Stockholm, Hötorget

6250 EUR (Online)

7250 EUR (Klassrum)

Relaterade Kurser

Anaconda Ekosystem för Data Scientists

14 Timmar

Denna instruktörsledda, liveutbildning i Sverige (online eller på plats) riktar sig till datavetare som vill använda Anaconda-ekosystemet för att fånga, hantera och distribuera paket och arbetsflöden för dataanalys på en enda plattform.

I slutet av denna utbildning kommer deltagarna att kunna:

Installera och konfigurera Anaconda komponenter och bibliotek.
Förstå de grundläggande begreppen, funktionerna och fördelarna med Anaconda.
Hantera paket, miljöer och kanaler med hjälp av Anaconda Navigator.
Använd Conda-, R- och Python-paket för datavetenskap och maskininlärning.
Lär känna några praktiska användningsfall och tekniker för att hantera flera datamiljöer.

LÄS MER...

Administratörsutbildning för Apache Hadoop

35 Timmar

Målgrupp:

Kurset riktar sig till IT-specialister som söker en lösning för att lagra och bearbeta stora datamängder i en distribuerad systemmiljö

Förkunskap:

Djup kunskap om Apache Zookeeper-administration.

LÄS MER...

Big Data Analytics in Health

21 Timmar

Big data analytics innebär processen med att granska stora mängder varierade datamängder för att upptäcka korrelationer, dolda mönster och andra användbara insikter.

Hälsosektorn har enorma mängder komplexa och heterogena medicinska och kliniska data. Att tillämpa big data analytics på hälsovårdsdata erbjuder stort potential för att härleda insikter som kan förbättra leveransen av hälso- och sjukvård. Men storleken på dessa datamängder utgör stora utmaningar i analysen och praktiska tillämpningar i en klinisk miljö.

I detta instruktörsledda, live-träning (distant), kommer deltagarna att lära sig hur man utför big data analytics inom hälsosektorn genom att gå igenom en serie praktiska övningar i ett laboratoriemiljö.

När kurserna är avslutade kommer deltagarna kunna:

Installera och konfigurera big data analytics-verktyg som Hadoop MapReduce och Spark
Förstå egenskaperna hos medicinska data
Tillämpa big data-tekniker för att hantera medicinska data
Studera big data-system och algoritmer i sammanhanget av hälsoapplikationer

Målgrupp

Utvecklare
Data vetenskapsmän

Kursformat

Delen föreläsning, delen diskussion, övningar och mycket praktisk handledning.

Notering

För att begära en anpassad utbildning för denna kurs, vänligen kontakta oss för att ordna det.

LÄS MER...

Hadoop för administratörer

21 Timmar

Apache Hadoop är det mest populära ramverket för bearbetning av Big Data på klustren av servrar. På denna tre (eventuellt fyra) dagars kurs lär deltagarna sig om affärsfördelar och användningsområden för Hadoop och dess ekosystem, hur man planerar klusterdistribution och tillväxt, hur man installerar, underhåller, övervakar, felsöker och optimerar Hadoop. De kommer också att öva på massbelastning av klusterdata, bekanta sig med olika Hadoop-distributioner och öva på installation och hantering av Hadoop-ekosystemverktyg. Kursen avslutas med en diskussion om hur man säkrar klustret med Kerberos.

“…Materialet var mycket väl förberett och täckte grundligt. Laboratoriet var mycket användbart och väl organiserat”
— Andrew Nguyen, Principal Integration DW Engineer, Amazon Web Services

Målgrupp

Hadoop-administratörer

Format

Föreläsningar och praktiska laborationer, ungefär 60% föreläsningar och 40% laborationer.

LÄS MER...

Hadoop för utvecklare (4 dagar)

28 Timmar

Apache Hadoop är den mest populära ramverket för att bearbeta stora datamängder på servrar. Denna kurs kommer att introducera en utvecklare till olika komponenter i Hadoop-ekosystemet (HDFS, MapReduce, Pig, Hive och HBase).

LÄS MER...

Avancerad Hadoop för utvecklare

21 Timmar

Apache Hadoop är en av de mest populära ramverken för bearbetning av stora datamängder på servrarkluster. Denna kurs går djupet in i datahantering i HDFS, avancerad Pig, Hive och HBase. Dessa avancerade programmeringstekniker kommer att vara till nytta för erfarna Hadoop-utvecklare.

Målgrupp: utvecklare

Varaktighet: tre dagar

Format: föreläsningar (50%) och praktiska övningar (50%).

LÄS MER...

Hadoop Administration på MapR

28 Timmar

Målgrupp:

Den här kursen syftar till att förklara big data/hadoop-teknik och visa att den inte är svår att förstå.

LÄS MER...

Hadoop och Spark för Administratörer

35 Timmar

Denna instruktörssvärd, liveutbildning i Sverige (online eller på plats) riktas till systemadministratörer som vill lära sig hur man sätter upp, distribuerar och hanterar Hadoop-kluster inom deras organisation.

Till slut av denna utbildning kommer deltagarna att kunna:

Installera och konfigurera Apache Hadoop.
Förstå de fyra huvudkomponenterna i Hadoop-ekosystemet: HDFS, MapReduce, YARN och Hadoop Common.
Använda Hadoop Distributed File System (HDFS) för att skala ett kluster till hundra eller tusen noder.
Ställ in HDFS som lagringsslänk för lokala Spark-distributioner.
Ställ in Spark för att komma åt alternativa lagringslösningar såsom Amazon S3 och NoSQL-databasystem som Redis, Elasticsearch, Couchbase, Aerospike etc.
Framföra administrativa uppgifter som tilldelning, hantering, övervakning och säkring av ett Apache Hadoop-kluster.

LÄS MER...

HBase för Utvecklare

21 Timmar

Denna kurs introducerar HBase – en NoSQL-databas ovanpå Hadoop. Kursen är avsedd för utvecklare som kommer att använda HBase för att utveckla applikationer, och administratörer som kommer att hantera HBase-kluster.

Vi leder en utvecklare genom HBase-arkitektur, datamodellering och applikationsutveckling med HBase. Kursen diskuterar också användningen av MapReduce med HBase, samt några administrativa ämnen relaterade till prestandaoptimering. Kursen är mycket praktisk med många laborationer.

Varaktighet: 3 dagar

Målgrupp: Utvecklare & Administratörer

LÄS MER...

Kaggle

14 Timmar

Denna instruktörsledda, liveutbildning i Sverige (online eller på plats) riktar sig till datavetare och utvecklare som vill lära sig och bygga sina karriärer i Data Science med hjälp av Kaggle.

I slutet av denna utbildning kommer deltagarna att kunna:

Lär dig mer om datavetenskap och maskininlärning.
Utforska dataanalys.
Lär dig mer om Kaggle och hur det fungerar.

LÄS MER...

Accelerating Python Pandas Workflows with Modin Accelerera Python Pandas-arbetsflöden med Modin

14 Timmar

Denna instruktörsledda, liveutbildning i Sverige (online eller på plats) riktar sig till datavetare och utvecklare som vill använda Modin för att bygga och implementera parallella beräkningar med Pandas för snabbare dataanalys.

I slutet av denna utbildning kommer deltagarna att kunna:

Konfigurera den miljö som krävs för att börja utveckla Pandas arbetsflöden i stor skala med Modin.
Förstå funktionerna, arkitekturen och fördelarna med Modin.
Känn till skillnaderna mellan Modin, Dask och Ray.
Utför Pandas operationer snabbare med Modin.
Implementera hela Pandas API:et och funktionerna.

LÄS MER...

PySpark och Maskininlärning

21 Timmar

Denna utbildning ger en praktisk introduktion till att bygga skalbara dataprocesserings- och maskininlärningsflöden med hjälp av PySpark. Deltagarna lär sig hur Apache Spark fungerar inom moderna Big Data-miljöer och hur man effektivt bearbetar stora datamängder med hjälp av principer för distribuerad beräkning.

LÄS MER...

GPU Data Science with NVIDIA RAPIDS

14 Timmar

Denna instruktörsledda, live-utbildning (online eller på plats) riktar sig till datavetare och utvecklare som vill använda RAPIDS för att bygga GPU-accelererade datapipelines, arbetsflöden och visualiseringar, med tillämpning av maskininlärningsalgoritmer, såsom XGBoost, cuML etc.

Efter avslutad utbildning kommer deltagarna kunna:

Installera nödvändiga utvecklingsmiljöer för att bygga datamodeller med NVIDIA RAPIDS.
Förstå funktioner, komponenter och fördelar med RAPIDS.
Utnyttja GPUer för att accelerera slut- till-slut datapipelines och analyser.
Implementera GPU-accelererad datapreparation och ETL med cuDF och Apache Arrow.
Lära sig hur man utför maskininlärningsuppgifter med XGBoost- och cuML-algoritmer.
Bygga datavisualiseringar och utföra grafanalyser med cuXfilter och cuGraph.

LÄS MER...

Python och Spark för Big Data (PySpark)

21 Timmar

I denna instruktörsledda, liveträning i Sverige kommer deltagarna att lära sig hur man använder Python och Spark tillsammans för att analysera big data medan de arbetar med praktiska övningar.

I slutet av denna utbildning kommer deltagarna att kunna:

Lär dig hur du använder Spark med Python för att analysera Big Data.
Arbeta med övningar som efterliknar verkliga fall.
Använda olika verktyg och tekniker för analys av stora datamängder med hjälp av PySpark.

LÄS MER...

Stratio: Rocket och Intelligence Modules med PySpark

14 Timmar

Stratio är en datacentrisk plattform som integrerar stora data, AI och styrning i en enda lösning. Dess Rocket- och Intelligence-moduler möjliggör snabb datautforskning, transformering och avancerad analys i företagsmiljöer.

Denna instruktörsledda, levande utbildning (online eller på plats) riktar sig till mellannivådatafagliga personer som vill använda Rocket- och Intelligence-modulerna i Stratio effektivt med PySpark, med fokus på loopstrukturer, användardefinierade funktioner och avancerad datalogi.

Vid slutet av denna utbildning kommer deltagarna att kunna:

Navigera och arbeta inom Stratio-plattformen med Rocket- och Intelligence-modulerna.
Använda PySpark i samband med datainsamling, transformering och analys.
Använda loopar och villkorlig logik för att kontrollera datarutiner och funktioner för databehandling.
Skapa och hantera användardefinierade funktioner (UDFs) för återanvändbara databehandlingsoperationer i PySpark.

Kursformat

Interaktiv föreläsning och diskussion.
Många övningar och praktik.
Hands-on-implementering i en levande labbmiljö.

Kursanpassningsalternativ

För att begära en anpassad utbildning för denna kurs, kontakta oss för att arrangera.

LÄS MER...

Data Science for Big Data Analytics Träningskurs

Kursplan

Introduktion till Data Science för Big Data-Analys

Introduktion till Data Analytics livscykel

Från och med detta kommer mest av träningstiden (80%) att tillbringas på exempel och övningar i R och relaterad big data-teknologi.

Kom igång med R

Kom igång med Hadoop

Integration av R och Hadoop med RHadoop

Förbehandling och förberedelse av data

Explorativa dataanalysmetoder i R

Data Visualiseringar

Regression (Skattning av framtida värden)

Klassifikation

Utvärdering av modellprestanda och val

Ensemble Metoder

Support Vector Machines för klassifikation och regression

Identifiering av okända grupperingar inom en datamängd

Upptäckande av samband med Länk Analys

Associeringsmönstermining

Konstruktion av rekommendationsmotorer

Textanalys

Vittnesmål (2)

Marija Hornis Dmitrovic - Marija Hornis

Kurs - Data Science for Big Data Analytics

Teboho Makenete

Kurs - Data Science for Big Data Analytics

Kommande Kurser

Data Science for Big Data Analytics

Data Science for Big Data Analytics

Data Science for Big Data Analytics

Data Science for Big Data Analytics

Relaterade Kategorier

Denna webbplats i andra länder/regioner

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites