Kursplan

1.1Hadoop Koncept

1.1.1HDFS

    Utformningen av HDFS Kommandoradsgränssnitt Hadoop Filsystem

1.1.2Kluster

    Anatomi av ett kluster Mater Node / Slave nod Namn Nod / Data Node

1.2 Datamanipulation

1.2.1MapReduce detaljerad

    Kartfas Minska fas Blanda

1.2.2Analytics med Map Reduce

    Group-By med MapReduce Frekvensfördelningar och sortering med MapReduce Plotting results (GNU Plot) Histogram med MapReduce Scatterplots med MapReduce Parsning av komplexa datauppsättningar Räkna med MapReduce och Combiners Bygg rapporter

 

1.2.3 Datarensning

    Dokumentrengöring Fuzzy strängsökning Postlänkning / datadeduplicering Transformera och sortera händelsedatum Validera källtillförlitlighet Trim Outliers

1.2.4 Extrahera och transformera data

    Transformera loggar Använda Apache Pig för att filtrera Använda Apache Pig för att sortera Använda Apache Pig för att sessionsisera

1.2.5 Avancerade kopplingar

    Sammanfoga data i Mapper med MapReduce Sammanfoga data med Apache Pig replicated join Sammanfoga sorterad data med Apache Pig Merge join Sammanfoga skev data med Apache Pig skev sammanfogning Använda en kartsides sammanfogning i Apache Hive Använda optimerade fullständiga yttre sammanfogningar i Apache [1 ] Sammanfoga data med hjälp av ett externt nyckelvärdeslager

1.3 Prestandadiagnos och optimeringstekniker

    Karta Undersöker toppar i indata. Identifierar problem med snedvridning av data på kartsidan Kartuppgiftens genomströmning Små filer Odelningsbara filer
Minska För få eller för många reducerare
  • Minska problem med sned data på sidan
  • Minska arbetskapaciteten
  • Blanda långsamt och sortera
  • Konkurrerande jobb och schemaläggare
  • Stackdumpar och ooptimerad kod
  • Hårdvarufel
  • CPU-strid
  • Uppgifter Extrahera och visualisera genomförandetider för uppdrag
  • Profilera din karta och minska uppgifterna
  • Undvik reduceringen
  • Filtrera och projektera
  • Använder kombineraren
  • Snabb sortering med komparatorer
  • Samlar in skev data
  • Minska snedvridning
  • Krav

    Deltagare behöver inte ha någon specifik färdighet eftersom utbildningen är fokuserad på slutanvändarnas färdigheter för både administration och manipulering av data under Apache Hadoop

     21 timmar

    Antal deltagare



    Price per participant

    Vittnesmål (3)

    Relaterade Kurser

    Relaterade Kategorier