Kursplan

Introduktion till Data Analysis och Big Data

  • Vad gör Big Data "stor"?
    • Hastighet, Volym, Variation, Sanningshalt (VVVV)
  • Begränsningar för traditionell databehandling
  • Distribuerad bearbetning
  • Statistisk analys
  • Typer av Machine Learning-analyser
  • Data Visualization

Big Data Roller och ansvarsområden

  • Administratörer
  • Utvecklare
  • Dataanalytiker

Languages Används för Data Analysis

  • R Language
    • Varför R för Data Analysis?
    • Manipulering, beräkning och grafisk visning av data
  • Python
    • Varför Python för Data Analysis?
    • Manipulera, bearbeta, rensa och bearbeta data

Tillvägagångssätt till Data Analysis

  • Statistisk analys
    • Analys av tidsserier
    • Forecasting med korrelations- och regressionsmodeller
    • Inferentiell Statistics (uppskattning)
    • Beskrivande Statistics i Big Data uppsättningar (t.ex. beräkning av medelvärde)
  • Machine Learning
    • Övervakad kontra oövervakad inlärning
    • Klassificering och klustring
    • Uppskattning av kostnaden för specifika metoder
    • Filtrering
  • Behandling av naturligt språk
    • Bearbeta text
    • Att förstå innebörden av texten
    • Automatisk textgenerering
    • Sentimentanalys / ämnesanalys
  • Computer Vision
    • Förvärva, bearbeta, analysera och förstå bilder
    • Rekonstruera, tolka och förstå 3D-scener
    • Använda bilddata för att fatta beslut

Big Data Infrastruktur

  • Lagring av uppgifter
    • Relationsdatabaser (SQL)
      • MySQL
      • Postgres
      • Oracle
    • Icke-relationella databaser (NoSQL)
      • Cassandra
      • MongoDB
      • Neo4js
    • Förstå nyanserna
      • Hierarkiska databaser
      • Objektorienterade databaser
      • Dokumentorienterade databaser
      • Graforienterade databaser
      • Annan
  • Distribuerad bearbetning
    • Hadoop
      • HDFS som ett distribuerat filsystem
      • MapReduce för distribuerad bearbetning
    • Gnista
      • Allt-i-ett-ramverk för minnesbaserad klusterberäkning för storskalig databehandling
      • Strukturerad direktuppspelning
      • Gnista SQL
      • Machine Learning bibliotek: MLlib
      • Bearbetning av diagram med GraphX
  • ScalaFörmåga
    • Offentligt moln
      • AWS, Google, Aliyun, etc.
    • Privat moln
      • OpenStack, Cloud Foundry osv.
    • Automatisk skalbarhet

Att välja rätt lösning på problemet

Framtiden för Big Data

Sammanfattning och nästa steg

Krav

  • En allmän förståelse för matematik
  • En allmän förståelse för programmering
  • En allmän förståelse för databaser

Publik

  • Utvecklare/programmerare
  • IT-konsulter
 35 timmar

Antal deltagare


Price per participant

Vittnesmål (7)

Upcoming Courses

Relaterade Kategorier