Kursplan

Introduktion till dataanalys och big data

  • Vad gör Big Data till "Big"?
    • Hastighet, Volym, Variation, Sanning (FVVS)
  • Begränsningar för traditionell databearbetning
  • Distribuerad bearbetning
  • Statistisk analys
  • Typer av maskininlärningsanalys
  • Datavisualisering

Big Data-roller och ansvarsområden

  • Administratörer
  • Utvecklare
  • Dataanalytiker

Språk som används för dataanalys

  • R-språket
    • Varför R för dataanalys?
    • Datanhantering, beräkningar och grafiska presentationer
  • Python
    • Varför Python för dataanalys?
    • Hantering, bearbetning, rengöring och analys av data

Tillvägagångssätt till dataanalys

  • Statistisk analys
    • Tids serieanalys
    • Framtidsscenarier med korrelations- och regressionsmodeller
    • Inferentiell statistik (skattningar)
    • Beskrivande statistik i stora datamängder (t.ex. beräkning av medelvärde)
  • Maskininlärning
    • Övervakad vs oövervakad inlärning
    • Klassificering och klusteranalys
    • Skattning av kostnader för specifika metoder
    • Filtrering
  • Naturgrundsbehandling
    • Bearbetning av text
    • Förståelse av textens betydelse
    • Autogenerering av text
    • Känslolägesanalys / ämnesanalys
  • Datorseende
    • Inhämtning, bearbetning, analys och förståelse av bilder
    • Rekonstruktion, tolkning och förståelse av 3D-scener
    • Användning av bilddata för beslut

Big Data-infrastruktur

  • Datastorage
    • Relativa databaser (SQL)
      • MySQL
      • Postgres
      • Oracle
    • Orelativa databaser (NoSQL)
      • Cassandra
      • MongoDB
      • Neo4j
    • Förstå subtila skillnader
      • Hierarkiska databaser
      • Objektorienterade databaser
      • Dokumentorienterade databaser
      • Graforienterade databaser
      • Övrigt
  • Distribuerad bearbetning
    • Hadoop
      • HDFS som distribuerat filsystem
      • MapReduce för distribuerad bearbetning
    • Spark
      • All-in-one in-memory klusterberäkningsramverk för storskalig databearbetning
      • Strukturerat strömningar
      • Spark SQL
      • Maskininlärningsbibliotek: MLlib
      • Grafbearbetning med GraphX
  • Skalbarhet
    • Allmän moln
      • AWS, Google, Aliyun, etc.
    • Privata moln
      • OpenStack, Cloud Foundry, etc.
    • Automatisk skalning

Välja rätt lösning för problemet

Framtiden för Big Data

Sammanfattning och nästa steg

Krav

  • Allmänt kunnande i matematik
  • Allmänt kunnande i programmering
  • Allmänt kunnande i databaser

Målgrupp

  • Utvecklare / programmerare
  • IT-konsulter
 35 timmar

Antal deltagare


Pris per deltagare

Vittnesmål (7)

Kommande Kurser

Relaterade Kategorier