Kursplan

Översikt

  • Datakällor
  • Att tänka på data
  • System för rekommendationer
  • Mål Marketing

Datatyper

  • Strukturerad vs ostrukturerad
  • Statisk vs strömmad
  • Attityd-, beteende- och demografiska uppgifter
  • Datadriven kontra användardriven analys
  • Uppgifternas giltighet
  • Volym, hastighet och variation av data

Modeller

  • Bygga modeller
  • Statistiska modeller
  • Maskininlärning

Klassificering av data

  • Klustring
  • kGrupper, k-means, närmaste grannar
  • Myrkolonier, fåglar som flockas

Prediktiva modeller

  • Beslutsträd
  • Stöd vektor maskin
  • Naiv Bayes-klassifikation
  • Neurala nätverk
  • Markov-modellen
  • Regression
  • Ensemble-metoder

ROI

  • Nytta/kostnadsförhållande
  • Kostnad för programvara
  • Kostnad för utveckling
  • Potentiella fördelar

Bygga modeller

  • Förberedelse av data (MapReduce)
  • Rensning av data
  • Att välja metoder
  • Utveckla modell
  • Testa modell
  • Utvärdering av modellen
  • Modelldistribution och integrering

Översikt över öppen källkod och kommersiell programvara

  • Urval av R-projektpaket
  • Python Bibliotek
  • Hadoop och Mahout
  • Utvalda Apache-projekt relaterade till Big Data och Analytics
  • Vald kommersiell lösning
  • Integration med befintlig programvara och datakällor

Krav

Förståelse för traditionella datahanterings- och analysmetoder som SQL, datalager, business intelligence, OLAP, etc... Förståelse av grundläggande statistik och sannolikhet (medelvärde, varians, sannolikhet, villkorad sannolikhet, etc...)

 21 timmar

Antal deltagare


Price per participant

Vittnesmål (2)

Upcoming Courses

Relaterade Kategorier