Kursplan

Översikt

  • Datakällor
  • Att tänka på data
  • System för rekommendationer
  • Mål Marketing

Datatyper

  • Strukturerad vs ostrukturerad
  • Statisk vs strömmad
  • Attityd-, beteende- och demografiska uppgifter
  • Datadriven kontra användardriven analys
  • Uppgifternas giltighet
  • Volym, hastighet och variation av data

Modeller

  • Bygga modeller
  • Statistiska modeller
  • Maskininlärning

Klassificering av data

  • Klustring
  • kGrupper, k-means, närmaste grannar
  • Myrkolonier, fåglar som flockas

Prediktiva modeller

  • Beslutsträd
  • Stöd vektor maskin
  • Naiv Bayes-klassifikation
  • Neurala nätverk
  • Markov-modellen
  • Regression
  • Ensemble-metoder

ROI

  • Nytta/kostnadsförhållande
  • Kostnad för programvara
  • Kostnad för utveckling
  • Potentiella fördelar

Bygga modeller

  • Förberedelse av data (MapReduce)
  • Rensning av data
  • Att välja metoder
  • Utveckla modell
  • Testa modell
  • Utvärdering av modellen
  • Modelldistribution och integrering

Översikt över öppen källkod och kommersiell programvara

  • Urval av R-projektpaket
  • Python Bibliotek
  • Hadoop och Mahout
  • Utvalda Apache-projekt relaterade till Big Data och Analytics
  • Vald kommersiell lösning
  • Integration med befintlig programvara och datakällor

Krav

Förståelse för traditionella datahanterings- och analysmetoder som SQL, datalager, business intelligence, OLAP, etc... Förståelse av grundläggande statistik och sannolikhet (medelvärde, varians, sannolikhet, villkorad sannolikhet, etc...)

 21 timmar

Antal deltagare



Price per participant

Vittnesmål (1)

Relaterade Kurser

Data Vault: Building a Scalable Data Warehouse

28 timmar

Spark Streaming with Python and Kafka

7 timmar

Confluent KSQL

7 timmar

Apache Ignite for Developers

14 timmar

Unified Batch and Stream Processing with Apache Beam

14 timmar

Apache Apex: Processing Big Data-in-Motion

21 timmar

Apache Storm

28 timmar

Apache NiFi for Administrators

21 timmar

Apache NiFi for Developers

7 timmar

Apache Flink Fundamentals

28 timmar

Python and Spark for Big Data (PySpark)

21 timmar

Introduction to Graph Computing

28 timmar

Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP

21 timmar

Apache Spark MLlib

35 timmar

Knowledge Discovery in Databases (KDD)

21 timmar

Relaterade Kategorier