Kursplan

Varje session är 2 timmar

Dag-1: Session -1: Affärsöversikt av varför Big Data Business Intelligence i regeringen

  • Fallstudier från NIH, DoE
  • Anpassningsgrad för Big Data i regeringsorganisationer och hur de justerar sina framtida operationer runt Big Data Predictive Analytics
  • Breddspridna tillämpningsområden inom Försvarsmakten, NSA, IRS, USDA etc.
  • Integration av Big Data med legacysystem
  • Grundläggande förståelse för aktiveringsverktyg i predictiva analyser
  • Dataintegration och instrumentpanelvisning
  • Fradhantering
  • Företageregler/fraudupptäckare generering
  • Trotsanalys och profilering
  • Kostnadsnyttoanalyser för Big Data-implementering

Dag-1: Session-2 : Introduktion till Big Data-1

  • Huvudkarakteristiker för Big Data - volym, variitet, hastighet och pålitlighet. MPP-arkitektur för volym.
  • Data warehouse - statisk schema, långsamt utvecklande dataset
  • MPP-databaser som Greenplum, Exadata, Teradata, Netezza, Vertica etc.
  • Hadoop-baserade lösningar - inga villkor på datastrukturering.
  • Typisk mönster: HDFS, MapReduce (crunch), hämtning från HDFS
  • Batch - lämpligt för analyser/interaktiva uppgifter
  • Volym: CEP-strömningsdata
  • Vanliga val - CEP-produkter (t.ex. Infostreams, Apama, MarkLogic etc.)
  • Mindre produktklart - Storm/S4
  • NoSQL-databaser - (kolumn- och nyckel-värde): Bäst lämpliga som analytiskt tillägg till datawarehouse/databas

Dag-1 : Session -3 : Introduktion till Big Data-2

NoSQL-lösningar

  • KV-store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV-store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV-store (hierarkisk) - GT.m, Cache
  • KV-store (ordnad) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV-cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple-store - Gigaspaces, Coord, Apache River
  • Objekt-databas - ZopeDB, DB40, Shoal
  • Dokumentstore - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-databaser, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Varieter av data: Introduktion till datarensning i Big Data

  • RDBMS - statisk struktur/schema, främjar inte agila, utforskande miljöer.
  • NoSQL - semi-strukturerad, tillräckligt struktur för att lagra data utan exakt schema innan lagring av data
  • Datarensningss problem

Dag-1 : Session-4 : Introduktion till Big Data-3: Hadoop

  • När välja Hadoop?
  • STRUKTURERAD - Företagsdatawarehouses/databaser kan lagra stora mängder data (med en kostnad) men påtvingar struktur (inte bra för aktiv utforskning)<
  • SEMI STRUKTURERAD data - svårt att hantera med traditionella lösningar (DW/DB)/
  • Datawarehouse-lagring = stor ansträngning och statisk även efter implementering
  • För mångsidighet & volym av data, bearbetad på commodity-hardware - HADOOP
  • Commodity H/W behövs för att skapa en Hadoop-kluster

Introduktion till Map Reduce/HDFS

  • MapReduce - distribuerat beräkning över flera servrar
  • HDFS - gör data tillgänglig lokalt för beräkningsprocessen (med redundans)
  • Data - kan vara ostrukturerad/schema-fri (till skillnad från RDBMS)
  • Utvecklarens ansvar att ge mening åt data
  • Programmering av MapReduce = arbete med Java (fördelar/nackdelar), manuell laddning av data till HDFS

Dag-2: Session-1: Big Data-ekosystem - Bygga Big Data ETL: universumet av Big Data-verktyg - vilka att använda och när?

  • Hadoop vs. andra NoSQL-lösningar
  • För interaktiv, slumpmässig åtkomst till data
  • Hbase (kolumnorienterad databas) på toppen av Hadoop
  • Slumpmässig åtkomst till data men begränsningar pålagd (max 1 PB)
  • Ej lämpligt för ad-hoc-analyser, bra för loggning, räkning, tidsserier
  • Sqoop - Import från databaser till Hive eller HDFS (JDBC/ODBC-åtkomst)
  • Flume - Strömningsdata (t.ex. loggdata) in i HDFS

Dag-2: Session-2: Big Data Management System

  • Rörliga delar, beräkningsnoder startar/felar: ZooKeeper - För konfiguration/koordination/namngivningstjänster
  • Komplex pipeline/workflow: Oozie - hantera arbetsflöde, beroenden, kedja
  • Distribuera, konfigurera, klustermanagement, uppgradera etc. (sys admin): Ambari
  • I molnet: Whirr

Dag-2: Session-3: Predictiva analyser i Business Intelligence -1: Grundläggande tekniker & maskininlärningsbaserad BI:

  • Introduktion till maskininlärning
  • Lärande av klassificeringstekniker
  • Bayesiansk förutsägelse - beredandet av träningsfil
  • Support Vector Machine
  • KNN p-Tree Algebra & vertikal gruvdrift
  • Neuralt nätverk
  • Big Data stor variabelproblem - Random Forest (RF)
  • Big Data automatiseringsproblem - Multi-model ensemble RF
  • Automatisering genom Soft10-M
  • Textanalysverktyg - Treeminer
  • Aglilärt lärande
  • Lärarebaserat lärande
  • Distribuerat lärande
  • Introduktion till öppen källkod för predictiva analyser: R, Rapidminer, Mahout

Dag-2: Session-4 Predictiva analyser ekosystem-2: Vanliga predictiva analysproblem i regeringen

  • Insiktsanalys
  • Visualiseringsanalys
  • Strukturerad predictiv analys
  • Ostrukturerad predictiv analys
  • Trots/fradu/försäljare-profilering
  • Förslagsmotor
  • Mönsterupptäckt
  • Regel/scenario-upptäckt - misslyckande, frångöring, optimering
  • Rotsaksupptäckt
  • Känslaanalys
  • CRM-analys
  • Nätverksanalys
  • Textanalys
  • Teknikbaserad granskning
  • Fraduanalys
  • Echtzeitanalys

Dag-3 : Sesion-1: Echtzeit och skalbar analys över Hadoop

  • Varför vanliga analysalgoritmer misslyckas i Hadoop/HDFS
  • Apache Hama - för Massivt synkroniserat distribuerat beräknande
  • Apache SPARK - för klustertjänster för echtzeitanalys
  • CMU Graphics Lab2 - Grafiskt asynkront tillvägagångssätt för distribuerad beräkningsprocess
  • KNN p-Algebra baserat tillvägagångssätt från Treeminer för minskade maskininköpskostnader

Dag-3: Session-2: Verktyg för eDiscovery och digital forensik

  • eDiscovery över Big Data vs. legacysystem - en jämförelse av kostnad och prestanda
  • Predictiv kodning och tekniskt stöd för granskning (TAR)
  • Live demo av ett TAR-produkt (vMiner) för att förstå hur TAR fungerar för snabbare upptäckt
  • Fastare indexering genom HDFS - hastighet på data
  • NLP eller naturalksprössbehandling - olika tekniker och öppen källkod produkter
  • eDiscovery i främmande språk - teknik för bearbetning av främmande språk

Dag-3 : Session 3: Big Data BI för cybersäkerhet - Förståelse av helheten från snabb datainsamling till trotsidentifiering

  • Förstå grunderna i säkerhetsanalys - angreppsyta, säkerhetskonfiguration, värddefensiv
  • Nätverksinfrastruktur/stort datapipe/Respons ETL för echtzeitanalys
  • Preskriptiv vs predictiv - fast regelbaserat vs automatiskt upptäckt av trotsregler från metadata

Dag-3: Session 4: Big Data inom USDA : Tillämpning i jordbruket

  • Introduktion till IoT (Internet of Things) för jordbruk - sensordrivna Big Data och kontroll
  • Introduktion till satellitbildning och dess tillämpning inom jordbruket
  • Tillämpning av sensor- och bilddata för jordfruktbarhet, odlingsrekommendationer och prognostisering
  • Jordbruksförsäkringar och Big Data
  • Förvärrande av grödolikviditet

Dag-4 : Session-1: Fraduprevention BI från Big Data i regeringen - fraduanalys:

  • Grundläggande klassificering av fraduanalyser - regelbaserat vs predictiv analys
  • Övervaknings- vs oövervakad maskininlärning för fradumönsterupptäckt
  • Leverantörsfradu/överprisering av projekt
  • Medicare och Medicaid-fradu - tekniker för fradudetektion i ansökan om betalning
  • Resaersättningar-fradu
  • IRS-återbetalningsfradu
  • Fallstudier och live demo kommer att ges var data finns tillgängligt.

Dag-4 : Session-2: Social medieanalys - intelligensinsamling och analys

  • Big Data ETL API för extrahering av socialmediedata
  • Texter, bilder, metadata och video
  • Känslaanalys från socialmediedatatidströmmar
  • Kontextuell och icke-kontextuell filtrering av socialmediedatatidströmmar
  • Social Media Dashboard för att integrera diverse sociala medier
  • Automatisk profilering av sociala medieprofiler
  • Live demo av varje analys kommer att ges genom Treeminer-verktyg.

Dag-4 : Session-3: Big Data-analys i bildbehandling och videofeedar

  • Bildlagringstekniker i Big Data - lagringstillstånd för data som överstiger petabytes
  • LTFS och LTO
  • GPFS-LTFS (Lagerat lagringstillstånd för stora bilddata)
  • Grundläggande för bildanalys
  • Objektigenkänning
  • Bildsegmentering
  • Rörelseupptäckt
  • Tredimensionell bildrekonstruktion

Dag-4: Session-4: Big Data-tillämpningar inom NIH:

  • Nya områden inom bioinformatik
  • Meta-genomik och Big Data-mining-problem
  • Big Data-predictiv analys för farmakogenomik, metabolomik och proteomik
  • Big Data i nedströmsgenomikprocesser
  • Tillämpning av Big data-predictiva analyser inom offentlig hälsa

Big Data-instrumentpanel för snabb åtkomst till olika typer av data och visuellt display:

  • Integrering av befintliga programplattformar med Big Data-instrumentpanelen
  • Big Data-hantering
  • Fallstudie av Big Data-instrumentpanel: Tableau och Pentaho
  • Använda Big Data-app för att skicka platsbaserade tjänster i regeringen
  • Sporings- och hanterningssystem

Dag-5 : Session-1: Hur man rättfärdigar Big Data BI-implementering inom en organisation:

  • Definiera ROI för Big Data-implementering
  • Fallstudier om besparning av analysarens tid vid insamling och förberedelse av data - ökade produktivitetsvinster
  • Fallstudier av intäktssparande från besparing på licenserad databaskostnad
  • Intäktssparande från platsbaserade tjänster
  • Besparingar från fraduprevention
  • Ett integrerat kalkylbladsansättning för att beräkna ungefärliga utgifter vs. intäktsvinst/sparande från Big Data-implementering.

Dag-5 : Session-2: Steg för steg-procedure för att ersätta legacysystem med Big Data-system:

  • Förstå praktisk Big Data-migreringsvägledning
  • Vad är den viktigaste informationen som behövs innan arkitektering av en Big Data-implementering
  • Vilka är de olika sätten att beräkna volym, hastighet, variitet och pålitlighet av data
  • Hur man skattar dataväxthet
  • Fallstudier

Dag-5: Session 4: Granskning av Big Data-leverantörer och deras produkter. Q/A-session:

  • Accenture
  • APTEAN (tidigare CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (tidigare 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (del av EMC)

Krav

  • Grundläggande kunskap om affärsväsende och datasystem i regeringen inom deras domän
  • Grundläggande förståelse för SQL/Oracle eller relationella databaser
  • Grundläggande förståelse av Statistik (på kalkylbladsnivå)
 35 timmar

Antal deltagare


Pris per deltagare

Vittnesmål (1)

Kommande Kurser

Relaterade Kategorier