Kursplan

Varje session är 2 timmar

Dag-1: Session -1: Affärsöversikt av varför Big Data Business Intelligence inom regeringen

  • Fallstudier från NIH, DoE
  • Anpassningshastighet för Big Data i regeringsorganisation och hur de anpassar sina framtida operationer kring prediktiv analys med Big Data
  • Stort tillämpningsområde inom DoD, NSA, IRS, USDA etc.
  • Integration av Big Data med lego-datat
  • Grundläggande förståelse av aktiveringsverktyg för prediktiv analys
  • Datintegrering och instrumentpanelvisning
  • Bedrägerihantering
  • Generering av affärsregler/bedrägeriadetection
  • Tröstandprofiling och hotdetektion
  • Kostnads-nyttanalyzer för Big Data-implementering

Dag-1: Session-2 : Introduktion till Big Data-1

  • Huvudegenskaper hos Big Data — volym, mångfald, hastighet och sannolikhet. MPP-arkitektur för volym.
  • Datalager — statisk schema, långsamt utvecklande datamängder
  • MPP-databaser som Greenplum, Exadata, Teradata, Netezza, Vertica etc.
  • Hadoop-baserade lösningar — inga villkor på struktur av datamängden.
  • Typisk mönster: HDFS, MapReduce (krafter), hämtar från HDFS
  • Batch — lämpad för analyserande/interaktiva uppgifter
  • Volym: CEP strömmande data
  • Typiska val — CEP-produkter (t.ex. Infostreams, Apama, MarkLogic etc)
  • Mindre produktklar — Storm/S4
  • NoSQL-databaser — (kolumn- och nyckel-värdes): Bäst lämpade som analytisk tillägg till datalager/databas

Dag-1 : Session -3 : Introduktion till Big Data-2

NoSQL-lösningar

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Hierarkisk) - GT.m, Cache
  • KV Store (Ordenad) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Objekt-databas - ZopeDB, DB40, Shoal
  • Dokumentlager - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Kolumn-lager - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Mångfald av data: Introduktion till datarensningsproblem inom Big Data

  • RDBMS — statisk struktur/schema, främjar inte agila, utforskande miljöer.
  • NoSQL — semi-strukturerad, tillräckligt med struktur för att lagra data utan exakt schema före lagring
  • Datarensningsproblem

Dag-1 : Session-4 : Big Data Introduktion-3: Hadoop

  • När ska man välja Hadoop?
  • STRUKTURERAD — Företagsdatalager/databaser kan lagra stora datamängder (med ett pris) men påtvingar struktur (inte bra för aktiv utforskning)
  • SEMI STRUKTURERAD data — svårt att göra med traditionella lösningar (DW/DB)
  • Lagers datan = stor ansträngning och statisk även efter implementering
  • För mångfald och volym på data, bearbetade på billigt hårdvara — HADOOP
  • Billig H/W behövs för att skapa en Hadoop-kluster

Introduktion till Map Reduce /HDFS

  • MapReduce — distribuerat beräkning över flera servrar
  • HDFS — gör data lokalt tillgängliga för beräkningsprocessen (med redundant lagring)
  • Data — kan vara ostrukturerad/schema-lös (till skillnad från RDBMS)
  • Utvecklaransvar att förstå data
  • Programmering av MapReduce = arbete med Java (fördelar/nackdelar), manuellt ladda upp data till HDFS

Dag-2: Session-1: Big Data Ekosystem — Bygga Big Data ETL: universum av Big Data-verktyg — vilket att använda och när?

  • Hadoop vs. andra NoSQL-lösningar
  • För interaktiv, slumpmässig åtkomst till data
  • Hbase (kolumnorienterad databas) ovanpå Hadoop
  • Slumpmässig åtkomst till data men begränsningar pålagt (max 1 PB)
  • Inte bra för ad-hoc-analys, bra för loggning, räkning, tidsserie
  • Sqoop — Import från databaser till Hive eller HDFS (JDBC/ODBC-åtkomst)
  • Flume — Strömma data (t.ex. loggdata) till HDFS

Dag-2: Session-2: Big Data Management System

  • Rörelselement, beräkningsnoder startar/misslyckas: ZooKeeper — För konfiguration/koordinering/namngivningstjänster
  • Komplex pipeline/arbetsflöde: Oozie — hantera arbetsflöden, beroenden, kedja
  • Distribuera, konfigurera, klusterhantering, uppgradera etc (sys admin): Ambari
  • I molnet: Whirr

Dag-2: Session-3: Prediktiv analys i Business Intelligence -1: Grundläggande tekniker och maskininlärningsbaserad BI:

  • Introduktion till maskininlärning
  • Inlärning av klassificeringstekniker
  • Bayesiansk prediktion — förberedande träningsfil
  • Support Vector Machine
  • KNN p-Tree Algebra & vertikal gruvning
  • Neuralt nätverk
  • Big Data med många variabler problem — Slumpad skog (RF)
  • Big Data automatiseringsproblem — Flervalsmodellens RF-ensemble
  • Automatisering genom Soft10-M
  • Textanalyseringsverktyg — Treeminer
  • Agile-lärande
  • Agentbaserat lärande
  • Distribuerat lärande
  • Introduktion till öppen källkod för prediktiv analys: R, Rapidminer, Mahut

Dag-2: Session-4 Prediktiv analys ekosystem -2: Gemensamma prediktiva analysproblem inom regeringen

  • Insight-analys
  • Visualisering-analys
  • Strukturad prediktiv analys
  • Ostrukturerad prediktiv analys
  • Hot-/bedrägeristar-/leverantörsprofilering
  • Rekommendationmotor
  • Mönsterdetektion
  • Regel-/scenariodiscovery — misslyckande, bedrägeri, optimering
  • Rotorsak discovery
  • Sentiment-analys
  • CRM-analys
  • Nätverksanalys
  • Textanalys
  • Teknikbistånd för granskning
  • Bedrägerianalys
  • Real-tidsanalys

Dag-3 : Sesion-1 : Real-tids- och skalbar analys över Hadoop

  • Varför vanliga analyss'algoritmer misslyckas i Hadoop/HDFS
  • Apache Hama — för masssynkroniserad distribuerad beräkning
  • Apache SPARK — för klusterberäkning för real-tidsanalys
  • CMU Graphics Lab2 — Grafbaserad asynkron tillvägagångssätt för distribuerad beräkning
  • KNN p-Algebra-baserat tillvägagångssätt från Treeminer för minskade maskinhärkomst- och driftskostnader

Dag-3: Session-2: Verktyg för eDiscovery och forensik

  • eDiscovery över Big Data vs. lego-datat — en jämförelse av kostnad och prestanda
  • Prediktiv kodning och teknikbistånd för granskning (TAR)
  • Live-demo av en TAR-produkt (vMiner) för att förstå hur TAR fungerar för snabbare granskning
  • Snabbare indexering via HDFS — hastighet på data
  • NLP eller Naturlig språkbehandling — olika tekniker och öppen källkod för produkter
  • eDiscovery i främmande språk — teknik för bearbetning av främmande språk

Dag-3 : Session 3: Big Data BI för Cybersäkerhet —Förstå helheten från snabba datainsamling till hotidentifiering

  • Förstå grundläggande säkerhetsanalys — anfallsyta, säkerhetskonfiguration, värdförsvar
  • Nätverksinfrastruktur / stort datarör / Response ETL för real-tidsanalys
  • Preskriptiv vs prediktiv — Fast regelbaserat vs automatisk upptäckt av hotregler från metadata

Dag-3: Session 4: Big Data inom USDA: Tillämpning i jordbruket

  • Introduktion till IoT (Internet of Things) för jordbruk — sensorbaserad Big Data och kontroll
  • Introduktion till satellitavbildning och dess tillämpning inom jordbruket
  • Integrering av sensordata och avbildningsdata för jordfruktighet, odlingsrekommendationer och prognoser
  • Agrarförsäkring och Big Data
  • Ödlingsförlustprognos

Dag-4 : Session-1: Bedrägeriförhindrande BI från Big Data inom regering — bedrägerianalys:

  • Grundläggande klassificering av bedrägerianalys — regelbaserad vs prediktiv analys
  • Övervakad vs obevakad maskininlärning för upptäckt av bedrägerimönster
  • Leverantörsbedrägeri / överföringar för projekt
  • Medicare och Medicaid-bedrägeri — bedrägeridetektionsmetoder för ansökningsbehandling
  • Reseresterförsäkringsbedrägerier
  • IRS-refundbedrägerier
  • Fallstudier och live-demo kommer att ges där data är tillgängligt.

Dag-4 : Session-2: Social mediaanalys — Intelligenceinsamling och analys

  • Big Data ETL API för extrahering av socialamediadata
  • Text, bild, metadata och video
  • Sentimentanalys från socialamediaflöde
  • Kontextuell och okontextuell filtrering av socialamediaflöde
  • Social Media Dashboard för att integrera diverse sociala medier
  • Automatisk profilering av socialamediaprofil
  • Live-demo av varje analys kommer att ges genom Treeminer-verktyg.

Dag-4 : Session-3: Big Data-analys i bildbehandling och videofeed

  • Bildlagringstekniker för Big Data — lagring av data som överskrider petabytes
  • LTFS och LTO
  • GPFS-LTFS (Lagerad lösning för stora bilddata)
  • Grundläggande bildanalys
  • Objektigenkänning
  • Bildsegmentering
  • Rörelseuppspårning
  • 3-D bildrekonstruktion

Dag-4: Session-4: Big Data-tillämpningar inom NIH:

  • Nya områden inom bioinformatik
  • Metagenomik och problem med Big Data-grävning
  • Prediktiv analys av Big Data för farmakogenomik, metabolomik och proteomik
  • Big Data i nedströmsgenomprocessen
  • Tillämpning av prediktiv analys med Big data inom offentlig hälsa

Big Data Dashboard för snabb åtkomst till diverse data och visning:

  • Integration av befintliga applikationsplattformar med Big Data Dashboard
  • Big Data-hantering
  • Fallstudie av Big Data Dashboard: Tableau och Pentaho
  • Använd Big Data-app för att skicka platsbaserade tjänster inom regeringen
  • Spårningssystem och hantering

Dag-5 : Session-1: Hur man rättfärdigar Big Data BI-implementering inom en organisation:

  • Definiera ROI för Big Data-implementering
  • Fallstudier för att spara analytikers tid för insamling och förberedelse av data — ökning i produktivitetsvinster
  • Fallstudier om intäktvinster från sparade licenser för databaser
  • Intäktvinster från platsbaserade tjänster
  • Sparande från bedrägeriförhindran
  • Ett integrerat kalkylblad tillvägagångssätt för att beräkna approximativ kostnad vs intäktvinster/sparanden från Big Data-implementering.

Dag-5 : Session-2: Steg för steg procedur för att ersätta lego-datasystem med Big Data-system:

  • Förstå praktiskt Big Data-migreringsvägkart
  • Vilken viktig information behövs innan arkitektur av en Big Data-implementering
  • Vilka är de olika sätten att beräkna volym, hastighet, mångfald och sannolikhet av data
  • Hur man uppskattar datatillväxt
  • Fallstudier

Dag-5: Session 4: Granskning av Big Data-leverantörer och deras produkter. Q&A-session:

  • Accenture
  • APTEAN (Tidigare CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Tidigare 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Del av EMC)

Krav

  • Grundläggande kunskap om affärsoperationer och datasystem inom regeringen i sin egna bransch
  • Grundläggande förståelse av SQL/Oracle eller relationell databas
  • Grundläggande förståelse av statistik (på kalkylbladsnivå)
 35 timmar

Antal deltagare


Pris per deltagare

Vittnesmål (1)

Kommande Kurser

Relaterade Kategorier