Kursplan

Varje pass är 2 timmar

Dag-1: Session -1: Business Översikt över varför Big Data Business Intelligens i Govt.

  • Fallstudier från NIH, DoE
  • Big Data anpassningshastighet i Govt. Byråer och hur de anpassar sin framtida verksamhet runt Big Data Predictive Analytics
  • Bredskala tillämpningsområde inom DoD, NSA, IRS, USDA etc.
  • Gränssnitt Big Data med äldre data
  • Grundläggande förståelse för möjliggörande teknologier inom prediktiv analys
  • Data Integration & Dashboardvisualisering
  • Bedrägerihantering
  • Business Generering av regel/bedrägeriupptäckt
  • Hotdetektering och profilering
  • Kostnadsnyttoanalys för Big Data implementering

Dag-1: Session-2: Introduktion av Big Data-1

  • Huvudegenskaper för Big Data-volym, variation, hastighet och sanningsenlighet. MPP-arkitektur för volym.
  • Data Warehouses – statiskt schema, långsamt utvecklande dataset
  • MPP Databases som Greenplum, Exadata, Teradata, Netezza, Vertica etc.
  • Hadoop Baserade lösningar – inga villkor för datauppsättningens struktur.
  • Typiskt mönster: HDFS, MapReduce (crunch), hämta från HDFS
  • Batch-lämpad för analytisk/icke-interaktiv
  • Volym : CEP-strömmande data
  • Typiska val – CEP-produkter (t.ex. Infostreams, Apama, MarkLogic etc)
  • Mindre produktionsklar – Storm/S4
  • NoSQL Databases – (kolumn och nyckel-värde): Bäst lämpad som analytiskt komplement till datalager/databas

Dag-1 : Session -3 : Introduktion till Big Data-2

NoSQL lösningar

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (hierarkisk) - GT.m, Cache
  • KV Store (beställd) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Objekt Database - ZopeDB, DB40, Shoal
  • Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Datavarianter: Introduktion till Data Cleaning nummer i Big Data

  • RDBMS – statisk struktur/schema, främjar inte smidig, utforskande miljö.
  • NoSQL – semistrukturerad, tillräckligt med struktur för att lagra data utan exakt schema innan data lagras
  • Datarensningsproblem

Dag-1: Session-4: Big Data Introduktion-3: Hadoop

  • När ska man välja Hadoop?
  • STRUKTURERAD - Företagsdatalager/databaser kan lagra enorma data (till en kostnad) men påtvinga struktur (inte bra för aktiv utforskning)
  • HALVSTRUKTURERAD data – svårt att göra med traditionella lösningar (DW/DB)
  • Lagerdata = ENORM ansträngning och statisk även efter implementering
  • För variation och volym av data, knäppt på råvaruhårdvara – HADOOP
  • Vara H/W behövs för att skapa ett Hadoop kluster

Introduktion till Map Reduce /HDFS

  • MapReduce – distribuera datoranvändning över flera servrar
  • HDFS – gör data tillgänglig lokalt för beräkningsprocessen (med redundans)
  • Data – kan vara ostrukturerad/schemalös (till skillnad från RDBMS)
  • Utvecklaransvar för att förstå data
  • Programming MapReduce = arbeta med Java (för-/nackdelar), ladda data manuellt till HDFS

Dag-2: Session-1: Big Data Ekosystembyggande Big Data ETL: universum av Big Data verktyg – vilket ska man använda och när?

  • Hadoop kontra andra NoSQL lösningar
  • För interaktiv, slumpmässig tillgång till data
  • Hbase (kolumnorienterad databas) ovanpå Hadoop
  • Slumpmässig tillgång till data men begränsningar införda (max 1 PB)
  • Inte bra för ad-hoc-analyser, bra för loggning, räkning, tidsserier
  • Sqoop - Importera från databaser till Hive eller HDFS (JDBC/ODBC-åtkomst)
  • Flume – Streama data (t.ex. loggdata) till HDFS

Dag-2: Session-2: Big Data Management System

  • Rörliga delar, beräkningsnoder startar/misslyckas :ZooKeeper - För konfigurations-/koordinations-/namntjänster
  • Komplex pipeline/arbetsflöde: Oozie – hantera arbetsflöde, beroenden, seriekedja
  • Distribuera, konfigurera, klusterhantering, uppgradering etc (sys admin) :Ambari
  • In Cloud: Whirr

Dag-2: Session-3: Predictive analytics i Business Intelligence -1: Fundamental Techniques & Machine learning based BI:

  • Introduktion till maskininlärning
  • Att lära sig klassificeringstekniker
  • Bayesian Prediction-förberedande träningsfil
  • Stöd Vector Machine
  • KNN p-Tree Algebra & vertikal gruvdrift
  • Neuralt nätverk
  • Big Data stort variabelt problem -Slumpmässig skog (RF)
  • Big Data Automationsproblem – Multi-modell ensemble RF
  • Automatisering genom Soft10-M
  • Textanalysverktyg-Treeminer
  • Agile lärande
  • Agentbaserat lärande
  • Distribuerat lärande
  • Introduktion till Open source-verktyg för prediktiv analys: R, Rapidminer, Mahut

Dag-2: Session-4 Predictive analytics ekosystem-2: Vanliga prediktiva analytiska problem i Govt.

  • Insiktsanalys
  • Visualiseringsanalytisk
  • Strukturerad prediktiv analys
  • Ostrukturerad prediktiv analys
  • Hot/fraudstar/leverantörsprofilering
  • Rekommendationsmotor
  • Mönsterdetektering
  • Upptäckt av regel/scenario – misslyckande, bedrägeri, optimering
  • Rotorsak upptäckt
  • Sentimentanalys
  • CRM-analys
  • Nätverksanalys
  • Textanalys
  • Teknikstödd granskning
  • Bedrägerianalys
  • Realtidsanalys

Dag-3: Session-1: Realtid och Scalable Analytic Over Hadoop

  • Varför vanliga analytiska algoritmer misslyckas i Hadoop/HDFS
  • Apache Hama- för Bulk Synchronous distributed computing
  • Apache SPARK- för klusterberäkning för realtidsanalys
  • CMU Graphics Lab2- Grafbaserad asynkron metod för distribuerad datoranvändning
  • KNN p-Algebra-baserad tillvägagångssätt från Treeminer för minskad hårdvarukostnad för drift

Dag-3: Session-2 : Verktyg för eDiscovery och Forensics

  • eDiscovery över Big Data kontra äldre data – en jämförelse av kostnad och prestanda
  • Predictive coding and technology assisted review (TAR)
  • Livedemo av en Tar-produkt (vMiner) för att förstå hur TAR fungerar för snabbare upptäckt
  • Snabbare indexering genom HDFS – datahastighet
  • NLP eller Natural Language processing – olika tekniker och produkter med öppen källkod
  • eDiscovery i främmande språk-teknik för bearbetning av främmande språk

Dag-3: Session 3: Big Data BI för Cyber Security – Förstå hela 360 graders vyer av snabb datainsamling till hotidentifiering

  • Förstå grunderna för säkerhetsanalys-attackyta, säkerhetsfelkonfiguration, värdförsvar
  • Nätverksinfrastruktur/ Stort datapipe/ Response ETL för realtidsanalys
  • Preskriptiv vs prediktiv – Fast regelbaserad kontra automatisk upptäckt av hotregler från metadata

Dag-3: Session 4: Big Data i USDA: Application in Agriculture

  • Introduktion till IoT (Internet of Things) för jordbrukssensorbaserad Big Data och kontroll
  • Introduktion till satellitbilder och dess tillämpning inom jordbruket
  • Integrering av sensor- och bilddata för markens bördighet, odlingsrekommendationer och prognoser
  • Jordbruksförsäkring och Big Data
  • Prognos för skördeförlust

Dag-4: Session-1: Fraud prevention BI från Big Data i Govt-Fraud analytic:

  • Grundläggande klassificering av bedrägerianalys - regelbaserad kontra prediktiv analys
  • Övervakad vs oövervakad Maskininlärning för upptäckt av bedrägerimönster
  • Leverantörsbedrägeri/överdebitering för projekt
  • Medicare och Medicaid bedrägeri- bedrägeriupptäckningstekniker för anspråksbehandling
  • Bedrägerier med reseersättning
  • IRS återbetalningsbedrägerier
  • Fallstudier och livedemo kommer att ges varhelst data finns tillgänglig.

Dag-4: Session-2: Social Media Analytisk-Intelligensinsamling och analys

  • Big Data ETL API för att extrahera sociala mediedata
  • Text, bild, metadata och video
  • Sentimentanalys från sociala medier-flöde
  • Kontextuell och icke-kontextuell filtrering av sociala medier
  • Social Media Instrumentpanel för att integrera olika sociala medier
  • Automatiserad profilering av sociala medier profil
  • Livedemo av varje analys kommer att ges via Treeminer Tool.

Dag-4: Session-3: Big Data Analytisk i bildbehandling och videoflöden

  • Bildlagringstekniker i Big Data- Lagringslösning för data som överstiger petabyte
  • LTFS och LTO
  • GPFS-LTFS (Layered storage-lösning för stora bilddata)
  • Grundläggande för bildanalys
  • Objektigenkänning
  • Bildsegmentering
  • Rörelsespårning
  • 3D-bildrekonstruktion

Dag-4: Session-4: Big Data ansökningar i NIH:

  • Nya områden inom Bio-informatik
  • Meta-genomik och Big Data gruvfrågor
  • Big Data Prediktiv analys för farmakogenomik, metabolomik och proteomik
  • Big Data i nedströms Genomics process
  • Tillämpning av prediktiva dataanalyser inom folkhälsan

Big Data Instrumentpanel för snabb åtkomst till olika data och visning:

  • Integrering av befintlig applikationsplattform med Big Data Dashboard
  • Big Data ledning
  • Fallstudie av Big Data Dashboard: Tableau och Pentaho
  • Använd appen Big Data för att driva platsbaserade tjänster i Govt.
  • Spårningssystem och ledning

Dag-5: Session-1: Hur man motiverar Big Data BI-implementering inom en organisation:

  • Definiera ROI för Big Data implementering
  • Fallstudier för att spara analytikertid för insamling och beredning av data – ökad produktivitetsökning
  • Fallstudier av intäktsvinster från att spara kostnaden för den licensierade databasen
  • Intäktsvinst från platsbaserade tjänster
  • Spara från bedrägeriförebyggande
  • En integrerad kalkylbladsmetod för att beräkna ca. kostnad kontra intäktsvinst/besparingar från Big Data implementering.

Dag-5: Session-2: Steg för steg-procedur för att ersätta äldre datasystem till Big Data System:

  • Förstå praktiska Big Data Migration Roadmap
  • Vilken är den viktiga information som behövs innan en Big Data-implementering utformas
  • Vilka är de olika sätten att beräkna volym, hastighet, variation och sanningshalt för data
  • Hur man uppskattar datatillväxt
  • Fallstudier

Dag-5: Session 4: Granskning av Big Data leverantörer och recension av deras produkter. Frågestund:

  • Accenture
  • APTEAN (tidigare CDC-programvara)
  • Cisco System
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi datasystem
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (tidigare 10Gen)
  • MU Sigma
  • Netapp
  • Operalösningar
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Kvant
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institutet
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Programvara
  • Teradata
  • Tänk Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (En del av EMC)

Krav

  • Grundläggande kunskaper om affärsdrift och datasystem i Govt. i deras domän
  • Grundläggande förståelse för SQL/Oracle eller relationsdatabas
  • Grundläggande förståelse för Statistics (på kalkylbladsnivå)
 35 timmar

Antal deltagare


Price per participant

Vittnesmål (4)

Relaterade Kategorier