Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Kursplan
Varje pass är 2 timmar
Dag-1: Session -1: Business Översikt över varför Big Data Business Intelligens i Govt.
- Fallstudier från NIH, DoE
- Big Data anpassningshastighet i Govt. Byråer och hur de anpassar sin framtida verksamhet runt Big Data Predictive Analytics
- Bredskala tillämpningsområde inom DoD, NSA, IRS, USDA etc.
- Gränssnitt Big Data med äldre data
- Grundläggande förståelse för möjliggörande teknologier inom prediktiv analys
- Data Integration & Dashboardvisualisering
- Bedrägerihantering
- Business Generering av regel/bedrägeriupptäckt
- Hotdetektering och profilering
- Kostnadsnyttoanalys för Big Data implementering
Dag-1: Session-2: Introduktion av Big Data-1
- Huvudegenskaper för Big Data-volym, variation, hastighet och sanningsenlighet. MPP-arkitektur för volym.
- Data Warehouses – statiskt schema, långsamt utvecklande dataset
- MPP Databases som Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Hadoop Baserade lösningar – inga villkor för datauppsättningens struktur.
- Typiskt mönster: HDFS, MapReduce (crunch), hämta från HDFS
- Batch-lämpad för analytisk/icke-interaktiv
- Volym : CEP-strömmande data
- Typiska val – CEP-produkter (t.ex. Infostreams, Apama, MarkLogic etc)
- Mindre produktionsklar – Storm/S4
- NoSQL Databases – (kolumn och nyckel-värde): Bäst lämpad som analytiskt komplement till datalager/databas
Dag-1 : Session -3 : Introduktion till Big Data-2
NoSQL lösningar
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (hierarkisk) - GT.m, Cache
- KV Store (beställd) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Objekt Database - ZopeDB, DB40, Shoal
- Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Datavarianter: Introduktion till Data Cleaning nummer i Big Data
- RDBMS – statisk struktur/schema, främjar inte smidig, utforskande miljö.
- NoSQL – semistrukturerad, tillräckligt med struktur för att lagra data utan exakt schema innan data lagras
- Datarensningsproblem
Dag-1: Session-4: Big Data Introduktion-3: Hadoop
- När ska man välja Hadoop?
- STRUKTURERAD - Företagsdatalager/databaser kan lagra enorma data (till en kostnad) men påtvinga struktur (inte bra för aktiv utforskning)
- HALVSTRUKTURERAD data – svårt att göra med traditionella lösningar (DW/DB)
- Lagerdata = ENORM ansträngning och statisk även efter implementering
- För variation och volym av data, knäppt på råvaruhårdvara – HADOOP
- Vara H/W behövs för att skapa ett Hadoop kluster
Introduktion till Map Reduce /HDFS
- MapReduce – distribuera datoranvändning över flera servrar
- HDFS – gör data tillgänglig lokalt för beräkningsprocessen (med redundans)
- Data – kan vara ostrukturerad/schemalös (till skillnad från RDBMS)
- Utvecklaransvar för att förstå data
- Programming MapReduce = arbeta med Java (för-/nackdelar), ladda data manuellt till HDFS
Dag-2: Session-1: Big Data Ekosystembyggande Big Data ETL: universum av Big Data verktyg – vilket ska man använda och när?
- Hadoop kontra andra NoSQL lösningar
- För interaktiv, slumpmässig tillgång till data
- Hbase (kolumnorienterad databas) ovanpå Hadoop
- Slumpmässig tillgång till data men begränsningar införda (max 1 PB)
- Inte bra för ad-hoc-analyser, bra för loggning, räkning, tidsserier
- Sqoop - Importera från databaser till Hive eller HDFS (JDBC/ODBC-åtkomst)
- Flume – Streama data (t.ex. loggdata) till HDFS
Dag-2: Session-2: Big Data Management System
- Rörliga delar, beräkningsnoder startar/misslyckas :ZooKeeper - För konfigurations-/koordinations-/namntjänster
- Komplex pipeline/arbetsflöde: Oozie – hantera arbetsflöde, beroenden, seriekedja
- Distribuera, konfigurera, klusterhantering, uppgradering etc (sys admin) :Ambari
- In Cloud: Whirr
Dag-2: Session-3: Predictive analytics i Business Intelligence -1: Fundamental Techniques & Machine learning based BI:
- Introduktion till maskininlärning
- Att lära sig klassificeringstekniker
- Bayesian Prediction-förberedande träningsfil
- Stöd Vector Machine
- KNN p-Tree Algebra & vertikal gruvdrift
- Neuralt nätverk
- Big Data stort variabelt problem -Slumpmässig skog (RF)
- Big Data Automationsproblem – Multi-modell ensemble RF
- Automatisering genom Soft10-M
- Textanalysverktyg-Treeminer
- Agile lärande
- Agentbaserat lärande
- Distribuerat lärande
- Introduktion till Open source-verktyg för prediktiv analys: R, Rapidminer, Mahut
Dag-2: Session-4 Predictive analytics ekosystem-2: Vanliga prediktiva analytiska problem i Govt.
- Insiktsanalys
- Visualiseringsanalytisk
- Strukturerad prediktiv analys
- Ostrukturerad prediktiv analys
- Hot/fraudstar/leverantörsprofilering
- Rekommendationsmotor
- Mönsterdetektering
- Upptäckt av regel/scenario – misslyckande, bedrägeri, optimering
- Rotorsak upptäckt
- Sentimentanalys
- CRM-analys
- Nätverksanalys
- Textanalys
- Teknikstödd granskning
- Bedrägerianalys
- Realtidsanalys
Dag-3: Session-1: Realtid och Scalable Analytic Over Hadoop
- Varför vanliga analytiska algoritmer misslyckas i Hadoop/HDFS
- Apache Hama- för Bulk Synchronous distributed computing
- Apache SPARK- för klusterberäkning för realtidsanalys
- CMU Graphics Lab2- Grafbaserad asynkron metod för distribuerad datoranvändning
- KNN p-Algebra-baserad tillvägagångssätt från Treeminer för minskad hårdvarukostnad för drift
Dag-3: Session-2 : Verktyg för eDiscovery och Forensics
- eDiscovery över Big Data kontra äldre data – en jämförelse av kostnad och prestanda
- Predictive coding and technology assisted review (TAR)
- Livedemo av en Tar-produkt (vMiner) för att förstå hur TAR fungerar för snabbare upptäckt
- Snabbare indexering genom HDFS – datahastighet
- NLP eller Natural Language processing – olika tekniker och produkter med öppen källkod
- eDiscovery i främmande språk-teknik för bearbetning av främmande språk
Dag-3: Session 3: Big Data BI för Cyber Security – Förstå hela 360 graders vyer av snabb datainsamling till hotidentifiering
- Förstå grunderna för säkerhetsanalys-attackyta, säkerhetsfelkonfiguration, värdförsvar
- Nätverksinfrastruktur/ Stort datapipe/ Response ETL för realtidsanalys
- Preskriptiv vs prediktiv – Fast regelbaserad kontra automatisk upptäckt av hotregler från metadata
Dag-3: Session 4: Big Data i USDA: Application in Agriculture
- Introduktion till IoT (Internet of Things) för jordbrukssensorbaserad Big Data och kontroll
- Introduktion till satellitbilder och dess tillämpning inom jordbruket
- Integrering av sensor- och bilddata för markens bördighet, odlingsrekommendationer och prognoser
- Jordbruksförsäkring och Big Data
- Prognos för skördeförlust
Dag-4: Session-1: Fraud prevention BI från Big Data i Govt-Fraud analytic:
- Grundläggande klassificering av bedrägerianalys - regelbaserad kontra prediktiv analys
- Övervakad vs oövervakad Maskininlärning för upptäckt av bedrägerimönster
- Leverantörsbedrägeri/överdebitering för projekt
- Medicare och Medicaid bedrägeri- bedrägeriupptäckningstekniker för anspråksbehandling
- Bedrägerier med reseersättning
- IRS återbetalningsbedrägerier
- Fallstudier och livedemo kommer att ges varhelst data finns tillgänglig.
Dag-4: Session-2: Social Media Analytisk-Intelligensinsamling och analys
- Big Data ETL API för att extrahera sociala mediedata
- Text, bild, metadata och video
- Sentimentanalys från sociala medier-flöde
- Kontextuell och icke-kontextuell filtrering av sociala medier
- Social Media Instrumentpanel för att integrera olika sociala medier
- Automatiserad profilering av sociala medier profil
- Livedemo av varje analys kommer att ges via Treeminer Tool.
Dag-4: Session-3: Big Data Analytisk i bildbehandling och videoflöden
- Bildlagringstekniker i Big Data- Lagringslösning för data som överstiger petabyte
- LTFS och LTO
- GPFS-LTFS (Layered storage-lösning för stora bilddata)
- Grundläggande för bildanalys
- Objektigenkänning
- Bildsegmentering
- Rörelsespårning
- 3D-bildrekonstruktion
Dag-4: Session-4: Big Data ansökningar i NIH:
- Nya områden inom Bio-informatik
- Meta-genomik och Big Data gruvfrågor
- Big Data Prediktiv analys för farmakogenomik, metabolomik och proteomik
- Big Data i nedströms Genomics process
- Tillämpning av prediktiva dataanalyser inom folkhälsan
Big Data Instrumentpanel för snabb åtkomst till olika data och visning:
- Integrering av befintlig applikationsplattform med Big Data Dashboard
- Big Data ledning
- Fallstudie av Big Data Dashboard: Tableau och Pentaho
- Använd appen Big Data för att driva platsbaserade tjänster i Govt.
- Spårningssystem och ledning
Dag-5: Session-1: Hur man motiverar Big Data BI-implementering inom en organisation:
- Definiera ROI för Big Data implementering
- Fallstudier för att spara analytikertid för insamling och beredning av data – ökad produktivitetsökning
- Fallstudier av intäktsvinster från att spara kostnaden för den licensierade databasen
- Intäktsvinst från platsbaserade tjänster
- Spara från bedrägeriförebyggande
- En integrerad kalkylbladsmetod för att beräkna ca. kostnad kontra intäktsvinst/besparingar från Big Data implementering.
Dag-5: Session-2: Steg för steg-procedur för att ersätta äldre datasystem till Big Data System:
- Förstå praktiska Big Data Migration Roadmap
- Vilken är den viktiga information som behövs innan en Big Data-implementering utformas
- Vilka är de olika sätten att beräkna volym, hastighet, variation och sanningshalt för data
- Hur man uppskattar datatillväxt
- Fallstudier
Dag-5: Session 4: Granskning av Big Data leverantörer och recension av deras produkter. Frågestund:
- Accenture
- APTEAN (tidigare CDC-programvara)
- Cisco System
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi datasystem
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (tidigare 10Gen)
- MU Sigma
- Netapp
- Operalösningar
- Oracle
- Pentaho
- Platfora
- Qliktech
- Kvant
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institutet
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Programvara
- Teradata
- Tänk Big Analytics
- Tidemark Systems
- Treeminer
- VMware (En del av EMC)
Krav
- Grundläggande kunskaper om affärsdrift och datasystem i Govt. i deras domän
- Grundläggande förståelse för SQL/Oracle eller relationsdatabas
- Grundläggande förståelse för Statistics (på kalkylbladsnivå)
35 timmar
Vittnesmål (1)
Utbildarens förmåga att anpassa kursen till organisationens krav annat än att bara tillhandahålla kursen för att leverera den.
Masilonyane - Revenue Services Lesotho
Kurs - Big Data Business Intelligence for Govt. Agencies
Machine Translated