Tack för att du skickade din fråga! En av våra teammedlemmar kontaktar dig snart.
Tack för att du skickade din bokning! En av våra teammedlemmar kontaktar dig snart.
Kursplan
Varje session är 2 timmar
Dag-1: Session -1: Affärsöversikt av varför Big Data Business Intelligence i regeringen
- Fallstudier från NIH, DoE
- Anpassningsgrad för Big Data i regeringsorganisationer och hur de justerar sina framtida operationer runt Big Data Predictive Analytics
- Breddspridna tillämpningsområden inom Försvarsmakten, NSA, IRS, USDA etc.
- Integration av Big Data med legacysystem
- Grundläggande förståelse för aktiveringsverktyg i predictiva analyser
- Dataintegration och instrumentpanelvisning
- Fradhantering
- Företageregler/fraudupptäckare generering
- Trotsanalys och profilering
- Kostnadsnyttoanalyser för Big Data-implementering
Dag-1: Session-2 : Introduktion till Big Data-1
- Huvudkarakteristiker för Big Data - volym, variitet, hastighet och pålitlighet. MPP-arkitektur för volym.
- Data warehouse - statisk schema, långsamt utvecklande dataset
- MPP-databaser som Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Hadoop-baserade lösningar - inga villkor på datastrukturering.
- Typisk mönster: HDFS, MapReduce (crunch), hämtning från HDFS
- Batch - lämpligt för analyser/interaktiva uppgifter
- Volym: CEP-strömningsdata
- Vanliga val - CEP-produkter (t.ex. Infostreams, Apama, MarkLogic etc.)
- Mindre produktklart - Storm/S4
- NoSQL-databaser - (kolumn- och nyckel-värde): Bäst lämpliga som analytiskt tillägg till datawarehouse/databas
Dag-1 : Session -3 : Introduktion till Big Data-2
NoSQL-lösningar
- KV-store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV-store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV-store (hierarkisk) - GT.m, Cache
- KV-store (ordnad) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV-cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple-store - Gigaspaces, Coord, Apache River
- Objekt-databas - ZopeDB, DB40, Shoal
- Dokumentstore - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-databaser, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Varieter av data: Introduktion till datarensning i Big Data
- RDBMS - statisk struktur/schema, främjar inte agila, utforskande miljöer.
- NoSQL - semi-strukturerad, tillräckligt struktur för att lagra data utan exakt schema innan lagring av data
- Datarensningss problem
Dag-1 : Session-4 : Introduktion till Big Data-3: Hadoop
- När välja Hadoop?
- STRUKTURERAD - Företagsdatawarehouses/databaser kan lagra stora mängder data (med en kostnad) men påtvingar struktur (inte bra för aktiv utforskning)<
- SEMI STRUKTURERAD data - svårt att hantera med traditionella lösningar (DW/DB)/
- Datawarehouse-lagring = stor ansträngning och statisk även efter implementering
- För mångsidighet & volym av data, bearbetad på commodity-hardware - HADOOP
- Commodity H/W behövs för att skapa en Hadoop-kluster
Introduktion till Map Reduce/HDFS
- MapReduce - distribuerat beräkning över flera servrar
- HDFS - gör data tillgänglig lokalt för beräkningsprocessen (med redundans)
- Data - kan vara ostrukturerad/schema-fri (till skillnad från RDBMS)
- Utvecklarens ansvar att ge mening åt data
- Programmering av MapReduce = arbete med Java (fördelar/nackdelar), manuell laddning av data till HDFS
Dag-2: Session-1: Big Data-ekosystem - Bygga Big Data ETL: universumet av Big Data-verktyg - vilka att använda och när?
- Hadoop vs. andra NoSQL-lösningar
- För interaktiv, slumpmässig åtkomst till data
- Hbase (kolumnorienterad databas) på toppen av Hadoop
- Slumpmässig åtkomst till data men begränsningar pålagd (max 1 PB)
- Ej lämpligt för ad-hoc-analyser, bra för loggning, räkning, tidsserier
- Sqoop - Import från databaser till Hive eller HDFS (JDBC/ODBC-åtkomst)
- Flume - Strömningsdata (t.ex. loggdata) in i HDFS
Dag-2: Session-2: Big Data Management System
- Rörliga delar, beräkningsnoder startar/felar: ZooKeeper - För konfiguration/koordination/namngivningstjänster
- Komplex pipeline/workflow: Oozie - hantera arbetsflöde, beroenden, kedja
- Distribuera, konfigurera, klustermanagement, uppgradera etc. (sys admin): Ambari
- I molnet: Whirr
Dag-2: Session-3: Predictiva analyser i Business Intelligence -1: Grundläggande tekniker & maskininlärningsbaserad BI:
- Introduktion till maskininlärning
- Lärande av klassificeringstekniker
- Bayesiansk förutsägelse - beredandet av träningsfil
- Support Vector Machine
- KNN p-Tree Algebra & vertikal gruvdrift
- Neuralt nätverk
- Big Data stor variabelproblem - Random Forest (RF)
- Big Data automatiseringsproblem - Multi-model ensemble RF
- Automatisering genom Soft10-M
- Textanalysverktyg - Treeminer
- Aglilärt lärande
- Lärarebaserat lärande
- Distribuerat lärande
- Introduktion till öppen källkod för predictiva analyser: R, Rapidminer, Mahout
Dag-2: Session-4 Predictiva analyser ekosystem-2: Vanliga predictiva analysproblem i regeringen
- Insiktsanalys
- Visualiseringsanalys
- Strukturerad predictiv analys
- Ostrukturerad predictiv analys
- Trots/fradu/försäljare-profilering
- Förslagsmotor
- Mönsterupptäckt
- Regel/scenario-upptäckt - misslyckande, frångöring, optimering
- Rotsaksupptäckt
- Känslaanalys
- CRM-analys
- Nätverksanalys
- Textanalys
- Teknikbaserad granskning
- Fraduanalys
- Echtzeitanalys
Dag-3 : Sesion-1: Echtzeit och skalbar analys över Hadoop
- Varför vanliga analysalgoritmer misslyckas i Hadoop/HDFS
- Apache Hama - för Massivt synkroniserat distribuerat beräknande
- Apache SPARK - för klustertjänster för echtzeitanalys
- CMU Graphics Lab2 - Grafiskt asynkront tillvägagångssätt för distribuerad beräkningsprocess
- KNN p-Algebra baserat tillvägagångssätt från Treeminer för minskade maskininköpskostnader
Dag-3: Session-2: Verktyg för eDiscovery och digital forensik
- eDiscovery över Big Data vs. legacysystem - en jämförelse av kostnad och prestanda
- Predictiv kodning och tekniskt stöd för granskning (TAR)
- Live demo av ett TAR-produkt (vMiner) för att förstå hur TAR fungerar för snabbare upptäckt
- Fastare indexering genom HDFS - hastighet på data
- NLP eller naturalksprössbehandling - olika tekniker och öppen källkod produkter
- eDiscovery i främmande språk - teknik för bearbetning av främmande språk
Dag-3 : Session 3: Big Data BI för cybersäkerhet - Förståelse av helheten från snabb datainsamling till trotsidentifiering
- Förstå grunderna i säkerhetsanalys - angreppsyta, säkerhetskonfiguration, värddefensiv
- Nätverksinfrastruktur/stort datapipe/Respons ETL för echtzeitanalys
- Preskriptiv vs predictiv - fast regelbaserat vs automatiskt upptäckt av trotsregler från metadata
Dag-3: Session 4: Big Data inom USDA : Tillämpning i jordbruket
- Introduktion till IoT (Internet of Things) för jordbruk - sensordrivna Big Data och kontroll
- Introduktion till satellitbildning och dess tillämpning inom jordbruket
- Tillämpning av sensor- och bilddata för jordfruktbarhet, odlingsrekommendationer och prognostisering
- Jordbruksförsäkringar och Big Data
- Förvärrande av grödolikviditet
Dag-4 : Session-1: Fraduprevention BI från Big Data i regeringen - fraduanalys:
- Grundläggande klassificering av fraduanalyser - regelbaserat vs predictiv analys
- Övervaknings- vs oövervakad maskininlärning för fradumönsterupptäckt
- Leverantörsfradu/överprisering av projekt
- Medicare och Medicaid-fradu - tekniker för fradudetektion i ansökan om betalning
- Resaersättningar-fradu
- IRS-återbetalningsfradu
- Fallstudier och live demo kommer att ges var data finns tillgängligt.
Dag-4 : Session-2: Social medieanalys - intelligensinsamling och analys
- Big Data ETL API för extrahering av socialmediedata
- Texter, bilder, metadata och video
- Känslaanalys från socialmediedatatidströmmar
- Kontextuell och icke-kontextuell filtrering av socialmediedatatidströmmar
- Social Media Dashboard för att integrera diverse sociala medier
- Automatisk profilering av sociala medieprofiler
- Live demo av varje analys kommer att ges genom Treeminer-verktyg.
Dag-4 : Session-3: Big Data-analys i bildbehandling och videofeedar
- Bildlagringstekniker i Big Data - lagringstillstånd för data som överstiger petabytes
- LTFS och LTO
- GPFS-LTFS (Lagerat lagringstillstånd för stora bilddata)
- Grundläggande för bildanalys
- Objektigenkänning
- Bildsegmentering
- Rörelseupptäckt
- Tredimensionell bildrekonstruktion
Dag-4: Session-4: Big Data-tillämpningar inom NIH:
- Nya områden inom bioinformatik
- Meta-genomik och Big Data-mining-problem
- Big Data-predictiv analys för farmakogenomik, metabolomik och proteomik
- Big Data i nedströmsgenomikprocesser
- Tillämpning av Big data-predictiva analyser inom offentlig hälsa
Big Data-instrumentpanel för snabb åtkomst till olika typer av data och visuellt display:
- Integrering av befintliga programplattformar med Big Data-instrumentpanelen
- Big Data-hantering
- Fallstudie av Big Data-instrumentpanel: Tableau och Pentaho
- Använda Big Data-app för att skicka platsbaserade tjänster i regeringen
- Sporings- och hanterningssystem
Dag-5 : Session-1: Hur man rättfärdigar Big Data BI-implementering inom en organisation:
- Definiera ROI för Big Data-implementering
- Fallstudier om besparning av analysarens tid vid insamling och förberedelse av data - ökade produktivitetsvinster
- Fallstudier av intäktssparande från besparing på licenserad databaskostnad
- Intäktssparande från platsbaserade tjänster
- Besparingar från fraduprevention
- Ett integrerat kalkylbladsansättning för att beräkna ungefärliga utgifter vs. intäktsvinst/sparande från Big Data-implementering.
Dag-5 : Session-2: Steg för steg-procedure för att ersätta legacysystem med Big Data-system:
- Förstå praktisk Big Data-migreringsvägledning
- Vad är den viktigaste informationen som behövs innan arkitektering av en Big Data-implementering
- Vilka är de olika sätten att beräkna volym, hastighet, variitet och pålitlighet av data
- Hur man skattar dataväxthet
- Fallstudier
Dag-5: Session 4: Granskning av Big Data-leverantörer och deras produkter. Q/A-session:
- Accenture
- APTEAN (tidigare CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (tidigare 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (del av EMC)
Krav
- Grundläggande kunskap om affärsväsende och datasystem i regeringen inom deras domän
- Grundläggande förståelse för SQL/Oracle eller relationella databaser
- Grundläggande förståelse av Statistik (på kalkylbladsnivå)
35 timmar
Vittnesmål (1)
Tränarens förmåga att anpassa kursen till organisationens krav, snarare än bara att hålla kursen för dess egen skull.
Masilonyane - Revenue Services Lesotho
Kurs - Big Data Business Intelligence for Govt. Agencies
Maskintolkat