Tack för att du skickade din fråga! En av våra teammedlemmar kontaktar dig snart.        
        
        
            Tack för att du skickade din bokning! En av våra teammedlemmar kontaktar dig snart.        
    Kursplan
Varje session är 2 timmar
Dag-1: Session -1: Affärsöversikt av varför Big Data Business Intelligence inom regeringen
- Fallstudier från NIH, DoE
- Anpassningshastighet för Big Data i regeringsorganisation och hur de anpassar sina framtida operationer kring prediktiv analys med Big Data
- Stort tillämpningsområde inom DoD, NSA, IRS, USDA etc.
- Integration av Big Data med lego-datat
- Grundläggande förståelse av aktiveringsverktyg för prediktiv analys
- Datintegrering och instrumentpanelvisning
- Bedrägerihantering
- Generering av affärsregler/bedrägeriadetection
- Tröstandprofiling och hotdetektion
- Kostnads-nyttanalyzer för Big Data-implementering
Dag-1: Session-2 : Introduktion till Big Data-1
- Huvudegenskaper hos Big Data — volym, mångfald, hastighet och sannolikhet. MPP-arkitektur för volym.
- Datalager — statisk schema, långsamt utvecklande datamängder
- MPP-databaser som Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Hadoop-baserade lösningar — inga villkor på struktur av datamängden.
- Typisk mönster: HDFS, MapReduce (krafter), hämtar från HDFS
- Batch — lämpad för analyserande/interaktiva uppgifter
- Volym: CEP strömmande data
- Typiska val — CEP-produkter (t.ex. Infostreams, Apama, MarkLogic etc)
- Mindre produktklar — Storm/S4
- NoSQL-databaser — (kolumn- och nyckel-värdes): Bäst lämpade som analytisk tillägg till datalager/databas
Dag-1 : Session -3 : Introduktion till Big Data-2
NoSQL-lösningar
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Hierarkisk) - GT.m, Cache
- KV Store (Ordenad) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Objekt-databas - ZopeDB, DB40, Shoal
- Dokumentlager - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Kolumn-lager - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Mångfald av data: Introduktion till datarensningsproblem inom Big Data
- RDBMS — statisk struktur/schema, främjar inte agila, utforskande miljöer.
- NoSQL — semi-strukturerad, tillräckligt med struktur för att lagra data utan exakt schema före lagring
- Datarensningsproblem
Dag-1 : Session-4 : Big Data Introduktion-3: Hadoop
- När ska man välja Hadoop?
- STRUKTURERAD — Företagsdatalager/databaser kan lagra stora datamängder (med ett pris) men påtvingar struktur (inte bra för aktiv utforskning)
- SEMI STRUKTURERAD data — svårt att göra med traditionella lösningar (DW/DB)
- Lagers datan = stor ansträngning och statisk även efter implementering
- För mångfald och volym på data, bearbetade på billigt hårdvara — HADOOP
- Billig H/W behövs för att skapa en Hadoop-kluster
Introduktion till Map Reduce /HDFS
- MapReduce — distribuerat beräkning över flera servrar
- HDFS — gör data lokalt tillgängliga för beräkningsprocessen (med redundant lagring)
- Data — kan vara ostrukturerad/schema-lös (till skillnad från RDBMS)
- Utvecklaransvar att förstå data
- Programmering av MapReduce = arbete med Java (fördelar/nackdelar), manuellt ladda upp data till HDFS
Dag-2: Session-1: Big Data Ekosystem — Bygga Big Data ETL: universum av Big Data-verktyg — vilket att använda och när?
- Hadoop vs. andra NoSQL-lösningar
- För interaktiv, slumpmässig åtkomst till data
- Hbase (kolumnorienterad databas) ovanpå Hadoop
- Slumpmässig åtkomst till data men begränsningar pålagt (max 1 PB)
- Inte bra för ad-hoc-analys, bra för loggning, räkning, tidsserie
- Sqoop — Import från databaser till Hive eller HDFS (JDBC/ODBC-åtkomst)
- Flume — Strömma data (t.ex. loggdata) till HDFS
Dag-2: Session-2: Big Data Management System
- Rörelselement, beräkningsnoder startar/misslyckas: ZooKeeper — För konfiguration/koordinering/namngivningstjänster
- Komplex pipeline/arbetsflöde: Oozie — hantera arbetsflöden, beroenden, kedja
- Distribuera, konfigurera, klusterhantering, uppgradera etc (sys admin): Ambari
- I molnet: Whirr
Dag-2: Session-3: Prediktiv analys i Business Intelligence -1: Grundläggande tekniker och maskininlärningsbaserad BI:
- Introduktion till maskininlärning
- Inlärning av klassificeringstekniker
- Bayesiansk prediktion — förberedande träningsfil
- Support Vector Machine
- KNN p-Tree Algebra & vertikal gruvning
- Neuralt nätverk
- Big Data med många variabler problem — Slumpad skog (RF)
- Big Data automatiseringsproblem — Flervalsmodellens RF-ensemble
- Automatisering genom Soft10-M
- Textanalyseringsverktyg — Treeminer
- Agile-lärande
- Agentbaserat lärande
- Distribuerat lärande
- Introduktion till öppen källkod för prediktiv analys: R, Rapidminer, Mahut
Dag-2: Session-4 Prediktiv analys ekosystem -2: Gemensamma prediktiva analysproblem inom regeringen
- Insight-analys
- Visualisering-analys
- Strukturad prediktiv analys
- Ostrukturerad prediktiv analys
- Hot-/bedrägeristar-/leverantörsprofilering
- Rekommendationmotor
- Mönsterdetektion
- Regel-/scenariodiscovery — misslyckande, bedrägeri, optimering
- Rotorsak discovery
- Sentiment-analys
- CRM-analys
- Nätverksanalys
- Textanalys
- Teknikbistånd för granskning
- Bedrägerianalys
- Real-tidsanalys
Dag-3 : Sesion-1 : Real-tids- och skalbar analys över Hadoop
- Varför vanliga analyss'algoritmer misslyckas i Hadoop/HDFS
- Apache Hama — för masssynkroniserad distribuerad beräkning
- Apache SPARK — för klusterberäkning för real-tidsanalys
- CMU Graphics Lab2 — Grafbaserad asynkron tillvägagångssätt för distribuerad beräkning
- KNN p-Algebra-baserat tillvägagångssätt från Treeminer för minskade maskinhärkomst- och driftskostnader
Dag-3: Session-2: Verktyg för eDiscovery och forensik
- eDiscovery över Big Data vs. lego-datat — en jämförelse av kostnad och prestanda
- Prediktiv kodning och teknikbistånd för granskning (TAR)
- Live-demo av en TAR-produkt (vMiner) för att förstå hur TAR fungerar för snabbare granskning
- Snabbare indexering via HDFS — hastighet på data
- NLP eller Naturlig språkbehandling — olika tekniker och öppen källkod för produkter
- eDiscovery i främmande språk — teknik för bearbetning av främmande språk
Dag-3 : Session 3: Big Data BI för Cybersäkerhet —Förstå helheten från snabba datainsamling till hotidentifiering
- Förstå grundläggande säkerhetsanalys — anfallsyta, säkerhetskonfiguration, värdförsvar
- Nätverksinfrastruktur / stort datarör / Response ETL för real-tidsanalys
- Preskriptiv vs prediktiv — Fast regelbaserat vs automatisk upptäckt av hotregler från metadata
Dag-3: Session 4: Big Data inom USDA: Tillämpning i jordbruket
- Introduktion till IoT (Internet of Things) för jordbruk — sensorbaserad Big Data och kontroll
- Introduktion till satellitavbildning och dess tillämpning inom jordbruket
- Integrering av sensordata och avbildningsdata för jordfruktighet, odlingsrekommendationer och prognoser
- Agrarförsäkring och Big Data
- Ödlingsförlustprognos
Dag-4 : Session-1: Bedrägeriförhindrande BI från Big Data inom regering — bedrägerianalys:
- Grundläggande klassificering av bedrägerianalys — regelbaserad vs prediktiv analys
- Övervakad vs obevakad maskininlärning för upptäckt av bedrägerimönster
- Leverantörsbedrägeri / överföringar för projekt
- Medicare och Medicaid-bedrägeri — bedrägeridetektionsmetoder för ansökningsbehandling
- Reseresterförsäkringsbedrägerier
- IRS-refundbedrägerier
- Fallstudier och live-demo kommer att ges där data är tillgängligt.
Dag-4 : Session-2: Social mediaanalys — Intelligenceinsamling och analys
- Big Data ETL API för extrahering av socialamediadata
- Text, bild, metadata och video
- Sentimentanalys från socialamediaflöde
- Kontextuell och okontextuell filtrering av socialamediaflöde
- Social Media Dashboard för att integrera diverse sociala medier
- Automatisk profilering av socialamediaprofil
- Live-demo av varje analys kommer att ges genom Treeminer-verktyg.
Dag-4 : Session-3: Big Data-analys i bildbehandling och videofeed
- Bildlagringstekniker för Big Data — lagring av data som överskrider petabytes
- LTFS och LTO
- GPFS-LTFS (Lagerad lösning för stora bilddata)
- Grundläggande bildanalys
- Objektigenkänning
- Bildsegmentering
- Rörelseuppspårning
- 3-D bildrekonstruktion
Dag-4: Session-4: Big Data-tillämpningar inom NIH:
- Nya områden inom bioinformatik
- Metagenomik och problem med Big Data-grävning
- Prediktiv analys av Big Data för farmakogenomik, metabolomik och proteomik
- Big Data i nedströmsgenomprocessen
- Tillämpning av prediktiv analys med Big data inom offentlig hälsa
Big Data Dashboard för snabb åtkomst till diverse data och visning:
- Integration av befintliga applikationsplattformar med Big Data Dashboard
- Big Data-hantering
- Fallstudie av Big Data Dashboard: Tableau och Pentaho
- Använd Big Data-app för att skicka platsbaserade tjänster inom regeringen
- Spårningssystem och hantering
Dag-5 : Session-1: Hur man rättfärdigar Big Data BI-implementering inom en organisation:
- Definiera ROI för Big Data-implementering
- Fallstudier för att spara analytikers tid för insamling och förberedelse av data — ökning i produktivitetsvinster
- Fallstudier om intäktvinster från sparade licenser för databaser
- Intäktvinster från platsbaserade tjänster
- Sparande från bedrägeriförhindran
- Ett integrerat kalkylblad tillvägagångssätt för att beräkna approximativ kostnad vs intäktvinster/sparanden från Big Data-implementering.
Dag-5 : Session-2: Steg för steg procedur för att ersätta lego-datasystem med Big Data-system:
- Förstå praktiskt Big Data-migreringsvägkart
- Vilken viktig information behövs innan arkitektur av en Big Data-implementering
- Vilka är de olika sätten att beräkna volym, hastighet, mångfald och sannolikhet av data
- Hur man uppskattar datatillväxt
- Fallstudier
Dag-5: Session 4: Granskning av Big Data-leverantörer och deras produkter. Q&A-session:
- Accenture
- APTEAN (Tidigare CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Tidigare 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Del av EMC)
Krav
- Grundläggande kunskap om affärsoperationer och datasystem inom regeringen i sin egna bransch
- Grundläggande förståelse av SQL/Oracle eller relationell databas
- Grundläggande förståelse av statistik (på kalkylbladsnivå)
             35 timmar
        
        
Vittnesmål (1)
Utbildarens förmåga att anpassa kursen till organisationens krav annat än att bara tillhandahålla kursen för att leverera den.
Masilonyane - Revenue Services Lesotho
Kurs - Big Data Business Intelligence for Govt. Agencies
Maskintolkat
 
                     
                    