Kursplan
=====
Dag 01
=====
Översikt över Big Data Business Underrättelser för Criminal Intelligence Analysis
- Fallstudier från brottsbekämpning - Predictive Policing
- Big Data adoptionsfrekvens i brottsbekämpande myndigheter och hur de anpassar sin framtida verksamhet runt Big Data Predictive Analytics
- Nya tekniska lösningar som skottsensorer, övervakningsvideo och sociala medier
- Använder Big Data-teknik för att minska informationsöverbelastningen
- Gränssnitt Big Data med äldre data
- Grundläggande förståelse för möjliggörande teknologier inom prediktiv analys
- Data Integration & Dashboardvisualisering
- Bedrägerihantering
- Business Regler och bedrägeriupptäckt
- Hotdetektering och profilering
- Kostnadsnyttoanalys för Big Data implementering
Introduktion till Big Data
- Huvudegenskaper för Big Data -- Volym, variation, hastighet och sanning.
- MPP-arkitektur (Massively Parallel Processing).
- Data Warehouses – statiskt schema, långsamt utvecklande dataset
- MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Hadoop Baserade lösningar – inga villkor för datauppsättningens struktur.
- Typiskt mönster: HDFS, MapReduce (crunch), hämta från HDFS
- Apache Spark för strömbehandling
- Batch-lämpad för analytisk/icke-interaktiv
- Volym : CEP-strömmande data
- Typiska val – CEP-produkter (t.ex. Infostreams, Apama, MarkLogic etc)
- Mindre produktionsklar – Storm/S4
- NoSQL Databases – (kolumn och nyckel-värde): Bäst lämpad som analytiskt komplement till datalager/databas
NoSQL lösningar
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (hierarkisk) - GT.m, Cache
- KV Store (beställd) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Objekt Database - ZopeDB, DB40, Shoal
- Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Datavarianter: Introduktion till Data Cleaning nummer i Big Data
- RDBMS – statisk struktur/schema, främjar inte agil, utforskande miljö.
- NoSQL – semistrukturerad, tillräckligt med struktur för att lagra data utan exakt schema innan data lagras
- Datarensningsproblem
Hadoop
- När ska man välja Hadoop?
- STRUKTURERAD - Företagsdatalager/databaser kan lagra enorma data (till en kostnad) men påtvinga struktur (inte bra för aktiv utforskning)
- HALVSTRUKTURERAD data – svår att utföra med traditionella lösningar (DW/DB)
- Lagerdata = ENORM ansträngning och statisk även efter implementering
- För variation och volym av data, knäppt på råvaruhårdvara – HADOOP
- Vara H/W behövs för att skapa ett Hadoop kluster
Introduktion till Map Reduce /HDFS
- MapReduce – distribuera datoranvändning över flera servrar
- HDFS – gör data tillgänglig lokalt för beräkningsprocessen (med redundans)
- Data – kan vara ostrukturerad/schemalös (till skillnad från RDBMS)
- Utvecklaransvar för att förstå data
- Programming MapReduce = arbetar med Java (för-/nackdelar), laddar data manuellt till HDFS
=====
Dag 02
=====
Big Data Ekosystem -- Bygga Big Data ETL (Extract, Transform, Load) -- Vilka Big Data verktyg ska man använda och när?
- Hadoop kontra andra NoSQL lösningar
- För interaktiv, slumpmässig tillgång till data
- Hbase (kolumnorienterad databas) ovanpå Hadoop
- Slumpmässig tillgång till data men begränsningar införda (max 1 PB)
- Inte bra för ad-hoc-analyser, bra för loggning, räkning, tidsserier
- Sqoop - Importera från databaser till Hive eller HDFS (JDBC/ODBC-åtkomst)
- Flume – Streama data (t.ex. loggdata) till HDFS
Big Data Management System
- Rörliga delar, beräkningsnoder startar/misslyckas :ZooKeeper - För konfigurations-/koordinations-/namntjänster
- Komplex pipeline/arbetsflöde: Oozie – hantera arbetsflöde, beroenden, seriekedja
- Distribuera, konfigurera, klusterhantering, uppgradering etc (sys admin) :Ambari
- In Cloud: Whirr
Predictive Analytics -- Grundläggande tekniker och Machine Learning baserad Business intelligens
- Introduktion till Machine Learning
- Att lära sig klassificeringstekniker
- Bayesian Prediction -- förbereder en träningsfil
- Stöd Vector Machine
- KNN p-Tree Algebra & vertikal gruvdrift
- Neural Networks
- Big Data stort variabelt problem -- Random forest (RF)
- Big Data Automationsproblem – Multi-model ensemble RF
- Automatisering genom Soft10-M
- Textanalysverktyg-Treeminer
- Agile lärande
- Agentbaserat lärande
- Distribuerat lärande
- Introduktion till verktyg med öppen källkod för prediktiv analys: R, Python, Rapidminer, Mahut
Predictive Analytics Ekosystem och dess tillämpning i Criminal Intelligence Analysis
- Teknik och utredningsprocessen
- Insiktsanalys
- Visualiseringsanalys
- Strukturerad prediktiv analys
- Ostrukturerad prediktiv analys
- Hot/fraudstar/leverantörsprofilering
- Rekommendationsmotor
- Mönsterdetektering
- Upptäckt av regel/scenario – misslyckande, bedrägeri, optimering
- Rotorsak upptäckt
- Sentimentanalys
- CRM-analys
- Nätverksanalys
- Textanalys för att få insikter från utskrifter, vittnesuppgifter, internetprat etc.
- Teknikstödd granskning
- Bedrägerianalys
- Realtidsanalys
=====
Dag 03
=====
Realtid och Scalable Analytics över Hadoop
- Varför vanliga analytiska algoritmer misslyckas i Hadoop/HDFS
- Apache Hama- för Bulk Synchronous distributed computing
- Apache SPARK- för klusterberäkning och realtidsanalys
- CMU Graphics Lab2- Grafbaserad asynkron metod för distribuerad datoranvändning
- KNN p -- Algebrabaserad tillvägagångssätt från Treeminer för minskad hårdvarukostnad för drift
Verktyg för eDiscovery och Forensics
- eDiscovery över Big Data kontra äldre data – en jämförelse av kostnad och prestanda
- Predictive coding and Technology Assisted Review (TAR)
- Live-demo av vMiner för att förstå hur TAR möjliggör snabbare upptäckt
- Snabbare indexering genom HDFS – Datahastighet
- NLP (Natural Language processing) – produkter och tekniker med öppen källkod
- eDiscovery på främmande språk -- teknik för bearbetning av främmande språk
Big Data BI för Cyber Security – Få en 360-gradersvy, snabb datainsamling och hotidentifiering
- Förstå grunderna för säkerhetsanalys -- attackyta, felkonfiguration av säkerheten, värdförsvar
- Nätverksinfrastruktur / Stort datapipe / Response ETL för realtidsanalys
- Preskriptiv vs prediktiv – Fast regelbaserad kontra automatisk upptäckt av hotregler från metadata
Samlar in olika data för Criminal Intelligence Analysis
- Använder IoT (Internet of Things) som sensorer för att fånga data
- Använda satellitbilder för inhemsk övervakning
- Använda övervaknings- och bilddata för brottslig identifiering
- Andra datainsamlingstekniker -- drönare, kroppskameror, GPS-taggningssystem och värmeteknik
- Kombinera automatisk datahämtning med data som erhållits från informanter, förhör och forskning
- Forecasting brottslig verksamhet
=====
Dag 04
=====
Fraud prevention BI från Big Data i Fraud Analytics
- Grundläggande klassificering av bedrägerianalys -- regelbaserad kontra prediktiv analys
- Övervakad vs oövervakad Maskininlärning för upptäckt av bedrägerimönster
- Business till företagsbedrägerier, medicinska skadebedrägerier, försäkringsbedrägerier, skatteflykt och penningtvätt
Social Media Analys – Underrättelseinsamling och analys
- Hur Social Media används av kriminella för att organisera, rekrytera och planera
- Big Data ETL API för att extrahera sociala mediedata
- Text, bild, metadata och video
- Sentimentanalys från sociala medier-flöde
- Kontextuell och icke-kontextuell filtrering av sociala medier
- Social Media Instrumentpanel för att integrera olika sociala medier
- Automatiserad profilering av sociala medier profil
- Livedemo av varje analys kommer att ges via Treeminer Tool
Big Data Analys i bildbehandling och videoflöden
- Bildlagringstekniker i Big Data -- Lagringslösning för data som överstiger petabyte
- LTFS (Linear Tape File System) och LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) -- lagerlagringslösning för stora bilddata
- Grunderna i bildanalys
- Objektigenkänning
- Bildsegmentering
- Rörelsespårning
- 3D-bildrekonstruktion
Biomått, DNA och nästa generations identifieringsprogram
- Bortom fingeravtryck och ansiktsigenkänning
- Taligenkänning, tangenttryckning (analys av användarens skrivmönster) och CODIS (kombinerat DNA-indexsystem)
- Bortom DNA-matchning: använder rättsmedicinsk DNA-fenotypning för att konstruera ett ansikte från DNA-prover
Big Data Instrumentpanel för snabb åtkomst till olika data och visning:
- Integrering av befintlig applikationsplattform med Big Data Dashboard
- Big Data ledning
- Fallstudie av Big Data Dashboard: Tableau och Pentaho
- Använd appen Big Data för att driva platsbaserade tjänster i Govt.
- Spårningssystem och ledning
=====
Dag 05
=====
Hur man motiverar Big Data BI-implementering inom en organisation:
- Definiera ROI (Return on Investment) för implementering Big Data
- Fallstudier för att spara analytikertid vid insamling och beredning av data – öka produktiviteten
- Intäktsvinst från lägre kostnad för databaslicensiering
- Intäktsvinst från platsbaserade tjänster
- Kostnadsbesparingar genom att förebygga bedrägerier
- En integrerad kalkylarksmetod för att beräkna ungefärliga kostnader kontra intäktsvinst/besparingar från Big Data implementering.
Steg för steg procedur för att ersätta ett äldre datasystem med ett Big Data System
- Big Data Färdplan för migration
- Vilken kritisk information behövs innan man bygger ett Big Data system?
- Vilka är de olika sätten att beräkna volym, hastighet, variation och sannolikhet för data
- Hur man uppskattar datatillväxt
- Fallstudier
Granskning av Big Data Leverantörer och recension av deras produkter.
- Accenture
- APTEAN (tidigare CDC-programvara)
- Cisco System
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi datasystem
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (tidigare 10Gen)
- MU Sigma
- Netapp
- Operalösningar
- Oracle
- Pentaho
- Platfora
- Qliktech
- Kvant
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institutet
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Programvara
- Teradata
- Tänk Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Del av EMC)
Frågestund
Krav
- Kunskap om brottsbekämpande processer och datasystem
- Grundläggande förståelse för SQL/Oracle eller relationsdatabas
- Grundläggande förståelse för statistik (på kalkylbladsnivå)
Vittnesmål (1)
Deepthi var super inställd på mina behov, hon kunde avgöra när hon skulle lägga till lager av komplexitet och när hon skulle hålla tillbaka och ta en mer strukturerad metod. Deepthi arbetade verkligen i min takt och såg till att jag kunde använda de nya funktionerna / verktygen själv genom att först visa och sedan låta mig återskapa sakerna själv, vilket verkligen hjälpte till att befästa träningen. Jag kunde inte vara mer nöjd med resultaten av denna träning och med Deepthis kompetensnivå!
Deepthi - Invest Northern Ireland
Kurs - IBM Cognos Analytics
Machine Translated