Kursplan
=====
Dag 01
=====
Översikt över Big Data Business Underrättelser för Criminal Intelligence Analysis
- Fallstudier från brottsbekämpning - Predictive Policing
- Big Data adoptionsfrekvens i brottsbekämpande myndigheter och hur de anpassar sin framtida verksamhet runt Big Data Predictive Analytics
- Nya tekniska lösningar som skottsensorer, övervakningsvideo och sociala medier
- Använder Big Data-teknik för att minska informationsöverbelastningen
- Gränssnitt Big Data med äldre data
- Grundläggande förståelse för möjliggörande teknologier inom prediktiv analys
- Data Integration & Dashboardvisualisering
- Bedrägerihantering
- Business Regler och bedrägeriupptäckt
- Hotdetektering och profilering
- Kostnadsnyttoanalys för Big Data implementering
Introduktion till Big Data
- Huvudegenskaper för Big Data -- Volym, variation, hastighet och sanning.
- MPP-arkitektur (Massively Parallel Processing).
- Data Warehouses – statiskt schema, långsamt utvecklande dataset
- MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Hadoop Baserade lösningar – inga villkor för datauppsättningens struktur.
- Typiskt mönster: HDFS, MapReduce (crunch), hämta från HDFS
- Apache Spark för strömbehandling
- Batch-lämpad för analytisk/icke-interaktiv
- Volym : CEP-strömmande data
- Typiska val – CEP-produkter (t.ex. Infostreams, Apama, MarkLogic etc)
- Mindre produktionsklar – Storm/S4
- NoSQL Databases – (kolumn och nyckel-värde): Bäst lämpad som analytiskt komplement till datalager/databas
NoSQL lösningar
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (hierarkisk) - GT.m, Cache
- KV Store (beställd) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Objekt Database - ZopeDB, DB40, Shoal
- Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Datavarianter: Introduktion till Data Cleaning nummer i Big Data
- RDBMS – statisk struktur/schema, främjar inte agil, utforskande miljö.
- NoSQL – semistrukturerad, tillräckligt med struktur för att lagra data utan exakt schema innan data lagras
- Datarensningsproblem
Hadoop
- När ska man välja Hadoop?
- STRUKTURERAD - Företagsdatalager/databaser kan lagra enorma data (till en kostnad) men påtvinga struktur (inte bra för aktiv utforskning)
- HALVSTRUKTURERAD data – svår att utföra med traditionella lösningar (DW/DB)
- Lagerdata = ENORM ansträngning och statisk även efter implementering
- För variation och volym av data, knäppt på råvaruhårdvara – HADOOP
- Vara H/W behövs för att skapa ett Hadoop kluster
Introduktion till Map Reduce /HDFS
- MapReduce – distribuera datoranvändning över flera servrar
- HDFS – gör data tillgänglig lokalt för beräkningsprocessen (med redundans)
- Data – kan vara ostrukturerad/schemalös (till skillnad från RDBMS)
- Utvecklaransvar för att förstå data
- Programming MapReduce = arbetar med Java (för-/nackdelar), laddar data manuellt till HDFS
=====
Dag 02
=====
Big Data Ekosystem -- Bygga Big Data ETL (Extract, Transform, Load) -- Vilka Big Data verktyg ska man använda och när?
- Hadoop kontra andra NoSQL lösningar
- För interaktiv, slumpmässig tillgång till data
- Hbase (kolumnorienterad databas) ovanpå Hadoop
- Slumpmässig tillgång till data men begränsningar införda (max 1 PB)
- Inte bra för ad-hoc-analyser, bra för loggning, räkning, tidsserier
- Sqoop - Importera från databaser till Hive eller HDFS (JDBC/ODBC-åtkomst)
- Flume – Streama data (t.ex. loggdata) till HDFS
Big Data Management System
- Rörliga delar, beräkningsnoder startar/misslyckas :ZooKeeper - För konfigurations-/koordinations-/namntjänster
- Komplex pipeline/arbetsflöde: Oozie – hantera arbetsflöde, beroenden, seriekedja
- Distribuera, konfigurera, klusterhantering, uppgradering etc (sys admin) :Ambari
- In Cloud: Whirr
Predictive Analytics -- Grundläggande tekniker och Machine Learning baserad Business intelligens
- Introduktion till Machine Learning
- Att lära sig klassificeringstekniker
- Bayesian Prediction -- förbereder en träningsfil
- Stöd Vector Machine
- KNN p-Tree Algebra & vertikal gruvdrift
- Neural Networks
- Big Data stort variabelt problem -- Random forest (RF)
- Big Data Automationsproblem – Multi-model ensemble RF
- Automatisering genom Soft10-M
- Textanalysverktyg-Treeminer
- Agile lärande
- Agentbaserat lärande
- Distribuerat lärande
- Introduktion till verktyg med öppen källkod för prediktiv analys: R, Python, Rapidminer, Mahut
Predictive Analytics Ekosystem och dess tillämpning i Criminal Intelligence Analysis
- Teknik och utredningsprocessen
- Insiktsanalys
- Visualiseringsanalys
- Strukturerad prediktiv analys
- Ostrukturerad prediktiv analys
- Hot/fraudstar/leverantörsprofilering
- Rekommendationsmotor
- Mönsterdetektering
- Upptäckt av regel/scenario – misslyckande, bedrägeri, optimering
- Rotorsak upptäckt
- Sentimentanalys
- CRM-analys
- Nätverksanalys
- Textanalys för att få insikter från utskrifter, vittnesuppgifter, internetprat etc.
- Teknikstödd granskning
- Bedrägerianalys
- Realtidsanalys
=====
Dag 03
=====
Realtid och Scalable Analytics över Hadoop
- Varför vanliga analytiska algoritmer misslyckas i Hadoop/HDFS
- Apache Hama- för Bulk Synchronous distributed computing
- Apache SPARK- för klusterberäkning och realtidsanalys
- CMU Graphics Lab2- Grafbaserad asynkron metod för distribuerad datoranvändning
- KNN p -- Algebrabaserad tillvägagångssätt från Treeminer för minskad hårdvarukostnad för drift
Verktyg för eDiscovery och Forensics
- eDiscovery över Big Data kontra äldre data – en jämförelse av kostnad och prestanda
- Predictive coding and Technology Assisted Review (TAR)
- Live-demo av vMiner för att förstå hur TAR möjliggör snabbare upptäckt
- Snabbare indexering genom HDFS – Datahastighet
- NLP (Natural Language processing) – produkter och tekniker med öppen källkod
- eDiscovery på främmande språk -- teknik för bearbetning av främmande språk
Big Data BI för Cyber Security – Få en 360-gradersvy, snabb datainsamling och hotidentifiering
- Förstå grunderna för säkerhetsanalys -- attackyta, felkonfiguration av säkerheten, värdförsvar
- Nätverksinfrastruktur / Stort datapipe / Response ETL för realtidsanalys
- Preskriptiv vs prediktiv – Fast regelbaserad kontra automatisk upptäckt av hotregler från metadata
Samlar in olika data för Criminal Intelligence Analysis
- Använder IoT (Internet of Things) som sensorer för att fånga data
- Använda satellitbilder för inhemsk övervakning
- Använda övervaknings- och bilddata för brottslig identifiering
- Andra datainsamlingstekniker -- drönare, kroppskameror, GPS-taggningssystem och värmeteknik
- Kombinera automatisk datahämtning med data som erhållits från informanter, förhör och forskning
- Forecasting brottslig verksamhet
=====
Dag 04
=====
Fraud prevention BI från Big Data i Fraud Analytics
- Grundläggande klassificering av bedrägerianalys -- regelbaserad kontra prediktiv analys
- Övervakad vs oövervakad Maskininlärning för upptäckt av bedrägerimönster
- Business till företagsbedrägerier, medicinska skadebedrägerier, försäkringsbedrägerier, skatteflykt och penningtvätt
Social Media Analys – Underrättelseinsamling och analys
- Hur Social Media används av kriminella för att organisera, rekrytera och planera
- Big Data ETL API för att extrahera sociala mediedata
- Text, bild, metadata och video
- Sentimentanalys från sociala medier-flöde
- Kontextuell och icke-kontextuell filtrering av sociala medier
- Social Media Instrumentpanel för att integrera olika sociala medier
- Automatiserad profilering av sociala medier profil
- Livedemo av varje analys kommer att ges via Treeminer Tool
Big Data Analys i bildbehandling och videoflöden
- Bildlagringstekniker i Big Data -- Lagringslösning för data som överstiger petabyte
- LTFS (Linear Tape File System) och LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) -- lagerlagringslösning för stora bilddata
- Grunderna i bildanalys
- Objektigenkänning
- Bildsegmentering
- Rörelsespårning
- 3D-bildrekonstruktion
Biomått, DNA och nästa generations identifieringsprogram
- Bortom fingeravtryck och ansiktsigenkänning
- Taligenkänning, tangenttryckning (analys av användarens skrivmönster) och CODIS (kombinerat DNA-indexsystem)
- Bortom DNA-matchning: använder rättsmedicinsk DNA-fenotypning för att konstruera ett ansikte från DNA-prover
Big Data Instrumentpanel för snabb åtkomst till olika data och visning:
- Integrering av befintlig applikationsplattform med Big Data Dashboard
- Big Data ledning
- Fallstudie av Big Data Dashboard: Tableau och Pentaho
- Använd appen Big Data för att driva platsbaserade tjänster i Govt.
- Spårningssystem och ledning
=====
Dag 05
=====
Hur man motiverar Big Data BI-implementering inom en organisation:
- Definiera ROI (Return on Investment) för implementering Big Data
- Fallstudier för att spara analytikertid vid insamling och beredning av data – öka produktiviteten
- Intäktsvinst från lägre kostnad för databaslicensiering
- Intäktsvinst från platsbaserade tjänster
- Kostnadsbesparingar genom att förebygga bedrägerier
- En integrerad kalkylarksmetod för att beräkna ungefärliga kostnader kontra intäktsvinst/besparingar från Big Data implementering.
Steg för steg procedur för att ersätta ett äldre datasystem med ett Big Data System
- Big Data Färdplan för migration
- Vilken kritisk information behövs innan man bygger ett Big Data system?
- Vilka är de olika sätten att beräkna volym, hastighet, variation och sannolikhet för data
- Hur man uppskattar datatillväxt
- Fallstudier
Granskning av Big Data Leverantörer och recension av deras produkter.
- Accenture
- APTEAN (tidigare CDC-programvara)
- Cisco System
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi datasystem
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (tidigare 10Gen)
- MU Sigma
- Netapp
- Operalösningar
- Oracle
- Pentaho
- Platfora
- Qliktech
- Kvant
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institutet
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Programvara
- Teradata
- Tänk Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Del av EMC)
Frågestund
Krav
- Kunskap om brottsbekämpande processer och datasystem
- Grundläggande förståelse för SQL/Oracle eller relationsdatabas
- Grundläggande förståelse för statistik (på kalkylbladsnivå)
Vittnesmål (4)
Data management, reporting and statistics concepts.
Dumisani - Interfront SOC Ltd
Kurs - Stata: Beginner to Advanced
Dela med dig av exempel på program
Kurs - Alteryx for Data Analysis
Machine Translated
Very clearly articulated and explained
Harshit Arora - PwC South East Asia Consulting
Kurs - Alteryx for Developers
Linear regression - the algorithm to predict the trend