Kursplan

=====
Dag 01
=====
Översikt över Big Data Business Underrättelser för Criminal Intelligence Analysis

  • Fallstudier från brottsbekämpning - Predictive Policing
  • Big Data adoptionsfrekvens i brottsbekämpande myndigheter och hur de anpassar sin framtida verksamhet runt Big Data Predictive Analytics
  • Nya tekniska lösningar som skottsensorer, övervakningsvideo och sociala medier
  • Använder Big Data-teknik för att minska informationsöverbelastningen
  • Gränssnitt Big Data med äldre data
  • Grundläggande förståelse för möjliggörande teknologier inom prediktiv analys
  • Data Integration & Dashboardvisualisering
  • Bedrägerihantering
  • Business Regler och bedrägeriupptäckt
  • Hotdetektering och profilering
  • Kostnadsnyttoanalys för Big Data implementering

Introduktion till Big Data

  • Huvudegenskaper för Big Data -- Volym, variation, hastighet och sanning.
  • MPP-arkitektur (Massively Parallel Processing).
  • Data Warehouses – statiskt schema, långsamt utvecklande dataset
  • MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica etc.
  • Hadoop Baserade lösningar – inga villkor för datauppsättningens struktur.
  • Typiskt mönster: HDFS, MapReduce (crunch), hämta från HDFS
  • Apache Spark för strömbehandling
  • Batch-lämpad för analytisk/icke-interaktiv
  • Volym : CEP-strömmande data
  • Typiska val – CEP-produkter (t.ex. Infostreams, Apama, MarkLogic etc)
  • Mindre produktionsklar – Storm/S4
  • NoSQL Databases – (kolumn och nyckel-värde): Bäst lämpad som analytiskt komplement till datalager/databas

NoSQL lösningar

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (hierarkisk) - GT.m, Cache
  • KV Store (beställd) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Objekt Database - ZopeDB, DB40, Shoal
  • Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Datavarianter: Introduktion till Data Cleaning nummer i Big Data

  • RDBMS – statisk struktur/schema, främjar inte agil, utforskande miljö.
  • NoSQL – semistrukturerad, tillräckligt med struktur för att lagra data utan exakt schema innan data lagras
  • Datarensningsproblem

Hadoop

  • När ska man välja Hadoop?
  • STRUKTURERAD - Företagsdatalager/databaser kan lagra enorma data (till en kostnad) men påtvinga struktur (inte bra för aktiv utforskning)
  • HALVSTRUKTURERAD data – svår att utföra med traditionella lösningar (DW/DB)
  • Lagerdata = ENORM ansträngning och statisk även efter implementering
  • För variation och volym av data, knäppt på råvaruhårdvara – HADOOP
  • Vara H/W behövs för att skapa ett Hadoop kluster

Introduktion till Map Reduce /HDFS

  • MapReduce – distribuera datoranvändning över flera servrar
  • HDFS – gör data tillgänglig lokalt för beräkningsprocessen (med redundans)
  • Data – kan vara ostrukturerad/schemalös (till skillnad från RDBMS)
  • Utvecklaransvar för att förstå data
  • Programming MapReduce = arbetar med Java (för-/nackdelar), laddar data manuellt till HDFS

=====
Dag 02
=====
Big Data Ekosystem -- Bygga Big Data ETL (Extract, Transform, Load) -- Vilka Big Data verktyg ska man använda och när?

  • Hadoop kontra andra NoSQL lösningar
  • För interaktiv, slumpmässig tillgång till data
  • Hbase (kolumnorienterad databas) ovanpå Hadoop
  • Slumpmässig tillgång till data men begränsningar införda (max 1 PB)
  • Inte bra för ad-hoc-analyser, bra för loggning, räkning, tidsserier
  • Sqoop - Importera från databaser till Hive eller HDFS (JDBC/ODBC-åtkomst)
  • Flume – Streama data (t.ex. loggdata) till HDFS

Big Data Management System

  • Rörliga delar, beräkningsnoder startar/misslyckas :ZooKeeper - För konfigurations-/koordinations-/namntjänster
  • Komplex pipeline/arbetsflöde: Oozie – hantera arbetsflöde, beroenden, seriekedja
  • Distribuera, konfigurera, klusterhantering, uppgradering etc (sys admin) :Ambari
  • In Cloud: Whirr

Predictive Analytics -- Grundläggande tekniker och Machine Learning baserad Business intelligens

  • Introduktion till Machine Learning
  • Att lära sig klassificeringstekniker
  • Bayesian Prediction -- förbereder en träningsfil
  • Stöd Vector Machine
  • KNN p-Tree Algebra & vertikal gruvdrift
  • Neural Networks
  • Big Data stort variabelt problem -- Random forest (RF)
  • Big Data Automationsproblem – Multi-model ensemble RF
  • Automatisering genom Soft10-M
  • Textanalysverktyg-Treeminer
  • Agile lärande
  • Agentbaserat lärande
  • Distribuerat lärande
  • Introduktion till verktyg med öppen källkod för prediktiv analys: R, Python, Rapidminer, Mahut

Predictive Analytics Ekosystem och dess tillämpning i Criminal Intelligence Analysis

  • Teknik och utredningsprocessen
  • Insiktsanalys
  • Visualiseringsanalys
  • Strukturerad prediktiv analys
  • Ostrukturerad prediktiv analys
  • Hot/fraudstar/leverantörsprofilering
  • Rekommendationsmotor
  • Mönsterdetektering
  • Upptäckt av regel/scenario – misslyckande, bedrägeri, optimering
  • Rotorsak upptäckt
  • Sentimentanalys
  • CRM-analys
  • Nätverksanalys
  • Textanalys för att få insikter från utskrifter, vittnesuppgifter, internetprat etc.
  • Teknikstödd granskning
  • Bedrägerianalys
  • Realtidsanalys

=====
Dag 03
=====
Realtid och Scalable Analytics över Hadoop

  • Varför vanliga analytiska algoritmer misslyckas i Hadoop/HDFS
  • Apache Hama- för Bulk Synchronous distributed computing
  • Apache SPARK- för klusterberäkning och realtidsanalys
  • CMU Graphics Lab2- Grafbaserad asynkron metod för distribuerad datoranvändning
  • KNN p -- Algebrabaserad tillvägagångssätt från Treeminer för minskad hårdvarukostnad för drift

Verktyg för eDiscovery och Forensics

  • eDiscovery över Big Data kontra äldre data – en jämförelse av kostnad och prestanda
  • Predictive coding and Technology Assisted Review (TAR)
  • Live-demo av vMiner för att förstå hur TAR möjliggör snabbare upptäckt
  • Snabbare indexering genom HDFS – Datahastighet
  • NLP (Natural Language processing) – produkter och tekniker med öppen källkod
  • eDiscovery på främmande språk -- teknik för bearbetning av främmande språk

Big Data BI för Cyber Security – Få en 360-gradersvy, snabb datainsamling och hotidentifiering

  • Förstå grunderna för säkerhetsanalys -- attackyta, felkonfiguration av säkerheten, värdförsvar
  • Nätverksinfrastruktur / Stort datapipe / Response ETL för realtidsanalys
  • Preskriptiv vs prediktiv – Fast regelbaserad kontra automatisk upptäckt av hotregler från metadata

Samlar in olika data för Criminal Intelligence Analysis

  • Använder IoT (Internet of Things) som sensorer för att fånga data
  • Använda satellitbilder för inhemsk övervakning
  • Använda övervaknings- och bilddata för brottslig identifiering
  • Andra datainsamlingstekniker -- drönare, kroppskameror, GPS-taggningssystem och värmeteknik
  • Kombinera automatisk datahämtning med data som erhållits från informanter, förhör och forskning
  • Forecasting brottslig verksamhet

=====
Dag 04
=====
Fraud prevention BI från Big Data i Fraud Analytics

  • Grundläggande klassificering av bedrägerianalys -- regelbaserad kontra prediktiv analys
  • Övervakad vs oövervakad Maskininlärning för upptäckt av bedrägerimönster
  • Business till företagsbedrägerier, medicinska skadebedrägerier, försäkringsbedrägerier, skatteflykt och penningtvätt

Social Media Analys – Underrättelseinsamling och analys

  • Hur Social Media används av kriminella för att organisera, rekrytera och planera
  • Big Data ETL API för att extrahera sociala mediedata
  • Text, bild, metadata och video
  • Sentimentanalys från sociala medier-flöde
  • Kontextuell och icke-kontextuell filtrering av sociala medier
  • Social Media Instrumentpanel för att integrera olika sociala medier
  • Automatiserad profilering av sociala medier profil
  • Livedemo av varje analys kommer att ges via Treeminer Tool

Big Data Analys i bildbehandling och videoflöden

  • Bildlagringstekniker i Big Data -- Lagringslösning för data som överstiger petabyte
  • LTFS (Linear Tape File System) och LTO (Linear Tape Open)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System) -- lagerlagringslösning för stora bilddata
  • Grunderna i bildanalys
  • Objektigenkänning
  • Bildsegmentering
  • Rörelsespårning
  • 3D-bildrekonstruktion

Biomått, DNA och nästa generations identifieringsprogram

  • Bortom fingeravtryck och ansiktsigenkänning
  • Taligenkänning, tangenttryckning (analys av användarens skrivmönster) och CODIS (kombinerat DNA-indexsystem)
  • Bortom DNA-matchning: använder rättsmedicinsk DNA-fenotypning för att konstruera ett ansikte från DNA-prover

Big Data Instrumentpanel för snabb åtkomst till olika data och visning:

  • Integrering av befintlig applikationsplattform med Big Data Dashboard
  • Big Data ledning
  • Fallstudie av Big Data Dashboard: Tableau och Pentaho
  • Använd appen Big Data för att driva platsbaserade tjänster i Govt.
  • Spårningssystem och ledning

=====
Dag 05
=====
Hur man motiverar Big Data BI-implementering inom en organisation:

  • Definiera ROI (Return on Investment) för implementering Big Data
  • Fallstudier för att spara analytikertid vid insamling och beredning av data – öka produktiviteten
  • Intäktsvinst från lägre kostnad för databaslicensiering
  • Intäktsvinst från platsbaserade tjänster
  • Kostnadsbesparingar genom att förebygga bedrägerier
  • En integrerad kalkylarksmetod för att beräkna ungefärliga kostnader kontra intäktsvinst/besparingar från Big Data implementering.

Steg för steg procedur för att ersätta ett äldre datasystem med ett Big Data System

  • Big Data Färdplan för migration
  • Vilken kritisk information behövs innan man bygger ett Big Data system?
  • Vilka är de olika sätten att beräkna volym, hastighet, variation och sannolikhet för data
  • Hur man uppskattar datatillväxt
  • Fallstudier

Granskning av Big Data Leverantörer och recension av deras produkter.

  • Accenture
  • APTEAN (tidigare CDC-programvara)
  • Cisco System
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi datasystem
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (tidigare 10Gen)
  • MU Sigma
  • Netapp
  • Operalösningar
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Kvant
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institutet
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Programvara
  • Teradata
  • Tänk Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Del av EMC)

Frågestund

Krav

  • Kunskap om brottsbekämpande processer och datasystem
  • Grundläggande förståelse för SQL/Oracle eller relationsdatabas
  • Grundläggande förståelse för statistik (på kalkylbladsnivå)
 35 timmar

Antal deltagare



Price per participant

Vittnesmål (4)

Relaterade Kategorier