Kom i kontakt

Kursplan

Detaljerad utbildningsplan

  1. Introduktion till NLP
    • Förståelse för NLP
    • NLP-ramverk
    • Kommersiella tillämpningar av NLP
    • Datainsamling från webben
    • Användning av olika API:er för att hämta textdata
    • Arbete med och lagring av textkorpusar samt sparande av innehåll och relevant metadata
    • Fördelar med att använda Python och en kort introduktion till NLTK
  2. Praktisk förståelse för korpus och dataset
    • Varför behöver vi en korpus?
    • Korpusanalys
    • typer av dataattribut
    • Olika filformat för korpusar
    • Förberedelse av ett dataset för NLP-applikationer
  3. Förståelse för meningsstruktur
    • NLP-komponenter
    • Förståelse av naturligt språk
    • Morfologisk analys – stamning, ord, token, ordklasser
    • Syntaktisk analys
    • Semantisk analys
    • Hantering av tvetydighet
  4. Förbearbetning av textdata
    • Korpus – rå text
      • Sentenssegmentering
      • Stamning av rå text
      • Lematisering av rå text
      • Filtrering av vanliga ord (stop words)
    • Korpus – råa meningar
      • Ordsegmentering
      • Ordlematisering
    • Arbete med term-dokument- och dokument-term-matriser
    • Textsegmentering till n-gram och meningar
    • Praktisk och anpassad förbearbetning
  5. Analys av textdata
    • Grundläggande funktioner i NLP
      • Parser och parses
      • Ordklassbeteckning (POS-tagging) och taggers
      • Identifiering av egennamn
      • N-gram
      • Bag of words
    • Statistiska funktioner i NLP
      • Koncept från linjär algebra för NLP
      • Probabilistisk teori för NLP
      • TF-IDF
      • Vektorisering
      • Kodare och dekodare
      • Normalisering
      • Probabilistiska modeller
    • Avancerad funktionsutveckling och NLP
      • Grundläggande om word2vec
      • Komponenter i word2vec-modellen
      • Logik bakom word2vec-modellen
      • Utvidgning av word2vec-konceptet
      • Tillämpning av word2vec-modellen
    • Fallstudie: Tillämpning av Bag of Words för automatisk textsummering med förenklad och korrekt version av Luhrs algoritmer
  6. Dokumentklusterbildning, klassificering och ämnesmodellering
    • Dokumentklustering och mønsterutvinning (hierarkisk klustering, k-means, klustering m.m.)
    • Jämförelse och klassificering av dokument med hjälp av TFIDF, Jaccard- och cosinusavstånd
    • Dokumentklassificering med Naïve Bayes och Maximum Entropy
  7. Identifiering av viktiga textelement
    • Dimensionsreduktion: Huvudkomponentanalys (PCA), Singularvärdesdekomposition (SVD) och icke-negativ matrisfaktorisering
    • Ämnesmodellering och informationssökning med Latent Semantisk Analys
  8. Identifiering av entiteter, sentimentanalys och avancerad ämnesmodellering
    • Positivt kontra negativt: sentimentgrad
    • Item Response Theory
    • Ordklassbeteckning och dess tillämpning: identifiering av personer, platser och organisationer som nämns i texten
    • Avancerad ämnesmodellering: Latent Dirichlet Allocation
  9. Fallstudier
    • Utvinning av ostrukturerade användarrecensioner
    • Sentimentklassificering och visualisering av produktrecensiondata
    • Utvinning av sökloggar för att upptäcka användningsmönster
    • Textklassificering
    • Ämnesmodellering

Krav

Kunskaper och insikt i NLP-principer samt förståelse för tillämpningen av AI inom verksamhetsdrivande sammanhang.

 21 Timmar

Antal deltagare


Pris per deltagare

Vittnesmål (1)

Kommande Kurser

Relaterade Kategorier