Kursplan

Detaljerad träningsöversikt

  1. Inledning till NLP
    • Förståelse av NLP
    • NLP-ramverk
    • Kommersiella tillämpningar av NLP
    • Hämta data från webben
    • Arbeta med olika API:er för att hämta textdata
    • Lagra och hantera textkorpus, inklusive innehåll och relevant metadata
    • Fördelar med användning av Python och NLTK-kurser
  2. Praktisk förståelse för en korpus och dataset
    • Varför behöver vi en korpus?
    • Korpusanalys
    • Dataattributstyper
    • Olika filformat för korpusar
    • Förbereda ett dataset för NLP-tillämpningar
  3. Förståelse av meningsstruktur
    • NLP-komponenter
    • Naturgrenlighetssbegreppsförståelse
    • Morfologisk analys - stam, ord, token, talartaggar
    • Syntaktisk analys
    • Semantisk analys
    • Hantering av ambiguitet
  4. Textdataförbearbetning
    • Korpus - rå text
      • Meningstoknisering
      • Stemming för rå text
      • Lemmatisering av rå text
      • Borttagande av stoppord
    • Korpus-raw meningar
      • Ordtokenisering
      • Ordlemmatisering
    • Arbeta med term-dokument/dokument-term-matriser
    • Texttokenisering till n-gram och meningar
    • Praktisk och anpassad förbearbetning
  5. Analysera textdata
    • Grundläggande egenskaper av NLP
      • Parsers och parsing
      • TAG-betecknande och taggare
      • Namnentitetsserkänning
      • N-gram
      • Bag of words
    • Statistiska egenskaper av NLP
      • Koncept inom linjär algebra för NLP
      • Sannolikhetsmodeller för NLP
      • TF-IDF
      • Vektorisering
      • Kodare och dekodare
      • Normalisering
      • Sannolikhetsmodeller
    • Förbättrad funktionell teknik och NLP
      • Grundläggande begrepp om word2vec
      • Komponenter i word2vec-modellen
      • Logiken bakom word2vec-modellen
      • Tillämpning av word2vec-konceptet
      • Tillämpning av word2vec-modellen
    • Fallstudie: Tillämpning av bag of words: automatisk textsammanfattning med förenklade och riktiga Luhn-algoritmer
  6. Dokumentkluster, klassificering och ämnesmodellering
    • Dokumentkluster och mönsterutvinnings (hierarkisk klustrering, k-means-klustrering, etc.)
    • Jämföra och klassificera dokument med hjälp av TFIDF, Jaccard- och cosinusavståndsmått
    • Dokumentklassificering med Naïve Bayes och Maximum Entropy
  7. Identifiering av viktiga textelement
    • Dimensionalitetsreducering: Principal Component Analysis, Singular Value Decomposition, non-negative matrix factorization
    • Ämnesmodellering och informationshämtnings med Latent Semantic Analysis
  8. Entiteterutvinning, sentimentanalys och avancerad ämnesmodellering
    • Positivt vs. negativt: grad av sentiment
    • Item Response Theory
    • Talartagging och dess tillämpning: hitta personer, platser och organisationer som nämns i texten
    • Avancerad ämnesmodellering: Latent Dirichlet Allocation
  9. Fallstudier
    • Mining av ostrukterade användarrecensioner
    • Sentimentklassificering och visualisering av produktrecensionsdata
    • Mining av sökloggar för användningsmönster
    • Textklassificering
    • Ämnesmodellering

Krav

Kunskap och medvetenhet om NLP-principer samt en uppskattning av AI-tillämpningar i företag

 21 timmar

Antal deltagare


Pris per deltagare

Vittnesmål (1)

Kommande Kurser

Relaterade Kategorier