Kursplan

Detaljerad utbildningsöversikt

  1. Introduktion till NLP
    • Förståelse av NLP
    • NLP-ramverk
    • Kommersiella tillämpningar av NLP
    • Skrapning av data från webb
    • Arbeta med olika API:er för att hämta textdata
    • Arbeta med och lagra textkroppar, spara innehåll och relevant metadata
    • Fördelar med att använda Python och NLTK crash kurs
  2. Praktisk förståelse av en textkropp och dataset
    • Varför behöver vi en textkropp?
    • Analys av textkroppar
    • Typer av datattribut
    • Olika filformat för textkroppar
    • Förbereda ett dataset för NLP-tillämpningar
  3. Förståelsen av meningens struktur
    • Komponenter i NLP
    • Naturlig språkförståelse
    • Morfologisk analys - stam, ord, token, taltecken
    • Syntaktisk analys
    • Semantisk analys
    • Hantering av tvetydighet
  4. Förbehandling av textdata
    • Textkropp - rå text
      • Menighetsindelning
      • Stamning för rå text
      • Lemmatering av rå text
      • Borttagning av stoppord
    • Textkropp - rå meningar
      • Word tokenisering
      • Word lemmatisering
    • Arbeta med Term-Dokument/Dokument-Term-matriser
    • Texttokenisering till n-gram och meningar
    • Pratisk och anpassad förbehandling
  5. Analys av textdata
    • Grundläggande egenskaper hos NLP
      • Parsers och parsing
      • POS-taggning och taggar
      • Namnentitetsigenkänning
      • N-gram
      • Bag of words
    • Statistiska egenskaper hos NLP
      • Begrepp om linjär algebra för NLP
      • Sannolikhetsteori för NLP
      • TF-IDF
      • Vektorisering
      • Kodare och dekodare
      • Normalisering
      • Sannolikhetsmodeller
    • Avancerad funktionsutveckling och NLP
      • Grunder av word2vec
      • Komponenter i word2vec-modellen
      • Logik i word2vec-modellen
      • Utökning av word2vec-konceptet
      • Tillämpning av word2vec-modellen
    • Fallstudie: Tillämpning av bag of words: automatisk sammanfattning av text med förenklade och verkliga Luhn-algoritmer
  6. Dokumentklusterisering, klassificering och ämnesmodellering
    • Dokumentklusterisering och mönsterutvinning (hierarkisk klusterisering, k-means, klusterisering etc.)
    • Jämförelse och klassificering av dokument med TFIDF, Jaccard och cosinusavståndsmått
    • Dokumentklassificering med Naïve Bayes och Maximum Entropy
  7. Identifiering av viktiga texter Elements
    • Minskning av dimensionalitet: Principal Component Analysis, Singular Value Decomposition, non-negative matrix factorization
    • Ämnesmodellering och informationsåtervinning med Latent Semantic Analysis
  8. Entitetsextraktion, Sentiment Analysis och avancerad ämnesmodellering
    • Positivt vs. negativt: grad av känsla
    • Item Response Theory
    • Deltagande ordtaggning och dess tillämpning: hitta personer, platser och organisationer nämnda i text
    • Avancerad ämnesmodellering: Latent Dirichlet Allocation
  9. Fallstudier
    • Utvinning av ostrukturerade användarrecensioner
    • Känsloklassificering och visualisering av produktrecensionsdata
    • Utvinning av sökloggar för användningsmönster
    • Textklassificering
    • Ämnesmodellering

Krav

Kunskap och medvetenhet om NLP-principer och en uppskattning av AI:s tillämpning i företagsverksamhet

 21 timmar

Antal deltagare


Price per participant

Vittnesmål (1)

Upcoming Courses

Relaterade Kategorier