Kursplan

Detaljerad utbildningsöversikt

    Introduktion till NLP Förstå NLP NLP Frameworks Kommersiella tillämpningar av NLP Skrapa data från webben Arbeta med olika API:er för att hämta textdata Arbeta och lagra textkorpus spara innehåll och relevant metadata Fördelar med att använda Python och NLTK snabbkurs Praktisk förståelse av en korpus och datauppsättning Varför behöver vi en korpus? Korpusanalys Typer av dataattribut Olika filformat för korpora Förbereda en datauppsättning för NLP-tillämpningar Förstå strukturen av en meningar Komponenter av NLP Naturlig språkförståelse Morfologisk analys - stam, ord, token, taltaggar Syntaktisk analys Semantisk analys Hantering av tvetydighet Textdata förbearbetning Korpus - råtext Meningstokenisering Stemming för råtext Lemmisering av råtext Stoppa borttagning av ord Korpus-råmeningar Word tokenisering Word lemmatisering Arbeta med Term-Dokument/Dokument-Term-matriser Texttokenisering till n-gram och meningar Praktisk och anpassad förbearbetning Analysera textdata Grundläggande kännetecken för NLP-parsers och tolka POS-taggning och taggare Namnenhetsigenkänning N-gram Påse med ord Statistiska egenskaper hos NLP Begrepp för linjär algebra för NLP Probabilistisk teori för NLP TF-IDF vektoriseringskodare och avkodare Normalisering Probabilistiska modeller Avancerad funktionsteknik och NLP Grunderna i word2vec Komponenter i word2vec-modellens logik i word2vec-modellen Utvidgning av word2vec-konceptet Tillämpning av word2vec-modellen Fallstudie: Tillämpning av påse med ord: automatisk textsammanfattning med förenklade och sanna Luhns algoritmer Dokumentklustring, klassificering och ämnesmodellering Dokumentklustring och mönsterutvinning (hierarkisk klustring, k-medel, klustring, etc.) Jämföra och klassificera dokument med hjälp av TFIDF, Jaccard och cosinusavståndsmått Dokumentklassificering med hjälp av Naiva Bayes och maximal entropi Identifiera viktiga textelement Reducerande dimensionalitet: Principal Component Analysis, Singular Value Decomposition icke-negativ matrisfaktorisering Ämnesmodellering och informationshämtning med hjälp av latent semantisk analys Entitetsextraktion, sentimentanalys och avancerad ämnesmodellering Positivt vs. negativt: graden av sentiment Item Response Theory Del av taltaggning och dess tillämpning: hitta personer, platser och organisationer som nämns i text Avancerad ämnesmodellering: Latent Dirichlet Allocation Fallstudier Brytning av ostrukturerade användarrecensioner Sentimentklassificering och visualisering av produktgranskning Data Mining sökloggar för användningsmönster Textklassificering Ämnesmodellering

Krav

Kunskap och medvetenhet om NLP-principer och en uppskattning av AI-tillämpning i näringslivet

 21 timmar

Antal deltagare



Price per participant

Vittnesmål (2)

Relaterade Kurser

Smart Robots for Developers

84 timmar

Relaterade Kategorier