Programa do Curso

Estrutura detalhada do treinamento

  1. Introdução ao Processamento de Linguagem Natural (NLP)
    • Compreendendo NLP
    • Frameworks de NLP
    • Aplicações comerciais de NLP
    • Fazendo scraping de dados da web
    • Trabalhando com diversas APIs para recuperar dados de texto
    • Trabalhando e armazenando corpora de texto, salvando conteúdo e metadados relevantes
    • Vantagens do uso do Python e NLTK: curso intensivo
  2. Compreensão prática de um corpus e conjunto de dados
    • Por que precisamos de um corpus?
    • Análise de corpus
    • Tipos de atributos de dados
    • Diferentes formatos de arquivos para corpora
    • Preparando um conjunto de dados para aplicações de NLP
  3. Compreendendo a estrutura de uma sentença
    • Componentes do NLP
    • Compreensão da linguagem natural
    • Análise morfológica - raiz, palavra, token, tags de discurso
    • Análise sintática
    • Análise semântica
    • Lidando com ambiguidade
  4. Pré-processamento de dados de texto
    • Corpus - texto bruto
      • Tokênização de sentenças
      • Stemming para texto bruto
      • Lematização de texto bruto
      • Remoção de palavras de parada
    • Corpus - sentenças brutas
      • Tokênização de palavras
      • Lematização de palavras
    • Trabalhando com matrizes Term-Document/Document-Term
    • Tokênização de texto em n-gramas e sentenças
    • Pré-processamento prático e personalizado
  5. Analisando dados de texto
    • Características básicas do NLP
      • Parser e parsing
      • POS tagging e taggers
      • Reconhecimento de entidades nomeadas
      • N-gramas
      • Bolsa de palavras (bag of words)
    • Características estatísticas do NLP
      • Conceitos de álgebra linear para NLP
      • Teoria probabilística para NLP
      • TF-IDF
      • Vetorização
      • Codificadores e decodificadores
      • Normalização
      • Modelos probabilísticos
    • Engenharia de características avançada e NLP
      • Noções básicas do word2vec
      • Componentes do modelo word2vec
      • Lógica do modelo word2vec
      • Extensão do conceito word2vec
      • Aplicação do modelo word2vec
    • Estudo de caso: Aplicação da bolsa de palavras (bag of words): resumo automático de texto usando algoritmos simplificados e verdadeiros de Luhn
  6. Agrupamento, classificação e modelagem de tópicos de documentos
    • Agrupamento de documentos e mineração de padrões (agrupamento hierárquico, k-means, etc.)
    • Comparando e classificando documentos usando medidas de distância TFIDF, Jaccard e cosseno
    • Classificação de documentos usando Naïve Bayes e Máxima Entropia
  7. Identificando elementos importantes do texto
    • Redução da dimensionalidade: Análise de Componentes Principais, Decomposição em Valores Singulares, fatoração de matriz não negativa
    • Modelagem de tópicos e recuperação de informações usando Análise Semântica Latente
  8. Extração de entidades, análise de sentimentos e modelagem de tópicos avançada
    • Positivo vs. negativo: grau de sentimento
    • Teoria de Resposta ao Item
    • TAGS POS e suas aplicações: encontrar pessoas, lugares e organizações mencionadas no texto
    • Modelagem de tópicos avançada: Análise Dirichlet Latente (LDA)
  9. Estudos de caso
    • Mineração de avaliações de usuários não estruturadas
    • Classificação e visualização de sentimentos de dados de revisão de produtos
    • Mineração de logs de pesquisa para padrões de uso
    • Classificação de texto
    • Modelagem de tópicos

Requisitos

Conhecimento e conscientização dos princípios de NLP e uma apreciação das aplicações de IA nos negócios

 21 Horas

Declaração de Clientes (1)

Próximas Formações Provisórias

Categorias Relacionadas