Skip to Content

Os 5 pacotes que você deve saber para análise de texto com R

Os 5 pacotes que você deve saber para análise de texto com R

Uma visão geral completa dos pacotes mais úteis em R que os cientistas de dados devem saber para análise de texto. Essa é uma tradução. o original está aqui.

1. O Abrangente: Quanteda

install.packages("quanteda")
library(quanteda)

Quanteda é o pacote ideal para análise quantitativa de texto. Desenvolvido, este pacote é obrigatório para qualquer cientista de dados que faça análise de texto.

Por quê? Porque este pacote permite que você faça MUITO. Isso varia desde o básico no processamento de linguagem natural - diversidade lexical, pré-processamento de texto, construção de um corpus, objetos de token, matriz de recursos de documentos) - até análises estatísticas mais avançadas, como escores de palavras ou peixes-palavras, classificação de documentos (por exemplo, Naive Bayes) e tópico modelagem.

2. O transofrmador: Text2vec

install.packages("text2vec")
library(text2vec)

Text2vec é um pacote extremamente útil se você estiver criando algoritmos de aprendizado de máquina com base em dados de texto. Este pacote permite que você construa uma matriz de termo de documento (dtm) ou matriz de coocorrência de termo (tcm) a partir de documentos. Dessa forma, você vetoriza o texto criando um mapa de palavras ou n-gramas para um espaço vetorial. Com base nisso, você pode ajustar um modelo a esse dtm ou tcm. Isso varia de modelagem de tópicos (LDA, LSA), incorporação de palavras (GloVe), colocações, pesquisas por similaridade e muito mais.

O pacote é inspirado em Gensim, uma biblioteca python para processamento de linguagem natural.

3. O Adaptador: Tidytext

install.packages("tidytext")
library(tidytext)

O Tidytext é um pacote essencial para manipulação e visualização de dados. Uma de suas vantagens é que funciona muito bem em conjunto com outras ferramentas organizadas em R, como dplyr ou tidyr. Na verdade, foi construído para esse fim. Reconhecer dados de limpeza sempre requer um grande esforço e que muitos desses métodos não são facilmente aplicáveis ao texto, Silge & Robinson (2016) desenvolveram o tidytext para tornar as tarefas de mineração de texto mais fáceis, mais eficazes e consistentes com ferramentas já amplamente utilizadas.

Como resultado, este pacote fornece comandos que permitem converter texto de e para formatos organizados. As possibilidades de análise e visualização são inúmeras: da análise de sentimento às estatísticas tf-idf, n-gramas ou modelagem de tópicos. O pacote se destaca principalmente pela visualização da saída.

4. O Stringr

install.packages("stringr")
library(stringr)

Como cientista de dados, você já trabalhou principalmente com strings. Elas desempenham um grande papel em muitas tarefas de limpeza e preparação de dados. Parte do tidyverse, um ecossistema de pacotes (que também inclui ggplot e dplyr), o pacote stringr fornece um conjunto coeso de funções que permitem que você trabalhe facilmente com strings.

Quando se trata de análise de texto, stringr é um pacote particularmente útil para trabalhar com expressões regulares, pois fornece algumas funções úteis de correspondência de padrões. Outras funções incluem a manipulação de caracteres (manipulação de caracteres individuais dentro das strings em vetores de caracteres) e ferramentas de espaço em branco (adicionar, remover, manipular espaços em branco).

5. O Show-Off: Spacyr

install.packages("spacyr")
library(spacyr)
spacy_install()
spacy_initialize()

A maioria de vocês deve conhecer o pacote spaCy em Python. Bem, spacyr fornece um invólucro conveniente desse pacote em R, tornando mais fácil acessar a poderosa funcionalidade de spaCy em um formato simples. Na verdade, é um pacote incrível se você pensar bem, permitindo que R aproveite o poder do Python. Para acessar essas funcionalidades do Python, spacyr abre uma conexão sendo inicializado dentro de sua sessão R.

Este pacote é essencial para modelos de processamento de linguagem natural mais avançados - por exemplo, preparação de texto para aprendizagem profunda - e outras funcionalidades úteis, como marcação de voz, tokenização, análise, etc. Além disso, também funciona bem em combinação com os pacotes quanteda e tidytext.