Motivações para a análise de dados1:

  1. compreender o que ocorreu ou está ocorrendo;
  2. prever o que pode ocorrer no futuro ou em condições ainda não observadas;
  3. guiar tomadas de decisões.

Dos três itens listados acima, os dois últimos são algumas das aplicações da chamada modelagem estatística. Por sua vez, é imprescindível à modelagem que as amostras utilizadas sejam confiáveis e representativas da população em análise. Averiguar a qualidade dos dados é um dos objetivos da Análise Exploratória de Dados.

Segundo Pearson1:

Roughly speaking, exploratory data analysis (EDA) may be defined as the art of looking at one or more datasets in an effort to understand the underlying structure of the data contained there.

Sendo assim, podemos dizer que os objetivos da análise exploratória são de preparação e obtenção de informações dos dados que serão posteriormente modelados e utilizados na inferência estatística.

Estratégia geral1:

  1. Determinar as características gerais do dataset, e.g.:
    1. Números de instâncias e de variáveis;
    2. Nomes das variáveis (eles fazem sentido?);
    3. Tipos de variáveis (nominais, contínuas etc.);
    4. Realizações possíveis de cada variável;
    5. Realizações mais frequentes e as suas respectivas frequências;
    6. Número de observações faltantes.
  2. Estatística descritiva para cada variável (medidas de centralidade, dispersão etc.);
  3. Realizar visualiações exploratórias (gráficos de barra, histogramas etc.);
  4. Analisar e tratar possíveis anomalias: outliers, inliers, dados faltantes, inconsistências etc.;
  5. Analisar relações entre as variáveis (análise bivariada, multivariada etc.);
  6. Resumir os resultados em um data dictionary que servirá para análises futuras e explicação dos resultados.

Além disso, a formulação de perguntas e a busca pelas suas respostas, embasadas nos dados em análise, constituem um bom guia para a obtenção de informações relevantes.

Referências


1 R.K. Pearson, Exploratory Data Analysis Using R (CRC, 2018).

2 P.A. Morettin and W. de O. Bussab, Estatística Básica, 9th ed. (Saraiva, 2017).