Dados limpos

Os dados precisam estar em um formato utilizável para conduzirem uma análise. Frequentemente é necessária alguma preparação e “limpeza” dos dados. Limpar significa remover ou modificar dados incorretos, incompletos ou irrelevantes. Mesmo conjuntos de dados abertos podem precisar de alguma limpeza.

Estruturados ou desestruturados

Dados estruturados são dados que estão bem-organizados. Eles seguem uma ordem específica, em um formato específico. Os dados são categorizados por diferentes características. Já dados desestruturados possuem uma série de informações que não estão organizadas em categorias separadas. Eles precisam ser estruturados em um formato legível por máquinas para que o computador possa “ler” os dados.

Preparando dados

Você pode ter necessidade de ordenar ou padronizar dados. Datas, nomes e endereços são dados em que é comum a necessidade de preparação. Os respondentes da pesquisa podem ter fornecido várias respostas para uma questão

Ex: “onde você mora?”

  • Tupaciguara, MG, Brasil
  • Rio Grande, RS
  • Catalão, Br

Você precisaria organizar essas respostas em campos separados e em formatos padrões. Por exemplo:

Fonte: screenshot do Excel.

 

Formato dos dados

Os dados que você analisa pelo computador precisam estar em um formato que softwares possam abrir e ler. O formato delimitado é o no qual cada variável é separada por uma vírgula, aba ou espaço, podem ser importados a um software para análise.

A extensão *.csv (valor separado por vírgula) é útil porque mantêm separações por campos pelo software. Se você tiver criado uma tabela no Microsoft Excel e quiser exportá-la para outro tipo de software, é melhor salvar o arquivo como csv.

Salve um arquivo Excel como csv:

  1. Clique em Arquivo;
  2. Selecione Salvar Como;
  3. Selecione a opção CSV (delimitado por vírgula) *.csv da lista;
  4. Escolha o local para salvar o arquivo;
  5. Clique em Salvar.

Um arquivo csv pode não importar corretamente para outro software caso tiver:

  • Linhas em branco;
  • Caracteres especiais (não-padrões), ex: # & @;
  • Faltando vírgulas entre os campos.

Um arquivo de dados pode precisar de um software estatístico especial para abri-lo. Veja o módulo Trabalhando com arquivos para mais informações sobre outras extensões de arquivos e quais os softwares necessários para abri-los.

Ferramentas para limpar dados

Você pode organizar manualmente os dados nos campos corretos, mas caso você tenha uma enorme quantidade de dados, isso pode consumir muito tempo. Você pode usar fórmulas e funções do software para realizar a tarefa com muito mais rapidez.

Ferramenta Disponível gratuitamente Versão licenciada disponível na USP Nos computadores das Bibliotecas Tutoriais Treinamento nas bibliotecas da USP
OpenRefine Sim  Código aberto Não  Introdução ao Google Refine (YouTube, 6m47s)  Não
R Sim Código aberto Não

Recursos usados em nossos diferentes cursos de R


Curso de R para iniciantes (YouTube, 17 vídeos) 

O IME oferece cursos de cultura e extensão todos os anos. Verifique a agenda no site.
Microsoft Excel Não Cadastre-se com o e-mail usp para acessar o Office 365 online Sim Treinamento de Excel para Windows  Não

 

Literacias Digitais

LAE (DTI - FEA - USP)