Os dados precisam estar em um formato utilizável para conduzirem uma análise. Frequentemente é necessária alguma preparação e “limpeza” dos dados. Limpar significa remover ou modificar dados incorretos, incompletos ou irrelevantes. Mesmo conjuntos de dados abertos podem precisar de alguma limpeza.
Estruturados ou desestruturados
Dados estruturados são dados que estão bem-organizados. Eles seguem uma ordem específica, em um formato específico. Os dados são categorizados por diferentes características. Já dados desestruturados possuem uma série de informações que não estão organizadas em categorias separadas. Eles precisam ser estruturados em um formato legível por máquinas para que o computador possa “ler” os dados.
Preparando dados
Você pode ter necessidade de ordenar ou padronizar dados. Datas, nomes e endereços são dados em que é comum a necessidade de preparação. Os respondentes da pesquisa podem ter fornecido várias respostas para uma questão
Ex: “onde você mora?”
- Tupaciguara, MG, Brasil
- Rio Grande, RS
- Catalão, Br
Você precisaria organizar essas respostas em campos separados e em formatos padrões. Por exemplo:
Formato dos dados
Os dados que você analisa pelo computador precisam estar em um formato que softwares possam abrir e ler. O formato delimitado é o no qual cada variável é separada por uma vírgula, aba ou espaço, podem ser importados a um software para análise.
A extensão *.csv (valor separado por vírgula) é útil porque mantêm separações por campos pelo software. Se você tiver criado uma tabela no Microsoft Excel e quiser exportá-la para outro tipo de software, é melhor salvar o arquivo como csv.
Salve um arquivo Excel como csv:
- Clique em Arquivo;
- Selecione Salvar Como;
- Selecione a opção CSV (delimitado por vírgula) *.csv da lista;
- Escolha o local para salvar o arquivo;
- Clique em Salvar.
Um arquivo csv pode não importar corretamente para outro software caso tiver:
- Linhas em branco;
- Caracteres especiais (não-padrões), ex: # & @;
- Faltando vírgulas entre os campos.
Um arquivo de dados pode precisar de um software estatístico especial para abri-lo. Veja o módulo Trabalhando com arquivos para mais informações sobre outras extensões de arquivos e quais os softwares necessários para abri-los.
Ferramentas para limpar dados
Você pode organizar manualmente os dados nos campos corretos, mas caso você tenha uma enorme quantidade de dados, isso pode consumir muito tempo. Você pode usar fórmulas e funções do software para realizar a tarefa com muito mais rapidez.
Ferramenta | Disponível gratuitamente | Versão licenciada disponível na USP | Nos computadores das Bibliotecas | Tutoriais | Treinamento nas bibliotecas da USP |
OpenRefine | Sim | Código aberto | Não | Introdução ao Google Refine (YouTube, 6m47s) | Não |
R | Sim | Código aberto | Não |
Recursos usados em nossos diferentes cursos de R |
O IME oferece cursos de cultura e extensão todos os anos. Verifique a agenda no site. |
Microsoft Excel | Não | Cadastre-se com o e-mail usp para acessar o Office 365 online | Sim | Treinamento de Excel para Windows | Não |