Pular para o conteúdo
- Utilizaremos o seguinte arquivo de base;
- Crie um novo projeto no OpenRefine a partir desse arquivo;
- Quais licenças são usadas para artigos neste arquivo?
- Crie uma faceta para a coluna “Licença”
- Qual é a licença mais comum no arquivo?
- Quantos artigos no arquivo não possuem uma licença atribuída?
- Encontre todas as publicações sem um DOI
- Use a função ‘Faceta em branco’ para encontrar todas as publicações neste conjunto de dados sem um DOI
- Corrija os valores de idioma por meio de uma faceta
- Crie uma faceta de texto na coluna Language
- Observe que há tanto “EN” quanto “english”
- Coloque o mouse sobre o valor “english”
- Clique em “Editar” Digite ‘EN’ e clique em ‘Aplicar’
- Veja como a faceta Idioma atualiza
- Divida os nomes dos autores em células separadas
- Se você olhar para a coluna Autor, poderá ver que há vários nomes em cada célula separados pelo símbolo de pipe “|”.
- Para trabalhar efetivamente com os nomes dos autores, precisamos dividi-los em células separadas:
- Clique no menu suspenso na parte superior da coluna Autor
- Escolha ‘Editar células-> Dividir células com vários valores’
- No prompt, digite | clique em ‘OK’
- Observe que as linhas ainda são numeradas sequencialmente
- Clique na opção ‘Registros’ para mudar para o modo Registros
- Observe como a numeração foi alterada – indicando que várias linhas estão relacionadas ao mesmo registro
- Use o Cluster para limpar os dados do autor
- Escolha ‘Edit cells-> Cluster and edit’ na coluna de autor (que deve ser dividida em valores individuais do último exercício)
- O uso do método de ‘colisão de chave’ com a função de digitação ‘impressão digital’ funciona através dos clusters de valores, mesclando-os a um único valor, quando apropriado.
- Tente mudar o método de agrupamento em uso – quais funcionam bem?
- Corrigir dados do editor
- Criar uma faceta de texto na coluna “Publisher”
- Observe que nos valores há dois que parecem idênticos – por que esse valor aparece duas vezes?
- Na coluna do editor, use o menu suspenso para selecionar “Editar células-> transformações comuns-> limpar espaços em branco iniciais e finais”
- Olhe para a faceta editora agora – isso mudou? (se não mudou tente clicar na opção Atualizar para se certificar de que atualiza)