Aula de Exercícios Open Refine – parte 1

  1. Utilizaremos o seguinte arquivo de base;
  2. Crie um novo projeto no OpenRefine a partir desse arquivo;
  3. Quais licenças são usadas para artigos neste arquivo?
    1. Crie uma faceta para a coluna “Licença”
    2. Qual é a licença mais comum no arquivo?
    3. Quantos artigos no arquivo não possuem uma licença atribuída?
  4. Encontre todas as publicações sem um DOI
    1. Use a função ‘Faceta em branco’ para encontrar todas as publicações neste conjunto de dados sem um DOI
  5. Corrija os valores de idioma por meio de uma faceta
    1. Crie uma faceta de texto na coluna Language
    2. Observe que há tanto “EN” quanto “english”
    3. Coloque o mouse sobre o valor “english”
    4. Clique em “Editar” Digite ‘EN’ e clique em ‘Aplicar’
    5. Veja como a faceta Idioma atualiza
  6. Divida os nomes dos autores em células separadas
    1. Se você olhar para a coluna Autor, poderá ver que há vários nomes em cada célula separados pelo símbolo de pipe “|”.
    2. Para trabalhar efetivamente com os nomes dos autores, precisamos dividi-los em células separadas:
      1. Clique no menu suspenso na parte superior da coluna Autor
      2. Escolha ‘Editar células-> Dividir células com vários valores’
      3. No prompt, digite | clique em ‘OK’
      4. Observe que as linhas ainda são numeradas sequencialmente
      5. Clique na opção ‘Registros’ para mudar para o modo Registros
      6. Observe como a numeração foi alterada – indicando que várias linhas estão relacionadas ao mesmo registro
  7. Use o Cluster para limpar os dados do autor
    1. Escolha ‘Edit cells-> Cluster and edit’ na coluna de autor (que deve ser dividida em valores individuais do último exercício)
    2. O uso do método de ‘colisão de chave’ com a função de digitação ‘impressão digital’ funciona através dos clusters de valores, mesclando-os a um único valor, quando apropriado.
    3. Tente mudar o método de agrupamento em uso – quais funcionam bem?
  8. Corrigir dados do editor
    1. Criar uma faceta de texto na coluna “Publisher”
    2. Observe que nos valores há dois que parecem idênticos – por que esse valor aparece duas vezes?
    3. Na coluna do editor, use o menu suspenso para selecionar “Editar células-> transformações comuns-> limpar espaços em branco iniciais e finais”
    4. Olhe para a faceta editora agora – isso mudou? (se não mudou tente clicar na opção Atualizar para se certificar de que atualiza)