Explorando GraphDB e OpenRefine para transformar dados tabulares em dados ligados em RDF

O GraphDB é um banco de dados semântico (muitas vezes, chamados de bancos de dados do tipo NOSQL) que possui uma versão gratuita e uma boa documentação para que se possa começar a experimentar formas de tratamento e análise de dados, sobretudo aplicando a linguagem SPARQL.

O GraphDB possui algumas características muito interessantes, que pretendo ir destacando em várias postagens por aqui. Mas, uma delas que vale a pena olhar atentamente desde os primeiros passos, é que ele possui um módulo chamado OntoRefine, que é praticamente a incorporação do software livre OpenRefine dentro do GraphDB. Isso torna a ferramenta um potente analisador de dados e, sobretudo, fornece funcionalidades fundamentais para transformação de dados relacionais em dados semânticos.

Este tutorial explora um pouco como fazer isso, demonstrando como podemos fazer o upload de dados a partir de um formato planilha, tratar os dados, limpar, reduzir redundâncias e transformar e enriquecer os dados de forma semântica.

Uma das vantagens de se usar o GraphDB é a facilidade que ele apresenta para converter dados tabulares em no formato triplas RDF. Usando o OpenRefine junto com GraphDB, podemos fazer um processo rico de experimentar como enriquecer os dados a partir do mapeamento de conceitos para reconciliação automática com entidades da Wikidata.

Vejamos quais os passos para isso:

  1. Escolher uma base de dados e fazer o upload dos dados no OpenRefine;
  2. Escolher as colunas que queremos representar semanticamente a partir de entidades da Wikidata. Este tutorial mostra de forma interessante como fazer isso, esse outro aqui também, evidenciando melhor como extrair apenas os IDs Wikidata para gerar novas colunas de dados.
  3. Uma vez as entidades mapeadas, teremos uma nova coluna de dados que representará as URIs dos conceitos identificados. Isso, por si só, já agrega um valor importante nos dados, facilitando com que os mesmos seja semanticamente reconhecíveis. Podemos agora exportar os dados do OpenRefine num formato planilha ou CSV;
  4. Agora passaremos ao GraphDB para transformar os dados em dados ligados no formato RDF. Este tutorial aqui explica melhor como fazer isso.

Utilizando esses recursos, consegue-se com certa facilidade partir de dados tabulares (uma planilha de cálculo, dados em formato CSV ou mesmo tabelas de dados de uma base de dados SQL) para dados ligados no formato RDF. Para trabalhar com conjuntos de dados legados, essa é uma forma semiautomática de empoderar os processos de abertura de dados ligados.

Deixe um comentário