LOD2: recomendações de ferramentas livres para criar um fluxo de trabalho para dados semânticos

O LOD2 foi um projeto desenvolvido no âmbito da União Européia e que teve por objetivo investigar processos de trabalho para abertura de dados semânticos ligados tanto no âmbito de iniciativas governamentais quanto empresariais.

Os resultados do projeto foram publicados em um livro muito interessante que relata as diversas iniciativas, os objetivos alcançados, aplicações e, sobretudo, explica em maiores detalhes as etapas pensados no âmbito para trabalhar com dados semânticos e as ferramentas, com maior enfoque em software livre, recomendadas para cada etapa.

Torna-se, portanto, uma referência fundamental para a pesquisa que venho desenvolvendo no âmbito do projeto Tainacan e quero listar aqui as ferramentas que mais me chamaram atenção, dando os links e referências que auxiliem em construir uma base para recuperar mais facilmente os achados desse importante projeto. Abaixo apresento as 08 etapas apontadas pelo projeto como etapas necessárias para gerar dados de qualidade e que possam ser incorporados em aplicações de acesso ao usuário final baseada em dados semânticos.

Fluxo LOD2

Vale um olhar atento e uma pesquisa detalhada sobre o significado de cada etapa. Isso está relatado no livro que referencio acima e várias referencias podem ser facilmente encontradas no Google Acadêmico sobre o projeto. Não vou me deter nessas etapas nesse post, mas sim em algumas ferramentas que quero destacar.

Vamos a elas:

  1. Virtuoso Open Source: uma base de dados semântica e que trabalha com dados relacionais, além de outras ferramentas de análise e navegação nos dados, como uma visão facetada;
  2. OntoWiki: uma ferramenta wiki semântica e que também funciona como uma ferramenta de apoio a publicação de dados semânticos ligados. Vale bastante entender em maiores detalhes essa última funcionalidade e como isso poderia ser usado para publicar arquivos RDF, por exemplo;
  3. Any23: uma biblioteca, API e aplicação da Apache que facilita a extração de dados estruturados em formato RDF de uma grande variedade de documentos web. Recomendado para trabalhos de mineração de dados que queiram trabalhar com estruturas semânticas estruturadas. A conhecer melhor em pesquisas futuras;
  4. CommonCrawl: projeto fantástico que elaborou um crawler web e entrega os resultados para consumo por diversas iniciativas de forma aberta, evitando com que se tenha que construir um próprio crawler e ter o trabalho de rodar a extração de dados. Muito útil para projetos de big data experimentais na web com foco específico na análise de dados;
  5. WebData Commons: é base no projeto anterior e extrai dados da web de forma estruturada em RDF e outros formatos estruturados;
  6. ORE: uma ferramenta para consertar e enriquecer bases semânticos em OWL;
  7. Lista de várias ferramentas de extração de dados estruturados/conhecimento da web e outros tipos de documentos;
  8. SILK: uma das ferramentas que me pareceram mais promissoras e que pretendo testar logo mais. Tem por objetivo apoiar de forma semi-automática a ligação de diferentes bases de dados, gerando e sugerindo links possíveis entre elas, gerando o arquivo RDF e permitindo vários tipos de transformação entre os dados para facilitar sua ligação;
  9. LODRefine: uma versão do OpenRefine mais adaptada para gerar RDF dos dados tratados;
  10. CUBEViz: javascript para facilitar a visualização e análise de dados estatísticos estruturados;
  11. Facete: javascript para navegação facetada e em mapas de dados estruturados com informações Geo;
  12. GeoKnow: iniciativa que aplicou e personalizou o framework LOD para finalidades geo. Um bom caso de aplicação e que pode servir de exemplo de apropriação das etapas acima mencionadas;
  13. PoolParty: ferramenta de extração de conhecimento e gerenciamento de taxonomias, entre outros recursos relacionados a construção e gestão de ontologias. Parece que havia uma versão livre, mas não consegui encontrar;
  14. Dbpedia Spotlight: outra ferramenta incrível e que é uma prioridade de testes. Extrai e gera links de forma semi-automático de conceitos presentes em um documento para conceitos listados na DBpedia. Muito útil para enriquecer dados.

Deixe um comentário