Síntese do curso Visualizing Data with Python – IBM: DV0101EN

Dando seguimento na formação de Data Science da IBM na EDX, o próximo curso que resolvi seguir é focado em visualização de dados usando Python. Bastante complementar ao primeiro, já relatado aqui, o curso atual foca no uso da biblioteca Matplotlib, Seaborn e Folio. É dividido em módulos e vou seguir a mesma organização do post anterior para relatar a síntese dos aprendizados. A diferença é que esse curso permite o download dos vídeos para consulta posterior. Um recurso muito útil para produção de material didático.

  1. Módulo 01 – Introduction to Visualization Tools:
    1. Mostra os princípios da biblioteca Matplotlib, sua divisão em diferentes camadas, o que relatado em detalhados nesse capítulo de livro.
    2. Mostra a vantagem de se utilizar a função mágica do Jupyter notebook “%matplotlib notebook” para a criação de um objeto gráfico que pode ser alterado por comandos posteriores a sua criação, permitindo se mexer na imagem sem ter que renderizar tudo de novo. Uma dica boa para estudo;
    3. Logo, já mostra a conexão direta com Pandas e o quanto é fácil construir gráficos a partir de séries e dataframes. Isso é relatado em vários exemplos de uso da própria documentação do Pandas.
    4. Os dados utilizados para os exercícios do curso são fluxo de migração entre países, disponíveis pela ONU. A última versão identificada está aqui.
  2. Módulo 02 – Basic visualization tools
    1. Esse módulo vai trabalhar com gráficos de área, histogramas e gráficos de barra;
    2. O gráfico de área pode ser gerado por um método específico df.plot.area ou com o parâmetro kind=”area” no método df.plot. Um gráfico útil para comparar a série histórica de grandezas ao longo do tempo;
    3. O gráfico do tipo histograma pode ser criado pelo método df.hist ou da mesma forma pelo parâmetro kind=”hist” do método df.plot. É um gráfico que permite dividir um conjunto de dados em intervalos regulares e calcular a frequência de casos dentro de cada intervalo. Entenda mais sobre o histograma e como ele pode ser feito na Wikipedia. A discussão sobre o tamanho de intervalos e como tratar os dados é bem apresentada no verbete acima.
      1. uma forma de corrigir a distribuição de frequência para cada intervalo é utilizar a biblioteca numpy para calcular o tamanho dos intervalos e parametrizar o gráfico a partir dessa divisão:
  1. O gráfico de barra também possui seu próprio método, df. plot.bar. Também pode ser produzido com o parâmetro kind=”bar”, como alguns dos exemplos dos links acima já demonstram. Entenda mais sobre o gráfico de barra na Wikipedia. Apesar do verbete ser menor em relação ao anterior, explica o propósito do gráfico e os passos para sua construção;

Módulo 03 – Specialized Visualization Tools

  1. O módulo inicia trabalhando com gráficos pizza por meio do método df.plot.pie. Também pode ser produzido com o parâmetro kind=”pie”;
  2. Segue para o diagrama de caixa com df.boxplot;
  3. Segue para o gráfico de dispersão com df.plot.scatter;
  4. O módulo apresenta no laboratório o conceito de subplot para gerar vários gráficos em uma mesma figura. Veja abaixo:
  1. conclui o módulo falando do gráfico bolha como uma alternativa para o gráfico de dispersão.

Módulo 04 – Advanced Visualization Tools

  • O módulo foca em algumas visualizações mais avançadas, como o gráfico do tipo Wafle, Nuvem de Palavras e apresenta a Biblioteca de gráficos Seaborn, de uma maneira bem superficial e com foco apenas no gráfico de regressão;
  • Comentário: vale a pena o investimento em estudar a Seaborn para alguns tipos de gráficos.

Módulo 05 – Creating Maps and Visualizing Geospatial Data

  • Último módulo do curso, apresenta foco em mapas e dados geoespaciais.
  • Apresenta a biblioteca para geração de mapas Folium.
  • Termina apresentando o conceito de Mapa Coroplético e mostrando como desenvolver em Python usando a Folium. Na documentação da biblioteca, tem um ótimo tutorial que mostra várias aplicações e exemplos desse tipo.

O curso termina com esses 05 módulos. No geral, achei uma boa introdução. Senti falta de explorarem melhor as visualizações com a Seaborn e mostrar algo na direção de construção de painéis dinâmicos de dados. A parte de mapas é interessante e bastante simples de utilizar. Vale o curso.

Deixe um comentário