Atividade sobre Datasets e Gráficos - equipe Turing

 Como continuação das aulas de instrução, foi repassado para a turma uma atividade para colocarmos uma prática a mais os conceitos de dataset e gráficos no Python.

Foi repassado um link a qual faríamos uma busca por uma base de dados a ser utilizada, base de dados reais, a regra geral seria um dataset com pelo menos 6 colunas e 1000 mil linhas no mínimo, assim seria feito uma análise exploratória com o dataset definido.

Cada dupla ou trio seria responsável por definir qual dataset a ser trabalhado, e individualmente criaria cinco gráficos para posteriormente apresentá-lo a turma. Definidos os grupos/trio, a equipe Turing teve que se dividir e as divisões ficaram assim.

Alessandro (dataset: producao-terra-3-trim)

Luciana (dataset: 202301 - 202312)

Alexsaner e Ana (dataset: )

As apresentações se deram no início da aula de instrução e conforme detalhes a seguir, são mostrados o que se trata cada um destes, as características e principalmente os gráficos que foram gerados:

Alessandro

Foi escolhido um dataset correspondente a produção de terra dos seguintes minerais, água, gás natural e óleo em um período de 3 meses específicos (julho, agosto e setembro).

Inicialmente foi realizado uma preparação do ambiente jupyter notbook, feito as devidas importações, além de todo um preparo para filtragem dos dados, eliminando registros nulos e ajustes no campo de data.

Apresentação


Foram criados cinco gráficos que correspondem a informações detalhadas do que foi produzido por estado ao mês, maior produção de óleo, comparação entre produção de óleo e água, produção por bacia, por fim produção de gás não associado x injeção de gás.

 

Gráfico de produção de óleo por estado


Luciana

O dataset escolhido foi "Voos e operações aéreas - Tarifas Aéreas Domésticas", que trata de registros de viagens realizadas durante os meses desde o ano de 2002 até o momento. O dataset possui dados referente ao ano que que aquele dado foi coletado, o mês, sigla da empresa aérea, sigla da origem e destino de viagem realizado, valor da tarifa e o número de assentos.

Para a realização da atividade foi coletado os dados referente ao ano de 2023, no qual foi preciso realizar alguns tratamentos para o desenvolvimento de alguns gráficos e criar os dataframes de acordo com as ações desejadas, simulando assim alguns cenários para geração de 5 gráficos, sendo eles: 

  1. As 10 primeiras rotas com suas receitas em porcentagem;
  2. Quantidade de voos por companhia aérea;
  3. Os 10 primeiros assentos mais vendidos;
  4. 20 tarifas médias por rota;
  5. As 10 rotas mais frequentes.



Alexsander e Ana




Foi escolhido o dataset "Arrecadação por Estado", que contém dados de arrecadação mensal por Unidade da Federação, detalhando receitas administradas e não administradas pela Receita Federal do Brasil (RFB). Este dataset atende ao requisito de conter pelo menos seis colunas e mais de 1000 linhas, sendo uma base robusta para análise exploratória.

Etapas de preparação
Inicialmente, configuramos o ambiente no Jupyter Notebook, realizando as importações das bibliotecas necessárias, como pandas, matplotlib e seaborn. Na sequência, foi feita a limpeza e preparação dos dados, que incluiu:

  • Tratamento de valores ausentes.
  • Conversão de tipos de dados, especialmente datas e valores numéricos.
  • Criação de colunas auxiliares para facilitar análises, como proporções de arrecadação e receitas médias.

Gráficos apresentados

  1. Arrecadação total por estado: Gráfico de barras ordenado, destacando quais estados contribuíram mais e menos para a arrecadação total.
  2. Receitas administradas vs. não administradas: Gráfico de pizza comparando as proporções das duas categorias de arrecadação.
  3. Tendência de arrecadação mensal: Gráfico de linhas mostrando como a arrecadação evoluiu ao longo do tempo por estado.
  4. Distribuição das arrecadações: Gráfico de boxplot para analisar variações de arrecadação entre os estados, identificando outliers e discrepâncias.
  5. Ranking de arrecadação média por região: Gráfico de barras agrupado por regiões brasileiras, destacando o desempenho médio de arrecadação.

Resultados e insights
Durante a análise, observamos padrões relevantes, como a concentração de arrecadação nos estados do Sudeste e uma menor participação de estados do Norte e Nordeste. Além disso, foi identificado um crescimento constante nas receitas administradas ao longo do tempo, enquanto as não administradas apresentaram maior volatilidade.

Os gráficos criados destacaram as diferenças significativas na arrecadação entre estados e regiões, bem como o comportamento distinto das categorias de receitas. Essas visualizações podem ser utilizadas para identificar possíveis melhorias na administração tributária e regional.


Comentários