Início da Disciplina de Data Science & Business Intelligence: Primeiros Passos para Entender o Universo dos Dados
A primeira aula da disciplina de Data Science & Business Intelligence proporcionou uma introdução fundamental a conceitos chave que são a espinha dorsal dessa área tão dinâmica e relevante no mundo dos negócios e tecnologia. O conteúdo abordado foi essencial para formar uma base sólida para os próximos módulos do curso.
Figura 1 - Dados e Big Data''
Conceitos Fundamentais:
-
Big Data, Data Warehouse e Data LakeIniciamos a aula com um panorama de três conceitos essenciais que formam o alicerce da análise de grandes volumes de dados:
- Big Data: Refere-se a dados que são tão grandes, complexos e dinâmicos que os métodos tradicionais de armazenamento e análise não conseguem lidar com eles de forma eficiente.
- Data Warehouse: Estruturas organizadas de dados otimizadas para consulta e análise, geralmente utilizadas em processos de Business Intelligence (BI).
- Data Lake: Diferente de um Data Warehouse, o Data Lake armazena dados em seu formato bruto, o que permite uma maior flexibilidade na análise de diferentes fontes de dados.
-
Knowledge Discovery in Databases (KDD)KDD é o processo de descobrir conhecimento a partir de grandes volumes de dados. Ele envolve várias etapas, desde a limpeza dos dados até a aplicação de técnicas de aprendizado de máquina para identificar padrões e insights valiosos.
-
Modelagem e Qualidade de DadosA modelagem de dados visa representar de forma estruturada as informações para facilitar a análise. Já a qualidade dos dados é um aspecto crucial, pois dados imprecisos ou mal organizados podem comprometer os resultados da análise.
-
Gerenciamento de Banco de DadosDiscutimos a importância do gerenciamento eficaz de bancos de dados, que envolve desde o design e estruturação até a implementação de sistemas para garantir a integridade, segurança e desempenho no processamento de dados.
Mídias de Armazenamento e sua Evolução
A história das mídias de armazenamento foi outro ponto explorado. Começamos com o exemplo de discos rígidos antigos, que eram enormes e tinham capacidade de apenas 5 MB, mas com preços altíssimos, como $2.500 por mês de aluguel. Isso ilustra como a tecnologia de armazenamento evoluiu drasticamente ao longo dos anos, acompanhando a crescente demanda por mais capacidade e eficiência.
- Armazenamento em DNA: Uma tecnologia emergente que permite armazenar 455 exabytes de dados por grama de DNA.
- Armazenamento em 5 dimensões: Uma tecnologia de ponta que promete revolucionar a capacidade de armazenamento, com discos capazes de suportar até 360 TB de dados, além de serem extremamente duráveis.
O Impacto dos Dados e Big Data nos Negócios
Exploramos as vantagens de ser orientado por dados, destacando que empresas que utilizam Big Data são, em média, 5% mais produtivas e 6% mais lucrativas que aquelas que adotam métodos tradicionais de gestão. Isso reforça a ideia de que o uso eficiente de dados não é apenas uma tendência, mas uma necessidade estratégica no mercado atual.
Cloud Computing: A Revolução no Armazenamento e Processamento de Dados
A computação em nuvem (Cloud Computing) foi outro tema fundamental abordado. A nuvem possibilita uma gestão mais flexível e escalável de dados, permitindo às empresas evitar altos custos de infraestrutura física e reduzir a complexidade dos processos de manutenção de servidores.
Além disso, discutimos os benefícios de adotar soluções baseadas em nuvem, como:
- Menores custos com armazenamento de dados.
- Maior facilidade de acesso e processamento de grandes volumes de dados.
- A flexibilidade de escalar recursos conforme a necessidade.
Configuração do Ambiente e Primeiros Passos Práticos
A aula não se limitou à teoria. Começamos a configuração do ambiente de trabalho para as práticas de Data Science:
- Ambiente virtual no Anaconda: Configuramos o Anaconda para facilitar o trabalho com bibliotecas de Python, essenciais para a análise de dados.
- Instalação de pacotes básicos: Introduzimos os principais pacotes utilizados em Data Science, como o NumPy e Pandas, que serão essenciais para manipulação e análise de dados.
- Práticas com Jupyter Notebook: A utilização do Jupyter foi uma das primeiras práticas realizadas, preparando os alunos para trabalhar com código de forma interativa.
Próximos Passos para a Pesquisa e Apresentação de Grupo
Como parte das atividades iniciais, os alunos foram desafiados a pesquisar artigos atuais sobre Big Data, explorar as novas tecnologias associadas a essa área e apresentar suas descobertas. A proposta de resumo de artigos e apresentação de grupo fomentará a colaboração e o aprofundamento no estudo dos temas discutidos na aula.

Comentários
Postar um comentário