arrow_back

Métodos de transformação na prática

Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Métodos de transformação na prática

Lab 1 hora 30 minutos universal_currency_alt 2 créditos show_chart Introdutório
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses
ícone de "importante" IMPORTANTE:

ícone de notebook/computador Conclua este laboratório prático usando um computador ou notebook.

ícone de verificação Só 5 tentativas são permitidas por laboratório.

ícone de alvo do teste É comum não acertar todas as questões na primeira tentativa e precisar refazer uma tarefa. Isso faz parte do processo de aprendizado.

ícone de cronômetro Depois que o laboratório é iniciado, não é possível pausar o tempo. Depois de 1h30, o laboratório será finalizado, e você vai precisar recomeçar.

ícone de dica Para saber mais, confira as Dicas técnicas do laboratório.

Informações gerais da atividade

Como analista de dados em nuvem, você vai usar as transformações de dados para alterar o formato, a estrutura ou o conteúdo dos dados e, assim, prepará-los para o armazenamento e a análise.

Em geral, as técnicas de transformação de dados ajudam os profissionais de dados a entender melhor a distribuição, as características principais e a qualidade geral dos dados. Por isso, essas técnicas muitas vezes são a primeira etapa que os analistas seguem durante a análise detalhada dos dados.

Algumas técnicas de transformação comuns usadas para a análise detalhada de dados são limitação, amostragem e agregação.

A limitação de dados é uma técnica que restringe o número de linhas retornadas em uma consulta, sendo indicada quando o objetivo é limitar a quantidade de dados exibida; em alguns casos, pode melhorar a velocidade e o desempenho da consulta.

A amostragem de dados é uma técnica que seleciona um segmento de um conjunto de dados que seja representativo do conjunto de dados completo para melhor entender suas características

Já a agregação de dados é uma técnica usada para resumir os dados em um formato mais fácil de gerenciar.

Nesta atividade do laboratório, você vai conhecer diferentes maneiras de usar essas técnicas com SQL no BigQuery para analisar os dados e identificar possíveis problemas de qualidade nos dados.

Cenário

Como analista de dados na nuvem da TheLook eCommerce, você recebeu um convite para colaborar com uma equipe multidisciplinar que inclui especialistas em merchandising, logística e marketing. Essa equipe tem a tarefa de encontrar maneiras de melhorar o tempo de entrega e aumentar a satisfação dos clientes em toda a linha de produtos da TheLook eCommerce.

Você preparou um relatório que analisa o número de devoluções para a equipe, mas Meredith, a líder da área de produtos, disse que o número de produtos devolvidos pode estar incorreto.

Para descobrir o problemas, você recebeu a tarefa de analisar o conjunto de dados thelook_ecommerce, que inclui várias tabelas relacionadas a informações de produtos, pedidos e itens de cada pedido. Seu trabalho é identificar possíveis problemas, como dados duplicados, que podem afetar os resultados que a Meredith observou. Para isso, você vai usar SQL para limitar, fazer a amostragem e agregar os dados.

Para esta tarefa, primeiro você vai acessar a tabela de produtos. Depois, você vai recuperar o número total de linhas e o número de produtos com nomes diferentes Em terceiro lugar, você vai determinar o número de itens por categoria. Depois, você vai filtrar os dados para remover as categorias com um número pequeno de itens. Quinto, você vai fazer a amostragem da tabela de produtos. Por fim, você vai analisar os dados contidos na tabela order_items.

Configuração

Antes de clicar em "Começar o laboratório"

Leia as instruções a seguir. Os laboratórios são cronometrados e não podem ser pausados. O timer é iniciado quando você clica em Começar o laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.

Neste laboratório prático, você pode fazer as atividades por conta própria em um ambiente cloud de verdade, não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.

Confira os requisitos para concluir o laboratório:

  • Acesso a um navegador de Internet padrão (recomendamos o Chrome).
Observação: para executar este laboratório, use o modo de navegação anônima ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e a conta de estudante, o que poderia causar cobranças extras na sua conta pessoal.
  • Tempo para concluir o laboratório---não se esqueça: depois de começar, não será possível pausar o laboratório.
Observação: não use seu projeto ou conta do Google Cloud neste laboratório para evitar cobranças extras na sua conta.

Como iniciar seu laboratório e fazer login no console do Google Cloud

  1. Clique no botão Começar o laboratório. No painel Detalhes do laboratório à esquerda, você verá o seguinte:

    • Tempo restante
    • O botão Abrir console do Google Cloud
    • As credenciais temporárias que você vai usar neste laboratório
    • Outras informações, se forem necessárias
    Observação: se for preciso pagar pelo laboratório, um pop-up vai aparecer para você escolher a forma de pagamento.
  2. Se você estiver usando o navegador Chrome, clique em Abrir console do Google Cloud (ou clique com o botão direito do mouse e selecione Abrir link em uma janela anônima). A página de login será aberta em uma nova guia do navegador.

    Dica: é possível organizar as guias em janelas separadas, lado a lado, para alternar facilmente entre elas.

    Observação: se a caixa de diálogo Escolha uma conta aparecer, clique em Usar outra conta.
  3. Se necessário, copie o Nome de usuário do Google Cloud abaixo e cole na caixa de diálogo de login. Clique em Próximo.

{{{user_0.username | "Nome de usuário do Google Cloud"}}}

Você também encontra o Nome de usuário do Google Cloud no painel Detalhes do laboratório.

  1. Copie a Senha do Google Cloud abaixo e cole na caixa de diálogo seguinte. Clique em Próximo.
{{{user_0.password | "Senha do Google Cloud"}}}

Você também encontra a Senha do Google Cloud no painel Detalhes do laboratório.

Importante: você precisa usar as credenciais fornecidas no laboratório, e não as da sua conta do Google Cloud. Observação: usar sua própria conta do Google Cloud neste laboratório pode gerar cobranças extras.
  1. Nas próximas páginas:
    • Aceite os Termos e Condições
    • Não adicione opções de recuperação nem autenticação de dois fatores nesta conta temporária
    • Não se inscreva em testes gratuitos

Depois de alguns instantes, o console será aberto nesta guia.

Observação: para acessar a lista dos produtos e serviços do Google Cloud, clique no Menu de navegação no canto superior esquerdo. Menu do console do Google Cloud com o ícone do menu de navegação em destaque

Tarefa 1: analisar os dados em uma tabela usando a limitação de dados

Nesta tarefa, você vai analisar os dados de uma tabela usando a limitação de dados.

  1. No console do Google Cloud, no Menu de navegação (Menu de navegação), selecione BigQuery.
Observação: a caixa de mensagem Olá! Este é o BigQuery no console do Cloud pode aparecer, com links para o guia de início rápido e as notas da versão das atualizações da interface. Clique em Concluído para continuar.

Serão exibidos o Menu de navegação, o painel Explorer e o Editor de consultas.

  1. Expanda a lista de conjuntos de dados clicando na seta ao lado do ID do projeto.
  2. Role a página até o conjunto de dados thelook_ecommerce
  3. e expanda ele. As tabelas desse conjunto de dados são exibidas.
  4. Selecione a tabela products. O esquema da tabela é exibido e você pode conferir as informações e o esquema da tabela.

Agora, analise os dados executando uma consulta que retorna 10 linhas da tabela de produtos, o que pode ajudar você a gerar alguns insights sobre o conteúdo dessa tabela.

Observação: para inspecionar rapidamente o conteúdo de uma tabela do BigQuery sem executar uma consulta, você também pode usar a guia "Visualização" que mostra as primeiras mil linhas de uma tabela.
  1. No Editor de consultas, clique no ícone Escrever nova consulta (+). A guia Sem título é aberta.
  2. Copie e cole o seguinte comando na guia Sem título:
SELECT * FROM `thelook_ecommerce.products` LIMIT 10;

Essa consulta limita os resultados para as primeiras 10 linhas da tabela de produtos no conjunto de dados thelook_ecommerce.

  1. Clique em Executar.
Observação: sempre que você executa uma nova consulta no Editor de consultas, é possível substituir a consulta antiga copiando e colando a nova consulta sobre a anterior na mesma guia Sem título, ou então clicar no ícone Escrever nova consulta (+) para abrir uma nova guia Sem título e executar a consulta.

O BigQuery também oferece um recurso para escolher uma consulta entre várias opções no painel do Editor de consultas, o que ajuda quando se tem várias consultas em uma única guia do editor.

Clique em Verificar meu progresso para confirmar que concluiu a tarefa corretamente.

Analisar os dados em uma tabela usando a limitação de dados

Tarefa 2: identificar linhas duplicadas usando COUNT(DISTINCT name)

Nesta tarefa, você vai determinar o número total de linhas e o número de produtos com nomes diferentes na tabela products.

  1. Crie uma nova consulta e cole o seguinte no Editor de consultas:
SELECT COUNT(*) AS NumberOfRows, COUNT(DISTINCT name) AS NumberofProducts FROM `thelook_ecommerce.products`;

Essa consulta retorna o número total de entradas na tabela de produtos e o número de produtos únicos.

  1. Clique em Executar.

No BigQuery, a função SQL de agregação COUNT(DISTINCT name) é usada para calcular o número de valores únicos na coluna de nomes de um conjunto de dados, retornando o número de valores diferentes(únicos) nessa coluna.

Isso pode ajudar a identificar produtos duplicados na tabela. Identificar e corrigir dados duplicados é uma etapa importante na análise de dados, porque dados duplicados podem levar a resultados distorcidos e erros durante a análise.

Clique em Verificar meu progresso para confirmar que concluiu a tarefa corretamente.

Identificar colunas duplicadas usando COUNT(DISTINCT name)

Tarefa 3: usar GROUP BY para identificar o número de itens na categoria

Nesta tarefa, você vai determinar o número de itens por categoria na tabela de produtos agregando o número de produtos por categoria com a palavra-chave SQL GROUP BY.

  1. Crie uma nova consulta e cole o seguinte no Editor de consultas:
SELECT category, COUNT(*) AS itemCount FROM `thelook_ecommerce.products` GROUP BY category;

Essa consulta agrupa os produtos na tabela de produtos por categoria e conta o número de produtos em cada categoria.

  1. Clique em Executar.

  1. Crie uma nova consulta e cole o seguinte no Editor de consultas:
SELECT segment, COUNT(*) AS itemCount FROM `thelook_ecommerce.products` GROUP BY segment;

Execute essa consulta novamente para identificar a que segmento cada item foi atribuído. Observe que category foi substituído por segment nas cláusulas SELECT e GROUP BY.

  1. Clique em Executar.

Clique em Verificar meu progresso para confirmar que concluiu a tarefa corretamente.

Usar GROUP BY para identificar o número de itens na categoria

Tarefa 4: filtrar os dados usando GROUP BY e HAVING

Nesta tarefa, você vai filtrar os dados para remover as categorias com um número pequeno de itens antes de fazer a amostragem do conjunto de dados usando as palavras-chave SQL GROUP BY e HAVING.

  1. Crie uma nova consulta e cole o seguinte no Editor de consultas:
SELECT category, COUNT(*) AS itemCount FROM `thelook_ecommerce.products` GROUP BY category HAVING itemCount > 1000;

Essa consulta retorna as categorias com um grande número de itens. Atualmente, o limite está definido como 1000, então apenas categorias com mais de mil itens serão retornadas. Você pode ajustar esse limite para mais ou para menos para gerar os resultados necessários.

  1. Clique em Executar.

Clique em Verificar meu progresso para confirmar que concluiu a tarefa corretamente.

Filtrar os dados usando GROUP BY e HAVING

Tarefa 5: fazer a amostragem de uma tabela do BigQuery usando TABLESAMPLE

Nesta tarefa, você vai usar a amostragem de dados para recuperar um subconjunto aleatório de linhas da tabela products.

A amostragem é indicada para diversos objetivos, como explorar os dados, testar consultas ou receber um panorama geral rápido de um conjunto de dados grande.

Ela retorna uma seleção aleatória de linhas evitando os custos associados com a verificação e o processamento de uma tabela inteira, isso porque a amostragem só lê um subconjunto dos dados, o que pode reduzir, e muito, o tempo e os recursos necessários para executar a consulta.

Ao contrário da cláusula LIMIT que você usou em uma tarefa anterior, TABLESAMPLE retorna um subconjunto aleatório de dados de uma tabela, ou seja, os resultados de uma consulta TABLESAMPLE podem variar a cada execução.

O BigQuery não armazena em cache os resultados de consultas que incluem uma cláusula TABLESAMPLE, isso porque os resultados de uma consulta de amostragem são sempre aleatórios, então armazená-los em cache não ajudaria em nada.

  1. Crie uma nova consulta e cole o seguinte no Editor de consultas:
SELECT * FROM `thelook_ecommerce.products` TABLESAMPLE SYSTEM (10 PERCENT);
  1. Clique em Executar.

Clique em Verificar meu progresso para confirmar que concluiu a tarefa corretamente.

Fazer a amostragem de uma tabela do BigQuery usando TABLESAMPLE

Tarefa 6: analisar a tabela order_items

Nesta tarefa, você vai analisar os dados na tabela order_items.

  1. Crie uma nova consulta e cole o seguinte no Editor de consultas:
SELECT * FROM `thelook_ecommerce.order_items` LIMIT 10;

Essa consulta retorna as primeiras 10 linhas da tabela order_items.

  1. Clique em Executar.

  2. Crie uma nova consulta e cole o seguinte no Editor de consultas:

SELECT status, COUNT(*) AS total_orders FROM `thelook_ecommerce.order_items` GROUP BY status;

Essa consulta retorna a contagem agregada dos pedidos em vários status.

  1. Clique em Executar.

  2. Crie uma nova consulta e cole o seguinte no Editor de consultas:

SELECT user_id, SUM(sale_price) AS total_amount FROM `thelook_ecommerce.order_items` GROUP BY user_id ORDER BY total_amount DESC LIMIT 1;

Essa consulta retorna o ID do usuário associado ao maior valor total de pedidos.

  1. Clique em Executar.

Clique em Verificar meu progresso para confirmar que concluiu a tarefa corretamente.

Analisar a tabela order_items

Conclusão

Bom trabalho!

Você analisou os dados e identificou problemas de qualidade nos dados de vendas. Essa é uma primeira etapa excelente para garantir que os dados de vendas usados na tomada de decisões estejam otimizados.

Primeiro, você analisou os dados usando a limitação para retornar um número de resultados limitado.

Segundo, você identificou linhas duplicadas usando a técnica de agregação COUNT(DISTINCT name).

Terceiro, você identificou o número de itens por categoria na tabela de produtos usando GROUP BY.

Quarto, você filtrou os dados usando GROUP BY e HAVING.

Quinto, você fez a amostragem da tabela para retornar um subconjunto aleatório dos dados.

Por fim, você analisou os dados contidos na tabela order_items.

Agora você entende como usar a limitação, amostragem e agregação de dados para entender melhor seus dados e o que é preciso em termos de transformação.

Finalize o laboratório

Antes de encerrar o laboratório, certifique-se de que você concluiu todas as tarefas. Quando tudo estiver pronto, clique em Terminar o laboratório e depois em Enviar.

Depois que você finalizar um laboratório, não será mais possível acessar o ambiente do laboratório nem o trabalho que você concluiu nele.

Copyright 2024 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de empresas e produtos podem ser marcas registradas das empresas a que estão associados.