arrow_back

Navegar pelo Dataplex

Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Navegar pelo Dataplex

Lab 1 hora 30 minutos universal_currency_alt 2 créditos show_chart Introdutório
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses
ícone de "importante" IMPORTANTE:

ícone de notebook/computador Conclua este laboratório prático usando um computador ou notebook.

ícone de verificação Só 5 tentativas são permitidas por laboratório.

ícone de alvo do teste É comum não acertar todas as questões na primeira tentativa e precisar refazer uma tarefa. Isso faz parte do processo de aprendizado.

ícone de cronômetro Depois que o laboratório é iniciado, não é possível pausar o tempo. Depois de 1h30, o laboratório será finalizado, e você vai precisar recomeçar.

ícone de dica Para saber mais, confira as Dicas técnicas do laboratório.

Informações gerais da atividade

O Dataplex é uma ferramenta poderosa que simplifica o gerenciamento de dados entre data lakes, data warehouses e data marts. Ele oferece controles consistentes e facilita a navegação por ambientes de dados complexos, reduzindo significativamente o tempo e o esforço necessários para encontrar os dados certos para sua análise.

Um dos principais recursos do Dataplex é uma interface fácil de usar que permite pesquisar fontes de dados entre data warehouses e data lakes. Compatível vários serviços como BigQuery e Dataproc, o Dataplex permite que você identifique e gerencie fontes de dados com eficiência de uma forma integrada.

Neste laboratório, você vai usar a pesquisa integrada no BigQuery, Dataplex e Analytics Hub para identificar fontes de dados. Como analista de dados, essa habilidade pode melhorar bastante a eficiência e a precisão dos seus processos de análise de dados.

Cenário

Meredith é líder da área de produtos da TheLook eCommerce, uma empresa global de roupas especializada em moda inovadora e suprimento ético e sustentável. Ela tem interesse em descobrir o possível impacto do clima nas vendas de camisetas. Especificamente, ela quer gerar um relatório com uma lista dos pedidos mais recentes, que inclua também a marca do produto e a faixa de temperatura.

Meredith pediu sua ajuda para identificar as fontes de dados que ela pode usar para gerar esse relatório. Você vai usar o Dataplex para identificar tabelas no BigQuery que contêm as informações de pedidos e marcas, além de conjuntos de dados públicos que contêm dados de temperatura.

Para esta tarefa, primeiro você vai usar o BigQuery para pesquisar tabelas que contenham o termo "orders" ou "brand". Segundo, você vai pesquisar os dados de marcas no Dataplex. Em terceiro lugar, você vai pesquisar dados de temperatura em conjuntos de dados públicos no BigQuery. Quarto, você vai usar linhagem para pesquisar a fonte dos dados de nomes de produtos. Por fim, você vai mostrar que tem acesso a todos os dados necessários para o relatório da Meredith.

Configuração

Antes de clicar em "Começar o laboratório"

Leia as instruções a seguir. Os laboratórios são cronometrados e não podem ser pausados. O timer é iniciado quando você clica em Começar o laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.

Neste laboratório prático, você pode fazer as atividades por conta própria em um ambiente cloud de verdade, não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.

Confira os requisitos para concluir o laboratório:

  • Acesso a um navegador de Internet padrão (recomendamos o Chrome).
Observação: para executar este laboratório, use o modo de navegação anônima ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e a conta de estudante, o que poderia causar cobranças extras na sua conta pessoal.
  • Tempo para concluir o laboratório---não se esqueça: depois de começar, não será possível pausar o laboratório.
Observação: não use seu projeto ou conta do Google Cloud neste laboratório para evitar cobranças extras na sua conta.

Como iniciar seu laboratório e fazer login no console do Google Cloud

  1. Clique no botão Começar o laboratório. No painel Detalhes do laboratório à esquerda, você verá o seguinte:

    • Tempo restante
    • O botão Abrir console do Google Cloud
    • As credenciais temporárias que você vai usar neste laboratório
    • Outras informações, se forem necessárias
    Observação: se for preciso pagar pelo laboratório, um pop-up vai aparecer para você escolher a forma de pagamento.
  2. Se você estiver usando o navegador Chrome, clique em Abrir console do Google Cloud (ou clique com o botão direito do mouse e selecione Abrir link em uma janela anônima). A página de login será aberta em uma nova guia do navegador.

    Dica: é possível organizar as guias em janelas separadas, lado a lado, para alternar facilmente entre elas.

    Observação: se a caixa de diálogo Escolha uma conta aparecer, clique em Usar outra conta.
  3. Se necessário, copie o Nome de usuário do Google Cloud abaixo e cole na caixa de diálogo de login. Clique em Próximo.

{{{user_0.username | "Nome de usuário do Google Cloud"}}}

Você também encontra o Nome de usuário do Google Cloud no painel Detalhes do laboratório.

  1. Copie a Senha do Google Cloud abaixo e cole na caixa de diálogo seguinte. Clique em Próximo.
{{{user_0.password | "Senha do Google Cloud"}}}

Você também encontra a Senha do Google Cloud no painel Detalhes do laboratório.

Importante: você precisa usar as credenciais fornecidas no laboratório, e não as da sua conta do Google Cloud. Observação: usar sua própria conta do Google Cloud neste laboratório pode gerar cobranças extras.
  1. Nas próximas páginas:
    • Aceite os Termos e Condições
    • Não adicione opções de recuperação nem autenticação de dois fatores nesta conta temporária
    • Não se inscreva em testes gratuitos

Depois de alguns instantes, o console será aberto nesta guia.

Observação: para acessar a lista dos produtos e serviços do Google Cloud, clique no Menu de navegação no canto superior esquerdo. Menu do console do Google Cloud com o ícone do menu de navegação em destaque

Tarefa 1: pesquisar conjuntos de dados no BigQuery

Nesta tarefa, você vai pesquisar as tabelas disponíveis que incluam as informações de marcas e pedidos que a Meredith precisa para o relatório. Para isso, você vai usar o BigQuery para pesquisar tabelas que incluam os termos orders ou brand.

Observação: para esta tarefa, você precisa expandir o projeto primeiro, depois o conjunto de dados. Assim, poderá analisar as tabelas dentro do conjunto de dados e consultar os nomes das tabelas.
  1. No console do Google Cloud, no Menu de navegação (Ícone do menu de navegação), selecione BigQuery.
Observação: a caixa de mensagem Olá! Este é o BigQuery no console do Cloud pode aparecer, com links para o guia de início rápido e as notas da versão das atualizações da interface. Clique em Concluído para continuar.
  1. No campo de pesquisa do Explorador, digite order e pressione ENTER.

O console vai listar as tabelas order_items, orders e orders_by_state como resultados.

Em seguida, pesquise as tabelas que contêm dados de marcas.

  1. Na caixa de pesquisa do Explorador, digite brand e pressione ENTER.

A pesquisa não retorna nenhum resultado.

Tarefa 2: encontrar conjuntos de dados no Dataplex

Você precisa encontrar os dados de marcas, mas pesquisar em cada fonte e coluna para localizar os dados demoraria muito. Então, acaba pedindo ajuda a Artem, o arquiteto de dados. Ele recomenda usar o Dataplex, o catálogo mais atualizado da empresa, para encontrar as informações que procura.

Nesta tarefa, você vai pesquisar os dados de marcas no Dataplex.

  1. No campo de pesquisa da barra de título do console do Google Cloud, digite Dataplex.

Dataplex mostrado nos resultados da pesquisa

  1. Nos resultados da pesquisa, selecione Dataplex.
Observação: a caixa de mensagem Conheça a nova experiência do Dataplex pode ser exibida com links para o guia de início rápido e as notas da versão para atualizações na interface. Marque a caixa Não mostrar novamente e clique em Fechar.
  1. No painel de navegação, na seção Descobrir, selecione Pesquisar se a página Pesquisa não for carregada automaticamente.
  2. No campo de pesquisa Encontrar recursos de dados nos seus projetos e organizações, digite brand e pressione ENTER.

Pesquisar brand no BigQuery não retornou nenhum resultado, mas o Dataplex mostra as tabelas que incluem dados de marca. Isso ocorre porque o Dataplex pode pesquisar nomes de colunas e descrições dentro das tabelas.

  1. Selecione a tabela products nos resultados da pesquisa.
  2. Na página de produtos, observe o Horário da última modificação, que indica se os dados são atuais.
  3. No campo Rótulos, clique em Editar no BigQuery. Essa ação abre uma nova janela do navegador que mostra a tabela "products" no BigQuery.
  4. Clique na guia Visualização para examinar os dados.
  5. Examine a coluna brand. Esses são os dados que Meredith precisa para adicionar informações de marca ao relatório de pedidos.

Os itens de um pedido estão na tabela order_items. Para gerar um relatório com os itens pedidos, como camisetas, com as informações de marca, é preciso conectar as tabelas order_items e products. Para isso, você precisa encontrar uma coluna em comum.

  1. Na área do Explorador, expanda o conjunto de dados thelook_gcda para exibir a lista de tabelas.

  2. Clique na tabela order_items. A guia Esquema é mostrada. Examine a lista de colunas para responder a próxima pergunta.

Tarefa 3: encontrar conjunto de dados no Analytics Hub

Meredith pediu as informações de faixa de temperatura no relatório, mas Artem diz que esses dados não estão disponíveis no lakehouse. Então, você pesquisa na Internet e descobre que o BigQuery tem conjuntos de dados públicos disponíveis.

Nesta tarefa, você vai pesquisar os dados de temperatura em conjuntos de dados públicos do BigQuery.

  1. Na barra do Explorador, clique em + Adicionar para adicionar uma fonte de dados ao projeto.
  2. Na página Adicionar, na lista Fontes adicionais, selecione Analytics Hub. A página do Analytics Hub é aberta listando as fontes de dados compartilhadas.
  3. No campo de pesquisa, digite weather e pressione ENTER.
  4. Selecione GHCN Daily, da NOAA. Esse conjunto de dados inclui resumos climáticos diários de estações terrestres de todo o mundo.
  5. Na página GHCN Daily, clique em + Adicionar conjunto de dados ao projeto.
Observação: para salvar esse conjunto de dados, pode ser necessário ativar a API primeiro. Para isso, basta clicar no botão "Ativar API Analytics Hub" na página "Criar conjunto de dados vinculado".
  1. Na página Criar conjunto de dados vinculado, clique em Salvar.

  2. No painel do Explorador, na lista de conjuntos de dados, abra ghcn_daily.

  3. Selecione a tabela ghcnd_1763.

  4. Selecione a guia Visualização para examinar os dados. Os valores TMAX exibidos na coluna element representam os valores máximos de temperatura em um dia específico.

  5. Feche o conjunto de dados ghcn_daily. Essa etapa oculta as tabelas no conjunto de dados ghcn_daily e torna o conjunto de dados thelook_gcda visível para a próxima tarefa.

Clique em Verificar meu progresso para confirmar que você concluiu a tarefa corretamente. Encontrar conjunto de dados no Analytics Hub

Tarefa 4: identificar as fontes de dados com linhagem

Meredith se preocupa em ter um relatório que usa a tabela on_hand_inventory e pede a fonte dos nomes de produtos. Ela menciona que já teve problemas com nomes de produtos incorretos antes.

Meredith quer mais informações sobre a fonte dos dados de nomes de produtos usados na coluna product_name_logistics da tabela on_hand_inventory. É importante observar que a tabela on_hand_inventory é gerada a cada hora e é derivada de outras tabelas.

Nesta tarefa, você vai usar Linhagem para determinar a tabela e a coluna usadas para preencher os dados de nomes de produtos na coluna product_name_logistics.

  1. Na lista de conjuntos de dados, expanda o conjunto thelook_gcda e selecione a tabela on_hand_inventory.
  2. Selecione a guia Linhagem.
Observação: se o gráfico não aparecer imediatamente, aguarde de 15 a 30 minutos para ele ser gerado. Você pode continuar o laboratório e usar as capturas de tela nas instruções. Após alguns minutos, clique no botão Atualizar para atualizar o gráfico e analisar a tabela.

Quando a guia "Linhagem" for preenchida, um gráfico semelhante a este será exibido:

Diagrama de fluxo de "on_hand_inventory", que inclui as tabelas "products" e "inventory_items"

O diagrama de fluxo mostra as linhas de fluxo dos dados das tabelas products e inventory_items para a tabela on_hand_inventory. Isso significa que os dados contidos na tabela on_hand_inventory foram originados nas tabelas products e inventory_items.

  1. Clique na lupa laranja vinculada às tabelas products e inventory_items. A lupa laranja indica uma transformação SQL entre as fontes à esquerda e a tabela à direita.

A consulta que gerou a tabela on_hand_inventory aparece no painel Consulta.

Página da guia "Detalhes" do diagrama de fluxo "on_hand_inventory", que descreve o código da tarefa e o tipo de processo.

Observe as duas tabelas que você identificou no diagrama após a cláusula FROM da consulta: inventory_items e products. As consultas às vezes identificam um alias, ou um apelido, para as tabelas. Um alias é definido após a palavra-chave AS. Por exemplo, nesta consulta a tabela inventory_items tem o alias inv. Um alias de tabela ajuda a manter o código compacto e pode ser usado para especificar de onde uma coluna veio na parte SELECT da consulta. Por exemplo, inv.id é a coluna id que veio da tabela com o alias inv.

Observação: confira a consulta no painel Consulta para responder as seguintes perguntas de múltipla escolha.

A cláusula SELECT de uma consulta pode ser usada para renomear uma coluna na saída. Por exemplo, a fórmula COUNT(inv.id) é renomeada para on_hand_count.

A linhagem dos dados mostra qual coluna e tabela é a fonte dos nomes de produtos na saída "product_name_logistics".

Tarefa 5: resumo geral

Meredith pediu para você garantir que tem todos os dados necessários para concluir o relatório.

Nesta tarefa, você vai executar cinco consultas para exibir os dados de brand, orders, order_items, weather, product_id e product_name e ter todas as informações necessárias para o relatório da Meredith.

Mostrar dados de marca

Primeiro, execute uma consulta que retorna as primeiras 10 linhas da tabela products que inclui informações de marca.

  1. No BigQuery Studio, clique no botão Consulta para abrir o Editor de consultas e selecione Em uma nova guia. Uma guia "Sem título" pré-preenchida aparece.
  2. Substitua o texto padrão na guia Sem título pela consulta SQL a seguir:
SELECT * FROM `thelook_gcda.products` WHERE brand IS NOT NULL limit 10; Observação: sempre que você executa uma nova consulta no Editor de consultas, é possível substituir a consulta antiga copiando e colando a nova consulta sobre a anterior na mesma guia Sem título, ou então clicar no ícone Escrever nova consulta (+) para abrir uma nova guia Sem título e executar a consulta.
  1. Clique em Executar.

Mostrar dados de pedidos

Em seguida, execute uma consulta que recupera as 10 primeiras linhas de dados da tabela orders.

  1. Copie a consulta a seguir no Editor de consultas:
SELECT * FROM `thelook_gcda.orders` limit 10;
  1. Clique em Executar.

Mostrar dados de itens do pedido

Terceiro, execute uma consulta que recupera as 10 primeiras linhas da tabela order_items.

  1. Copie a consulta a seguir no Editor de consultas:
SELECT * FROM `thelook_gcda.order_items` limit 10;
  1. Clique em Executar.

Mostrar dados climáticos

Quarto, execute uma consulta que recupera as 10 primeiras linhas da tabela ghcnd_1763 com os dados climáticos.

  1. Copie a consulta a seguir no Editor de consultas:
SELECT * FROM `ghcn_daily.ghcnd_1763` limit 10;
  1. Clique em Executar.

Mostrar dados de produtos

Por fim, execute uma consulta que recupera as 10 primeiras linhas da tabela products usando aliases para o nome do produto e o ID.

  1. Copie a consulta a seguir no Editor de consultas:
SELECT name AS product_name, id AS product_id FROM thelook_gcda.products LIMIT 10;

Essa consulta recupera os nomes de produtos e IDs da tabela products no conjunto de dados thelook_gcda. Ela recebe um subconjunto de colunas na tabela e retorna somente os nomes de produtos e IDs usando aliases para alterar os nomes de colunas retornados.

  1. Clique em Executar.

Clique em Verificar meu progresso para confirmar que você concluiu a tarefa corretamente. Resumo geral

Conclusão

Bom trabalho!

Agora você tem experiência prática em usar o BigQuery, o Analytics Hub e o Dataplex para identificar fontes de dados no BigQuery. O Dataplex oferece uma interface fácil de usar para identificar fontes de dados em ambientes complexos, enquanto o BigQuery permite pesquisar tabelas específicas e acessar os dados necessários para análises.

Usando essas ferramentas com eficácia, você encontrou e visualizou rapidamente os dados que procurava Isso ajudou a Meredith a ter todos os dados necessários para gerar um relatório que inclui uma lista dos pedidos mais recentes, a marca do produto e a faixa de temperatura.

Agora você sabe como encontrar conjuntos de dados no BigQuery, no Dataplex e no Analytics Hub.

Finalize o laboratório

Antes de encerrar o laboratório, certifique-se de que você concluiu todas as tarefas. Quando tudo estiver pronto, clique em Terminar o laboratório e depois em Enviar.

Depois que você finalizar um laboratório, não será mais possível acessar o ambiente do laboratório nem o trabalho que você concluiu nele.

Copyright 2024 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de empresas e produtos podem ser marcas registradas das empresas a que estão associados.