O que aprendi debulhando 50 milhões de termos de Busca no Google?

UPDATE: Os pedidos foram tantos, que a planilha virou ferramenta: https://caiquedourado.com.br/lancamento-supernichos-com/

O que aprendi, e que nichos descobri, ao analisar 50 milhões de termos buscados no Google?

Tive acesso à base de termos de buscas realizadas no Google (fornecida pelo DataForSEO), e decidi espremê-la um pouco, a fim de descobrir quais os padrões de busca e nichos mais procurados no Google no Brasil

Nesse artigo mostro o passo a passo de como foi feita a normalização dos dados e o processo de discover dos padrões de busca e nichos, e ao final, deixo o link da planilha com os resultados finais, para que você possa baixar

Vem comigo que vou te mostrar!

Padrões de busca Normalizados, DataForSEO

Dando um pouco de contexto: Gosto de normalizar grandes quantidades de dados, a fim de espremê-los e assim encontrar padrões (leia: ouro) neles

Já fiz isso com o banco de dados de CNPJ’s da receita federal (44M de CNPJ’s), com o banco de dados de Reviews da Amazon (134M de reviews), com o banco de dados de App’s, Músicas e Artistas da Apple Store (Apple Enterprise Partner Feed, com 2.4M de App’s, Artistas e Músicas), FIPE, e qual mais aparecer em minha frente…

Utilizo técnicas variadas para tal: plugo no Google Open Refine, importo em um DataBase, aplico algoritimos de similaridade nos textos (Metaphone, Soundex, Ngram, MinHash, Fingerprint, NgramKeyer), aplico algoritimos para encontrar similaridade nas imagens (Ex: Perceptual Image Hashing), faço análise de sentimentos… Enfim: técnicas variadas, a depender do meu objetivo para limpeza e normalização dos dados finais

Além de analisar, já aproveito para subir um site utilizando esses dados. Chamam essa técnica de SEO Programático (Programmatic SEO)

De forma resumida: 

  1. Peguei o DataSet do DataForSEO com 50M de termos buscados no Google Brasil
  2. Espremi (normalizei) os termos de busca e os agrupei, a fim de encontrar padrões nos textos
  3. Agrupei os dados finais, e encontrei milhares de bons nichos e oportunidades, seja para criação de produtos, fornecimento de serviços, sanar dores, etc, etc

Como? Vamos lá!

Conteúdo

1º Passo (Origem dos dados)

Peguei o DataSet da DataForSEO, com 50M de termos de busca, buscas realizadas no Google no Brasil (link: https://dataforseo.com/databases/google-databases)

O DataSet contém 50.000.00 de linhas, cada linha retorna:

  • O Termo buscado no Google
  • O Volume de buscas mensal
  • A Competitividade do termo de busca (o quão difícil é competir por aquele termo)
  • O CPC, Custo por Clique (Valor do CPC médio, caso você queira anunciar o termo de forma paga no Google Ads. Quem trabalha com SEO, normalmente escolhe termos com maior CPC, por conta dos ganhos no AdSense)

O que é o DataForSEO?

A DataForSEO é um fornecedor de dados de busca para as principais ferramentas de SEO do mercado, como exemplo o UbberSuggest do NeilPattel

2º Passo (Importando o DataSet para o SQL Server)

Importei o CSV em um banco de dados SQL Server

Por que a escolha?

O SQL server, mesmo em sua versão Developer (gratuita), permite trabalhar com grandes volumes de dados

Consigo importar o CSV do DatForSEO com 50.000.000 de linhas, e trabalhar no DB sem maiores gargalos, com consultas muito rápidas (basta criar os índices para as colunas que vai trabalhar, e ele voa)

Já cheguei a trabalhar com bases muito maiores, em meu PC local. Com 130M de registros, e rodando “liso”

3º Passo (Normalizando os termos de Busca)

Normalizei cada termo de busca, removendo as StopWords, e reduzindo cada palavra da frase ao seu radical, de modo a ter padrões de texto nos termos de buscas, para mais a frente agrupá-los.

Exemplos:

  • A palavra “Viajar” vira “Viaj
  • A palavra “Viajando” vira “Viaj
  • A palavra “Viajei” vira “Viaj

Esse processo é chamado de Lematização, e é realizado por um algoritmo de Stemmer

Mais exemplos:

  • O termo de busca “como fazer artesanato no chinelo” foi transformado em “com faz artesanat chinel
  • O termo de busca “quanto custa uma viagem para japão” foi transformado em “quant cust viag par japa

Temos agora uma nova coluna no DB, com o termo normalizado (nomeei como “padrao”)

A coisa está começando a ficar interessante!

Perceba que já é possível visualizar que temos alguns termos de busca diferentes, que possuem o mesmo “padrão” de busca.

Já poderia agrupar os dados aqui, e obter alguns insights, mas não, vamos espremer um pouco mais.  Irei separar esse padrão “quant cust viag par japa” em padrões ainda menores.

4º Passo (Criando padrões de Busca)

O que falei no passo anterior?

Já poderia agrupar os dados aqui, e obter alguns insights, porém, vamos reduzir ainda mais esse padrão de busca, de modo a obter novos padrões

Irei pegar o padrão “quant cust viag par japa” e separá-lo, concatenando palavra a palavra

Primeiro gero um novo padrão com a 1º e 2º palavras, depois com a 1º, 2º e 3º, depois com a 1º, 2º, 3º  e 4º, e depois com a 1º, 2º, 3º,4º e 5º

Ficará dessa forma:

  • quant cust
  • quant cust viag
  • quant cust viag par
  • quant cust viag par japa

Cada “padrão” gerou novos N registros na tabela:

Ok, até aqui?

Fiz isso para cada termo do DB. Os 50M de registros iniciais se tornaram agora mais de 90M registros

5º Passo (Agrupando os dados, e extraindo o ouro!)

Agora, só dar um GROUP BY, e agrupar os registros

Uma prévia:

Os 50M de termos de busca e 90M de registros de padrões, quando agrupados, foram reduzidos a apenas 780 mil registros

Para ficar melhor ainda, vamos aproveitar a consulta e somar o Volume de Buscas de cada termo, e pegar uma média da Competitividade e do CPC

Aqui estão, os principais Nichos e Como as pessoas mais buscam no Google no Brasil

Gostou do resultado?

Segue link da planilha com os resultados finais: https://docs.google.com/spreadsheets/d/1ifqzSKNJZSjQkCEzFmhwrsvMx4Sl3haD6L5-69KkJtY/edit?usp=sharing

Aí estão bons nichos, segmentos e dores de mercado que você poderá utilizar para criar soluções de software, criar sites, canais de youtube/tiktok, e o que mais a sua criatividade permitir alcançar

Exportei apenas 10.000 registros. A planilha final tem 780 mil registros.  Caso queira ter acesso, entre em contato comigo no Linkedin


Você conhece alguém que adoraria receber essa planilha?

Então faça um favor para ela (e para mim) e compartilhe essa planilha.

Você pode compartilhá-lo no Facebook, Twitter, Linkedin, ou até mesmo copiar a URL desse artigo e enviar para quem precisa dele.

E, para finalizar, eu adoraria saber a sua opinião.

Deixe um comentário logo abaixo sobre o que você mais gostou, ou sobre alguma dica extra que você deseja compartilhar conosco ou até mesmo alguma crítica sobre este artigo.

8 comentários sobre “O que aprendi debulhando 50 milhões de termos de Busca no Google?

  1. É o Caique avisar que tem um conteúdo novo que eu corro pra ler e perguntar várias coisas para ele. Impressionante como compartilha tantas informações boas e de graça para todos.

  2. Sensacional! Já compartilhei aqui com algumas pessoas!
    Caique, eu tento te mandar mensagem no Linkedin para pedir a planilha completa, mas pra mandar precisa ser premium…
    Teria outra forma de ter a planilha com você?

    Abraços! Camila

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *