Como construímos um dataset de emails descartáveis
Quando se trata de bloquear contas falsas, o primeiro passo costuma ser sempre o mesmo: verificar o email. Mas para identificar um email descartável, você primeiro precisa saber quais domínios são descartáveis. As listas públicas no GitHub cobrem os casos óbvios, mas raramente estão atualizadas. Novos serviços surgem toda semana, com domínios frescos que passam despercebidos.
Decidimos construir nosso próprio dataset na WebAPI. Veja como fizemos.
Por que contas falsas são um problema real de negócios
Contas falsas não são apenas um problema técnico. Elas têm um custo direto para o negócio.
- Ruído no CRM : Cada conta falsa criada com um email descartável cai no pipeline de vendas. As equipes de vendas perdem tempo qualificando leads que não existem (Hubspot, Salesforce, etc.), as métricas de conversão ficam distorcidas e a proporção sinal-ruído no CRM se degrada. Para um SaaS com milhares de cadastros por mês, isso pode significar dezenas de horas desperdiçadas.
- Abuso de testes gratuitos e recursos : Emails descartáveis permitem que um único usuário crie contas em loop para abusar de períodos de teste indefinidamente, acumular créditos gratuitos ou contornar cotas. Para um produto de API como o nosso, isso é consumo de recursos sem nenhuma conversão por trás.
- Métricas de produto contaminadas : Contas falsas inflam artificialmente os números de cadastro e distorcem as métricas de ativação (por exemplo, em um dashboard do Mixpanel ou Metabase), retenção e conversão. Não é possível tomar decisões confiáveis de produto com coortes cheias de contas fantasma.
- Riscos à reputação e entregabilidade : Enviar emails de onboarding para endereços descartáveis é enviar para o vazio. As devoluções se acumulam, a entregabilidade cai e a reputação do seu domínio de envio é prejudicada junto aos provedores de email.
O problema: provedores que se movem rápido
Os serviços de email temporário não funcionam todos da mesma forma. Alguns expõem uma lista fixa de domínios em um menu dropdown. Outros geram endereços aleatórios a cada visita, rotacionando entre domínios. Alguns injetam seus domínios dinamicamente via JavaScript, invisíveis no HTML bruto.
Construir um dataset confiável significa se adaptar a cada um desses comportamentos.
Etapa 1: coleta com múltiplas estratégias
Visamos mais de 20 provedores de email descartável. Para cada um, implantamos a estratégia de extração mais adequada ao seu funcionamento.
Requisições HTTP padrão : Para sites que expõem seus domínios diretamente no HTML (menus dropdown, listas, campos de entrada preenchidos), uma simples chamada HTTP é suficiente. Analisamos o DOM e extraímos os domínios.
Navegadores headless : Muitos provedores modernos carregam seu conteúdo via JavaScript. O HTML estático não contém nada útil. Usamos navegadores headless que executam o JS, aguardam a renderização completa e então nos dão acesso ao DOM final.
Capturas de tela + OCR : Alguns serviços vão além: o domínio não existe em nenhum lugar do DOM e é renderizado apenas dentro de um canvas ou imagem. Nesses casos, fazemos uma captura de tela e extraímos o texto via OCR.
Chamadas diretas à API : Quando um serviço expõe uma API (pública ou semipública) para gerar endereços, a usamos diretamente.
Etapa 2: extração inteligente de domínios
Obter o HTML ou a captura de tela não é suficiente. Ainda precisamos extrair os domínios de forma confiável. Aplicamos múltiplas camadas de extração em sequência:
- Campos de entrada : escaneamos elementos
<input>em busca de endereços de email preenchidos e extraímos o domínio - Menus dropdown : elementos
<select>frequentemente contêm a lista completa de domínios disponíveis - Links e texto bruto : como último recurso, buscamos padrões
@domain.tldem todo o texto visível
Etapa 3: filtragem de falsos positivos
Essa é, sem dúvida, a etapa mais crítica. A extração agressiva produz ruído: domínios que não são realmente descartáveis. Sem filtragem, corremos o risco de bloquear usuários legítimos - algo que não podemos nos dar ao luxo.
Nosso pipeline aplica vários filtros:
- Lista de exclusão : domínios legítimos importantes (gmail.com, outlook.com, etc.) e domínios de infraestrutura (googleapis.com, cloudflare.com, etc.) são sistematicamente excluídos
- Validação estrutural : verificamos se o domínio tem um formato válido, um TLD reconhecido e não parece um recurso estático (.js, .css, .png)
- Verificação de DNS : validamos a presença de registros MX para confirmar que o domínio pode realmente receber emails
- Pontuação de confiança : cada domínio é marcado com todas as fontes que o reportaram. Um domínio visto em múltiplos provedores independentes é quase certamente descartável
Essa filtragem em múltiplas camadas nos permite manter uma taxa de falsos positivos muito baixa, mesmo com extração agressiva.
Etapa 4: deduplicação e indexação
Os mesmos domínios frequentemente aparecem em múltiplos provedores. Antes de enriquecer nosso banco de dados, mesclamos os resultados: cada domínio é normalizado, deduplicado e mantemos a lista completa de suas fontes.
O resultado é indexado em um mecanismo de busca otimizado para consultas em tempo real. Quando nossa API recebe uma solicitação de validação, a consulta nesse dataset leva menos de um milissegundo.
Etapa 5: monitoramento e atualizações contínuas
O panorama dos emails descartáveis muda constantemente. Domínios desaparecem, novos surgem. Executamos esse pipeline automaticamente e em um cronograma regular para capturar essas mudanças.
Cada execução produz um relatório: número de provedores processados, domínios descobertos e quaisquer erros. Se um provedor muda sua interface ou bloqueia nossas requisições, somos alertados imediatamente e adaptamos nossa estratégia.
Os números
Hoje, nosso dataset contém mais de 380.000 domínios descartáveis verificados de mais de 20 provedores diferentes. Ele alimenta diretamente o campo disposable da nossa API de Validação de Email.
O que isso significa para você
Quando você chama GET /v1/intelligence/email com um endereço, o campo disposable é verificado em tempo real contra esse dataset. Não uma lista estática baixada há seis meses - um dataset vivo, atualizado todos os dias por pipelines automatizados.
import requests
response = requests.get(
"https://api.veille.io/v1/intelligence/email",
params={"query": "user@guerrillamail.com"},
headers={"x-api-key": "YOUR_API_KEY"},
)
data = response.json()
if data["disposable"]:
print(f"Disposable email detected (risk: {data['risk_score']})")
Bloquear emails descartáveis elimina o primeiro mecanismo que os atacantes usam para criar contas falsas em escala. E tudo começa com um dataset que se sustenta.
Artigos relacionados
- Lista de domínios de email descartáveis: como bloqueá-los - guia prático sobre blocklists e detecção em tempo real
- Como emails descartáveis são usados em fraudes de conta - os padrões de fraude que este dataset ajuda a prevenir
- Bloquear emails descartáveis no OpenClaw com o Veille - configuração de um workflow no-code com a API Veille