Como construímos um dataset de emails descartáveis

Quando se trata de bloquear contas falsas, o primeiro passo costuma ser sempre o mesmo: verificar o email. Mas para identificar um email descartável, você primeiro precisa saber quais domínios são descartáveis. As listas públicas no GitHub cobrem os casos óbvios, mas raramente estão atualizadas. Novos serviços surgem toda semana, com domínios frescos que passam despercebidos.

Decidimos construir nosso próprio dataset na WebAPI. Veja como fizemos.

Por que contas falsas são um problema real de negócios

Contas falsas não são apenas um problema técnico. Elas têm um custo direto para o negócio.

Ruído no CRM : Cada conta falsa criada com um email descartável cai no pipeline de vendas. As equipes de vendas perdem tempo qualificando leads que não existem (Hubspot, Salesforce, etc.), as métricas de conversão ficam distorcidas e a proporção sinal-ruído no CRM se degrada. Para um SaaS com milhares de cadastros por mês, isso pode significar dezenas de horas desperdiçadas.
Abuso de testes gratuitos e recursos : Emails descartáveis permitem que um único usuário crie contas em loop para abusar de períodos de teste indefinidamente, acumular créditos gratuitos ou contornar cotas. Para um produto de API como o nosso, isso é consumo de recursos sem nenhuma conversão por trás.
Métricas de produto contaminadas : Contas falsas inflam artificialmente os números de cadastro e distorcem as métricas de ativação (por exemplo, em um dashboard do Mixpanel ou Metabase), retenção e conversão. Não é possível tomar decisões confiáveis de produto com coortes cheias de contas fantasma.
Riscos à reputação e entregabilidade : Enviar emails de onboarding para endereços descartáveis é enviar para o vazio. As devoluções se acumulam, a entregabilidade cai e a reputação do seu domínio de envio é prejudicada junto aos provedores de email.

O problema: provedores que se movem rápido

Os serviços de email temporário não funcionam todos da mesma forma. Alguns expõem uma lista fixa de domínios em um menu dropdown. Outros geram endereços aleatórios a cada visita, rotacionando entre domínios. Alguns injetam seus domínios dinamicamente via JavaScript, invisíveis no HTML bruto.

Construir um dataset confiável significa se adaptar a cada um desses comportamentos.

Etapa 1: coleta com múltiplas estratégias

Visamos mais de 20 provedores de email descartável. Para cada um, implantamos a estratégia de extração mais adequada ao seu funcionamento.

Requisições HTTP padrão : Para sites que expõem seus domínios diretamente no HTML (menus dropdown, listas, campos de entrada preenchidos), uma simples chamada HTTP é suficiente. Analisamos o DOM e extraímos os domínios.

Navegadores headless : Muitos provedores modernos carregam seu conteúdo via JavaScript. O HTML estático não contém nada útil. Usamos navegadores headless que executam o JS, aguardam a renderização completa e então nos dão acesso ao DOM final.

Capturas de tela + OCR : Alguns serviços vão além: o domínio não existe em nenhum lugar do DOM e é renderizado apenas dentro de um canvas ou imagem. Nesses casos, fazemos uma captura de tela e extraímos o texto via OCR.

Chamadas diretas à API : Quando um serviço expõe uma API (pública ou semipública) para gerar endereços, a usamos diretamente.

Etapa 2: extração inteligente de domínios

Obter o HTML ou a captura de tela não é suficiente. Ainda precisamos extrair os domínios de forma confiável. Aplicamos múltiplas camadas de extração em sequência:

Campos de entrada : escaneamos elementos <input> em busca de endereços de email preenchidos e extraímos o domínio
Menus dropdown : elementos <select> frequentemente contêm a lista completa de domínios disponíveis
Links e texto bruto : como último recurso, buscamos padrões @domain.tld em todo o texto visível

Etapa 3: filtragem de falsos positivos

Essa é, sem dúvida, a etapa mais crítica. A extração agressiva produz ruído: domínios que não são realmente descartáveis. Sem filtragem, corremos o risco de bloquear usuários legítimos - algo que não podemos nos dar ao luxo.

Nosso pipeline aplica vários filtros:

Lista de exclusão : domínios legítimos importantes (gmail.com, outlook.com, etc.) e domínios de infraestrutura (googleapis.com, cloudflare.com, etc.) são sistematicamente excluídos
Validação estrutural : verificamos se o domínio tem um formato válido, um TLD reconhecido e não parece um recurso estático (.js, .css, .png)
Verificação de DNS : validamos a presença de registros MX para confirmar que o domínio pode realmente receber emails
Pontuação de confiança : cada domínio é marcado com todas as fontes que o reportaram. Um domínio visto em múltiplos provedores independentes é quase certamente descartável

Essa filtragem em múltiplas camadas nos permite manter uma taxa de falsos positivos muito baixa, mesmo com extração agressiva.

Etapa 4: deduplicação e indexação

Os mesmos domínios frequentemente aparecem em múltiplos provedores. Antes de enriquecer nosso banco de dados, mesclamos os resultados: cada domínio é normalizado, deduplicado e mantemos a lista completa de suas fontes.

O resultado é indexado em um mecanismo de busca otimizado para consultas em tempo real. Quando nossa API recebe uma solicitação de validação, a consulta nesse dataset leva menos de um milissegundo.

Etapa 5: monitoramento e atualizações contínuas

O panorama dos emails descartáveis muda constantemente. Domínios desaparecem, novos surgem. Executamos esse pipeline automaticamente e em um cronograma regular para capturar essas mudanças.

Cada execução produz um relatório: número de provedores processados, domínios descobertos e quaisquer erros. Se um provedor muda sua interface ou bloqueia nossas requisições, somos alertados imediatamente e adaptamos nossa estratégia.

Os números

Hoje, nosso dataset contém mais de 380.000 domínios descartáveis verificados de mais de 20 provedores diferentes. Ele alimenta diretamente o campo disposable da nossa API de Validação de Email.

O que isso significa para você

Quando você chama GET /v1/intelligence/email com um endereço, o campo disposable é verificado em tempo real contra esse dataset. Não uma lista estática baixada há seis meses - um dataset vivo, atualizado todos os dias por pipelines automatizados.

import requests

response = requests.get(
    "https://api.veille.io/v1/intelligence/email",
    params={"query": "user@guerrillamail.com"},
    headers={"x-api-key": "YOUR_API_KEY"},
)
data = response.json()

if data["disposable"]:
    print(f"Disposable email detected (risk: {data['risk_score']})")

Bloquear emails descartáveis elimina o primeiro mecanismo que os atacantes usam para criar contas falsas em escala. E tudo começa com um dataset que se sustenta.

Como construímos um dataset de emails descartáveis

Por que contas falsas são um problema real de negócios

O problema: provedores que se movem rápido

Etapa 1: coleta com múltiplas estratégias

Etapa 2: extração inteligente de domínios

Etapa 3: filtragem de falsos positivos

Etapa 4: deduplicação e indexação

Etapa 5: monitoramento e atualizações contínuas

Os números

O que isso significa para você

Artigos relacionados

Posts relacionados

MCP Veille: proteja assistentes com ferramentas, não suposições

Lista de domínios de email descartáveis: como bloqueá-los

Bloquear emails descartáveis no OpenClaw