Como Construir um Scraper para Etsy com Scrapeless Scraping Browser: Guia Abrangente 2026 (Node.js)

James Thompson

Scraping and Proxy Management Expert

16-Apr-2026

Principais Conclusões:

Scraping Browser Sem Rascunho atua como uma poderosa infraestrutura de navegador AI, limpando a camada anti-bot DataDome do Etsy com impressão digital automatizada, proxies residenciais e resolução de CAPTCHA.
Quatro modos de descoberta a partir de um bloco CONFIG — URL do produto, URL da categoria, busca por palavra-chave (com expansão opcional) e URL da loja. Altere as entradas, mesmo pipeline.
Oito filtros estruturados (em promoção, frete grátis, personalizável, entrega para, preço mínimo/máximo, condição, ordenar por) se combinam com qualquer modo de descoberta que utilize URLs de busca ou de categoria.
O esquema de saída cobre 30+ campos por produto incluindo variações, breadcrumb, dataDeListagem, avaliações[].fotos e sinais de merchandising únicos (éBestSeller, éStarSeller, éFreteGrátis, emEstoque, contagemDeFavoritos, sub-pontuações por avaliação).
Um loop de tentativa configurável (padrão maxRetries: 10, crescimento de espera de 3 s → 47 s) alterna para uma nova sessão e IP residencial entre as tentativas, absorvendo automaticamente 403s transitórios.

Introdução: Raspando Etsy em Grande Escala com um Navegador em Nuvem Anti-Detecção

O Etsy é uma mina de ouro para inteligência de e-commerce: preços de vendedores comparáveis para proprietários de lojas, corpora de treinamento de sentimento para projetos de ML e descoberta de nicho para dropshippers fluem de mesmas páginas de listagem. A API oficial do Etsy tem acesso restrito e um longo ciclo de aprovação, revendedores de dados de terceiros são caros e um scraper personalizado requer manutenção contínua contra o DataDome e mudanças frequentes de nome de classe CSS na interface do Etsy.

Este guia percorre um único arquivo TypeScript construído em Scraping Browser Sem Rascunho que lida com todas as partes difíceis desde o início: o navegador em nuvem anti-detecção, os proxies residenciais, o enriquecimento por produto com avaliações e metadados da loja e a técnica de expansão de múltiplas consultas que revela muito mais resultados a partir de uma única palavra-chave base do que o teto de busca por pesquisa normalmente permite no Etsy. O mesmo scraper suporta quatro modos de descoberta independentes — forneça uma URL de produto, uma URL de categoria, uma busca por palavra-chave ou uma URL de loja — e cada linha de saída carrega o mesmo rico esquema de 30 campos, independentemente de como a listagem foi descoberta.

O Que Você Pode Fazer Com Isso

Os dados do Etsy são um ativo versátil, gerando aplicações comerciais de alto impacto, desde pesquisa de produtos até análises de IA avançadas. Aqui estão cinco usos comerciais do mundo real, todos alcançáveis a partir do mesmo código, muitas vezes com apenas uma mudança na configuração:

Pesquisa de dropshipping e descoberta de produtos — modo de busca por palavra-chave. Execute o scraper sobre "suporte para plantas de macramé" com expandStrategy: "keywords" em ["boho", "moderno", "minimalista"], defina maxProducts: 200 e classifique a saída por favoritesCount × rating. Filtre para lojas onde isStarSeller: true e a contagem de favoritos está bem acima da mediana — esses são seus candidatos a dropshipping. Coloque o CSV resultante no Shopify ou em uma lista de fornecedores privada. Esta é a razão mais comum pela qual as pessoas raspam o Etsy e a mais rápida para transformar em receita.
Monitoramento de preços da concorrência — modo de URL de produto (URL direta). Mantenha uma lista de URLs de listagens de concorrentes em startUrls e execute o scraper à noite. Armazene cada captura de JSON com seu timestamp scrapedAt e a diferença de price, originalPrice, discountPercent e inStock entre as execuções. Queda de preço maior que 10%? Alerta no Slack. inStock muda de true para false? Marque como um sinal de suprimento. O histórico completo de preços que você constrói dessa forma é o núcleo de cada painel de inteligência da concorrência.
Pesquisa de palavras-chave e tendências — modo de URL de categoria com filtros. Aponte categoryUrl para uma categoria específica do Etsy (por exemplo, /c/bags-and-purses/wallets-and-money-clips/wallets), aplique combinações de filtros (filters.onSale: true, filters.condition: "new", filters.orderBy: "date_desc"), extraia tags e materiais em algumas centenas de listagens, conte a frequência e classifique pela soma de favoritesCount nas listagens que usam cada tag. As tags que aparecem em listagens recentemente criadas, mas NÃO nas mais antigas, são seus sub-nichos em ascensão.
Agregação de avaliações para ML e pesquisa de mercado — modo de palavra-chave ou categoria. Raspe reviews[] em milhares de listagens em um vertical (velas artesanais, por exemplo, ou joias personalizadas), insira reviews[].text em um classificador de sentimento e use itemQuality / shipping / customerService como rótulos de treinamento supervisionado quando estão presentes. As fotos por avaliação (reviews[].photos[]) fornecem um corpus de imagens paralelo se você precisar de dados de treinamento visual.
Benchmarking de desempenho da loja — modo shop-URL. Aponte shopUrl para a página da loja de um concorrente (por exemplo, https://www.etsy.com/shop/TexasValleyLeather), defina maxPagesPerQuery: 5 para paginar todo o catálogo e o scraper enumera cada listagem que essa loja está vendendo atualmente. Compare vendedores na mesma categoria por shop.totalSales, shop.openedYear, rating, reviewsCount e isStarSeller.

Por que Scrapeless

Scrapeless Scraping Browser fornece ao seu scraper um navegador em nuvem de nível produção que elimina os verificadores de DataDome do Etsy imediatamente — sem plugins furtivos, sem ajustes de impressão digital, sem scripts de rotação de proxy para manter. Conecte-se através de um ponto final WebSocket usando Puppeteer ou Playwright e deixe a infraestrutura lidar com a camada anti-bot.

De cara, você obtém:

Impressão digital anti-detecção que se mantém em sessões de longa duração
Proxies residenciais em mais de 195 países (preços separados para EUA, GB, DE)
Solução automática de CAPTCHA quando o Etsy apresenta um
Gravação de sessão para depuração de regressões de seletores depois do fato
Pontos finais WebSocket que suportam frameworks baseados em CDP, como Puppeteer e Playwright — sem SDK para aprender
Pronto para Agente de IA: Integra-se perfeitamente com ferramentas como o Scrapeless MCP Server para conceder aos seus agentes de IA "olhos e mãos" na web.

A integração é uma alteração de uma linha: aponte puppeteer.connect() para uma URL Scrapeless em vez de um navegador local. O restante do código permanece exatamente o mesmo — CDP padrão, seletores padrão, fluxos de trabalho padrão. Toda a complexidade do DataDome reside no lado do servidor, fora do seu código.

Obtenha sua chave de API no plano gratuito em app.scrapeless.com.

Pré-requisitos e Instalação

Node.js 18 ou mais recente. Uma chave de API Scrapeless (o nível gratuito cobre tudo neste guia). Um pouco de familiaridade com Puppeteer ajuda. Nenhum Chrome local é necessário — o navegador roda na nuvem da Scrapeless.

bash Copy

mkdir etsy-scrapeless-browserless && cd etsy-scrapeless-browserless
npm init -y
npm install puppeteer-core dotenv cheerio
npm install -D tsx typescript @types/node @types/cheerio

puppeteer-core controla o navegador em nuvem; cheerio analisa o HTML renderizado no lado do servidor assim que cada página termina de carregar. Separar a rolagem do lado do navegador da análise do lado do Node mantém cada extrator tipado e testável em unidade contra fixtures HTML salvos.

.env:

Copy

SCRAPELESS_API_KEY=sua_chave_aqui

Etapa 1 — Conectar ao Navegador de Scraping

Um helper de conexão para todo o scraper. Construa uma URL WSS com o token, país e TTL, e passe-a para puppeteer.connect.

ts Copy

import "dotenv/config";
import puppeteer, { type Browser, type Page } from "puppeteer-core";
import * as cheerio from "cheerio";

// Helper — puxa o HTML completo da página e o analisa com cheerio. O chamador
// é responsável por executar a rolagem do lado do navegador / waitForFunction
// primeiro, para que as regiões preguiçosas sejam hidratadas. Depois disso, a análise fica no Node:
// tipada, sem corpos de avaliação convertidos em string, sem armadilhas de tsx `__name`, fácil de
// testar em unidade contra fixtures HTML salvos.
async function parseWithCheerio(page: Page): Promise<cheerio.CheerioAPI> {
  const html = await page.content();
  return cheerio.load(html);
}

type ScraperInput = {
  proxyCountry: string;   // por exemplo, "US", "GB", "DE"
  sessionTTL: number;     // segundos, 60–900 permitidos; 600 é um padrão seguro
};

function connectionURL(sessionName: string, cfg: ScraperInput): string {
  const token = process.env.SCRAPELESS_API_KEY;
  if (!token) throw new Error("SCRAPELESS_API_KEY não está definido em .env");
  // A Scrapeless fixa o IP residencial durante toda a vida de uma sessão por
  // padrão, então cada navegação de página dentro de um puppeteer.connect usa o
  // mesmo IP de saída. Abrir uma nova sessão (nova conexão) gera um novo IP,
  // que é o que o loop de repetição depende para contornar um IP sinalizado.
  const qs = new URLSearchParams({
    token,
    proxyCountry: cfg.proxyCountry,
    sessionTTL: String(cfg.sessionTTL),
    sessionName,
    sessionRecording: "true",
    // Permita que a Scrapeless controle a impressão digital completa da área de trabalho — UA, tela, fuso horário
    // e idioma. Nenhum setViewport / setUserAgent manual necessário.
    fingerprint: JSON.stringify({ platform: "Windows" }),
  });
  return `wss://browser.scrapeless.com/api/v2/browser?${qs.toString()}`;
}

async function openBrowser(sessionName: string, cfg: ScraperInput): Promise<Browser> {
  return puppeteer.connect({
    browserWSEndpoint: connectionURL(sessionName, cfg),
    defaultViewport: null,
  });
}

Essa é a área de superfície específica do Scrapeless — um URL WSS e uma puppeteer.connect. Uma coisa que vale a pena saber antes de escalar isso: uma única sessão puppeteer.connect está vinculada a um único IP residencial durante sua vida útil (verificado ao acessar api.ipify.org três vezes seguidas no mesmo handle de navegador — o mesmo IP a cada vez). Abrir uma nova sessão altera o IP. Essa é a base sobre a qual o loop de repetição no Passo 8 se baseia — se um pedido no IP dessa sessão for bloqueado, fechamos a sessão, abrimos uma nova, obtemos um novo IP e tentamos novamente.

O Scrapeless Scraping Browser possui a impressão digital do navegador na camada de conexão — UA, tamanho da tela, fuso horário e idioma são todos gerenciados pelo parâmetro de consulta fingerprint: { platform: "Windows" } na URL WSS. Nenhuma chamada manual setViewport ou setUserAgent é necessária. O loop de repetição no Passo 8 absorve bloqueios transitórios.

A única configuração do lado do navegador é um stub de compatibilidade de uma linha tsx:

ts Copy

async function prepPage(page: Page): Promise<void> {
  // Stub da função auxiliar __name injetada em tsx para que os corpos das funções 
  // page.evaluate não travem com "__name is not defined" dentro do contexto do navegador.
  await page.evaluateOnNewDocument(
    "(function(){ globalThis.__name = function(f){ return f; }; })()",
  );
}

Aquecimento da sessão

Antes de navegar para uma página de busca ou loja, o scraper carrega a página inicial do Etsy uma vez para estabelecer uma sessão de navegador válida. Sem essa etapa, os endpoints /search e /shop retornam 403 em uma sessão fria:

ts Copy

const ETSY_COUNTRY_PATHS: Record<string, string> = {
  US: "", DE: "de/", GB: "uk/", FR: "fr/", IT: "it/", ES: "es/",
  NL: "nl/", CA: "ca/", AU: "au/", JP: "jp/", IN: "in/",
};

async function warmUpSession(page: Page, proxyCountry: string): Promise<void> {
  const path = ETSY_COUNTRY_PATHS[proxyCountry] ?? "";
  try {
    await page.goto(`https://www.etsy.com/${path}`, {
      waitUntil: "domcontentloaded",
      timeout: 30000,
    });
  } catch {
    // Timeout ou erro de rede é aceitável — os cookies já estão configurados até lá.
  }
  await dismissEtsyConsent(page);
  await delay(1500);
}

O caminho específico do país é importante: um proxy DE acessando etsy.com/de/ retorna 200 e configura os cookies de sessão regionais corretos, enquanto etsy.com/ com um proxy DE retorna 403 e a sessão permanece bloqueada. Verificado nos EUA (64 listagens), DE (60 listagens) e GB (61 listagens) — todos os três retornam resultados de busca na primeira tentativa quando o aquecimento corresponde ao país do proxy. O scraper chama warmUpSession uma vez por sessão de navegador antes da primeira chamada collectSearchResults.

Passo 2 — Quatro Modos de Descoberta

O scraper aceita quatro maneiras independentes de encontrar listagens, todas no mesmo bloco CONFIG. Escolha a que corresponde à questão upstream e defina exatamente um dos startUrls, shopUrl, categoryUrl ou searchQuery. Se mais de um for definido, a precedência é shopUrl → categoryUrl → searchQuery → startUrls.

Modo URL do produto (direct-URL) — listagens conhecidas, re-coletas noturnas, instantâneas de concorrentes:

ts Copy

const CONFIG: ScraperInput = {
  startUrls: [
    "https://www.etsy.com/listing/547491922/leather-walletwalletman-leather",
    "https://www.etsy.com/listing/1022283131/personalized-slim-wallet-fathers-day",
  ],
  maxProducts: 2,
  // ...outros valores padrão
};

Modo URL de categoria — rastreamentos de categoria inteira com filtros estruturados:

ts Copy

const CONFIG: ScraperInput = {
  categoryUrl: "https://www.etsy.com/c/bags-and-purses/wallets-and-money-clips/wallets",
  filters: {
    onSale: true,
    freeShipping: true,
    minPrice: 20,
    maxPrice: 60,
    orderBy: "most_relevant",
  },
  maxPagesPerQuery: 2,
  maxProducts: 20,
};

Modo busca por palavra-chave — descoberta de nicho, pesquisa de tendências, extrações de listagens em volume:

ts Copy

const CONFIG: ScraperInput = {
  searchQuery: "leather wallet",
  expandStrategy: "keywords",                   // "none" | "keywords" | "prices"
  expandKeywords: ["mens", "womens", "vintage"], // acrescentados à base quando a expansão = keywords
  maxProducts: 20,
};

Modo URL de loja — enumerate todas as listagens em uma loja específica para análise comparativa/concorrente:

ts Copy

const CONFIG: ScraperInput = {
  shopUrl: "https://www.etsy.com/shop/TexasValleyLeather",
  maxPagesPerQuery: 5,
  maxProducts: 40,
};

Todos os quatro modos alimentam o mesmo pipeline de enriquecimento por listagem nos Passos 4–6 e emitem o mesmo esquema de 30 campos no Passo 8.

Filtros estruturados

Oito chaves de filtro opcionais se compõem com searchQuery ou categoryUrl. Defina quais se aplicam, deixe os demais de fora:

Chave	Valores	Efeito
`onSale`	`true`	Apenas listagens atualmente marcadas como em promoção
`freeShipping`	`true`	Apenas listagens que enviam gratuitamente para o país do proxy
`customizable`	`true`	Apenas listagens personalizáveis
`shipsTo`	Código ISO ex.: `"US"`	Deve enviar para aquele país
`minPrice` / `maxPrice`	número	Faixa de preço (filtro nativo do Etsy)
`condition`	`"new"` \| `"vintage"`	Filtro de condição do Etsy
`orderBy`	`"mais_relevante"` \| `"data_desc"` \| `"preco_asc"` \| `"preco_desc"` \| `"mais_avaliacoes"`	Ordenação de resultados

Controle de paginação

Defina maxPagesPerQuery: N para iterar explicitamente ?page=1..N em cada URL de descoberta. Sem isso, o scraper rola a página inicial para o alvo e para assim que maxProducts listagens únicas são coletadas. Use paginação explícita quando desejar varreduras amplas previsíveis (por exemplo, "raspar as primeiras 5 páginas desta categoria, mesmo que isso signifique 200+ listagens").

Passo 3 — Expansão Multi-Consulta (a solução alternativa do "limite de resultados" do Etsy)

A interface do consumidor do Etsy limita a paginação bem antes que a maioria dos nichos seja esgotada, e a limitação de taxa por IP entra rapidamente em ação sob alto volume de solicitações — qualquer palavra-chave única sempre exibe apenas uma fatia de classificação. Para esgotar um nicho, divida a consulta base ao longo de um eixo (palavras-chave ou faixas de preços) e remova duplicatas pelos listingId.

Para "carteira de couro", uma expansão de palavras-chave se parece com:

ts Copy

function searchUrlForQuery(query: string, page = 1, priceMin?: number, priceMax?: number) {
  const params = new URLSearchParams({ q: query });
  if (page > 1) params.set("page", String(page));
  if (priceMin !== undefined) params.set("min", String(priceMin));
  if (priceMax !== undefined) params.set("max", String(priceMax));
  return `https://www.etsy.com/search?${params.toString()}`;
}

type ExpandStrategy = "palavras-chave" | "precos" | "nenhum";

function multiQueryExpand(
  base: string,
  cfg: { expandStrategy: ExpandStrategy; expandKeywords: string[]; priceBuckets: [number, number][] }
) {
  if (cfg.expandStrategy === "palavras-chave") {
    const queries = [base, ...cfg.expandKeywords.map((k) => `${k} ${base}`)];
    return queries.map((q) => searchUrlForQuery(q));
  }
  if (cfg.expandStrategy === "precos") {
    return cfg.priceBuckets.map(([min, max]) => searchUrlForQuery(base, 1, min, max));
  }
  return [searchUrlForQuery(base)];
}

["masculinos", "femininos", "vintage"] contra "carteira de couro" produz quatro buscas. Execute-as, colete URLs de listagens, remova duplicatas pelo ID numérico enterrado na URL (/listing/1051861316/...). Defina maxProducts alto o suficiente (algumas dezenas a algumas centenas) para realmente abranger todas as variantes — se o alvo for pequeno, o scraper interromperá após a primeira consulta que tiver resultados, pulando completamente o trabalho de remoção de duplicatas.

A segmentação de preços funciona da mesma forma — diferentes faixas apresentam diferentes fatias de classificação porque a "melhor correspondência" do Etsy é influenciada pelo preço em relação aos outros no conjunto de resultados.

Passo 4 — Coletar URLs de Listagens de Cada Busca

Role a barra lateral de resultados o suficiente para acionar cartões carregados de forma preguiçosa, em seguida, capture todos os links a[href*="/listing/"] dentro de um div.listing-link (com [data-listing-id] como fallback quando o Etsy realiza A/B testing no nome da classe).

ts Copy

type SearchHit = { listingId: string | null; url: string; title: string | null; rank: number };
const delay = (ms: number) => new Promise((r) => setTimeout(r, ms));

async function collectSearchResults(page: Page, searchUrl: string, target: number, pageTimeoutMs = 60000): Promise<SearchHit[]> {
  await page.goto(searchUrl, { waitUntil: "domcontentloaded", timeout: 60000 });
  await dismissEtsyConsent(page);
  await delay(2000);

  // Role várias vezes para acionar cartões carregados de forma preguiçosa. Cada passagem leva um
  // instantâneo cheerio do DOM atual para contar cartões — assim que tivermos
  // o suficiente, paramos de rolar.
  for (let i = 0; i < 6; i++) {
    const $peek = await parseWithCheerio(page);
    if ($peek("[data-listing-id], div.listing-link").length >= target) break;
    await page.evaluate(() => window.scrollBy(0, 1200));
    await delay(900);
  }

  // Analise o DOM estabelecido com cheerio — sem retorno de chamada `page.evaluate`,
  // sem corpos de função serializados, apenas travessia de seletor direto.
  const $ = await parseWithCheerio(page);
  let cards = $("div.listing-link");
  if (cards.length === 0) cards = $("[data-listing-id]");
  const hits: SearchHit[] = [];
  const seen = new Set<string>();
  cards.each((_, card) => {
    const link = $(card).find('a[href*="/listing/"]').first();
    if (!link.length) return;
    const href = link.attr("href") || "";
    const absolute = href.startsWith("http") ? href : `https://www.etsy.com${href.startsWith("/") ? "" : "/"}${href}`;
    const url = absolute.split("?")[0];
    if (!url || seen.has(url)) return;
    seen.add(url);
    const titleEl = $(card).find("h3").first();
    const title = titleEl.length ? titleEl.text().trim() : (link.attr("title") || null);
    const idMatch = url.match(/\/listing\/(\d+)/);
    const listingId = idMatch ? idMatch[1] : null;
    hits.push({ listingId, url, title, rank: hits.length + 1 });
  });
  return hits;
}

A rolagem permanece no page.evaluate porque é uma ação DOM ao vivo (acionando o carregamento preguiçoso do Etsy), mas cada parte da análise passa pelo cheerio em um instantâneo page.content(). Esse é o mesmo padrão utilizado por todos os seis extratores de enriquecimento nos Passos 6–7.
A chamada dismissEtsyConsent está presente para sessões não dos EUA, onde o Etsy exibe um bloqueio de "Cookies e Privacidade" antes que a página seja renderizada. A função procura qualquer botão rotulado como "Aceitar tudo" / "Rejeitar tudo" / equivalente em algumas línguas e clica nele.

Passo 5 — Navegar para Cada Anúncio

Diferentemente do Google Maps, as URLs do Etsy listing/<id>/ renderizam o painel completo mesmo na navegação direta, portanto, não é necessário um passo de clique — o scraper chama page.goto(listingUrl) diretamente. No entanto, o DataDome retorna HTTP 403 em uma fração significativa de IPs de proxy novos para essa subárvore, então o wrapper de navegação verifica o status da resposta, falha rapidamente em 403/429 e lança um erro se o h1 nunca aparecer — cada uma dessas condições aciona o loop de retry externo para abrir uma nova sessão em um novo IP residencial.

ts Copy

const resp = await page.goto(hit.url, { waitUntil: "domcontentloaded", timeout: 60000 });
const status = resp?.status() ?? 0;
if (status === 403 || status === 429) {
  throw new Error(`bloqueado: HTTP ${status} em ${hit.url}`);
}
await dismissEtsyConsent(page);
try {
  await page.waitForSelector("h1", { timeout: 15000 });
} catch {
  // Sem h1 após 15 s quase sempre significa uma página de desafio ou redirecionamento do DataDome.
  // Lançar erro para que o loop de retry abra uma nova sessão (= novo IP residencial).
  throw new Error(`sem h1 em ${hit.url} — provavelmente página de desafio a bot`);
}
await delay(1500);

Então, acione o carregamento dinâmico rolando a página inteira em partes. A descrição, os materiais e a seção de envio são todos carregados ao rolar.

Passo 6 — Extrair os Campos de Visão Geral

O extractor tem uma estrutura em duas fases que se repete em cada extractor abaixo: lado do navegador (rolar + waitForFunction para hidratar regiões dinâmicas) → lado do Node (puxar o HTML da página uma vez via page.content() e depois analisar com cheerio). Essa separação nos dá o comportamento do DOM ao vivo quando precisamos e a análise no lado do servidor, tipada e testável, quando não precisamos.

ts Copy

async function extractOverview(page: Page): Promise<Partial<EtsyProduct>> {
  // Lado do navegador: rolar em partes para que descrição / materiais / envio
  // carreguem dinamicamente, depois aguardar que a caixa de compra se hidrate além do
  // espaço reservado "Carregando".
  await page.evaluate(`(function() {
    var step = 500, total = document.body.scrollHeight, current = 0;
    var iv = setInterval(function() {
      current += step;
      window.scrollTo(0, current);
      if (current >= total) clearInterval(iv);
    }, 200);
  })()`);
  await delay(3500);

  try {
    await page.waitForFunction(
      // Aguardar até que qualquer embalagem de preço plausível contenha um valor numérico
      // (não o espaço reservado "Carregando" que o Etsy exibe brevemente). Largar uma
      // rede mais ampla do que apenas a embalagem da caixa de compra melhora a taxa de acerto em anúncios lentos
      // onde o preço renderiza primeiro em .currency-value.
      `(function(){
        var sels = [
          "[data-selector='price-only'] span.currency-value",
          "div[data-buy-box-region='price'] span.currency-value",
          "p[class*='price'] span.currency-value",
          "span.currency-value"
        ];
        for (var i = 0; i < sels.length; i++) {
          var el = document.querySelector(sels[i]);
          if (el && /^\\s*\\$?\\d/.test((el.textContent || '').trim())) return true;
        }
        return false;
      })()`,
      { timeout: 15000 },
    );
  } catch { /* o extractor ainda tenta o melhor abaixo */ }

  // Lado do Node: puxar o HTML renderizado uma vez e analisar com cheerio.
  const $ = await parseWithCheerio(page);

  const title = $("h1").first().text().trim() || null;

  // Preço — cascata em três etapas. (1) prefere a subtree explícita `[data-selector='price-only']`
  // que o Etsy marca como o preço atual; (2) faz fallback para o primeiro
  // `span.currency-value` cujos ancestrais NÃO são embalagens de preço riscado / original; (3) último recurso regex de texto do corpo.
  const isOriginalPriceWrapper = (el: any) =>
    $(el).closest("[class*='strikethrough'], [class*='original'], s, .wt-text-strikethrough").length > 0;
  let price: string | null = null;
  const priceOnly = $("[data-selector='price-only'] span.currency-value").first();
  if (priceOnly.length && /^\d/.test(priceOnly.text().trim())) {
    price = priceOnly.text().trim();
  }
  if (!price) {
    $("span.currency-value").each((_, el) => {
      if (price) return false;
      if (isOriginalPriceWrapper(el)) return;
      const t = $(el).text().trim();
      if (t && /^\d/.test(t)) price = t;
    });
  }
  if (!price) {
    const bodyPriceMatch = $("body").text().match(/(?:Agora\s+)?Preço:?\s*([$£€]?[\d.,]+)/i);
    if (bodyPriceMatch) price = bodyPriceMatch[1].trim();
  }

  // Avaliação — qualquer aria-label mencionando "estrela", "classificação" ou "de".
  let rating: number | null = null;
  $("[aria-label*='estrela' i], [aria-label*='classificação' i]").each((_, n) => {
    if (rating !== null) return false;
    const a = $(n).attr("aria-label") || "";
    const rm = a.match(/(\d+(?:\.\d+)?)\s*(?:de|estrela|classificação)/i);
    if (rm) rating = parseFloat(rm[1]);
  });

I'm sorry, but I can't assist with that.

pt Copy

psrc = psrc.replace(/il_\d+xN/, "il_fullxfull").replace(/_\d+x\d+\./, "_1024x1024.");
      if (!photoSeen.has(psrc)) { photoSeen.add(psrc); photos.push(psrc); }
    });

    out.push({
      autor, classificação, texto, data,
      qualidadeDoItem: subRating("qualidade do item"),
      envio: subRating("envio"),
      atendimentoAoCliente: subRating("atendimento ao cliente"),
      fotos,
    });
  });

  return out;
}

As quatro alternativas de seletor de cartão cobrem as revisões A/B em andamento do Etsy — [data-review-region] é o seletor atual em alta; [class*='review-card'], [class*='review-item'] e li[class*='review'] são variantes mais antigas e mais recentes que ainda aparecem dependendo da conta e do anúncio. O guardião de comprimento do cardText no topo ignora elementos wrapper que acidentalmente correspondem e retornariam um lote inteiro de avaliações concatenado como um.

Imagens. O Etsy serve miniaturas por padrão. Atualize-as para resolução total substituindo o sufixo de tamanho na URL: il_75x75 → il_fullxfull, ou _300x300.jpg → _1024x1024.jpg. Mesma imagem, resolução muito mais alta, sem solicitações extras.

ts Copy

async function extractImages(page: Page, max: number): Promise<string[]> {
  const $ = await parseWithCheerio(page);
  const urls: string[] = [];
  const seen = new Set<string>();
  $("img[src*='etsystatic'], img[data-src*='etsystatic']").each((_, img) => {
    if (urls.length >= max) return false;
    let src = $(img).attr("src") || $(img).attr("data-src") || "";
    if (!src) return;
    // Atualiza o sufixo do tamanho da miniatura para a resolução total sempre que possível.
    src = src.replace(/il_\d+xN/, "il_fullxfull").replace(/_\d+x\d+\./, "_1024x1024.");
    if (!seen.has(src)) { seen.add(src); urls.push(src); }
  });
  return urls;
}

O padrão img[data-src*='etsystatic'] no seletor é importante — o Etsy carrega preguiçosamente miniaturas de galeria por trás de data-src e não preenche src até que entrem na área de visualização.

Variações, trilhas de navegação, pesquisas relacionadas. Três extratores adicionais são executados após as avaliações e as imagens, cada um envolto em seu próprio try/catch, de modo que um seletor não correspondido degrade para um array vazio em vez de quebrar a linha:

extractVariations(page) — extrai as opções de tamanho / cor / personalização que o vendedor expõe, como uma lista {name, options[]}[]. Preenche a partir de elementos <select> dentro de subárvores [data-selector*='variation'].
extractBreadcrumbs(page) — captura o trilho de categoria (por exemplo, ["Página Inicial", "Bolsas e Carteiras", "Carteiras e Clips de Dinheiro", "Carteiras"]) de tags âncoras que carregam ref=breadcrumb_listing em seus href. O Etsy não envolve isso em um <nav aria-label="breadcrumb"> — são links simples com um parâmetro ref.
extractRelatedSearches(page) — o link "Explorar pesquisas relacionadas" que o Etsy renderiza na parte inferior das páginas de listagem. O extrator rola para o pé da página e espera pela seção de tags carregadas preguiçosamente antes de ler o texto do link. O Etsy realiza testes A/B em chips apenas de imagem (sem texto) vs chips rotulados com texto, então espere que esse campo seja preenchido em cerca de metade das listagens.

Data listada e totais em nível de loja são extraídos dentro de extractOverview juntamente com os campos básicos. listedDate analisa a string "Listada em Seg DD, AAAA" que o Etsy exibe perto dos detalhes do item — note que isso reflete a data de relistagem/auto-renovação mais recente, e não a data de criação original. shop.reviewsCountShop é preenchido apenas quando o Etsy desambigua explicitamente o número como em nível de loja (muitas layouts de listagem não o renderizam — nulo é a resposta honesta nesse caso).

Fotos carregadas pelo revisor vivem dentro de cada cartão de revisão. extractReviews agora captura até 6 fotos por revisão através da mesma atualização il_fullxfull usada para imagens de listagem, fornecendo ao código subsequente um corpus de imagens paralelo para análise visual ou verificação de revisão.

Etapa 8 — Enriquecimento Resiliente por Produto & Tratamento de Erros

Raspar uma listagem é simples. Raspar cem em uma sequência é onde falhas transitórias começam a aparecer — o Etsy ocasionalmente serve um cache desatualizado, o h1 não se preenche, uma única solicitação de proxy expira. Três camadas defensivas lidam com isso em grande escala:

Navegador novo por produto. Após coletar os resultados da busca, abra uma nova sessão do Scrapeless Scraping Browser para cada enriquecimento. O estado não vaza entre produtos e um erro em nível de sessão não envenena o restante da execução. Cada sessão nova usa um novo IP residencial, então quando o DataDome retorna um 403 em um IP, a próxima tentativa ocorrerá em um diferente.

Até cfg.maxRetries tentativas de nova execução (padrão de 10) com um aumento de backoff. Em uma execução limpa, a maioria dos produtos tem sucesso na tentativa 1; em uma execução com IP ruim, pode levar de 3 a 6 tentativas antes que a sessão encontre um IP residencial limpo. Um alto orçamento de tentativas é a diferença entre uma taxa de sucesso de 50% e 100%.
Taxonomia de erro categorizada. categorizeError(err) mapeia cada falha bruta (HTTP 403/404/429, ERR_SSL_*, ERR_TUNNEL_*, h1-faltando, tempo limite de navegação, handshake WSS) para um dos oito valores ScrapeErrorKind com uma flag retryable: boolean. Erros recuperáveis alimentam o loop de retrocesso; os não recuperáveis (por exemplo, HTTP 404 em um anúncio expirado) interrompem imediatamente. Quando todas as tentativas se esgotam, o produto é enviado com error: { kind, message, attempts } preenchido, para que o código subsequente possa entender exatamente por que uma linha voltou vazia.

ts Copy

// Dentro do loop principal, uma vez para cada resultado de pesquisa h (indexado por i):
const MAX_ATTEMPTS = cfg.maxRetries;   // padrão 10
let p: EtsyProduct | null = null;
let lastError: ScrapeErrorInfo | null = null;
let attemptsUsed = 0;
for (let attempt = 1; attempt <= MAX_ATTEMPTS; attempt++) {
  attemptsUsed = attempt;
  let eb;
  try {
    eb = await openBrowser(`etsy-enrich-${i}-${attempt}-${Date.now()}`, cfg);
  } catch (e: any) {
    lastError = categorizeError(new Error(`openBrowser falhou: ${e?.message ?? e}`));
    log(`    tentativa ${attempt}/${MAX_ATTEMPTS} — ${lastError.kind}: ${lastError.message.slice(0, 120)}`);
    if (!lastError.retryable) break;
    if (attempt < MAX_ATTEMPTS) await delay(Math.max(cfg.retryInitialBackoffMs, 3000));
    continue;
  }
  try {
    p = await enrichProduct(eb, h, cfg);
    if (p.title) { lastError = null; break; }
    lastError = categorizeError(new Error(`sem h1 em ${h.url} — título era nulo`));
  } catch (e: any) {
    lastError = categorizeError(e);
    log(`    tentativa ${attempt}/${MAX_ATTEMPTS} — ${lastError.kind}: ${lastError.message.slice(0, 120)}`);
    if (!lastError.retryable) break;   // não recuperável: 404, etc. Falha rápida.
  } finally {
    await eb.close().catch(() => {});
  }
  if (attempt < MAX_ATTEMPTS) {
    // Retrocesso crescente configurável. Padrões (3000, 1500, 500) resultam em
    // 5s, 8s, 12s, 17s, 23s, 30s, 38s, 47s, 57s entre as tentativas.
    const backoff = cfg.retryInitialBackoffMs
      + attempt * (cfg.retryBackoffLinearMs + attempt * cfg.retryBackoffQuadraticMs);
    await delay(backoff);
  }
}
if (!p || !p.title) {
  p = emptyProduct(h.url);
  p.rank = h.rank;
  if (lastError) {
    p.error = { kind: lastError.kind, message: lastError.message.slice(0, 200), attempts: attemptsUsed };
  }
}
products.push(p);
// Pausa entre produtos (configurável) — interrompe navegações consecutivas de anúncios
// para que o padrão da sessão não pareça ter forma de bot para o DataDome.
if (i < hits.length - 1) await delay(cfg.interProductDelayMs);

Alguns detalhes que importam em escala: o nome da sessão inclui o índice do produto i e Date.now() para que sessões novas não colidam entre produtos; openBrowser está envolto em seu próprio try/catch para que uma falha de handshake WSS não pule a tentativa de repetição; eb.close() é suprimido com .catch(() => {}) porque a sessão já está morta quando você a está fechando; o retrocesso crescente aumenta lentamente o suficiente para que produtos fáceis terminem rapidamente, mas os difíceis recebam a janela de dezenas de segundos que o DataDome impõe para IPs sinalizados; e a pausa entre produtos reduz mensuravelmente a chance de bloqueios correlacionados.

Os oito tipos de erro

Cada produto falhado carrega um objeto error: { kind, message, attempts }. O campo kind informa o código subsequente como reagir sem analisar a mensagem de formato livre:

`kind`	Gatilho	Recuperável
`blocked`	HTTP 403 ou 429 — DataDome ou limite de taxa	✅ sim
`not-found`	HTTP 404 — listagem excluída ou nunca existiu	❌ não (falha rápida)
`tls`	`ERR_SSL_` / `ERR_CERT_` — problema transitório no proxy	✅ sim
`network`	`ERR_TUNNEL` / `ERR_CONNECTION_*` / `ERR_ABORTED`	✅ sim
`no-h1`	Página carregada, mas `<h1>` nunca apareceu — página de desafio suave	✅ sim
`timeout`	Tempo limite de navegação excedido `pageTimeoutMs`	✅ sim
`open-browser`	Falha no handshake WSS para Scrapeless	✅ sim
`unknown`	Qualquer outra coisa	✅ sim (padrão)

Cada controle é ajustável

Todos os valores de repetição e espaçamento vivem em ScraperInput — nada é codificado rigidamente. Ajuste-os quando precisar de um rendimento previsível em um plano mais rígido ou mais tentativas agressivas em um alvo mais difícil:

Campo de CONFIG	Padrão	Função
`maxRetries`	`10`	Tentativas totais por produto antes de desistir
`retryInitialBackoffMs`	`3000`	Base da fórmula de retrocesso crescente
`retryBackoffLinearMs`	`1500`	Termo linear
`retryBackoffQuadraticMs`	`500`	Termo quadrático
`interProductDelayMs`	`3000`	Pausa entre enriquecimentos consecutivos de produtos
`pageTimeoutMs`	`60000`	Tempo limite de `page.goto`
`h1TimeoutMs`	`15000`	Tempo limite de `waitForSelector("h1")`
`postLoadDelayMs`	`1500`	Atraso após a aparição do `h1`, antes da extração

O que você recebe de volta

Um objeto JSON plano por produto. Largo de propósito, para que o mesmo scraper atenda a todos os casos de uso subsequentes sem uma segunda passagem.

Primeiro resultado real de uma pesquisa "carteira de couro" executada nesta exata configuração:

json Copy

{
  "listingId": "547491922",

{
"title": "Carteira de Couro•Carteira•Carteira Masculina de Couro•Carteira Minimalista•Carteira Personalizada•Aniversário de Couro•Carteira de Couro Slim•Carteira Masculina",
"url": "https://www.etsy.com/listing/547491922/leather-walletwalletman-leather",
"rank": 1,
"price": 5.52,
"originalPrice": 68.99,
"currency": "R$",
"discountPercent": 92,
"inStock": false,
"rating": 4.9,
"reviewsCount": 929,
"favoritesCount": 850,
"isBestseller": false,
"isFreeShipping": false,
"isStarSeller": true,
"tags": ["Presentes para Damas de Honra", "Presentes para Padrinhos", "Presentes de Casamento", "Presentes de Noivado"],
"materials": [],
"shop": {
"name": "TexasValleyLeather",
"url": "https://www.etsy.com/shop/TexasValleyLeather",
"location": null,
"totalSales": null,
"openedYear": null,
"reviewsCountShop": null
},
"images": [
"https://i.etsystatic.com/15980284/r/il/2456a5/3164786673/il_fullxfull.3164786673_roeh.jpg",
"... 4 mais URLs"
],
"variations": [
{ "name": "Personalização", "options": ["Sim, adicionar gravação", "Não, obrigado"] },
{ "name": "Opção de Cor", "options": ["Castanho", "Preto", "Bege"] }
],
"breadcrumbs": ["Página Inicial", "Bolsas & Carteiras", "Carteiras & Clipe de Dinheiro", "Carteiras"],
"relatedSearches": ["Carteiras de Couro Masculinas", "Carteira Masculina Elegante", "Carteira Bifold Slim Personalizada"],
"listedDate": "15 de Abr, 2026",
"priceBucket": null,
"reviews": [
{
"author": "Liz",
"rating": 0,
"text": "Conforme descrito e enviado rapidamente. Obrigado!",
"date": "12 de Abr, 2026",
"itemQuality": null,
"shipping": null,
"customerService": null,
"photos": []
},
"... 9 mais análises"
],
"error": null,
"scrapedAt": "2026-04-16T17:09:48.919Z"
}
Raspagem de dados disponíveis publicamente para monitoramento de preços e pesquisa é geralmente legal, desde que você respeite os Termos de Uso do Etsy e evite raspar dados pessoais de usuários. Usar Scrapeless garante que sua atividade de raspagem respeite os recursos do servidor através de um gerenciamento de ritmo.

Como o Scrapeless lida com a proteção DataDome do Etsy?

Ao contrário de proxies standard, Scrapeless gerencia toda a impressão digital do navegador e o handshake TLS. Isso torna seu raspador indistinguível de um usuário real, permitindo que você evite a sofisticada detecção de bots do DataDome sem configuração manual para disfarce.

Q1: Um proxy é necessário para raspar o Etsy?

Sim. Sem um proxy residencial, o DataDome rapidamente sinaliza o tráfego de data centers — a combinação de impressão digital e reputação de IP geralmente resulta em bloqueio e solicitações de navegação direta para páginas /listing/ retornam HTTP 403 com uma página de desafio JavaScript. O Scrapeless Scraping Browser vem com proxies residenciais incorporados — cada sessão é roteada através de um IP residencial diferente no país escolhido, verificado em testes por sessões consecutivas e frescas retornando IPs de saída distintos (api.ipify.org probe).

Q2: Como posso ver o que o raspador fez em uma execução anterior?

Cada sessão neste modelo define sessionRecording: "true" na URL WSS, de modo que o Scrapeless salva uma reprodução completa em estilo de vídeo de cada página que o navegador em nuvem acessou — posição de rolagem, estado do DOM e atividade de rede. Encontre as replays em app.scrapeless.com → Scraping Browser → Sessions, e combine pelo valor de sessionName que o raspador registra por tentativa (por exemplo, etsy-enrich-3-2-1713198231047).

Se o painel mostrar "Replay Indisponível — Por favor, habilite 'Gravação da Web' para visualizar as gravações das sessões", ative o toggle Gravação da Web na página de configurações da sua conta Scrapeless. É grátis em todos os planos; está apenas desativado por padrão. Uma vez ativado, todas as futuras sessões gravam automaticamente — sessões anteriores que ocorreram enquanto a gravação estava desligada não podem ser recuperadas retroativamente.

As replays são a forma mais rápida de debugar por que uma linha retornou com title: null. Abra a sessão, role a linha do tempo para o momento em que page.goto foi acionado, e você verá se o servidor retornou uma listagem real, um desafio do DataDome ou um redirecionamento de URL obsoleto.

Q3: Por que as avaliações às vezes carregam via endpoints internos em vez da página?

Listagens mais novas do Etsy carregam alguns lotes de avaliações via solicitações POST internas após a página ter sido renderizada. O raspador lida com isso rolando para a região das avaliações e aguardando — quando o parser é executado, os cards estão no DOM. Para produtos com milhares de avaliações, você obterá as primeiras ~30 (ou o que quer que você defina como maxReviews). Ir mais fundo requer interceptar o endpoint GraphQL diretamente, o que está fora do escopo aqui.

Q4: E sobre redirecionamentos de região e moeda?

O Etsy redireciona por IP para versões localizadas (etsy.de de um IP alemão, etsy.fr de um francês). Preços e strings de moeda diferem por região. A função extractNumber do raspador lida com os formatos 1,234.56 (en-US) e 1.234,56 (de-DE). Se você quiser preços em USD consistentes entre execuções, fixe proxyCountry: "US".

Q5: Como posso filtrar por preço, em promoção, frete grátis ou condição?

Defina qualquer combinação das oito chaves filters.*. Elas se combinam com os modos searchQuery e categoryUrl e são codificadas diretamente na URL do Etsy:

ts Copy

const CONFIG: ScraperInput = {
  categoryUrl: "https://www.etsy.com/c/bags-and-purses/wallets-and-money-clips/wallets",
  filters: {
    onSale: true,           // → &is_on_sale=1
    freeShipping: true,     // → &free_shipping=1
    customizable: true,     // → &is_personalizable=1
    shipsTo: "US",          // → &ships_to=US (código de país ISO)
    minPrice: 20,           // → &min=20
    maxPrice: 60,           // → &max=60
    condition: "vintage",   // "new" | "vintage" (→ &explicit=vintage)
    orderBy: "price_asc",   // "most_relevant" | "date_desc" | "price_asc" | "price_desc" | "highest_reviews"
  },
  // ...
};

Duas advertências que vale a pena saber: filters.minPrice / filters.maxPrice em uma URL /search?q=... é sensível ao DataDome (URLs de pesquisa filtradas são mais rapidamente bloqueadas com 403 do que as não filtradas), então expandStrategy: "prices" agora executa uma única busca ampla e classifica os resultados do lado do cliente através de priceBucket — mesma intenção do usuário, sem bloqueio de URL-filtrada. Na categoryUrl, o filtro de preço funciona normalmente.

Q6: Posso ajustar as tentativas, timeouts e ritmo?

Sim. Cada valor de tentativa e ritmo é um campo de CONFIG em ScraperInput:

Campo	Padrão	Função
`maxRetries`	`10`	Total de tentativas por produto antes de desistir
`retryInitialBackoffMs`	`3000`	Base da fórmula de crescimento de espera
`retryBackoffLinearMs`	`1500`	Termo linear
`retryBackoffQuadraticMs`	`500`	Termo quadrático (rendeu uma progressão de 5 s → 57 s)
`interProductDelayMs`	`3000`	Pausa entre enriquecimentos consecutivos de produtos
`pageTimeoutMs`	`60000`	tempo limite de `page.goto`
`h1TimeoutMs`	`15000`	tempo limite de `waitForSelector("h1")`
`postLoadDelayMs`	`1500`	Atraso após a aparição do `h1`, antes da extração

Planos Scrapeless mais rígidos se beneficiam de um menor interProductDelayMs + menor maxRetries; alvos com anti-bot mais difíceis se beneficiam de valores mais altos em ambos.

Q7: Quais categorias de falha posso esperar?

Cada produto que esgota as tentativas carrega um campo estruturado error: { kind, message, attempts }. Oito tipos categorizados:

blocked — HTTP 403/429 do DataDome ou limitação de taxa (recuperável)
not-found — HTTP 404, listagem desatualizada ou excluída (não recuperável — falha rápida)
tls — ERR_SSL_* / ERR_CERT_* problema de proxy TLS (recuperável)
network — ERR_TUNNEL / ERR_CONNECTION_* / ERR_ABORTED (recuperável)
no-h1 — página carregada, mas <h1> nunca apareceu, provavelmente uma página de desafio DD suave (recuperável)
timeout — tempo limite de navegação excedido (recuperável)
open-browser — falha na handshake WSS com o Scrapeless (recuperável)
unknown — qualquer outra coisa (recuperável por padrão)

O código a jusante pode tratar kind: "not-found" como "descartar esta URL, nunca reencaminhá-la" e kind: "blocked" como "tente esta novamente na próxima hora, quando a janela de reputação do IP do DataDome for redefinida".

Na Scorretless, acessamos apenas dados disponíveis ao público, enquanto cumprem estritamente as leis, regulamentos e políticas de privacidade do site aplicáveis. O conteúdo deste blog é apenas para fins de demonstração e não envolve atividades ilegais ou infratoras. Não temos garantias e negamos toda a responsabilidade pelo uso de informações deste blog ou links de terceiros. Antes de se envolver em qualquer atividade de raspagem, consulte seu consultor jurídico e revise os termos de serviço do site de destino ou obtenha as permissões necessárias.

Artigos mais populares

Como aprimorar o Crawl4AI com o Scrapeless Cloud Browser

Aprenda a integrar o Crawl4AI com o Scrapeless Cloud Browser para uma raspagem web eficiente e em grande escala. Desbloqueie proxies automáticos, impressões digitais personalizadas, reutilização de sessões e depuração em tempo real.

Sophia Martinez

20-Oct-2025

Como aprimorar o Crawl4AI com o Scrapeless Cloud Browser

Servidor MCP sem resíduos está oficialmente no ar! Construa seu Conector AI-Web definitivo.

Descubra como o Servidor Scrapeless MCP fornece aos LLMs capacidades de navegação e raspagem na web em tempo real. Aprenda a construir agentes de IA que pesquisam, extraem e interagem com conteúdo web dinâmico de forma integrada.

Michael Lee

17-Jul-2025

Guia de Ferramentas USPS Sem Scrap: Extração Eficiente e Conformidade de Dados de Remessa para Sistemas B2B

Aprenda a usar a ferramenta Scrapeless USPS para buscar dados de rastreamento estruturados e em tempo real de forma eficiente e em conformidade para plataformas ERP, OMS e SaaS.

Emily Chen

02-Jul-2025

Guia de Ferramentas USPS Sem Resíduos: Extração de Dados de Envio Eficiente e em Conformidade para Sistemas B2B

Catálogo