🥳Junte-se à Comunidade Scrapeless e reivindique sua avaliação gratuita para acessar nossa poderosa ferramenta de raspagem da web!

Scrapeless x N8N

Construindo um Pipeline de Dados Web Potencializado por IA com n8n, Scrapeless e Claude

Não é necessário cartão de crédito
Construindo um Pipeline de Dados da Web Alimentado por IA com n8n, Scrapeless e Claude

Introdução

No panorama atual orientado por dados, as organizações precisam de maneiras eficientes para extrair, processar e analisar conteúdo da web. A raspagem de sites tradicional enfrenta inúmeros desafios: proteções anti-bot, renderização complexa em JavaScript e a necessidade de manutenção constante. Além disso, dar sentido a dados web não estruturados requer processamento sofisticado.

Este guia demonstra como construir um pipeline completo de dados da web usando automação de fluxo de trabalho n8n, raspagem da web com Scrapeless, CLAUDE AI para extração inteligente e banco de dados de vetores Qdrant para armazenamento semântico. Quer você esteja construindo uma base de conhecimento, conduzindo pesquisas de mercado ou desenvolvendo um assistente de IA, este fluxo de trabalho fornece uma base poderosa.

O que você irá construir

Nosso fluxo de trabalho n8n combina várias tecnologias de ponta:

  • Scrapeless Web Unlocker: Raspagem avançada da web com renderização em JavaScript
  • Claude 3.7 Sonnet: Extração de dados e estruturação com IA
  • Ollama Embeddings: Geração de embeddings de vetores local
  • Banco de Dados de Vetores Qdrant: Armazenamento e recuperação semântica
  • Sistema de Notificação: Monitoramento em tempo real via webhooks

Este pipeline de ponta a ponta transforma dados web desorganizados em informações estruturadas e vetorizadas, prontas para busca semântica e aplicativos de IA.
Construindo um Pipeline de Dados da Web Potencializado por IA com n8n, Scrapeless e Claude

Instalação e Configuração

Instalando o n8n

O n8n requer Node.js v18, v20 ou v22. Se você encontrar problemas de compatibilidade de versão:

Copy
# Verifique sua versão do Node.js
node -v

# Se você tiver uma versão mais recente não suportada (por exemplo, v23+), instale o nvm
curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.5/install.sh | bash
# Ou para Windows, use o instalador NVM para Windows

# Instale uma versão compatível do Node.js
nvm install 20

# Use a versão instalada
nvm use 20

# Instale o n8n globalmente
npm install n8n -g

# Execute o n8n
n8n

Sua instância do n8n agora deve estar disponível em http://localhost:5678.

Configurando a API do Claude

  1. Visite o Console da Anthropic e crie uma conta
  2. Navegue até a seção Chaves da API
  3. Clique em "Criar Chave" e defina as permissões apropriadas
  4. Copie sua chave da API para uso no fluxo de trabalho n8n (no Verificador de Dados de IA, Extrator de Dados do Claude e Agente de IA Claude)
Configurando a API do Claude

Configurando o Scrapeless

  1. Visite Scrapeless e crie uma conta
  2. Navegue até a seção API Universal de Raspagem em seu painel https://app.scrapeless.com/exemple/overview
Configurando o Scrapeless
  1. Copie seu token para uso no fluxo de trabalho n8n
Copie seu token para uso no fluxo de trabalho n8n

Você pode personalizar sua solicitação de raspagem da web do Scrapeless usando este comando curl e importá-lo diretamente no nó de Solicitação HTTP no n8n:

Copy
curl -X POST "https://api.scrapeless.com/api/v1/unlocker/request" \
  -H "Content-Type: application/json" \
  -H "x-api-token: scrapeless_api_key" \
  -d '{
    "actor": "unlocker.webunlocker",
    "proxy": {
      "country": "ANY"
    },
    "input": {
      "url": "https://www.scrapeless.com",
      "method": "GET",
      "redirect": true,
      "js_render": true,
      "js_instructions": [{"wait":100}],
      "block": {
        "resources": ["image","font","script"],
        "urls": ["https://example.com"]
      }
    }
  }'
Você pode personalizar sua solicitação de raspagem da web do Scrapeless

Instalando o Qdrant com Docker

Copy
# Puxe a imagem do Qdrant
docker pull qdrant/qdrant

# Execute o contêiner Qdrant com persistência de dados
docker run -d \
  --name qdrant-server \
  -p 6333:6333 \
  -p 6334:6334 \
  -v $(pwd)/qdrant_storage:/qdrant/storage \
  qdrant/qdrant

Verifique se o Qdrant está rodando:

Copy
curl http://localhost:6333/healthz

Instalando o Ollama

macOS:

Copy
brew install ollama

Linux:

Copy
curl -fsSL https://ollama.com/install.sh | sh

Windows: Baixe e instale a partir do site do Ollama.

Inicie o servidor Ollama:

Copy
ollama serve

Instale o modelo de embedding necessário:

Copy
ollama pull all-minilm

Verifique a instalação do modelo:

Copy
ollama list

Configurando o Fluxo de Trabalho n8n

Visão Geral do Fluxo de Trabalho

Nosso fluxo de trabalho consiste nestes componentes principais:

  1. Gatilho Manual/Agendado: Inicia o fluxo de trabalho
  2. Verificação da Coleção: Verifica se a coleção do Qdrant existe
  3. Configuração da URL: Define a URL e parâmetros alvo
  4. Solicitação Web do Scrapeless: Extrai o conteúdo HTML
  5. Extração de Dados do Claude: Processa e estrutura os dados
  6. Embeddings do Ollama: Gera embeddings vetoriais
  7. Armazenamento do Qdrant: Salva vetores e metadados
  8. Notificação: Envia atualizações de status via webhook

Etapa 1: Configurar o Gatilho do Workflow e Verificação da Coleção

Comece adicionando um nó de Gatilho Manual, em seguida adicione um nó de Requisição HTTP para verificar se sua coleção do Qdrant existe. Você pode personalizar o nome da coleção nesta etapa inicial - o workflow criará automaticamente a coleção se ela não existir.

Nota Importante: Se você quiser usar um nome de coleção diferente do padrão "hacker-news", certifique-se de alterá-lo consistentemente em TODOS os nós que referenciam o Qdrant.

Etapa 2: Configurar Requisição Web Scrapeless

Adicione um nó de Requisição HTTP para scraping web Scrapeless. Configure o nó usando o comando curl fornecido anteriormente como referência, substituindo YOUR_API_TOKEN pelo seu token de API Scrapeless real.

Você pode configurar parâmetros de scraping mais avançados em Scrapeless Web Unlocker.

Etapa 3: Extração de Dados do Claude

Adicione um nó para processar o conteúdo HTML usando o Claude. Você precisará fornecer sua chave de API do Claude para autenticação. O extrator Claude analisa o conteúdo HTML e retorna dados estruturados em formato JSON.

Etapa 4: Formatar Saída do Claude

Este nó pega a resposta do Claude e a prepara para vetorização, extraindo as informações relevantes e formatando-as adequadamente.

Etapa 5: Geração de Embeddings do Ollama

Este nó envia o texto estruturado para o Ollama para a geração de embeddings. Certifique-se de que seu servidor Ollama esteja em execução e que o modelo all-minilm esteja instalado.

Etapa 6: Armazenamento de Vetores do Qdrant

Este nó pega os embeddings gerados e os armazena na sua coleção do Qdrant junto com os metadados relevantes.

Etapa 7: Sistema de Notificação

O último nó envia uma notificação com o status da execução do workflow via seu webhook configurado.

Solução de Problemas Comuns

Problemas de Versão do Node.js no n8n

Se você ver um erro como:

Copy
Sua versão do Node.js X não é suportada pelo n8n.  
Por favor, use Node.js v18.17.0 (recomendado), v20 ou v22!  

Corrija instalando o nvm e usando uma versão compatível do Node.js conforme descrito na seção de configuração.

Problemas de Conexão da API Scrapeless

  • Verifique se seu token de API está correto
  • Verifique se você está atingindo os limites de taxa da API
  • Certifique-se de que a formatação da URL está correta

Erros de Embedding do Ollama

Erro comum: connect ECONNREFUSED ::1:11434

Correções:

  • Certifique-se de que o Ollama está em execução: ollama serve
  • Verifique se o modelo está instalado: ollama pull all-minilm
  • Use o IP direto (127.0.0.1) em vez de localhost
  • Verifique se outro processo está usando a porta 11434

Cenários de Uso Avançados

Processamento em Lote de Múltiplas URLs

Para processar várias URLs em uma execução de workflow:

  1. Use um nó Dividir em Lotes para processar URLs em paralelo
  2. Configure um tratamento de erros adequado para cada lote
  3. Use o nó Mesclar para combinar resultados

Atualizações de Dados Programadas

Mantenha seu banco de dados vetorial atualizado com atualizações programadas:

  1. Substitua o gatilho manual por um nó de Programação
  2. Configure a frequência de atualização (diária, semanal, etc.)
  3. Use o nó Se para processar apenas conteúdo novo ou alterado

Modelos de Extração Personalizados

Adapte a extração do Claude para diferentes tipos de conteúdo:

  1. Crie prompts específicos para artigos de notícias, páginas de produtos, documentação, etc.
  2. Use o nó Alternar para selecionar o prompt apropriado
  3. Armazene os modelos de extração como variáveis de ambiente

Conclusão

Este workflow do n8n cria um poderoso pipeline de dados combinando as forças do scraping web Scrapeless, extração de IA do Claude, embeddings vetoriais e armazenamento do Qdrant. Ao automatizar esses processos complexos, você pode se concentrar em usar os dados extraídos em vez dos desafios técnicos de obtê-los.

A natureza modular do n8n permite que você expanda este workflow com etapas adicionais de processamento, integração com outros sistemas ou lógica personalizada para atender às suas necessidades específicas. Seja construindo uma base de conhecimento em IA, realizando análises competitivas ou monitorando conteúdo web, este workflow fornece uma base sólida.

Na Scorretless, acessamos apenas dados disponíveis ao público, enquanto cumprem estritamente as leis, regulamentos e políticas de privacidade do site aplicáveis. O conteúdo deste blog é apenas para fins de demonstração e não envolve atividades ilegais ou infratoras. Não temos garantias e negamos toda a responsabilidade pelo uso de informações deste blog ou links de terceiros. Antes de se envolver em qualquer atividade de raspagem, consulte seu consultor jurídico e revise os termos de serviço do site de destino ou obtenha as permissões necessárias.

Nesta página