Pular para o conteúdo

AI Infrastructure

A plataforma de produção para AI Agents - agnóstica de modelos, na sua infraestrutura. Modelos, hosting, pipeline, stack.

Uma seleção de mais de 5.000 projetos em 25 anos de desenvolvimento de software

Airbus Volkswagen Shell Renault Evonik Vattenfall Philips KPMG

Por que infraestrutura é o gargalo

A maioria das empresas que pilotam AI Agents não falha por causa do modelo. Os modelos funcionam. Falham por causa da infraestrutura: sem framework de governança, sem Audit Trail, sem isolamento de inquilinos, sem conceito de deployment, sem integração com sistemas existentes.

Um piloto em um notebook não é uma arquitetura de produção. Esta página descreve as tecnologias e configurações concretas que transformam um experimento LLM em um sistema operacional.

Como os componentes individuais de infraestrutura se articulam arquitetonicamente, está detalhado na Arquitetura de Referência de 7 Camadas.

eBook gratuito: Infraestrutura de IA

Build, Buy, Hybrid - infraestrutura em conformidade regulatória com B/B/H-Framework e 7-Layer Reference Architecture.

Baixar grátis

Quatro componentes de infraestrutura

1. LLM Hosting

A camada de modelos. Onde a compreensão linguística acontece.

Cloud-LLMs:

  • Azure OpenAI (ChatGPT, Claude) - regiões Brasil e UE, DPA da Microsoft
  • Amazon Bedrock (Claude, Llama, Mistral) - regiões Brasil e UE, DPA da AWS
  • Google Vertex AI (Gemini) - regiões UE, DPA do Google
  • Anthropic API (Claude) - com EU Data Processing

Self-Hosted-LLMs:

  • Llama (Meta) - Open Source, em hardware próprio
  • Mistral - Open Source, empresa da UE
  • DeepSeek - Open Source, custo-eficiente
  • gpt-oss (OpenAI) - Open Weight, Apache 2.0, completamente self-hostável. 120B em uma única H100, 20B em hardware de consumo de 16 GB.

Frameworks de inferência para Self-Hosted:

  • Ollama - Entrada simples, desenvolvimento local, deployment na borda
  • vLLM - Production-grade, otimizado para GPU, alto throughput

Híbrido:

  • Self-Hosted para dados sensíveis (RH, finanças)
  • Cloud-LLMs para cargas menos críticas (classificação de documentos)
  • Roteamento automático conforme classificação de dados

A escolha do modelo é uma ponderação entre desempenho, custo, proteção de dados e latência. Assessoramos na seleção e implementamos de forma agnóstica - uma troca de modelo não altera a lógica de negócio. Mais detalhes: Modelos IA em comparação 2026 e LLM Self-Hosting para empresas.

Nossos AI Engineers possuem certificações Microsoft para Azure AI Services. As opções de deployment incluem Microsoft Azure, GCP e infraestrutura completamente self-hosted - a decisão arquitetônica pertence ao cliente, não ao fornecedor.

2. Pipeline RAG

Retrieval Augmented Generation - como agentes acessam o conhecimento empresarial.

Pipeline RAG: Documentos são fragmentados em chunks, armazenados como embeddings no Vector Store, recuperados semanticamente sob consulta e fornecidos ao LLM como contexto

Características de qualidade:

  • Chunking semântico (por conteúdo, não por número de página)
  • Enriquecimento de metadados (tipo de documento, versão, escopo de validade)
  • Busca híbrida (busca vetorial + busca por palavra-chave para precisão)
  • Citação de fonte em cada resposta (documento, página, parágrafo)
  • Re-indexação regular quando documentos são alterados

3. Orquestração

O controle de fluxo. Como agentes, sistemas e pessoas trabalham juntos.

  • Trigger.dev ou Camunda: Motor de workflow open-source. Workflows visuais, integração via API, webhooks. Self-hosted, sem vendor lock-in.
  • API Gateway: Ponto de entrada unificado. Rate limiting, autenticação, logging, monitoramento.
  • Sistema de Filas: Processamento assíncrono para processos em lote (fechamento mensal, importação em massa).
  • Sistema de Eventos: Reação em tempo real a documentos recebidos, mudanças de status, escalações.

A orquestração é a diferença entre "um agente pode fazer algo" e "um agente faz algo de forma confiável em produção". Veja também: Plataformas de orquestração de agentes.

4. Deployment

Onde a infraestrutura roda. Todas as opções com data residency no Brasil ou na UE.

Azure (Brasil e UE)

  • Azure Kubernetes Service (AKS) para orquestração de containers
  • Azure SQL / PostgreSQL para dados e Audit Trail
  • Azure OpenAI para LLM hosting
  • Regiões: Brazil South (São Paulo), West Europe, Germany West Central

AWS (Brasil e UE)

  • Amazon EKS para orquestração de containers
  • Amazon RDS / Aurora PostgreSQL para dados e Audit Trail
  • Amazon Bedrock para LLM hosting (Claude, Llama, Mistral)
  • Regiões: sa-east-1 (São Paulo), eu-central-1 (Frankfurt), eu-west-1 (Irlanda)

GCP (Brasil e UE)

  • Google Kubernetes Engine (GKE) para orquestração de containers
  • Cloud SQL / AlloyDB para dados e Audit Trail
  • Vertex AI para LLM hosting
  • Regiões: southamerica-east1 (São Paulo), europe-west1, europe-west3

Vercel EU + Supabase (Brasil ou UE)

  • Vercel para frontend e edge functions em data centers UE
  • Supabase para banco de dados (PostgreSQL), auth e storage
  • Supabase suporta região sa-east-1 (São Paulo) via AWS - dados permanecem no Brasil
  • Opção leve de deployment sem infraestrutura Kubernetes própria
  • Serviços managed com data residency no Brasil ou na UE

Self-Hosted

Híbrido

  • Combinação conforme classificação de dados e requisitos LGPD (PT: RGPD)
  • Cargas sensíveis self-hosted, cargas padrão na nuvem
  • Orquestração unificada em todos os ambientes

Stack Tecnológico

Componente Tecnologia Por que
Motor de workflowTrigger.dev, CamundaOpen source, self-hosted, sem vendor lock-in
Banco de dadosPostgreSQL + pgvectorEnterprise-ready, RLS, busca vetorial integrada
BackendPython, TypeScriptComprovados para ML e desenvolvimento de APIs
FrontendReact / Next.jsPara Dashboard, Chat UI, Portal de Auditor
ContainersDocker, KubernetesPadrão para nuvem e self-hosted
APIREST, GraphQLIntegração com sistemas existentes
AuthSupabase Auth / OIDCCompatível com SSO, integrável com provedores de identidade empresariais
MonitoramentoPrometheus, GrafanaOpen source, self-hosted, dashboards em tempo real
InferênciaOllama, vLLMInferência de LLM self-hosted, otimizada para GPU

Governança integrada

A infraestrutura inclui Governance by Design:

  • Audit Trail no nível de infraestrutura (não apenas no nível de aplicação)
  • Row-Level Security no nível de banco de dados - Data Residency em detalhe
  • Criptografia em repouso e em trânsito
  • RBAC em todos os componentes
  • Cert-Ready Controls como objetos de dados técnicos

Governança na arquitetura de 7 camadas ->

Acesso ao código-fonte e independência

A infraestrutura opera nos sistemas do cliente - Azure, GCP, AWS ou Self-Hosted. Sem SaaS, sem hosting na Gosign. Acesso completo ao código-fonte, todas as configurações e conjuntos de regras. Stack open-source onde possível. Componentes proprietários apenas nos LLMs - e lá de forma agnóstica.

Após 12-18 meses, você opera a infraestrutura de forma independente.

Para aprofundar

Arquitetura

Arquitetura de Referência de 7 Camadas

Como os componentes de infraestrutura se articulam arquitetonicamente - Presentation, Orchestration, Agent, Decision Layer, Model, Integration, Infrastructure.

Ver Arquitetura de Referência ->

Recurso de conhecimento

Blueprint 2026

Onze artigos sobre as decisões de infraestrutura que importam em 2026: modelos de IA, hosting, RAG, orquestração, custos, EU AI Act.

Dados

Data Residency

Onde os dados residem, como garantir o isolamento de inquilinos e o que Data Residency significa na prática - com opções no Brasil e na UE.

Data Residency em detalhe ->

Agentes

AI Agents

Document Agents, Workflow Agents, Knowledge Agents - três tipos de agentes para processos empresariais.

Explorar AI Agents ->

Perguntas frequentes sobre AI Infrastructure

Preciso escolher entre nuvem e self-hosted?

Não. A arquitetura suporta deployment híbrido. Você pode processar dados sensíveis em self-hosted e usar serviços de nuvem para cargas menos críticas. As camadas acima da infraestrutura permanecem idênticas.

Quais provedores de nuvem são suportados?

Azure (Brasil e UE), AWS (Brasil e UE), GCP (Brasil e UE), Vercel EU + Supabase (região sa-east-1 São Paulo ou UE), Self-Hosted ou Híbrido. A arquitetura é cloud-agnostisch - trocar de provedor altera apenas o Infrastructure Layer, não a lógica de negócio.

Quais LLMs são suportados?

ChatGPT, Claude, Gemini, Llama, Mistral, DeepSeek, gpt-oss e outros. Modelos open-source ou comerciais. Self-hosted via Ollama ou vLLM - incluindo os modelos open-weight da OpenAI, executáveis completamente na sua infraestrutura.

Preciso de hardware GPU próprio para modelos self-hosted?

Para modelos open-source como Llama, Mistral ou gpt-oss, hardware GPU é necessário. gpt-oss-120B roda em uma única H100, gpt-oss-20B em hardware de consumo de 16 GB. O dimensionamento depende do modelo e da carga de uso. Assessoramos na escolha do hardware.

Qual a diferença entre esta página e a arquitetura de referência?

A arquitetura de referência descreve o padrão arquitetônico - quais camadas existem e por quê. Esta página descreve a implementação concreta - quais tecnologias, quais regiões de nuvem, qual hardware. Arquitetura é o quê, infraestrutura é o como.

Qual infraestrutura se ajusta aos seus requisitos?

Azure (Brasil e UE), AWS (Brasil e UE), GCP, Vercel EU + Supabase, Self-Hosted ou Híbrido. Configuramos conforme suas necessidades.

Agendar reunião