AI Infrastructure

A plataforma de produção para AI Agents - agnóstica de modelos, na sua infraestrutura. Modelos, hosting, pipeline, stack.

Discutir arquitetura

Uma seleção de mais de 5.000 projetos em 25 anos de desenvolvimento de software

EU AI Act ready

Cada decisão rastreável

Sua infraestrutura

Sem SaaS. Sem vendor lock-in.

EU-first

Sem risco de cloud americana

Por que infraestrutura é o gargalo

A maioria das empresas que pilotam AI Agents não falha por causa do modelo. Os modelos funcionam. Falham por causa da infraestrutura: sem framework de governança, sem Audit Trail, sem isolamento de inquilinos, sem conceito de deployment, sem integração com sistemas existentes.

Um piloto em um notebook não é uma arquitetura de produção. Esta página descreve as tecnologias e configurações concretas que transformam um experimento LLM em um sistema operacional.

Como os componentes individuais de infraestrutura se articulam arquitetonicamente, está detalhado na Arquitetura de Referência de 7 Camadas.

eBook gratuito: Infraestrutura de IA

Build, Buy, Hybrid - infraestrutura em conformidade regulatória com B/B/H-Framework e 7-Layer Reference Architecture.

Baixar grátis

Quatro componentes de infraestrutura

1. LLM Hosting

A camada de modelos. Onde a compreensão linguística acontece.

Cloud-LLMs:

Azure OpenAI (ChatGPT, Claude) - regiões Brasil e UE, DPA da Microsoft
Amazon Bedrock (Claude, Llama, Mistral) - regiões Brasil e UE, DPA da AWS
Google Vertex AI (Gemini) - regiões UE, DPA do Google
Anthropic API (Claude) - com EU Data Processing

Self-Hosted-LLMs:

Llama (Meta) - Open Source, em hardware próprio
Mistral - Open Source, empresa da UE
DeepSeek - Open Source, custo-eficiente
gpt-oss (OpenAI) - Open Weight, Apache 2.0, completamente self-hostável. 120B em uma única H100, 20B em hardware de consumo de 16 GB.

Frameworks de inferência para Self-Hosted:

Ollama - Entrada simples, desenvolvimento local, deployment na borda
vLLM - Production-grade, otimizado para GPU, alto throughput

Híbrido:

Self-Hosted para dados sensíveis (RH, finanças)
Cloud-LLMs para cargas menos críticas (classificação de documentos)
Roteamento automático conforme classificação de dados

A escolha do modelo é uma ponderação entre desempenho, custo, proteção de dados e latência. Assessoramos na seleção e implementamos de forma agnóstica - uma troca de modelo não altera a lógica de negócio. Mais detalhes: Modelos IA em comparação 2026 e LLM Self-Hosting para empresas.

Nossos AI Engineers possuem certificações Microsoft para Azure AI Services. As opções de deployment incluem Microsoft Azure, GCP e infraestrutura completamente self-hosted - a decisão arquitetônica pertence ao cliente, não ao fornecedor.

2. Pipeline RAG

Retrieval Augmented Generation - como agentes acessam o conhecimento empresarial.

Pipeline RAG: Documentos são fragmentados em chunks, armazenados como embeddings no Vector Store, recuperados semanticamente sob consulta e fornecidos ao LLM como contexto

Características de qualidade:

Chunking semântico (por conteúdo, não por número de página)
Enriquecimento de metadados (tipo de documento, versão, escopo de validade)
Busca híbrida (busca vetorial + busca por palavra-chave para precisão)
Citação de fonte em cada resposta (documento, página, parágrafo)
Re-indexação regular quando documentos são alterados

3. Orquestração

O controle de fluxo. Como agentes, sistemas e pessoas trabalham juntos.

Trigger.dev ou Camunda: Motor de workflow open-source. Workflows visuais, integração via API, webhooks. Self-hosted, sem vendor lock-in.
API Gateway: Ponto de entrada unificado. Rate limiting, autenticação, logging, monitoramento.
Sistema de Filas: Processamento assíncrono para processos em lote (fechamento mensal, importação em massa).
Sistema de Eventos: Reação em tempo real a documentos recebidos, mudanças de status, escalações.

A orquestração é a diferença entre "um agente pode fazer algo" e "um agente faz algo de forma confiável em produção". Veja também: Plataformas de orquestração de agentes.

4. Deployment

Onde a infraestrutura roda. Todas as opções com data residency no Brasil ou na UE.

Azure (Brasil e UE)

Azure Kubernetes Service (AKS) para orquestração de containers
Azure SQL / PostgreSQL para dados e Audit Trail
Azure OpenAI para LLM hosting
Regiões: Brazil South (São Paulo), West Europe, Germany West Central

AWS (Brasil e UE)

Amazon EKS para orquestração de containers
Amazon RDS / Aurora PostgreSQL para dados e Audit Trail
Amazon Bedrock para LLM hosting (Claude, Llama, Mistral)
Regiões: sa-east-1 (São Paulo), eu-central-1 (Frankfurt), eu-west-1 (Irlanda)

GCP (Brasil e UE)

Google Kubernetes Engine (GKE) para orquestração de containers
Cloud SQL / AlloyDB para dados e Audit Trail
Vertex AI para LLM hosting
Regiões: southamerica-east1 (São Paulo), europe-west1, europe-west3

Vercel EU + Supabase (Brasil ou UE)

Vercel para frontend e edge functions em data centers UE
Supabase para banco de dados (PostgreSQL), auth e storage
Supabase suporta região sa-east-1 (São Paulo) via AWS - dados permanecem no Brasil
Opção leve de deployment sem infraestrutura Kubernetes própria
Serviços managed com data residency no Brasil ou na UE

Self-Hosted

Docker / Kubernetes em hardware próprio
PostgreSQL com pgvector para dados e busca vetorial
LLMs open-source em GPUs próprias
Total independência do Cloud Act

Híbrido

Combinação conforme classificação de dados e requisitos LGPD (PT: RGPD)
Cargas sensíveis self-hosted, cargas padrão na nuvem
Orquestração unificada em todos os ambientes

Stack Tecnológico

Componente	Tecnologia	Por que
Motor de workflow	Trigger.dev, Camunda	Open source, self-hosted, sem vendor lock-in
Banco de dados	PostgreSQL + pgvector	Enterprise-ready, RLS, busca vetorial integrada
Backend	Python, TypeScript	Comprovados para ML e desenvolvimento de APIs
Frontend	React / Next.js	Para Dashboard, Chat UI, Portal de Auditor
Containers	Docker, Kubernetes	Padrão para nuvem e self-hosted
API	REST, GraphQL	Integração com sistemas existentes
Auth	Supabase Auth / OIDC	Compatível com SSO, integrável com provedores de identidade empresariais
Monitoramento	Prometheus, Grafana	Open source, self-hosted, dashboards em tempo real
Inferência	Ollama, vLLM	Inferência de LLM self-hosted, otimizada para GPU

Governança integrada

A infraestrutura inclui Governance by Design:

Audit Trail no nível de infraestrutura (não apenas no nível de aplicação)
Row-Level Security no nível de banco de dados - Data Residency em detalhe
Criptografia em repouso e em trânsito
RBAC em todos os componentes
Cert-Ready Controls como objetos de dados técnicos

Governança na arquitetura de 7 camadas ->

Acesso ao código-fonte e independência

A infraestrutura opera nos sistemas do cliente - Azure, GCP, AWS ou Self-Hosted. Sem SaaS, sem hosting na Gosign. Acesso completo ao código-fonte, todas as configurações e conjuntos de regras. Stack open-source onde possível. Componentes proprietários apenas nos LLMs - e lá de forma agnóstica.

Após 12-18 meses, você opera a infraestrutura de forma independente.

Aprofundamento no Agent Briefing

Nossa série de artigos para executivos que implementam agentes de IA na empresa.

Infrastructure

Enterprise AI-Infraestrutura Blueprint 2026

Infrastructure

Hosting de IA: EU SaaS, data center europeu ou Self-Hosted?

Infrastructure

LLM Self-Hosting para Enterprise - Azure, GCP, On-Premise

Para aprofundar

Arquitetura

Arquitetura de Referência de 7 Camadas

Como os componentes de infraestrutura se articulam arquitetonicamente - Presentation, Orchestration, Agent, Decision Layer, Model, Integration, Infrastructure.

Ver Arquitetura de Referência ->

Recurso de conhecimento

Blueprint 2026

Onze artigos sobre as decisões de infraestrutura que importam em 2026: modelos de IA, hosting, RAG, orquestração, custos, EU AI Act.

Visão geral -> Modelos IA 2026 ->

Dados

Data Residency

Onde os dados residem, como garantir o isolamento de inquilinos e o que Data Residency significa na prática - com opções no Brasil e na UE.

Data Residency em detalhe ->

Agentes

AI Agents

Document Agents, Workflow Agents, Knowledge Agents - três tipos de agentes para processos empresariais.

Explorar AI Agents ->

Perguntas frequentes sobre AI Infrastructure

Preciso escolher entre nuvem e self-hosted?

Não. A arquitetura suporta deployment híbrido. Você pode processar dados sensíveis em self-hosted e usar serviços de nuvem para cargas menos críticas. As camadas acima da infraestrutura permanecem idênticas.

Quais provedores de nuvem são suportados?

Azure (Brasil e UE), AWS (Brasil e UE), GCP (Brasil e UE), Vercel EU + Supabase (região sa-east-1 São Paulo ou UE), Self-Hosted ou Híbrido. A arquitetura é cloud-agnostisch - trocar de provedor altera apenas o Infrastructure Layer, não a lógica de negócio.

Quais LLMs são suportados?

ChatGPT, Claude, Gemini, Llama, Mistral, DeepSeek, gpt-oss e outros. Modelos open-source ou comerciais. Self-hosted via Ollama ou vLLM - incluindo os modelos open-weight da OpenAI, executáveis completamente na sua infraestrutura.

Preciso de hardware GPU próprio para modelos self-hosted?

Para modelos open-source como Llama, Mistral ou gpt-oss, hardware GPU é necessário. gpt-oss-120B roda em uma única H100, gpt-oss-20B em hardware de consumo de 16 GB. O dimensionamento depende do modelo e da carga de uso. Assessoramos na escolha do hardware.

Qual a diferença entre esta página e a arquitetura de referência?

A arquitetura de referência descreve o padrão arquitetônico - quais camadas existem e por quê. Esta página descreve a implementação concreta - quais tecnologias, quais regiões de nuvem, qual hardware. Arquitetura é o quê, infraestrutura é o como.

Qual infraestrutura se ajusta aos seus requisitos?

Azure (Brasil e UE), AWS (Brasil e UE), GCP, Vercel EU + Supabase, Self-Hosted ou Híbrido. Configuramos conforme suas necessidades.

Agendar reunião