Alexandre Caramaschi

doi:10.2139/ssrn.6460680

SPRINT 9 LANÇADA · 02-MAI-2026v2.9 · OPEN SOURCECIRCUIT BREAKER ATIVOGROQ HEAVY · gpt-oss-120b213/213 TESTES

Orquestrador
multi-LLM em paralelo

Demandas complexas decompostas em waves paralelas entre 8 modelos canônicos com circuit breaker em produção e roteamento health-aware. Outage de provider sai de O(N×50s) para O(3×2s + N×0ms). Opus reservado a architecture e critical_review · Sonnet decompõe a wave 1 · Gemini 2.5 Pro protagonista em code e analysis · Groq Heavy primary em review e code_review.

213

Testes verde

Sprints lançadas

LLMs canônicos

1.474

Chamadas reais

GitHub · 59 commits Ver paralelismo →

Snapshot técnico19/04/2026, 21:45

Última sprintSprint 9 · Resiliência & circuit breaker

Modelos ativos8 aliases · 5 providers

Caps por provideranthropic 40% · google 45% · groq 65%

Decompose canônicoClaude Sonnet 4.6 · wave 1 estável

Review primaryGroq Heavy · sub-segundo + diversifica

ResiliênciaCircuit breaker · 3 falhas → OPEN 90s

Health endpointGET /health 200/503

Suite de testes213/213 verde · ~13s

Total de chamadas1.474 · $255.45

O que o geo-orchestrator faz

Recebe uma demanda em linguagem natural (PT-BR), decompõe em tasks tipadas com dependências, distribui entre 8 modelos canônicos respeitando o cap por provider, executa em waves paralelas com cache semântico e validação por rubrica, grava métricas e custo, e devolve um relatório estruturado.

Sprint atual

Sprint 9

Resiliência & circuit breaker

Suite de testes

213/213

verde · ~13s

Coverage global

53%

novos módulos 70-98%

Sprints lançadas

abr-mai 2026

Linhas Python

13.500

59 commits

LLMs canônicos

5 providers

Calls totais

1.474

$255.45 gastos

Catalog SoT

v2.0

runtime ativo

Stack técnico

Decisões priorizam zero dependência adicional quando possível, padrões da indústria quando necessário e tipagem forte em todas as camadas.

Python 3.12 + httpx async

Cliente HTTP unificado para 5 provedores. Retry exponencial, token bucket, connection pooling.

Pydantic v2

Modelos tipados Task/Plan/TaskResult/ExecutionReport. Validação runtime e serialização JSON.

Click + Rich CLI

Interface com tabelas, spinners, timeline Gantt e output FinOps estruturado.

Catalog YAML SoT

model_catalog.yaml é a fonte única em runtime. Hot-reload via GEO_CATALOG_PATH.

stdlib http.server

/health + /metrics zero-deps. Comando cli.py serve.

Chart.js (dashboard HTML)

Dashboard estático auto-contido. 5 gráficos + KPI cards. Deploy em qualquer servidor estático.

pytest + pytest-cov

213 testes em ~13s (8 novos da suite de resiliência Sprint 9). Coverage 53% global, módulos novos 70-98%.

Circuit Breaker + health-aware routing

Sprint 9: provider em outage abre circuito por 90s; tasks subsequentes pulam em <100ms via registry singleton + degradação TTL local.

GitHub Actions CI

Matriz Python 3.11/3.12 + smoke doctor + Codecov upload + secret_guard pre-commit.

Arquitetura · pipeline de 10 fases

Da demanda em linguagem natural até o relatório estruturado. Cada fase tem responsabilidade única e pode ser substituída isoladamente. Fases determinísticas (sem LLM) reduzem custo e latência; LLMs entram apenas onde raciocínio é necessário.

Demanda em linguagem natural

INPUT

O usuário descreve a tarefa em PT-BR. Pode ser uma frase ou um briefing de 500 palavras com restrições, exemplos e referências.

Prompt Refiner

DETERMINÍSTICO

Pipeline de 3 etapas determinísticas (parse, enrich, optimize). Sem chamada de LLM. Inspirado em HALO (arXiv 2505.13516).

Decompose · Gemini 2.5 Pro

LLM CALL

Gera plano JSON com tasks tipadas e dependências. 1M context aceita briefings longos. Fallback: Sonnet → Opus.

Smart Router · classify_demand

LÓGICA

Classifica tier (SIMPLE/MODERATE/COMPLEX) e marca complexity por task. Define quantos LLMs participarão.

Code-First Gate

DETERMINÍSTICO

Tasks determinísticas (slugify, JSON parse, regex) resolvidas sem LLM. Inspirado em Huryn/Medium. Economia ~30%.

Semantic Cache · Jaccard

DETERMINÍSTICO

Bag-of-words similarity sobre task description. Hit rate ~25%. TTL ajustado por Quality Judge.

Plan Rebalance · cap por provider

LÓGICA

Pré-aloca cada task respeitando PROVIDER_SHARE_CAP. Anthropic ≤ 30%, Google ≤ 55%. Architecture/critical_review hard-pin.

Waves paralelas · asyncio.gather

PARALELO

Tasks independentes executam simultaneamente em waves topológicas. Speedup observado: 2-5x. KPI parallelism_efficiency mede.

Quality Judge · Groq

LLM CALL

Rubrica de 5 dimensões (factual, completude, PT-BR, eficiência, fontes). Verdict APROVADO/RESSALVAS/REPROVADO.

Report + Health + KPIs

OUTPUT

execution_*.json gravado, .kpi_history.jsonl atualizado, /health pollable. Auto-trigger de recalibração se drift.

Code-First Gate

Huryn/Medium

Tasks determinísticas (slugify, JSON parse, regex match) resolvidas sem LLM. Reduz ~30% das chamadas em demandas com componente operacional.

Prompt Refiner

HALO · arXiv 2505.13516

Pipeline de 3 etapas (parse, enrich, optimize) que enriquece a demanda antes de decompor. Aumenta ~25% a qualidade do plano gerado.

Semantic Cache

AFlow · arXiv 2410.10762

Jaccard similarity sobre bag-of-words da task description. Hit rate ~25% em runs repetidos. TTL ajustado pelo Quality Judge.

Smart Router

CASTER · arXiv 2601.19793

Classifica demand tier (SIMPLE/MODERATE/COMPLEX) e marca complexity por task. Define quantos LLMs participam e em qual tier.

Adaptive Decomposer

HALO · arXiv 2505.13516

Macro-plan inicial pode ser detalhado wave-a-wave por demanda complexa. Reduz over-decomposition em demandas simples.

Quality Judge

Anthropic Engineering

LLM-as-Judge com rubrica de 5 dimensões via Groq. Verdict APROVADO/RESSALVAS/REPROVADO ajusta TTL do cache e dispara retry.

Multi-agente em paralelo · waves topológicas

O scheduler agrupa as tasks por dependências em waves e executa cada wave com asyncio.gather(). Tasks independentes na mesma wave rodam simultaneamente em LLMs diferentes — speedup observado em produção: 3-5×.

O fan-out é controlado pelo cap por provider (pré-alocação plan-level). O fan-in passa pelo Quality Judge, que valida e ajusta o TTL do cache.

Fan-out controlado

Decompose gera N tasks. Plan rebalance pré-aloca cada uma respeitando o cap por provider antes da execução. Anthropic ≤ 30%, Google ≤ 55%.

cap por provider

Waves topológicas

DAG das dependências quebrado em níveis. Tasks no mesmo nível executam paralelo. Speedup = soma(durações)/wall_clock — KPI persistido.

parallelism_efficiency

Fan-in com validação

Outputs consolidados passam pelo Quality Judge. Verdict ajusta TTL do cache e pode disparar retry no próximo da fallback chain.

quality_judge_pass_rate

Sequencial vs paralelo · plano de 11 tasks (run #7 produção)

Cenário sequencial (hipotético)

~640s

soma de 11 task durations consecutivas

Paralelo em 4 waves (real)

204s

speedup ~3.2× · custo $0,07

−68% wall clock

8 LLMs canônicos · 5 providers

Cada LLM tem papel definido pelas suas forças. Pós-Sprint 9, Opus está reservado a architecture e critical_review; Sonnet decompõe wave 1 (estabilidade); Gemini 2.5 Pro é protagonista em code, analysis e data_processing; Groq Heavy (gpt-oss-120b) primary em review e code_review com latência sub-segundo.

Anthropic

Claude Opus 4.6

PREMIUM

alias: claude

Context

200K

Input

$15.00

Output

$75.00

Arquiteto-chefe. Reservado a architecture e critical_review pós-rebalanceamento. Não roteado em code/review padrão.

Pontos fortes

architecturedeep_reasoningcritical_review

Primary em

architecturecritical_review

Anthropic

Claude Sonnet 4.6

STANDARD

alias: claude_sonnet

Context

200K

Input

$3.00

Output

$15.00

Tier intermediário Anthropic. Sprint 9 promoveu Sonnet a decomposer canônico (wave 1 estável) e fallback cross-provider em copywriting/code_review. ~80% mais barato que Opus.

Pontos fortes

balanced_reasoningdecompositioncode_reviewwriting_long_form

Primary em

decompositionfallback cross-provider de copywriting, code, code_review

Anthropic

Claude Haiku 4.5

ECONOMY

alias: claude_haiku

Context

200K

Input

$0.80

Output

$4.00

Tier econômico Anthropic. Acionado por downgrade automático em complexity LOW. ~95% mais barato que Opus.

Pontos fortes

fast_inferenceclassificationsummarization

Primary em

fallback de classification, translation, summarization

OpenAI

GPT-4o

STANDARD

alias: gpt4o

Context

128K

Input

$2.50

Output

$10.00

Redator e copywriter principal. Conteúdo longo PT-BR, SEO e textos editoriais com voz humana.

Pontos fortes

long_form_writingcopywritingseo_contenttranslation

Primary em

writingcopywritingseo

Google

Gemini 2.5 Pro

STANDARD

alias: gemini

Context

Input

$1.25

Output

$5.00

Protagonista pós-rebalanceamento em demandas que aproveitam 1M context (code, analysis, data_processing). Sprint 9 cedeu decomposition e review para diversificar — Gemini agora é primary em 3 task types e fallback robusto em outros 11.

Pontos fortes

deep_analysiscode_generationdata_processing

Primary em

codeanalysisdata_processing

Perplexity

Sonar Deep Research

RESEARCH

alias: perplexity

Context

128K

Input

$2.00

Output

$8.00

Pesquisador profundo. Citações verificáveis, web search e fact-check com fontes academicamente rastreáveis.

Pontos fortes

deep_researchlive_searchcitationsfact_check

Primary em

researchfact_check

Groq

Llama 3.3 70B

ECONOMY

alias: groq

Context

131K

Input

$0.59

Output

$0.79

Velocista. Latência sub-segundo, ~10x mais barato que GPT-4o. Triagem em massa, classificação e tradução.

Pontos fortes

ultra_fast_inferenceclassificationtranslationsummarization

Primary em

classificationtranslationsummarization

Groq

GPT-OSS 120B (via Groq)

HEAVY REASON

alias: groq_heavy

Context

131K

Input

$1.50

Output

$2.00

Modelo de raciocínio open-weights na infra Groq. 120B parâmetros, 56 reasoning tokens internos. Sprint 9 promoveu para review primary — velocidade sub-segundo + raciocínio profundo + diversifica provider em wave de revisão.

Pontos fortes

fast_reasoningreviewcode_review_heavystructured_extraction

Primary em

reviewcode_reviewextraction

Concentration cap por provider

O cap é aplicado por família de provider, não por alias. Anthropic (Opus + Sonnet + Haiku) compartilha o mesmo teto de share por run. O método rebalance_plan_assignments() pré-aloca cada task respeitando esses limites antes da execução.

Anthropic40%

Sprint 9 elevou de 30% → 40%. Sonnet/Haiku precisam de espaço para cobrir wave 1 (decomposition voltou para Sonnet) + reviews e fallbacks cross-provider. Inclui Opus+Sonnet+Haiku somados.

OpenAI45%

Capacidade saudável para writing/copywriting/SEO ser primary sem dominar planos analíticos.

Google45%

Sprint 9 reduziu de 55% → 45%. Cap menor diminui o blast radius em outage do provider e força diversidade na fallback chain. 1M context segue protagonizando code, analysis e data_processing.

Perplexity50%

Pesquisa profunda com search fees não pode dominar — 50% protege o budget Perplexity em demandas heavy-research.

Groq65%

Cap mais alto reflete o custo ultra-baixo. Volume permitido é grande em classification/translation/summarization sem riscar o budget. Groq Heavy agora também cobre review primary.

Mapa de roteamento · 17 task types canônicos

Cada tipo de task tem um primary (LLM padrão) e um fallback automático. Quando o primary falha, atinge timeout ou estoura o cap, a fallback chain assume sem perda de tarefa.

Pesquisa · 2Construção · 7Validação · 4Velocidade · 4

Task type	Categoria	Primary	Fallback	Descrição
research	PESQUISA	Perplexity	Gemini	Pesquisa com fontes ao vivo e citações
fact_check	PESQUISA	Perplexity	Gemini	Verificação factual com referências externas
analysis	CONSTRUÇÃO	Gemini	Groq Heavy	Análise estruturada de dados ou texto
data_processing	CONSTRUÇÃO	Gemini	Groq	Processamento de datasets em lote
writing	CONSTRUÇÃO	GPT-4o	Gemini	Conteúdo longo PT-BR com voz editorial
copywriting	CONSTRUÇÃO	GPT-4o	Sonnet	Copy persuasiva e textos comerciais (fallback Sonnet pós-Sprint 9)
seo	CONSTRUÇÃO	GPT-4o	Perplexity	Otimização para mecanismos de busca
code	CONSTRUÇÃO	Gemini	Sonnet	Geração de código de produção
review	VALIDAÇÃO	Groq Heavy	Gemini	Review padrão · Sprint 9 trocou primary para Groq Heavy (rápido + diversifica)
code_review	VALIDAÇÃO	Groq Heavy	Sonnet	Sub-review rápido de código com fallback cross-provider (Sonnet)
architecture	VALIDAÇÃO	Opus	Gemini	Desenho de arquitetura e decisões estruturais
critical_review	VALIDAÇÃO	Opus	Gemini	Validação final crítica antes de release
decomposition	CONSTRUÇÃO	Sonnet	Gemini	Quebra de demanda em plano · Sprint 9 voltou pra Sonnet (wave 1 estável)
extraction	VELOCIDADE	Groq Heavy	Gemini	Extração estruturada de dados não estruturados
classification	VELOCIDADE	Groq	Gemini	Triagem e categorização ultra-rápida
translation	VELOCIDADE	Groq	GPT-4o	Tradução PT-EN, EN-PT e similares
summarization	VELOCIDADE	Groq	Gemini	Resumo executivo de textos longos

Roadmap · 9 sprints lançadas + backlog priorizado

Cada sprint resolveu uma tese específica: fundação CLI, otimização de custo, observabilidade, self-healing, reliability, enterprise readiness, rebalanceamento Gemini-first e — última — resiliência em produção com circuit breaker religado e redistribuição cross-provider. Roadmap atualizado em tempo real com origem de cada decisão.

Timeline · 8 sprints lançadas

De abril a maio de 2026, oito sprints entregaram desde a fundação do CLI até o rebalanceamento Gemini-first com cap por provider.

FOUNDATION2026-04-07● LANÇADA

Sprints 1+2 — Refator CLI v2.0 + Cap 80% real

11 fixes P0/P1 cirúrgicos validados por bateria científica

11 fixes P0/P1 cirúrgicosCap 80% real (era vaporware)Tier interno Claude Opus/Sonnet/HaikuBateria científica com 3 runs comparativosSuite test_integration: 51/51 verde

COST OPTIMIZATION2026-04-07● LANÇADA

Sprint 3 — Tier interno em runtime

Claude Opus → Sonnet → Haiku acionado automaticamente por complexity

src/sanitize.py com path traversal blockDecomposer marca complexity variávelTier interno Claude acionou em runtime pela 1ª vezsrc/kpi_history.py persistido em jsonlDrift alert se 3 runs fora da banda 0.7-1.5x+1

OBSERVABILITY2026-04-07● LANÇADA

Sprint 4 — Recalibração de custo + 2 KPIs

AVG_COST_PER_CALL ajustado + tier_engagement + fallback_save_rate

AVG_COST_PER_CALL recalibrado para incluir tier internodecompose() do orchestrator usa Sonnet em vez de Opus (−80% por chamada)KPI tier_internal_engagement_rate persistidoKPI fallback_chain_save_rate cumulativocli.py dashboard --export csv|json+1

SELF-HEALING2026-04-08● LANÇADA

Sprint 5 — Auto-calibração + KPIs Quality + Replay + Catalog SoT

Loop FinOps fechado com aprendizado de custo a partir do histórico real

RELIABILITY2026-04-08● LANÇADA

Sprint 6 — E2E mockado + Auto-trigger de drift + Doctor + CI

Cobertura ponta-a-ponta sem custo de LLM e health check pollable

tests/test_e2e.py com Pipeline mockadoAuto-trigger de calibração quando drift disparaComando cli.py doctor (6 health checks)GitHub Actions CI workflow (matriz 3.11/3.12)126/126 testes verde (era 117)

ENTERPRISE READY2026-04-08● LANÇADA

Sprint 7 — Catalog runtime + /health + Dashboard HTML

YAML como single source of truth, HTTP pollable e dashboard publicável

LLM_CONFIGS construído em runtime do catalog YAMLServidor HTTP /health + /metrics (stdlib, zero deps)Dashboard HTML estático com Chart.jsSafety threshold do calibrator (rejeita > 5x ou < 0.2x)Backup automático + comando finops calibrate-rollback+2

COST REBALANCE2026-05-02● LANÇADA

Sprint 8 — Rebalanceamento Gemini-first + Groq Heavy ativo

Opus reservado a architecture/critical_review · Gemini protagonista em code/review · Groq Heavy via gpt-oss-120b

TASK_TYPES: code/review primary claude → geminiNovos task types: architecture, critical_review, code_review, decomposition, extractionAlias groq_heavy ativo (default openai/gpt-oss-120b 120B)Cap por PROVIDER (não por nome): anthropic 30%, google 55%, groq 65%rebalance_plan_assignments() pré-aloca o plano respeitando os caps+2

RESILIENCE2026-05-02● LANÇADA

Sprint 9 — Resiliência & circuit breaker em produção

Outage de provider deixa de quebrar a wave · circuit breaker religado · backoff por classe · redistribuição cross-provider

Detalhe técnico por sprint

Cada item entregue com descrição, justificativa, métricas e arquivos tocados.

1+2

Foundation · 2026-04-07

Sprints 1+2 — Refator CLI v2.0 + Cap 80% real

11 fixes P0/P1 cirúrgicos validados por bateria científica

Highlights

11 fixes P0/P1 cirúrgicosCap 80% real (era vaporware)Tier interno Claude Opus/Sonnet/HaikuBateria científica com 3 runs comparativosSuite test_integration: 51/51 verde

Refator do CLI para Orchestrator v2.0

Religação completa do cli.py ao Orchestrator(smart=True).run(), removendo o caminho legado v1.0.

Por que esta decisão

A auditoria identificou que o CLI executava um caminho legacy v1.0 que ignorava SmartRouter, cap 80%, quality gates e semantic cache. Sintoma: 12/12 tarefas de uma execução foram para Claude (100% concentração) e o gasto diário Anthropic atingiu o limite.

−127 linhas20/20 testes verde11 gaps fechados

Cost Optimization · 2026-04-07

Sprint 3 — Tier interno em runtime

Claude Opus → Sonnet → Haiku acionado automaticamente por complexity

Highlights

Downgrade automático Opus → Sonnet → Haiku por complexity

O SmartRouter aplica downgrade dentro da família Claude com base em task.complexity (1-2 → Haiku, 3 → Sonnet, 4-5 → Opus).

Por que esta decisão

Antes desta sprint, toda tarefa Claude ia para Opus (15x mais caro que Haiku). O downgrade economiza até 95% por chamada para tarefas low-complexity (triagem, classificação) sem perda de qualidade perceptível.

Run #5 custo: $0.0727 vs $0.6653 baseline (−89%)Wall clock: 97.5s vs 240.8s (−60%)

Observability · 2026-04-07

Sprint 4 — Recalibração de custo + 2 KPIs

AVG_COST_PER_CALL ajustado + tier_engagement + fallback_save_rate

Highlights

KPI tier_internal_engagement_rate

Mede a percentagem de tarefas Claude que foram roteadas para Sonnet/Haiku em vez de Opus, validando a adoção do downgrade automático.

Por que esta decisão

Sem este KPI, era impossível saber se o tier interno estava de fato operando ou se permanecia adormecido. Run #6 atingiu 50% de adoção, confirmando que o decomposer marca complexity variável e o downgrade dispara.

Self-Healing · 2026-04-08

Sprint 5 — Auto-calibração + KPIs Quality + Replay + Catalog SoT

Loop FinOps fechado com aprendizado de custo a partir do histórico real

Highlights

src/cost_calibrator.py aprende de execution_*.jsonKPI quality_judge_pass_rate (verdicts PT-BR)KPI parallelism_efficiency (speedup vs sequencial)Comando cli.py replay <execution_id>Comando dashboard --since 7d/24h/30dcatalog/model_catalog.yaml v2.0 sincronizadosrc/catalog_loader.py com validator de drift117/117 testes verde (era 97/97)

Auto-calibração adaptativa de AVG_COST_PER_CALL

Novo módulo cost_calibrator.py varre os últimos N execution_*.json, agrupa custos por LLM, filtra outliers e persiste a calibração em .cost_calibration.json.

Por que esta decisão

A Sprint 4 ajustou AVG_COST_PER_CALL manualmente após o drift detectado. Calibrar automaticamente fecha o loop: drift acima ou abaixo da banda saudável é corrigido sem intervenção humana.

MIN_SAMPLE=3Window=30 reportsOutlier filter $0.0001-$5.00

src/cost_calibrator.pysrc/orchestrator.py:_estimate_costsrc/finops.py:pre_execution_check

KPI parallelism_efficiency

Speedup = sum(task_durations) / total_duration. 1.0 = totalmente sequencial; 5.0 = 5 tarefas paralelas perfeitas.

Por que esta decisão

Mede se a decomposição em waves está aproveitando a paralelização. Run #7 atingiu speedup ~3.2x com 11 tarefas em 4 waves.

src/kpi_history.py:compute_parallelism_efficiency

Reliability · 2026-04-08

Sprint 6 — E2E mockado + Auto-trigger de drift + Doctor + CI

Cobertura ponta-a-ponta sem custo de LLM e health check pollable

Highlights

Comando cli.py doctor — 6 health checks

Verifica em uma chamada: api_keys, catalog_consistency, finops_daily, kpi_history freshness, cost_calibration age e drift_detector.

Por que esta decisão

Antes era preciso rodar finops status + dashboard + verificar cost_calibration manualmente. O doctor consolida tudo. Flag --strict faz exit 1 em ATENÇÃO ou CRÍTICO.

cli.py:doctor

Enterprise Ready · 2026-04-08

Sprint 7 — Catalog runtime + /health + Dashboard HTML

YAML como single source of truth, HTTP pollable e dashboard publicável

Highlights

Catalog YAML como Single Source of Truth runtime

build_llm_configs_from_catalog() constrói o dict LLMConfig a partir de catalog/model_catalog.yaml em tempo de import.

Por que esta decisão

Antes o catalog YAML era apenas validador sidecar — drift entre código e documentação era possível. Agora a divergência é impossível.

src/catalog_loader.pysrc/config.pycatalog/model_catalog.yaml

Endpoint HTTP /health + /metrics (stdlib)

Servidor http.server minimal expõe GET /health (200/503), GET /metrics e GET / (docs). Zero dependência adicional.

Por que esta decisão

O cli doctor é reativo. Para load balancers, k8s probes e monitores externos é preciso um endpoint HTTP pollable. stdlib em vez de FastAPI para zero dep.

src/health_server.pycli.py:serve

Cost Rebalance · 2026-05-02

Sprint 8 — Rebalanceamento Gemini-first + Groq Heavy ativo

Opus reservado a architecture/critical_review · Gemini protagonista em code/review · Groq Heavy via gpt-oss-120b

Highlights

TASK_TYPES rebalanceadas — Gemini protagonista em code e review

code e review saíram de primary=claude para primary=gemini. Opus reservado exclusivamente a architecture e critical_review (raciocínio arquitetural ou validação final crítica).

Por que esta decisão

Diagnóstico nos 10 runs anteriores: Opus pegava só 3.7% das tasks por contagem mas concentrava 60% dos custos (single-task de $0,668). Gemini 2.5 Pro tem 1M context e raciocínio comparável a Opus por ~1/15 do custo. Em plano sintético típico (12 tasks), Anthropic caiu de 42% para 17% e Gemini subiu para 50%.

Anthropic share: 42% → 17%Gemini share: 8% → 50%Custo/task crítica: −85%

src/config.py:TASK_TYPESsrc/config.py:FALLBACK_CHAINS

Groq Heavy — alias para modelo de raciocínio na infra Groq

Novo alias groq_heavy controlado via env var GROQ_HEAVY_MODEL. Default ativado: openai/gpt-oss-120b (120B parâmetros, 131K context, 56 reasoning tokens internos).

Por que esta decisão

O Groq Cloud tem modelos de raciocínio (gpt-oss-120b, qwen3-32b) com latência sub-segundo e custo ~100x menor que Opus. Smoke test code review: 0,88s end-to-end, $0,00099/call. Velocidade Groq + raciocínio open-weights = sweet spot para code_review e extraction.

Latência: 0,88sCusto: $0,00099/call~100x mais barato que Opus

src/config.py:LLM_CONFIGS:groq_heavysrc/catalog_loader.py:EXTERNALLY_MANAGED_ALIASES.env:GROQ_HEAVY_MODEL

Concentration cap por PROVIDER (não por alias)

PROVIDER_SHARE_CAP em src/config.py mapeia cada família de provider a um teto de share por run. Anthropic agora soma Opus+Sonnet+Haiku — antes contavam separadamente.

Por que esta decisão

Cap antigo (por nome) deixava Anthropic chegar a 90% facilmente porque Opus, Sonnet e Haiku contavam isolados. Cap por provider é honesto: anthropic 30% força a distribuição entre os 5 provedores. Gemini ganha folga (55%) para ser protagonista em demandas tipicamente analíticas.

src/config.py:PROVIDER_SHARE_CAP

rebalance_plan_assignments — pré-alocação plan-level

Novo método em SmartRouter que pré-aloca cada task do plano respeitando o cap por provider, antes da execução. Move tasks downgradáveis (low/medium primeiro) de provider sobrecarregado para alternativa viável.

Por que esta decisão

Smart_route decidia task por task isoladamente — não enxergava o plano inteiro. Resultado: cap aplicava só pós-fato e podia falhar em runs grandes. A pré-alocação olha as 12 tasks juntas e redistribui antes do pipeline iniciar. Architecture/critical_review são hard-pin (nunca movidos).

src/smart_router.py:rebalance_plan_assignmentssrc/router.py:_planned_assignments

Decompose migrou para Gemini 2.5 Pro

Orchestrator._claude_cfg (legado) agora aponta para gemini. Fallback: gemini → claude_sonnet → claude_opus.

Por que esta decisão

Decomposição é tarefa estruturada (gera JSON). Gemini 2.5 Pro tem janela de 1M tokens (aceita demandas longas sem chunking) e custa ~5x menos em input que Sonnet. Roda 1 vez por execução do Orchestrator — economia se acumula.

src/orchestrator.py:Orchestrator.__init__src/orchestrator.py:DECOMPOSE_SYSTEM

Resilience · 2026-05-02

Sprint 9 — Resiliência & circuit breaker em produção

Outage de provider deixa de quebrar a wave · circuit breaker religado · backoff por classe · redistribuição cross-provider

Highlights

CircuitBreaker integrado de fato no LLMClient (era módulo morto desde Round 3)Backoff por classe de erro: 503/timeout = 1 retry curto (1s); 429 mantém 2/4/8sRouter consulta circuit_breaker_registry e bloqueia providers OPENProvider degradation TTL local da sessão (mark_provider_degraded)Decomposition voltou para Claude Sonnet (wave 1 não pode depender de provider unstable)Review primary virou Groq Heavy (rápido + diversifica)Regra dura nas FALLBACK_CHAINS: top-2 de providers diferentesCaps revisados: anthropic 30→40%, google 55→45%Novo KPI provider_health no .kpi_history.jsonl213/213 testes verde (era 195) · 8 testes novos em test_resilience_outage.py

CircuitBreaker integrado de fato no LLMClient

src/circuit_breaker.py existia completo (310 linhas, CLOSED/OPEN/HALF_OPEN, registry singleton) desde o Round 3 mas nunca foi importado em pipeline.py nem llm_client.py — vaporware. Religado: 3 falhas seguidas em qualquer provider abrem o circuito por 90s; tasks subsequentes raise CircuitBreakerError em ~0ms e caem para o próximo da fallback chain.

Por que esta decisão

Diagnóstico do outage Google de 02-mai: cada task da wave perdia ~50s (rate limiter + 3 retries com backoff 2/4/8s + jitter) antes de descobrir o 503 sustentado. Em wave de 12 tasks paralelas, todas pagavam o custo do zero — overhead O(N) onde deveria ser O(1). Com circuit breaker, só as 3 primeiras descobrem o outage; o restante salta o provider em 0ms.

3 falhas → OPEN por 90sShort-circuit em <100msOutage cost: O(N×50s) → O(3×2s + N×0ms)

src/llm_client.py:get_provider_breakersrc/llm_client.py:query

Backoff inteligente por classe de erro

Antes: 429/500/502/503/504 todos retentavam 3x com backoff 2/4/8s + jitter (até ~14s perdidos). Agora: 5xx e timeout fazem no máximo 1 retry curto de 1s; 429 mantém o exponencial respeitando Retry-After.

Por que esta decisão

503 sustentado não melhora em 14s — esperar é puro desperdício e aumenta o blast radius do outage. 429 é diferente: o servidor está pedindo para diminuir o ritmo, então o backoff longo faz sentido. Separar as classes diminui o tempo cego em outage e mantém comportamento correto em rate limit.

503: 14s → ~1.5s (10x mais rápido pra acionar fallback)429: comportamento preservado

src/llm_client.py:UNAVAILABLE_MAX_RETRIESsrc/llm_client.py:UNAVAILABLE_RETRY_DELAY

Router consulta saúde antes de rotear

Router._is_usable() agora consulta circuit_breaker_registry e o mapa _degraded_until antes de aprovar um LLM. Provider OPEN → bloqueado em todas as próximas tasks da run. Novo método mark_provider_degraded(provider, ttl=120s) permite degradação manual quando há aviso externo (status page, alerta operacional).

Por que esta decisão

Sem sinal cross-task, cada task descobria o outage do zero. Health-aware routing transforma a descoberta da primeira task em conhecimento compartilhado para toda a run. Reduz latência cumulativa em wave paralela e diminui spend em provider quente.

Sinal local + cross-process via registry singletonTTL configurável por provider

src/router.py:_is_usablesrc/router.py:mark_provider_degradedsrc/router.py:clear_degradation

Redistribuição cross-provider · top-2 chain diversity

decomposition voltou para claude_sonnet primary (wave 1 crítica não pode depender de provider unstable). review virou groq_heavy primary (rápido + diversifica). copywriting e code_review ganharam Sonnet como fallback. Regra dura: os 2 primeiros slots de cada FALLBACK_CHAINS[task_type] são de provedores DIFERENTES.

Por que esta decisão

O rebalance da Sprint 8 promoveu Gemini como primary em 5/17 task types e fallback em 11 — ficou 16/17 task types passando por Gemini cedo. Quando Google entrou em outage, 16 caminhos sofreram cascata simultânea. Cross-provider top-2 garante que a primeira queda do primary nunca cai em provider da mesma família.

Decomposition: gemini → claude_sonnet primaryReview: gemini → groq_heavy primaryTop-2 cross-provider: 17/17 chains conformes

src/config.py:TASK_TYPESsrc/config.py:FALLBACK_CHAINS

Caps por provider revisados pós-outage

anthropic 30% → 40% (Sonnet/Haiku precisam de espaço para cobrir wave 1 + reviews). google 55% → 45% (não permitir que um único provider concentre demais e amplifique blast radius). openai 45%, perplexity 50%, groq 65% mantidos.

Por que esta decisão

O cap antigo de 55% para Google deixou Gemini pegar até metade do plano em runs grandes. Quando o provider caiu, isso virou metade do plano em retry/fallback simultâneo. Reduzir para 45% e abrir 10% para Anthropic distribui melhor o risco sem perder a vantagem do 1M context do Gemini onde ele realmente importa.

src/config.py:PROVIDER_SHARE_CAP

Novo KPI provider_health no .kpi_history.jsonl

compute_provider_health() lê o CircuitBreakerRegistry e gera 3 campos novos por entry: provider_health (dict por provider com state, consecutive_failures, totals, health_score), min_provider_health_score (pior provider da run) e providers_open (quantos circuits ficaram OPEN).

Por que esta decisão

Sem KPI de saúde, era impossível rastrear historicamente quem derrubou o pipeline na semana. Agora é trivial: filtrar entries onde providers_open > 0 mostra todos os incidentes, e min_provider_health_score < 0.95 sinaliza degradação progressiva antes do outage explícito.

src/kpi_history.py:compute_provider_healthsrc/kpi_history.py:append_kpi_entry

Suite de testes de resiliência (8 testes novos)

tests/test_resilience_outage.py cobre: breaker abre após threshold, short-circuit em <100ms, backoff curto em 503 (vs longo em 429), router pula provider OPEN, degradação manual com TTL, top-2 cross-provider diversity nas chains. Todos com mocks deterministas.

Por que esta decisão

Antes da Sprint 9 não existia regression test para outage sustentado de provider. Adicionar agora trava o comportamento e garante que futuras mudanças no llm_client/router não regridam o circuit breaker silenciosamente.

8 testes novos213/213 verde (era 195)

tests/test_resilience_outage.pytests/test_integration.py:test_review_routes_to_groq_heavytests/test_integration.py:test_decomposition_routes_to_claude_sonnet

Backlog priorizado · Sprints 9-11

Itens identificados pela análise técnica do orchestrator run #7 (executado pelos próprios 5 LLMs em produção) e pela revisão crítica das sprints anteriores.

P0 · Bloqueia produçãoP1 · Degrada qualidadeP2 · Evolutivo

P0Sprint 91 dia

origem: Crítica gpt4o run #7

Smoke E2E real com budget protegido

Adicionar smoke test E2E gated por env var GEO_E2E_REAL=1 que executa Orchestrator.run() contra APIs reais com budget limitado (ex.: $0.10).

Justificativa

Mocks não capturam contratos de API, latência real, throttling e falhas transientes. Sem ao menos 1 smoke real periódico, regressões silenciosas em providers passam despercebidas até produção.

Critérios de aceitação

›tests/test_e2e_real.py com marker pytest skip se GEO_E2E_REAL != 1
›Demanda mínima (~5 tarefas) com BUDGET_LIMIT=0.10
›CI separado em workflow opcional rodando 1x por semana
›Relatório anexado como artifact

P1Sprint 90.5 dia

origem: Gap #7 (groq t4)

Threshold configurável do Quality Judge

Adicionar QUALITY_JUDGE_MIN_SCORE no config.py (default 0.7) e env var GEO_QUALITY_THRESHOLD. Verdicts abaixo do threshold disparam retry automático.

Justificativa

Hoje o verdict é binário sem ajuste por demanda. Tarefas críticas precisam de threshold mais alto que summarization. Configurabilidade permite adaptar sem fork.

Critérios de aceitação

›Threshold default em src/config.py
›Override por env var GEO_QUALITY_THRESHOLD
›Override por demanda via flag --quality-min 0.85
›QualityScore.passes_threshold(t) método novo
›3 testes cobrindo defaults, override e retry

P1Sprint 90.5 dia

origem: Sprint 7 deferred

Deploy do dashboard HTML em alexandrecaramaschi.com

Pipeline diário que gera o dashboard HTML via cli.py dashboard --html e publica em alexandrecaramaschi.com/geo-orchestrator/dashboard.

Justificativa

O HTML já existe (Sprint 7) mas vive apenas localmente. Publicar dá visibilidade pública dos KPIs reais — substitui screenshots estáticos pelo estado vivo do sistema.

Critérios de aceitação

›GitHub Action diária rodando cli.py dashboard --html
›Upload do HTML para public/geo-orchestrator/dashboard.html
›Link na página /geo-orchestrator
›Cache busting via timestamp na URL

P2Sprint 101 dia

origem: Roadmap empresarial

Endpoint /metrics no formato Prometheus

Adicionar GET /metrics?format=prometheus que serve as métricas em formato exposition compatível com Prometheus scraping.

Justificativa

Empresas que adotam o orchestrator em escala precisam plugar em sua stack de observabilidade existente. Prometheus é o padrão de facto. Custo de implementação é baixo porque os KPIs já existem em jsonl.

Critérios de aceitação

›Conversão de .kpi_history.jsonl para exposition format
›Tipos: counter (calls, errors), gauge (drift, accuracy), histogram (latency)
›Labels por provider e LLM
›Documentação para Grafana scrape config

P2Sprint 101 dia

origem: Roadmap empresarial

Webhook de alerta em drift / budget exceeded

GEO_ALERT_WEBHOOK no .env. Quando drift dispara ou um provider passa de 95% do limite, o orchestrator faz POST com payload estruturado.

Justificativa

Hoje os alertas vivem só nos logs e no doctor sob demanda. Webhook genérico funciona com Slack, Discord, Teams, PagerDuty, etc.

Critérios de aceitação

›Função alert.send_webhook(payload) com retry
›Configuração via GEO_ALERT_WEBHOOK env var
›Templates: drift_detected, budget_exceeded, calibration_failed
›Dedup window para não spammar (30 min)
›3 testes com mock httpx

P2Sprint 113 dias

origem: Roadmap comercial

Suporte a multi-tenant com namespace de KPIs

Adicionar GEO_TENANT env var que prefixa output/, .kpi_history e .cost_calibration por tenant.

Justificativa

Para empacotar o orchestrator como produto SaaS Brasil GEO, precisamos isolar os dados por cliente. Multi-tenant é pré-requisito para a próxima fase comercial.

Critérios de aceitação

›GEO_TENANT define output/${tenant}/ como base
›FinOps limits por tenant
›doctor + dashboard --tenant flag
›Migração: tenant default 'main' para retro-compat
›Documentação de deploy multi-cliente

FinOps & integração

Loop de governança fechado sem intervenção humana: detecta drift, recalibra, aplica safety threshold, faz backup automático e segue. Quatro vias de health check (CLI, HTTP, HTML, recovery) para integrar a qualquer pipeline existente.

Loop FinOps fechado

Detecção → ação corretiva → próxima execução com valores ajustados. Sem dashboard manual.

Custo real persistido

Cada execution_*.json grava cost por LLM, latência, tokens e verdict.

Drift detector

Se 3 runs consecutivos saem da banda 0.7-1.5x, alerta dispara em .kpi_history.jsonl.

Auto-trigger recalibrate

Orchestrator chama recalibrate() varrendo os últimos 30 reports — sem intervenção humana.

Safety threshold

Calibrações > 5x ou < 0.2x do default são rejeitadas e logadas em safety_rejections[].

Backup automático

.cost_calibration.json copiado para .backup.json antes de persistir. cli.py finops calibrate-rollback restaura.

Próximo pre_check usa AVG calibrado

Loop fechado: o run seguinte aplica os custos atualizados sem ação humana.

Comandos de health check

Quatro vias de saúde: síncrona (CLI), assíncrona (HTTP), publicável (HTML) e recuperação manual.

$ cli.py doctor --strict --json

6 health checks (api_keys, catalog, finops, kpi, calibration, drift). Saída humana ou JSON. --strict faz exit 1 — pronto para CI gating.

$ cli.py serve --port 8080

Servidor HTTP stdlib. GET /health (200/503), /metrics (KPI timeseries), / (docs). Bearer token opcional via GEO_HEALTH_TOKEN.

$ cli.py dashboard --html public/dashboard.html

Gera HTML auto-contido com Chart.js. 5 gráficos + KPI cards + tabela dos 10 últimos runs. Deploy em qualquer servidor estático.

$ cli.py finops calibrate-rollback

Restaura .cost_calibration.backup.json se a recalibração mais recente apresentou drift suspeito. Recovery one-shot.

Perguntas frequentes

Dúvidas técnicas e conceituais sobre o geo-orchestrator pós-Sprint 9.

O que mudou na Sprint 9 e por que é importante?

Outage sustentado de Gemini em 02-mai expôs um furo arquitetural: cada task da wave perdia ~50s descobrindo o 503 do zero (rate limiter + 3 retries com backoff 2/4/8s). Em wave de 12 tasks paralelas, isso virava 10 minutos de overhead. A Sprint 9 religou o CircuitBreaker (que existia desde Round 3 mas nunca fora importado), encurtou backoff em 5xx para 1 retry de 1s, fez o router consultar saúde antes de rotear e devolveu decomposition para Claude Sonnet (wave 1 estável). Custo do outage caiu de O(N×50s) para O(3×2s + N×0ms).

Como o circuit breaker funciona em produção?

Um breaker por provider (não por alias). Após 3 falhas consecutivas em qualquer task, o circuito abre por 90s — todas as próximas tasks da run que tentariam o provider raise CircuitBreakerError em <100ms e caem para o próximo da fallback chain instantaneamente. Após 90s, vai para HALF_OPEN: 1 sucesso fecha (CLOSED), 1 falha reabre. O registry é singleton, então o sinal é compartilhado cross-task na mesma run. Cada provider também alimenta um KPI provider_health no .kpi_history.jsonl — auditoria histórica de quem derrubou o pipeline na semana.

Por que Opus saiu de primary em code e review?

Diagnóstico nos 10 runs anteriores mostrou que Opus pegava só 3.7% das tasks por contagem mas concentrava ~60% dos custos (uma única task crítica chegou a $0,668). Gemini 2.5 Pro tem 1M context, raciocínio comparável e custa ~1/15 de Opus. Para code padrão, Gemini venceu o trade-off. Para review, a Sprint 9 promoveu Groq Heavy a primary (sub-segundo + diversifica provider). Opus segue primary em architecture e critical_review — onde cada ponto de qualidade extra justifica o custo.

O que é o cap por provider e como ele difere do cap por nome?

O cap antigo aplicava por alias (claude, claude_sonnet, claude_haiku contavam separadamente), o que deixava Anthropic somar facilmente 90%+ do plano. O novo cap é por família — Anthropic = Opus + Sonnet + Haiku somados. PROVIDER_SHARE_CAP em src/config.py após a Sprint 9: anthropic 40%, openai 45%, google 45%, perplexity 50%, groq 65%. Google reduzido de 55% para 45% diminui o blast radius em outage; Anthropic elevado de 30% para 40% dá espaço para Sonnet decompor + cobrir fallbacks cross-provider.

O que é o Groq Heavy e quando ele entra?

Alias groq_heavy aponta para um modelo de raciocínio na infra Groq — default ativo é openai/gpt-oss-120b (120B parâmetros, 131K context, 56 reasoning tokens internos). Pós-Sprint 9 é primary em review e code_review (rápido + diversifica) e fallback robusto em analysis e extraction. Custo aproximado: $0,001/call. Modelo controlado via env var GROQ_HEAVY_MODEL — pode ser trocado para qwen/qwen3-32b ou outro disponível no Groq Cloud.

Como o paralelismo em waves funciona na prática?

O scheduler topológico ordena as tasks por dependências. Tasks sem dependências entre si vão para a mesma wave e executam simultaneamente via asyncio.gather. Run #7 de produção: 11 tasks em 4 waves, wall clock 204s, soma de durações ~640s — speedup 3,2×. KPI parallelism_efficiency é persistido em .kpi_history.jsonl, permitindo rastrear se decomposições futuras estão aproveitando bem a paralelização. A Sprint 9 garante que outage de provider não escala linearmente o tempo de wave.

Posso usar o orquestrador em produção sem temer custos descontrolados nem outages?

Sim — quatro camadas de proteção: (1) pre_check de budget bloqueia antes de iniciar se a estimativa ultrapassa BUDGET_LIMIT (default $15); (2) cap por provider impede concentração total mesmo quando o budget está disponível; (3) tier interno Claude (Opus → Sonnet → Haiku) reduz custo até 95% para tarefas low-complexity; (4) circuit breaker + redistribuição cross-provider tornam o pipeline resiliente a outage sustentado de qualquer provider individual. Run #7 com Anthropic em 102% do limite diário: 11/11 tasks completas, $0,07, sem falha — fallback chain redirecionou tudo automaticamente.

Como integro em CI/CD?

Três pontos nativos. (1) cli.py doctor --strict retorna exit 1 em qualquer check ATENÇÃO/CRÍTICO — ideal como gate de pipeline. (2) cli.py serve sobe HTTP /health (200/503) e /metrics — pollable por load balancers e k8s liveness probes. (3) cli.py dashboard --html gera HTML auto-contido com Chart.js para deploy em qualquer servidor estático. Bearer token opcional via GEO_HEALTH_TOKEN protege os endpoints. Provider em circuit OPEN aparece em /health como degraded.

Pronto para orquestrar

8 LLMs canônicos em paralelo, cap por provider, governança FinOps automatizada e roadmap público atualizado a cada sprint. Open-source, sem lock-in.

Ver no GitHub Research Dashboard

por Alexandre Caramaschi — CEO da Brasil GEO, ex-CMO da Semantix (Nasdaq), cofundador da AI Brasil

Orquestrador
multi-LLM em paralelo

213

Testes verde

Sprints lançadas

LLMs canônicos

1.474

Chamadas reais

O que o geo-orchestrator faz

Multi-agente em paralelo · waves topológicas

O fan-out é controlado pelo cap por provider (pré-alocação plan-level). O fan-in passa pelo Quality Judge, que valida e ajusta o TTL do cache.

8 LLMs canônicos · 5 providers

Task type

Categoria

Primary

Fallback

research

PESQUISA

Perplexity

Gemini

fact_check

PESQUISA

Perplexity

Gemini

analysis

CONSTRUÇÃO

Gemini

Groq Heavy

data_processing

CONSTRUÇÃO

Gemini

Groq

writing

CONSTRUÇÃO

GPT-4o

Gemini

copywriting

CONSTRUÇÃO

GPT-4o

Sonnet

seo

CONSTRUÇÃO

GPT-4o

Perplexity

code

CONSTRUÇÃO

Gemini

Sonnet

review

VALIDAÇÃO

Groq Heavy

Gemini

code_review

VALIDAÇÃO

Groq Heavy

Sonnet

architecture

VALIDAÇÃO

Opus

Gemini

critical_review

VALIDAÇÃO

Opus

Gemini

decomposition

CONSTRUÇÃO

Sonnet

Gemini

extraction

VELOCIDADE

Groq Heavy

Gemini

classification

VELOCIDADE

Groq

Gemini

translation

VELOCIDADE

Groq

GPT-4o

summarization

VELOCIDADE

Groq

Gemini

Roadmap · 9 sprints lançadas + backlog priorizado

Orquestradormulti-LLM em paralelo

O que o geo-orchestrator faz

Stack técnico

Arquitetura · pipeline de 10 fases

Demanda em linguagem natural

Prompt Refiner

Decompose · Gemini 2.5 Pro

Smart Router · classify_demand

Code-First Gate

Semantic Cache · Jaccard

Plan Rebalance · cap por provider

Waves paralelas · asyncio.gather

Quality Judge · Groq

Report + Health + KPIs

Code-First Gate

Prompt Refiner

Semantic Cache

Smart Router

Adaptive Decomposer

Quality Judge

Multi-agente em paralelo · waves topológicas

Fan-out controlado

Waves topológicas

Fan-in com validação

Sequencial vs paralelo · plano de 11 tasks (run #7 produção)

8 LLMs canônicos · 5 providers

Claude Opus 4.6

Claude Sonnet 4.6

Claude Haiku 4.5

GPT-4o

Gemini 2.5 Pro

Sonar Deep Research

Llama 3.3 70B

GPT-OSS 120B (via Groq)

Concentration cap por provider

Mapa de roteamento · 17 task types canônicos

Roadmap · 9 sprints lançadas + backlog priorizado

Timeline · 8 sprints lançadas

Sprints 1+2 — Refator CLI v2.0 + Cap 80% real

Sprint 3 — Tier interno em runtime

Sprint 4 — Recalibração de custo + 2 KPIs

Sprint 5 — Auto-calibração + KPIs Quality + Replay + Catalog SoT

Sprint 6 — E2E mockado + Auto-trigger de drift + Doctor + CI

Sprint 7 — Catalog runtime + /health + Dashboard HTML

Sprint 8 — Rebalanceamento Gemini-first + Groq Heavy ativo

Sprint 9 — Resiliência & circuit breaker em produção

Detalhe técnico por sprint

Sprints 1+2 — Refator CLI v2.0 + Cap 80% real

Refator do CLI para Orchestrator v2.0

Sprint 3 — Tier interno em runtime

Downgrade automático Opus → Sonnet → Haiku por complexity

Sprint 4 — Recalibração de custo + 2 KPIs

KPI tier_internal_engagement_rate

Sprint 5 — Auto-calibração + KPIs Quality + Replay + Catalog SoT

Auto-calibração adaptativa de AVG_COST_PER_CALL

KPI parallelism_efficiency

Sprint 6 — E2E mockado + Auto-trigger de drift + Doctor + CI

Comando cli.py doctor — 6 health checks

Sprint 7 — Catalog runtime + /health + Dashboard HTML

Catalog YAML como Single Source of Truth runtime

Endpoint HTTP /health + /metrics (stdlib)

Sprint 8 — Rebalanceamento Gemini-first + Groq Heavy ativo

TASK_TYPES rebalanceadas — Gemini protagonista em code e review

Groq Heavy — alias para modelo de raciocínio na infra Groq

Concentration cap por PROVIDER (não por alias)

rebalance_plan_assignments — pré-alocação plan-level

Decompose migrou para Gemini 2.5 Pro

Sprint 9 — Resiliência & circuit breaker em produção

CircuitBreaker integrado de fato no LLMClient

Backoff inteligente por classe de erro

Router consulta saúde antes de rotear

Redistribuição cross-provider · top-2 chain diversity

Caps por provider revisados pós-outage

Novo KPI provider_health no .kpi_history.jsonl

Suite de testes de resiliência (8 testes novos)

Backlog priorizado · Sprints 9-11

Smoke E2E real com budget protegido

Threshold configurável do Quality Judge

Deploy do dashboard HTML em alexandrecaramaschi.com

Endpoint /metrics no formato Prometheus

Orquestrador
multi-LLM em paralelo

Orquestrador
multi-LLM em paralelo