BMAD-METHOD vs AIOX: comparação técnica de frameworks de orquestração de agentes
BMAD-METHOD e AIOX não são frameworks intercambiáveis. BMAD modela QUEM faz (persona-based dev-lifecycle, ~8 agentes em 6 bounded contexts). AIOX modela ONDE o trabalho vive (compositional cross-domain, 473 agentes em 53 squads, 8 layers). Comparação técnica honesta com números do bench 5-way: BMAD vs Paperclip vs GSD-2 vs CrewAI vs GSD-1, todas as 10 dimensões analisadas, scorecard quantitativo e composite ideal sintetizado.
Principais conclusões
- 01BMAD-METHOD score SINKRA 82/100 (MAP-READY) e AIOX é o framework de referência do mesmo bench. Categorias diferentes, não é ranking direto.
- 02BMAD = ~8 agentes nomeados em 6 bounded contexts (persona-based). AIOX = 473 agentes em 53 squads e 8 layers (compositional cross-domain). Escala distinta reflete escopo distinto.
- 03BMAD tem o que AIOX não tem: Party Mode, Module Ecosystem (BMM/BMB/TEA/BMGD/CIS), Scale-Adaptive Planning, Information Density Discipline, bmad-help routing.
- 04AIOX tem o que BMAD não tem: Constitution de 322 linhas com 11 artigos, Agent Authority Matrix com exclusive ops, Multi-tenant L0-L4 (4 negócios), 53 squads cross-domain.
- 05O Composite Ideal sintetiza: Governança (AIOX) + Infrastructure (Paperclip) + Engine de execução (GSD-2) + API de composição (CrewAI) + Metodologia (BMAD) + Segurança (GSD-1) = ~90 práticas. Nenhum framework atual tem mais que 28.
BMAD-METHOD tirou 82/100 no bench SINKRA 5-way, empatado com Paperclip no topo. AIOX é o framework de referência do mesmo bench. E ainda assim, dizer que um substitui o outro é categoria errada.
Do ponto de vista de sistemas, BMAD e AIOX resolvem problemas adjacentes que parecem o mesmo problema. Esse "parecem" é a primeira armadilha. Este artigo compara os dois com números do bench interno, verificáveis em docs/bench/agent-orchestration-5way/, contra os outros três frameworks do estudo: Paperclip, GSD-2 e CrewAI. Quando faz sentido, GSD-1 entra na tabela. Não é ranking. É leitura técnica honesta.
A pergunta errada vs a pergunta certa
A pergunta por trás da pergunta é simples. O usuário escreve "BMAD vs AIOX" e quer um vencedor cravado. Esse instinto é o erro.
BMAD-METHOD é, por design, um método de desenvolvimento. Otimiza o ciclo clássico de produto: PM levanta requisito, Architect modela, Dev implementa, QA valida. Os ~8 agentes nomeados (Mary, John, Winston, Amelia, Sally, Murat) cobrem essas fases. A orquestração é pipeline com Quick Flow alternativo.
AIOX é um framework de orquestração cross-domain. 473 agentes em 53 squads cobrem dev, design, copy, legal, finops, brand, data, ads. Os 8 layers (Business, Execution, Product, Services, Infrastructure, Framework, Governance, Evolution) modelam onde o trabalho vive, não quem faz.
Tese curta: BMAD modela quem faz. AIOX modela onde o trabalho vive. Tratar os dois como produtos competindo no mesmo mercado ignora que a unidade de problema é diferente.
| Identidade | BMAD-METHOD | AIOX/SINKRA |
|---|---|---|
| Versão | v6.2.2 | v2.1 |
| Licença | MIT | Privada |
| Stack | JavaScript | TypeScript + Python + Shell + YAML |
| Agentes | ~8 personas | 473 agentes em 53 squads |
| Bounded contexts / Layers | 6 bounded contexts | 8 layers |
| Padrão de orquestração | Pipeline + Quick Flow | SINKRA composicional |
| i18n | FR + ZH + VI | pt-BR |
| SINKRA score | 82/100 (MAP-READY) | Framework de referência |
BMAD-METHOD em arquitetura: 6 bounded contexts, 8 personas
Instalação: npx bmad-method install. Docs em docs.bmad-method.org (Astro). Comunidade no Discord. Repositório em github.com/bmad-code-org/BMAD-METHOD.
O modelo de agente é persona-based. Aproximadamente 8 personas nomeadas, cada uma cobrindo uma fase do ciclo de produto. Configuração via Markdown skills mais YAML manifests. Pipeline canônico para projetos completos. Quick Flow para escopos reduzidos.
Métricas verificáveis no bench: 15 quality gates (todos com numeric thresholds, 5 com veto power), 6 bounded contexts, 35 business rules em 8 famílias, 10/10 nos 10 Mandamentos SINKRA, compliance META_AXIOMAS de 78,3%. Best Meta-Axiomas (7,83/10) e infrastructure mapping completo (10/10) entre os cinco analisados.
| Prática exclusiva BMAD | Efeito prático |
|---|---|
| Party Mode | Múltiplas personas colaboram em sessão única (brainstorm, roundtable) |
| Scale-Domain-Adaptive planning | Auto-ajusta profundidade do plano pela complexidade detectada |
| Module Ecosystem (BMM, BMB, TEA, BMGD, CIS) | Extensibilidade documentada por domínio |
| bmad-help routing agent | Context-aware "o que vem a seguir" |
| Information density discipline | Micro-arquivos com densidade obrigatória de artefato |
O que BMAD não cobre: governance constitucional, agent authority matrix, multi-tenant isolation, cross-domain (design, copy, legal). Não tenta cobrir. Frameworks liberam, dogmas aprisionam: BMAD optou por escopo bem definido e bem feito.
AIOX em arquitetura: 8 layers, 53 squads, 473 agentes
Stack TypeScript + Python + Shell + YAML. Privado, sob 4 negócios na mesma governança. Comece em aioxsquad.ai para a vista pública.
O modelo de agente é compositional. 473 agentes em 53 squads. Cada squad é uma unidade SINKRA com regras, tasks, workflows, skills e quality gates próprios. Os squads se compõem nos 8 layers: um squad de design opera no L2-tactical, um squad de produto no L3-product, governance no L7-governance.
Métricas verificáveis no mesmo bench: 15+ quality gates por squad, 8 layers, 100+ business rules em 15+ famílias, 28 práticas distintas de orquestração (a maior contagem entre todos os frameworks comparados) e 16 práticas exclusivas (também a maior do conjunto).
| Prática exclusiva AIOX | Efeito prático |
|---|---|
| Constitution de 322 linhas | 11 artigos não-negociáveis enforçados via hooks; bloqueia push em violação |
| Agent Authority Matrix | Exclusive ops: só @devops dá push; só @db-sage roda migrations; só @architect aprova arquitetura |
| Multi-tenant isolation L0-L4 | 4 negócios isolados via CODEOWNERS por path; dados não vazam entre tenants |
| 53 squads cross-domain | Design-system, copy, brand, movement, legal, data, finops, c-level, mais 40+ |
| SYNAPSE 8-layer context | Context engine com domínios, brackets adaptativos e governança de TTL |
O que AIOX não cobre: open-source, comunidade pública, módulos plug-and-play estilo BMAD, Party Mode multi-agent em sessão única, scale-adaptive planning automático.
Definição de agente, modelo de tarefa e padrões de orquestração
Aqui o bench fica picante. Cinco frameworks. Decisões de design diferentes. Olha a tabela primeiro:
| Prática | BMAD | Paperclip | GSD-2 | CrewAI | GSD-1 | AIOX |
|---|---|---|---|---|---|---|
| Personas nomeadas | ~8 fixas | Dinâmicas (CEO, CTO, IC) | 1 + dispatch | YAML (role + goal + backstory) | 3 (Plan, Exec, Verify) | 473 |
| Dynamic agent creation | Não | Sim, runtime | Não | Sim, YAML/code | Não | Squad scaffolding (não runtime) |
| Anatomia de task | Story template implícito | Issue schema | 8 campos state-derived | 6 campos Pydantic | Plan must-haves | 8 campos obrigatórios |
| Pre/post conditions por task | Readiness gate | Status transitions | 15/15 tasks | Por task | Phase completeness | Todas as tasks |
| Pipeline padrão | Step-files JIT | Status machine | Dispatch table | Sequential default | Phase sequence | Workflow definitions |
| Hierarquia/delegação | Gates entre fases | Org chart reportsTo | Sem hierarquia | Manager Agent + delegation | Sem delegação nativa | Chief delegation paralela |
| Modo autônomo | Não (humano dirige) | 24/7 autônomo | gsd auto walk-away | Apenas kickoff | /gsd autonomous | Runner-based |
| Conditional tasks / DAG | Quick Flow alt-path | Routing por prioridade | DAG validado, 0 ciclos | ConditionalTask + topological sort | Gate branching | Conditional edges em DAG |
Quem lidera onde? CrewAI cravou em modelo de task (6 campos Pydantic com expected_output validation). GSD-2 cravou em DAG validado e dispatch table state-derived. Paperclip cravou em hierarquia organizacional com reportsTo. AIOX cravou em escala de agentes (473) e composição cross-squad. BMAD não cravou em nenhuma dessas dimensões isoladas, mas integrou os elementos com disciplina de Information Density. Cada decisão reflete o problema que cada framework resolve.
A matriz exaustiva com 60+ práticas comparadas aprofunda dimensão por dimensão.
Comunicação, handoff e gerência de contexto
Em pipelines longos, contexto é o calcanhar de Aquiles. Context rot mata produtividade. Cada framework escolheu uma estratégia diferente.
| Capacidade | BMAD | Paperclip | GSD-2 | CrewAI | GSD-1 | AIOX |
|---|---|---|---|---|---|---|
| Mecanismo de handoff | Artefatos em _bmad-output/ | REST API + Published Language | Filesystem state (.gsd/) | Objetos in-process + context | .planning/ artifacts | Handoff artifacts formais |
| Cross-domain handoff | Implícito via artifacts | ACL para plugins/routines | State-derived | Task context chain | STATE.md updates | QG-CROSS-01 enforçado |
| Persistência de contexto | Filesystem | PostgreSQL | SQLite + filesystem | In-memory + ChromaDB opcional | Filesystem | Workspace L0-L4 + outputs/ |
| Frescor de contexto | Refresh manual | Heartbeat-driven | Sessão fresca por unit | Sem freshness explícita | STATE.md sync | TTL governance (5 layers) |
| Knowledge / RAG | Sem | Sem | Sem | Knowledge + RAG (ChromaDB) | Sem | Document Registry parcial |
| Memória persistente | Por artefato | Por DB | DB + filesystem | Short/Long/Entity memory | Filesystem-based | Journey-log |
| Janela de contexto | Step-files (implícito) | Sem gestão explícita | Sessão limpa entre units | Summarize on overflow | Context rot mitigation | Skill boundaries (parcial) |
GSD-2 cravou em frescor: sessão limpa por unit é prevenção estrutural de context rot. CrewAI cravou em memória de três camadas (Short/Long/Entity) e RAG embarcado. AIOX cravou em TTL governance: cada layer L0-L4 tem TTL definido (365d/90d/60d/30d/7d) e validador roda em pre-push. BMAD usa step-files just-in-time, que é uma forma sutil de gestão de janela. Cada um pega um pedaço do problema. Nenhum pega o problema inteiro.
Quality gates, security e business rules: as três dimensões esquecidas
Comparação superficial para em "quem tem mais agentes". O bench técnico entra aqui. Três dimensões que decidem produção real:
| Dimensão | BMAD | Paperclip | GSD-2 | CrewAI | GSD-1 | AIOX |
|---|---|---|---|---|---|---|
| Quality gates count | 15 | 14 | 9 | 11 | ~5 | 15+ por squad |
| Veto power gates | 5 | 12 | 3 | 5 | 0 | Per-gate veto |
| Constitution / governance doc | Sem | Sem | Sem | Sem | Sem | 322 linhas, 11 artigos |
| Agent authority matrix | Sem | Chain of command | Sem | Sem | Sem | Exclusive ops por agente |
| Multi-tenant isolation | Sem | Company scoping | Sem | Sem | Sem | 4 businesses L0-L4 |
| Prompt injection scanner | Sem | Sem | Sem | Sem | Scanner ativo (único) | Sem |
| Path traversal protection | Sem | Sem | Sem | Sem | Proteção (única) | Sem |
| Fetch safety (block private IPs) | Sem | Sem | Bloqueio ativo | Sem | Sem | Sem |
| Budget hard-stop | Sem | Hard-stop por agent/run | Alertas de custo | Sem | Sem | Sem |
| Total business rules extraídas | 35 / 8 famílias | 25 / 6 famílias | 36 / 7 famílias | 24 / 5 famílias | ~25 / 4+ famílias | 100+ / 15+ famílias |
Três achados que merecem atenção. Primeiro: GSD-1 é o único framework dos cinco com prompt injection scanner e path traversal protection. Para times trabalhando com inputs de usuário não-confiáveis, isso é decisivo. AIOX não tem. BMAD também não.
Segundo: Paperclip é o único com budget hard-stop por agente/run. Em times rodando agentes em escala, custo escapado é o problema número um. Paperclip resolveu. Os outros quatro deixaram em aberto.
Terceiro: AIOX é o único com Constitution formal de 322 linhas e Agent Authority Matrix enforçada por hook. Para holdings, agências multi-cliente e times regulados, isso não é overhead. É fundação.
Paralelismo, infrastructure e observabilidade
Frameworks de orquestração que rodam em produção quebram quando há concorrência ou crash. Bench-source aponta quem pensou nisso de verdade:
| Capacidade | BMAD | Paperclip | GSD-2 | CrewAI | GSD-1 | AIOX |
|---|---|---|---|---|---|---|
| Paralelismo nativo | Sem | Concurrent routines | Worktree por milestone + locks | Async tasks + Flow listeners | Tasks within waves | Swarm-execute paralelo |
| Isolation mechanism | Sem | Company-scoped | Git worktree por milestone | In-process | Branch/worktree | Squad boundaries |
| Concurrency control | Sem | Coalescing policy | Locks + heartbeats | Sem | Flag-based | Task-mode locking (parcial) |
| Servidor / DB | Sem (file-based) | Node.js + PostgreSQL | VS Code ext + SQLite | Library + ChromaDB opcional | CLI puro | Apps + Supabase por business |
| Web UI / dashboard | Sem | React dashboard | Web UI + VS Code ext | Sem | Sem | CLI-first |
| Telemetry | Sem | Sem | Métricas + audit log | OpenTelemetry + AgentOps | Sem | SYNAPSE engine-usage |
| Crash recovery | Sem | Sem | Lock recovery + state rebuild | Sem | Sem | Sem |
| Rollback automatizado | Sem | rollback-latest.sh | Sem | Sem | Sem | Sem |
| Runtime adapters | 2+ IDEs | 6+ adapters | 1 (Pi SDK) | 1 (Python) | 14+ runtimes | 1 (Claude Code primário) |
GSD-2 cravou três coisas que ninguém mais acertou: worktree isolation por milestone, locks com heartbeats e crash recovery via state rebuild. Para pipelines longos que não podem perder estado quando o processo cai, GSD-2 venceu. Paperclip venceu em rollback automatizado e React dashboard. CrewAI venceu em telemetry com OpenTelemetry. GSD-1 venceu em runtime breadth (14+). AIOX e BMAD ficaram para trás nessas dimensões. É confissão de gap real, não opinião.
Scorecard quantitativo 5-way: o número fala mais alto
Pareto ao Cubo aplicado à decisão: 80% da decisão sai de 4-5 números. Estes:
| Métrica | BMAD | Paperclip | GSD-2 | CrewAI | GSD-1 | AIOX |
|---|---|---|---|---|---|---|
| SINKRA Score (sobre 100) | 82 | 82 | 74 | 81 | N/A (incompleto) | Reference |
| Compliance META_AXIOMAS (%) | 78,3 | 71,8 | 80,5 | 79,2 | N/A | Reference |
| Práticas de orquestração | 18 | 21 | 22 | 19 | 17 | 28 |
| Práticas exclusivas | 5 | 6 | 6 | 5 | 4 | 16 |
| Quality gates | 15 | 14 | 9 | 11 | ~5 | 15+ por squad |
| Business rules extraídas | 35 | 25 | 36 | 24 | ~25 | 100+ |
| Práticas de segurança | 1 | 3 | 2 | 2 | 5 | 3 |
| Runtime adapters | 2+ IDEs | 6+ | 1 | 1 | 14+ | 1 |
| Verdict SINKRA-MAP | MAP-READY | MAP-READY | REVIEW | MAP-READY | INCOMPLETE | Reference |
Leitura honesta dos números. BMAD e Paperclip empatam em 82/100 SINKRA. GSD-2 lidera em compliance META_AXIOMAS (80,5%). AIOX lidera em práticas de orquestração (28) e exclusivas (16). GSD-1 lidera em segurança (5 práticas) e runtime breadth (14+). CrewAI fica perto do topo com 81/100 e adapter Python único. Cada framework crava em uma dimensão. Nenhum crava em todas.
O bench completo na matriz exaustiva com 60+ práticas comparadas abre cada número com evidência local.
O Composite Ideal: o framework que ainda não existe
Se um arquiteto pudesse pegar o melhor de cada framework e colar em um só, qual seria a receita? O bench-source responde isso na seção 7.
- Governança: AIOX/SINKRA. Constitution de 322 linhas, agent authority, TTL governance, 473 agentes.
- Infrastructure: Paperclip. Servidor Node.js, PostgreSQL, React dashboard, budget hard-stop, org chart, rollback automatizado.
- Engine de execução: GSD-2. Sessão fresca por unit, crash recovery, model routing por capability, worktree isolation.
- API de composição: CrewAI. Agentes em YAML declarativo, task replay, knowledge/RAG, flow listeners AND/OR.
- Metodologia: BMAD-METHOD. Party Mode, scale-adaptive, module ecosystem (BMM/BMB/TEA/BMGD/CIS), information density discipline.
- Segurança: GSD-1. Prompt injection scanner, path traversal protection, 14+ runtimes.
Soma: ~90 práticas únicas. Nenhum framework atual tem mais que 28 (AIOX em orquestração). A oportunidade de cross-pollination no ecossistema é massiva. Por isso o roadmap de absorção formal do AIOX (Epic 113) lista 30 gaps a portar do bench em 4 waves. BMAD vai contribuir com Party Mode, Scale-Adaptive Planning e Module Ecosystem. GSD-2 vai contribuir com fresh session per unit e crash recovery. Não é canibalização. É evolução de framework por absorção disciplinada de prática.
Armadilhas reais ao escolher
Toda escolha de framework esconde trade-offs. Quatro que geralmente passam batido:
Falsa equivalência. A maioria das comparações trata "método de desenvolvimento" e "framework de orquestração cross-domain" como se fossem o mesmo produto. Não são. Escolher BMAD para gerir portfolio de 4 negócios é forçar o framework para fora do escopo dele. Escolher AIOX para projeto solo de software é assumir overhead que não traz benefício.
Custo de governance subestimado. AIOX traz Constitution, agent authority e CODEOWNERS por padrão. Em equipe de 1-3 pessoas, isso é fricção, não benefício. Times pequenos perdem velocidade tentando cumprir cerimônia que existe para times grandes. BMAD com Quick Flow é mais honesto com a realidade do solo-builder.
Autonomia de agente superestimada. Os dois frameworks exigem human-in-the-loop. BMAD usa workflow checkpoints. AIOX usa elicitation points e hooks de quality gate. Sem isso, alucinação escala junto com volume de execução. Frameworks de agente "autônomos" sem humano na loop falham em produção. Vale para BMAD, vale para AIOX, vale para qualquer um.
Lock-in invisível. AIOX é privado, não MIT. Em projeto open-source puro, BMAD ganha por questão de licença, não por qualidade técnica. E o inverso também é real: BMAD não cobre cross-domain. Escolher BMAD para holding com 4 negócios cria lock-in escondido em fork e adaptação manual. Pergunte sempre: "o que vou perder se quiser sair daqui em 18 meses?"
Como decidir sem cair em armadilha
Clareza é uma arma. A decisão não é "qual é melhor". É "qual problema você está resolvendo agora":
- Dev-lifecycle clássico, equipe pequena, projeto OSS → BMAD-METHOD. Versionamento, comunidade, módulos, Party Mode, Quick Flow. Ferramenta certa.
- Holding multi-business, governance constitucional, cross-domain → AIOX/SINKRA. Squads, layers, multi-tenant, agent authority. Ferramenta certa.
- Inputs de usuário não-confiáveis, security crítica → GSD-1 lidera (prompt injection scanner). AIOX e BMAD não cobrem.
- Pipelines longos com risco de crash → GSD-2 lidera (crash recovery + worktree). Os outros pedem manual restart.
- Custo de LLM em escala → Paperclip lidera (budget hard-stop). Os outros deixam o problema em aberto.
- Empresa em meio-do-caminho → roda os dois em escopos diferentes. BMAD para dev-lifecycle dentro de um produto. AIOX para a camada de portfolio. Não é exclusivo.
O decision tree por ICP aprofunda esse mapeamento por persona, use-case e tamanho de time.
Para ver o BMAD-METHOD em código, o repositório oficial está em github.com/bmad-code-org/BMAD-METHOD. Para entrar no AIOX/SINKRA com 53 squads e 8 layers ativos, comece em aioxsquad.ai. O resto da decisão é seu trabalho de arquiteto. Ele compensa quando feito com os números acima na mesa, com a tese certa, e com a humildade de saber que o framework escolhido vai precisar absorver práticas dos outros quatro mais cedo do que tarde.