BMAD vs AIOX em 10 dimensões: 70+ práticas comparadas (matriz técnica completa)
Matriz técnica 5-way comparando BMAD, Paperclip, GSD-2, CrewAI, GSD-1 e AIOX em 10 dimensões e 88 práticas concretas. 11 tabelas, vencedor explícito por linha, scorecard final quantitativo. Inclui as 3 dimensões esquecidas em comparações superficiais: security, infrastructure, business rules.
Principais conclusões
- 01O bench mediu 88 práticas em 10 dimensões. Nenhum framework crava em todas. Cada um lidera 1-3 dimensões e fica para trás nas outras 7-9.
- 02AIOX lidera em densidade (28 práticas de orquestração, 100+ business rules, 16 práticas exclusivas), mas tem gap em infrastructure e security ativa contra ataque.
- 03GSD-1 é o único com prompt injection scanner e path traversal protection. Para inputs não-confiáveis, é a escolha óbvia. AIOX e BMAD não cobrem.
- 04GSD-2 cravou em context rot via fresh session per unit + crash recovery via state rebuild. Pipelines longos sem isso quebram.
- 05Paperclip é o único com budget hard-stop por agente/run, board approval system, atomic checkout e rollback automatizado. Para empresa rodando agentes em escala, é o pacote de governance financeira.
O bench técnico SINKRA rodou 5 frameworks lado a lado. AIOX como referência. BMAD-METHOD, Paperclip, GSD-2, CrewAI e GSD-1 como comparados. 10 dimensões, 70+ práticas medidas. Matriz inteira, vencedor por linha.
Do ponto de vista de sistemas, comparar frameworks por contagem de agentes é folclore. O que decide produção real são as 10 dimensões abaixo. Cada H2 abre uma dimensão, lista práticas por framework, crava o líder e fecha com leitura prática. A tese de fundo está na tese e arquitetura comparada. Aqui o foco é a matriz.
Dimensão 1: definição e identidade de agente
Antes de orquestrar, é preciso saber o que é um agente em cada framework. A primeira ruptura aparece logo aqui. BMAD trabalha com personas nomeadas. AIOX trabalha com squads compostos. Paperclip cria agentes dinâmicos por empresa. CrewAI declara via YAML. GSD-1 e GSD-2 ficam com poucos agentes especializados.
| Prática | BMAD | Paperclip | GSD-2 | CrewAI | GSD-1 | AIOX |
|---|---|---|---|---|---|---|
| Personas nomeadas | Sim, ~8 fixas | Sim, dinâmicas por empresa | Não, single agent + dispatch | Sim, definidas por YAML | Sim, 3 (Plan/Exec/Verify) | Sim, 473 agentes |
| Especialização por papel | Por fase do ciclo | Por título + reportsTo | Por unit type | Por declaração YAML | Por função | Por domínio do squad |
| Formato de config | Markdown + YAML | TS + DB schema | TS dispatch tables | YAML (agents.yaml) | Markdown + agents/ | Markdown + config.yaml |
| Criação dinâmica em runtime | Não | Sim | Não | Sim | Não | Squad scaffolding (não runtime) |
| Backstory rico do agente | Por descrição | Título + departamento | Sem persona | Sim, campo dedicado | Descrição funcional | Markdown por agente |
| Multi-model nativo | Depende do IDE | Qualquer provider | Routing por capability | LiteLLM (mais amplo) | Depende do runtime | Gateway-AI router |
| Modo party / colaboração | Sim, Party Mode | Org chart collaboration | Não | Crew collaboration | Não | Squad parallel delegation |
Vencedor: AIOX em escala (473 vs 8). CrewAI em backstory rico (campo dedicado em YAML). BMAD em Party Mode (nenhum outro replicou).
Quando importa pra você: time de 1 a 5 devs, 8 personas resolvem. Portfolio com design, copy, legal e dev convivendo, 53 squads cross-domain começam a fazer sentido.
Dimensão 2: modelo de task e workflow
Task é a unidade que orquestrador roda. Anatomia rica evita ambiguidade. CrewAI e GSD-2 cravam com 6 e 8 campos validados. BMAD usa story template implícito. AIOX adota 8 campos obrigatórios em todas as tasks.
| Prática | BMAD | Paperclip | GSD-2 | CrewAI | GSD-1 | AIOX |
|---|---|---|---|---|---|---|
| Unidade de trabalho | Story (de épicos) | Issue (com checkout) | Unit (plan/exec/verify) | Task (desc + expected) | Task em Plan Waves | Task SINKRA 8-field |
| Anatomia rica de task | Implícita | Issue schema + status | 8 campos state-derived | 6 campos Pydantic | Must-haves + critérios | 8 campos obrigatórios |
| Pre/post conditions | Readiness gate só | Status transitions | 15/15 tasks | Por task via Pydantic | Phase completeness | Todas as tasks |
| Error handling por task | Não | Retry + fallback | strategy + max_retries + alert | Guardrails + retry | Gap routing + replan | Per-task error handling |
| Critério de aceitação | DoD por story | Implícito | Por task | expected_output validado | Must-haves no plano | ACs por task em stories |
| Task replay | Não | Não | Não | Sim (única) | Não | Não |
| Tasks condicionais | Quick Flow alt-path | Routing por status | Dispatch condicional | ConditionalTask class | Gate branching | Conditional edges em DAG |
| DAG validation | Não | Não | 0 ciclos validados | Topological sort | Não | DAG validation em todos maps |
Vencedor empate: CrewAI (6 campos Pydantic com expected_output) e GSD-2 (8 campos state-derived com 15/15 pre/post). CrewAI tem Task Replay exclusivo. AIOX iguala GSD-2 nos 8 campos e adiciona stories com DoD.
Quando importa pra você: task que falhou e custa caro re-rodar, Task Replay economiza horas. Execução sem ambiguidade, anatomia 8-field é o piso.
Dimensão 3: padrões de orquestração
Sequencial, hierárquico, evento, state machine, delegação. Cada framework optou por dois ou três. Paperclip foi em hierarquia organizacional com reportsTo. GSD-2 foi em state machine completo. CrewAI foi em flows com listeners AND/OR.
| Prática | BMAD | Paperclip | GSD-2 | CrewAI | GSD-1 | AIOX |
|---|---|---|---|---|---|---|
| Pipeline sequencial | Step-files JIT | Status machine | Dispatch table | Modo padrão | Phase sequence | Workflow definitions |
| Hierarquia / delegação | Gates entre fases | Org chart reportsTo | Sem hierarquia | Manager Agent + delegation | Sem delegação nativa | Chief delegation paralela |
| Event-driven flows | Não | Heartbeat runtime | Não | Flows AND/OR listeners | Não | Event bus limitado |
| State machine | Não | Issue status machine | Full state machine | Não | STATE.md derived | Squad state manual |
| Branching de pipeline | Quick Flow alt-path | Priority routing | Conditional branches | ConditionalTask | Quick mode | SINKRA conditional edges |
| Modo autônomo | Não (humano dirige) | 24/7 autônomo | gsd auto walk-away | Apenas kickoff | /gsd autonomous | Runner-based |
| Dashboard de gestão | Não | React UI | VS Code + Web UI | Não | /gsd-manager mode | Não (CLI-first) |
| SDK headless | npx CLI | API server | Pi SDK headless | Python API | GSD SDK headless | Squad-engine API |
Vencedor: Paperclip em hierarquia com reportsTo. GSD-2 em state machine derivado de DB + filesystem + git. CrewAI em flows event-driven com AND/OR. BMAD integrou os elementos com Quick Flow honesto.
Quando importa pra você: cadeia de comando explícita pede Paperclip. Retomada de estado pede GSD-2. Decisões em paralelo pedem CrewAI Flow.
Dimensão 4: comunicação e handoff entre agentes
Agente A passa contexto para B. Como? Artefato em arquivo, REST API, banco, in-process. A escolha amarra o resto. AIOX usa handoff artifacts com QG-CROSS-01 enforçado. Paperclip usa REST + Published Language. GSD-2 usa filesystem state.
| Prática | BMAD | Paperclip | GSD-2 | CrewAI | GSD-1 | AIOX |
|---|---|---|---|---|---|---|
| Mecanismo de handoff | Artefatos em _bmad-output/ | REST + Published Language | Filesystem state .gsd/ | Objetos in-process | .planning/ artifacts | Handoff artifacts formais |
| Cross-domain handoff | Implícito via artefatos | ACL para plugins/routines | State-derived | Task context chain | STATE.md updates | QG-CROSS-01 enforçado |
| Passagem de contexto | project-context.md | Company context | Sessão fresca + injeção | task.context de outputs | CONTEXT.md por phase | SYNAPSE 8-layer context |
| Linguagem publicada | workflow-map.md | Shared types | JSON-RPC remote | YAML como linguagem | Markdown artifacts | Token registry + composition |
| Human-in-the-loop | Workflow checkpoints | Board approvals | Pause for review | human_input=True | UAT conversational | Elicitation points |
| Memória inter-agente | Artefatos compartilhados | DB-mediated | Sessões frescas (by design) | Memory + Knowledge subsystems | .planning/ shared | Journey-log + file-service |
Vencedor: CrewAI em memory subsystems (Short/Long/Entity) e knowledge embarcado. AIOX em handoff cross-domain com gate enforçado em pre-push. Paperclip em REST API com published language formal.
Quando importa pra você: agentes que recordam entre runs pedem CrewAI memory. Cross-squad com quem-passa-pra-quem pede AIOX QG-CROSS. API pública pede Paperclip.
Dimensão 5: quality gates e governance
Gate é onde o framework diz "isso aqui não passa". Sem gate, alucinação vai pra produção. BMAD tem 15 gates com numeric thresholds e 5 veto. Paperclip tem 14 com 12 veto. AIOX tem 15+ por squad e é o único com Constitution formal de 322 linhas em 11 artigos.
| Prática | BMAD | Paperclip | GSD-2 | CrewAI | GSD-1 | AIOX |
|---|---|---|---|---|---|---|
| Quality gates count | 15 | 14 | 9 | 11 | ~5 | 15+ por squad |
| Gates com veto power | 5 | 12 | 3 | 5 | 0 | Per-gate veto |
| Numeric thresholds | 15/15 | 14/14 | 9/9 | 11/11 | Parcial | Todos os gates |
| Readiness gate antes de exec | Mandatório | Implícito em status | Milestone validation | Não | Plan checker | Story validation |
| Board / approval system | Não | Board approvals (única) | Não | Não | Não | CODEOWNERS |
| Artifact contracts | PRD 9 seções | Schema Drizzle | Decisions Register append-only | JSON/Pydantic schema | Plan structure validation | Artifact classification rules |
| Constitution / governance doc | Não | Não | Não | Não | Não | 322 linhas, 11 artigos |
| Agent authority matrix | Não | Chain of command | Não | Não | Não | Exclusive ops por agente |
| Story-driven enforcement | DoD por story | Não | Não | Não | Não | Commit hook WARN |
| Guardrail com retry loop | Não | Não | Auto-fix + retry | Guardrail + retry | Não | Não |
| 10 Mandamentos compliance | 10/10 PASS | 7 PASS + 3 GAP | 10/10 PASS | 9 PASS + 1 REVIEW | N/A | Reference |
Vencedor: BMAD em quality gates pelo número (15) e veto racional (5). Paperclip em board approval, prática única. AIOX em governance constitucional com 11 artigos enforçados via hook. CrewAI em guardrail+retry com auto-correção.
Quando importa pra você: time regulado pede Constitution + Agent Authority do AIOX. Aprovação cross-funcional pede Paperclip Board. Auto-correção pede CrewAI guardrail+retry.
Dimensão 6: gerência de contexto
Context rot mata pipeline longo. Sem disciplina de janela, o agente erra em coisa que acertaria com sessão fresca. GSD-2 fez do problema o produto. CrewAI montou três camadas de memória. AIOX adotou TTL governance em 5 layers.
| Prática | BMAD | Paperclip | GSD-2 | CrewAI | GSD-1 | AIOX |
|---|---|---|---|---|---|---|
| Persistência de contexto | _bmad-output/ | PostgreSQL | .gsd/ + SQLite | Memória + ChromaDB opcional | .planning/ filesystem | Workspace L0-L4 + outputs/ |
| Frescor de contexto | Refresh manual | Heartbeat-driven | Sessão fresca por unit | Sem freshness explícita | STATE.md sync | TTL governance (5 layers) |
| Injeção de contexto | project-context.md | Company + agent context | Pré-carregado no dispatch | Crew inputs + task context | CONTEXT.md por phase | SYNAPSE 8-layer engine |
| Janela de contexto | Step-files (implícito) | Sem gestão explícita | Limpeza entre units | Summarize on overflow | Context rot mitigation | Skill boundaries (parcial) |
| Knowledge / RAG | Não | Não | Não | Knowledge + RAG (ChromaDB) | Não | Document Registry parcial |
| Memória persistente | Por artefato | Por DB | DB + filesystem | Short/Long/Entity | Filesystem-based | Journey-log |
| State reconciliation | Não | DB-driven | Deriva DB+FS+git | Não | state validate + sync | Config drift detection |
| Context rot prevention | fresh-chat discipline | Não | Core design principle | Summarize on overflow | Primary product goal | Parcial |
Vencedor: GSD-2 em context rot via sessão fresca por unit como princípio de design. CrewAI em memória persistente de três camadas. AIOX em TTL governance: cada layer L0-L4 tem TTL (365d/90d/60d/30d/7d) e validador em pre-push.
Quando importa pra você: agente rodando 8h+ pede GSD-2 fresh session. RAG embarcado pede CrewAI Knowledge. Workspace multi-camada com retenção pede AIOX TTL.
Dimensão 7: paralelismo e concorrência
Frameworks single-thread são confortáveis e lentos. Quando volume cresce, paralelismo vira gargalo. GSD-2 foi em worktree por milestone com locks e heartbeats. AIOX tem swarm-execute. BMAD ficou de fora dessa dimensão.
| Prática | BMAD | Paperclip | GSD-2 | CrewAI | GSD-1 | AIOX |
|---|---|---|---|---|---|---|
| Paralelismo nativo | Não | Concurrent routines | Milestones em paralelo | Async + Flow listeners | Tasks within waves | Swarm-execute paralelo |
| Mecanismo de isolamento | Não | Company-scoped | Git worktree por milestone | In-process | Branch / worktree | Squad boundaries |
| Concurrency control | Não | Coalescing policy | Locks + heartbeats | Não | Flag-based | Task-mode locking parcial |
| Wave-based execution | Não | Não | Dispatch groups | Não | Plan waves (core) | Wave-execute epic pipeline |
| Runtime adapter | 2+ IDEs | 6+ adapters | 1 (Pi SDK) | 1 (Python) | 14+ runtimes | 1 (Claude Code) |
Vencedor: GSD-2 em isolamento por worktree. GSD-1 em runtime breadth (14+). AIOX em swarm-execute para batches. Paperclip em coalescing policy. BMAD não venceu.
Quando importa pra você: 30 stories em paralelo pedem GSD-2 worktree. Troca de IDE toda semana pede GSD-1. 50 tasks em batch pedem swarm-execute do AIOX.
Dimensão 8: security e safety
Aqui é onde o bench surpreende. Frameworks de agente quase nunca pensam em security. GSD-1 é o único dos cinco com prompt injection scanner. Paperclip é o único com budget hard-stop por agente/run. AIOX é o único com multi-tenant isolation L0-L4 entre 4 negócios.
| Prática | BMAD | Paperclip | GSD-2 | CrewAI | GSD-1 | AIOX |
|---|---|---|---|---|---|---|
| Multi-tenant isolation | Não | Company scoping | Não | Não | Não | 4-business L0-L4 |
| Budget / cost hard-stop | Não | Hard-stop por run | Alertas + routing por custo | Não | Não | Não |
| Prompt injection scanner | Não | Não | Não | Não | Scanner ativo (única) | Não |
| Path traversal protection | Não | Não | Não | Não | Proteção (única) | Não |
| Fetch safety (block IPs) | Não | Não | Block private IPs | Não | Não | Não |
| Shell metachar protection | Não | Não | Não | Não | Proteção | Não |
| Sandbox para tools | Não | Não | Não | Tool sandbox | Não | Não |
| RPM controller (rate limit) | Não | Não | Não | Rate limiting | Não | Não |
| Advisory hooks | Não | Não | Não | Não | Advisory safety hooks | PreToolUse hooks |
| Atomic checkout | Não | Atomic issue checkout | Não | Não | Não | Não |
| Append-only audit | stepsCompleted frontmatter | Não | Decisions Register | Não | Não | Journey-log |
Vencedor: GSD-1 em ataque (5 práticas únicas). Paperclip em budget hard-stop e atomic checkout. AIOX em multi-tenant L0-L4 entre 4 negócios no mesmo repo. Os outros três deixaram security em aberto.
Quando importa pra você: input não-confiável de usuário pede GSD-1 scanner. SaaS multi-cliente pede AIOX L0-L4 ou Paperclip company scoping. Queimando $5k/dia em LLM pede Paperclip budget hard-stop.
Dimensão 9: infrastructure e deployment
Servidor, banco, dashboard, telemetry, crash recovery, rollback. A diferença entre slide-deck e produção. Paperclip foi em React UI + Postgres + rollback. GSD-2 foi em VS Code extension + crash recovery via state rebuild. AIOX tem Apps + Supabase per-business.
| Prática | BMAD | Paperclip | GSD-2 | CrewAI | GSD-1 | AIOX |
|---|---|---|---|---|---|---|
| Método de instalação | npx bmad-method install | pnpm install + server | npm install -g gsd-pi | pip install crewai | npx get-shit-done-cc | npm install monorepo |
| Componente servidor | Não (file-based) | Node.js + React UI | VS Code extension | Não (library) | Não (CLI) | Apps (squad-engine, gateway-ai) |
| Banco de dados | Não | PostgreSQL | SQLite (gsd.db) | SQLite + ChromaDB | Não | Supabase per-business |
| Suporte Docker | Não | Docker + Playwright | Docker | Não | Não | Não |
| VS Code extension | Não | Não | Full extension | Não | Não | Não |
| Web UI / dashboard | Não | React dashboard | Web UI dark mode | Não | Não | CLI-first |
| Telemetry | Não | Não | Métricas + audit log | OpenTelemetry + AgentOps | Não | SYNAPSE engine-usage |
| Crash recovery | Não | Não | Lock recovery + state rebuild | Não | Não | Não |
| Release automation | npm publish + Discord | Canary auto + stable manual | npm publish | PyPI publish | npm publish | Manual |
| Rollback automatizado | Não | rollback-latest.sh | Não | Não | Não | Não |
Vencedor: Paperclip em infra full-stack (servidor + DB + Docker + UI + rollback). GSD-2 em crash recovery e VS Code extension. CrewAI em telemetry com OpenTelemetry. AIOX e BMAD ficam em CLI puro com gap de infra. Confissão honesta.
Quando importa pra você: 24/7 sem terminal aberto pede Paperclip dashboard. Retomada após crash pede GSD-2. Custo e métrica em produção pede CrewAI OpenTelemetry.
Dimensão 10: densidade de business rules
Quantas regras formais cada framework explicitou em config ou skill? Esse número correlaciona com maturidade. AIOX tem 100+ rules em 15+ famílias. GSD-2 tem 36. BMAD tem 35. CrewAI tem 24.
| Métrica | BMAD | Paperclip | GSD-2 | CrewAI | GSD-1 | AIOX |
|---|---|---|---|---|---|---|
| Total de regras extraídas | 35 | 25 | 36 | 24 | ~25 | 100+ |
| Famílias de regras | 8 | 6 | 7 | 5 | 4+ | 15+ |
| Complexity rating | High | Very High | High | Medium | High | Very High |
| Famílias-chave | Config, PRD, DocScan, Story DoD, Workflow, Brainstorm | Governance, Org, Approvals, Work, Budget | Workflow, Decisions, Git, Parallel, Routing, CI/CD | Agent ID, Task, Crew, Flow, Scaffold | Safety, Plan, Exec, Verify | Constitution, Authority, TTL, Artifact, Story, CODEOWNERS, Composition |
| Força singular | PRD 9 seções + density discipline | Budget hard-stop + multi-tenant | Parallelism (9 rules) + routing (6) | Flow runtime event-driven | Safety (6 attack types) | Constitutional enforcement (11 artigos) |
Vencedor: AIOX em densidade absoluta (100+ rules, 15+ famílias). GSD-2 e BMAD em densidade moderada com famílias bem definidas. Paperclip em governance e budget. GSD-1 em safety. CrewAI em flow runtime.
Quando importa pra você: framework que vai sustentar produto por 5+ anos pede densidade acima de 30 rules. Rules baixas são placeholder pra dívida técnica do segundo ano. AIOX vai longe, mas com overhead inicial.
Scorecard final 5-way: o número fala
Pareto ao Cubo aplicado: 80% da decisão sai de 5 números. Estes:
| Métrica | BMAD | Paperclip | GSD-2 | CrewAI | GSD-1 | AIOX |
|---|---|---|---|---|---|---|
| SINKRA Score (sobre 100) | 82 | 82 | 74 | 81 | N/A | Reference |
| Compliance META_AXIOMAS | 78,3% | 71,8% | 80,5% | 79,2% | N/A | Reference |
| Práticas de orquestração | 18 | 21 | 22 | 19 | 17 | 28 |
| Práticas exclusivas | 5 | 6 | 6 | 5 | 4 | 16 |
| Quality gates | 15 | 14 | 9 | 11 | ~5 | 15+ por squad |
| Business rules extraídas | 35 | 25 | 36 | 24 | ~25 | 100+ |
| Práticas de segurança | 1 | 3 | 2 | 2 | 5 | 3 |
| Runtime adapters | 2+ IDEs | 6+ | 1 | 1 | 14+ | 1 |
| Verdict SINKRA-MAP | MAP-READY | MAP-READY | REVIEW | MAP-READY | INCOMPLETE | Reference |
Leitura honesta. BMAD e Paperclip empatam em 82/100 SINKRA. GSD-2 lidera em compliance META_AXIOMAS (80,5%). AIOX lidera em práticas de orquestração (28) e exclusivas (16) e business rules (100+). GSD-1 lidera em segurança (5 práticas) e runtime breadth (14+). CrewAI fica perto do topo com 81/100. Cada framework crava em uma dimensão. Nenhum crava em todas.
Composite ideal pelo bench: Governance (AIOX) + Infrastructure (Paperclip) + Engine (GSD-2) + Composition API (CrewAI) + Methodology (BMAD) + Security (GSD-1) = ~90 práticas únicas. Nenhum framework atual tem mais que 28. A oportunidade de cross-pollination no ecossistema é massiva.
A escolha não é "qual é melhor". É "qual problema você está resolvendo". O decision tree por ICP mapeia isso por persona, use-case e tamanho de time. A tese e arquitetura comparada abre o porquê de cada framework ter cravado onde cravou. Para ver BMAD em código, github.com/bmad-code-org/BMAD-METHOD. Para ver AIOX vivo, aioxsquad.ai. O resto é trabalho de arquiteto. Clareza é uma arma quando você usa os números acima e a tese certa antes de decidir.