BMAD vs AIOX em 10 dimensões: 70+ práticas comparadas (matriz técnica completa)

Matriz técnica 5-way comparando BMAD, Paperclip, GSD-2, CrewAI, GSD-1 e AIOX em 10 dimensões e 88 práticas concretas. 11 tabelas, vencedor explícito por linha, scorecard final quantitativo. Inclui as 3 dimensões esquecidas em comparações superficiais: security, infrastructure, business rules.

Por Publicado em 13 min de leitura Atualizado em

Principais conclusões

  1. 01O bench mediu 88 práticas em 10 dimensões. Nenhum framework crava em todas. Cada um lidera 1-3 dimensões e fica para trás nas outras 7-9.
  2. 02AIOX lidera em densidade (28 práticas de orquestração, 100+ business rules, 16 práticas exclusivas), mas tem gap em infrastructure e security ativa contra ataque.
  3. 03GSD-1 é o único com prompt injection scanner e path traversal protection. Para inputs não-confiáveis, é a escolha óbvia. AIOX e BMAD não cobrem.
  4. 04GSD-2 cravou em context rot via fresh session per unit + crash recovery via state rebuild. Pipelines longos sem isso quebram.
  5. 05Paperclip é o único com budget hard-stop por agente/run, board approval system, atomic checkout e rollback automatizado. Para empresa rodando agentes em escala, é o pacote de governance financeira.

O bench técnico SINKRA rodou 5 frameworks lado a lado. AIOX como referência. BMAD-METHOD, Paperclip, GSD-2, CrewAI e GSD-1 como comparados. 10 dimensões, 70+ práticas medidas. Matriz inteira, vencedor por linha.

Do ponto de vista de sistemas, comparar frameworks por contagem de agentes é folclore. O que decide produção real são as 10 dimensões abaixo. Cada H2 abre uma dimensão, lista práticas por framework, crava o líder e fecha com leitura prática. A tese de fundo está na tese e arquitetura comparada. Aqui o foco é a matriz.

Dimensão 1: definição e identidade de agente

Antes de orquestrar, é preciso saber o que é um agente em cada framework. A primeira ruptura aparece logo aqui. BMAD trabalha com personas nomeadas. AIOX trabalha com squads compostos. Paperclip cria agentes dinâmicos por empresa. CrewAI declara via YAML. GSD-1 e GSD-2 ficam com poucos agentes especializados.

PráticaBMADPaperclipGSD-2CrewAIGSD-1AIOX
Personas nomeadasSim, ~8 fixasSim, dinâmicas por empresaNão, single agent + dispatchSim, definidas por YAMLSim, 3 (Plan/Exec/Verify)Sim, 473 agentes
Especialização por papelPor fase do cicloPor título + reportsToPor unit typePor declaração YAMLPor funçãoPor domínio do squad
Formato de configMarkdown + YAMLTS + DB schemaTS dispatch tablesYAML (agents.yaml)Markdown + agents/Markdown + config.yaml
Criação dinâmica em runtimeNãoSimNãoSimNãoSquad scaffolding (não runtime)
Backstory rico do agentePor descriçãoTítulo + departamentoSem personaSim, campo dedicadoDescrição funcionalMarkdown por agente
Multi-model nativoDepende do IDEQualquer providerRouting por capabilityLiteLLM (mais amplo)Depende do runtimeGateway-AI router
Modo party / colaboraçãoSim, Party ModeOrg chart collaborationNãoCrew collaborationNãoSquad parallel delegation

Vencedor: AIOX em escala (473 vs 8). CrewAI em backstory rico (campo dedicado em YAML). BMAD em Party Mode (nenhum outro replicou).

Quando importa pra você: time de 1 a 5 devs, 8 personas resolvem. Portfolio com design, copy, legal e dev convivendo, 53 squads cross-domain começam a fazer sentido.

Dimensão 2: modelo de task e workflow

Task é a unidade que orquestrador roda. Anatomia rica evita ambiguidade. CrewAI e GSD-2 cravam com 6 e 8 campos validados. BMAD usa story template implícito. AIOX adota 8 campos obrigatórios em todas as tasks.

PráticaBMADPaperclipGSD-2CrewAIGSD-1AIOX
Unidade de trabalhoStory (de épicos)Issue (com checkout)Unit (plan/exec/verify)Task (desc + expected)Task em Plan WavesTask SINKRA 8-field
Anatomia rica de taskImplícitaIssue schema + status8 campos state-derived6 campos PydanticMust-haves + critérios8 campos obrigatórios
Pre/post conditionsReadiness gate sóStatus transitions15/15 tasksPor task via PydanticPhase completenessTodas as tasks
Error handling por taskNãoRetry + fallbackstrategy + max_retries + alertGuardrails + retryGap routing + replanPer-task error handling
Critério de aceitaçãoDoD por storyImplícitoPor taskexpected_output validadoMust-haves no planoACs por task em stories
Task replayNãoNãoNãoSim (única)NãoNão
Tasks condicionaisQuick Flow alt-pathRouting por statusDispatch condicionalConditionalTask classGate branchingConditional edges em DAG
DAG validationNãoNão0 ciclos validadosTopological sortNãoDAG validation em todos maps

Vencedor empate: CrewAI (6 campos Pydantic com expected_output) e GSD-2 (8 campos state-derived com 15/15 pre/post). CrewAI tem Task Replay exclusivo. AIOX iguala GSD-2 nos 8 campos e adiciona stories com DoD.

Quando importa pra você: task que falhou e custa caro re-rodar, Task Replay economiza horas. Execução sem ambiguidade, anatomia 8-field é o piso.

Dimensão 3: padrões de orquestração

Sequencial, hierárquico, evento, state machine, delegação. Cada framework optou por dois ou três. Paperclip foi em hierarquia organizacional com reportsTo. GSD-2 foi em state machine completo. CrewAI foi em flows com listeners AND/OR.

PráticaBMADPaperclipGSD-2CrewAIGSD-1AIOX
Pipeline sequencialStep-files JITStatus machineDispatch tableModo padrãoPhase sequenceWorkflow definitions
Hierarquia / delegaçãoGates entre fasesOrg chart reportsToSem hierarquiaManager Agent + delegationSem delegação nativaChief delegation paralela
Event-driven flowsNãoHeartbeat runtimeNãoFlows AND/OR listenersNãoEvent bus limitado
State machineNãoIssue status machineFull state machineNãoSTATE.md derivedSquad state manual
Branching de pipelineQuick Flow alt-pathPriority routingConditional branchesConditionalTaskQuick modeSINKRA conditional edges
Modo autônomoNão (humano dirige)24/7 autônomogsd auto walk-awayApenas kickoff/gsd autonomousRunner-based
Dashboard de gestãoNãoReact UIVS Code + Web UINão/gsd-manager modeNão (CLI-first)
SDK headlessnpx CLIAPI serverPi SDK headlessPython APIGSD SDK headlessSquad-engine API

Vencedor: Paperclip em hierarquia com reportsTo. GSD-2 em state machine derivado de DB + filesystem + git. CrewAI em flows event-driven com AND/OR. BMAD integrou os elementos com Quick Flow honesto.

Quando importa pra você: cadeia de comando explícita pede Paperclip. Retomada de estado pede GSD-2. Decisões em paralelo pedem CrewAI Flow.

Dimensão 4: comunicação e handoff entre agentes

Agente A passa contexto para B. Como? Artefato em arquivo, REST API, banco, in-process. A escolha amarra o resto. AIOX usa handoff artifacts com QG-CROSS-01 enforçado. Paperclip usa REST + Published Language. GSD-2 usa filesystem state.

PráticaBMADPaperclipGSD-2CrewAIGSD-1AIOX
Mecanismo de handoffArtefatos em _bmad-output/REST + Published LanguageFilesystem state .gsd/Objetos in-process.planning/ artifactsHandoff artifacts formais
Cross-domain handoffImplícito via artefatosACL para plugins/routinesState-derivedTask context chainSTATE.md updatesQG-CROSS-01 enforçado
Passagem de contextoproject-context.mdCompany contextSessão fresca + injeçãotask.context de outputsCONTEXT.md por phaseSYNAPSE 8-layer context
Linguagem publicadaworkflow-map.mdShared typesJSON-RPC remoteYAML como linguagemMarkdown artifactsToken registry + composition
Human-in-the-loopWorkflow checkpointsBoard approvalsPause for reviewhuman_input=TrueUAT conversationalElicitation points
Memória inter-agenteArtefatos compartilhadosDB-mediatedSessões frescas (by design)Memory + Knowledge subsystems.planning/ sharedJourney-log + file-service

Vencedor: CrewAI em memory subsystems (Short/Long/Entity) e knowledge embarcado. AIOX em handoff cross-domain com gate enforçado em pre-push. Paperclip em REST API com published language formal.

Quando importa pra você: agentes que recordam entre runs pedem CrewAI memory. Cross-squad com quem-passa-pra-quem pede AIOX QG-CROSS. API pública pede Paperclip.

Dimensão 5: quality gates e governance

Gate é onde o framework diz "isso aqui não passa". Sem gate, alucinação vai pra produção. BMAD tem 15 gates com numeric thresholds e 5 veto. Paperclip tem 14 com 12 veto. AIOX tem 15+ por squad e é o único com Constitution formal de 322 linhas em 11 artigos.

PráticaBMADPaperclipGSD-2CrewAIGSD-1AIOX
Quality gates count1514911~515+ por squad
Gates com veto power512350Per-gate veto
Numeric thresholds15/1514/149/911/11ParcialTodos os gates
Readiness gate antes de execMandatórioImplícito em statusMilestone validationNãoPlan checkerStory validation
Board / approval systemNãoBoard approvals (única)NãoNãoNãoCODEOWNERS
Artifact contractsPRD 9 seçõesSchema DrizzleDecisions Register append-onlyJSON/Pydantic schemaPlan structure validationArtifact classification rules
Constitution / governance docNãoNãoNãoNãoNão322 linhas, 11 artigos
Agent authority matrixNãoChain of commandNãoNãoNãoExclusive ops por agente
Story-driven enforcementDoD por storyNãoNãoNãoNãoCommit hook WARN
Guardrail com retry loopNãoNãoAuto-fix + retryGuardrail + retryNãoNão
10 Mandamentos compliance10/10 PASS7 PASS + 3 GAP10/10 PASS9 PASS + 1 REVIEWN/AReference

Vencedor: BMAD em quality gates pelo número (15) e veto racional (5). Paperclip em board approval, prática única. AIOX em governance constitucional com 11 artigos enforçados via hook. CrewAI em guardrail+retry com auto-correção.

Quando importa pra você: time regulado pede Constitution + Agent Authority do AIOX. Aprovação cross-funcional pede Paperclip Board. Auto-correção pede CrewAI guardrail+retry.

Dimensão 6: gerência de contexto

Context rot mata pipeline longo. Sem disciplina de janela, o agente erra em coisa que acertaria com sessão fresca. GSD-2 fez do problema o produto. CrewAI montou três camadas de memória. AIOX adotou TTL governance em 5 layers.

PráticaBMADPaperclipGSD-2CrewAIGSD-1AIOX
Persistência de contexto_bmad-output/PostgreSQL.gsd/ + SQLiteMemória + ChromaDB opcional.planning/ filesystemWorkspace L0-L4 + outputs/
Frescor de contextoRefresh manualHeartbeat-drivenSessão fresca por unitSem freshness explícitaSTATE.md syncTTL governance (5 layers)
Injeção de contextoproject-context.mdCompany + agent contextPré-carregado no dispatchCrew inputs + task contextCONTEXT.md por phaseSYNAPSE 8-layer engine
Janela de contextoStep-files (implícito)Sem gestão explícitaLimpeza entre unitsSummarize on overflowContext rot mitigationSkill boundaries (parcial)
Knowledge / RAGNãoNãoNãoKnowledge + RAG (ChromaDB)NãoDocument Registry parcial
Memória persistentePor artefatoPor DBDB + filesystemShort/Long/EntityFilesystem-basedJourney-log
State reconciliationNãoDB-drivenDeriva DB+FS+gitNãostate validate + syncConfig drift detection
Context rot preventionfresh-chat disciplineNãoCore design principleSummarize on overflowPrimary product goalParcial

Vencedor: GSD-2 em context rot via sessão fresca por unit como princípio de design. CrewAI em memória persistente de três camadas. AIOX em TTL governance: cada layer L0-L4 tem TTL (365d/90d/60d/30d/7d) e validador em pre-push.

Quando importa pra você: agente rodando 8h+ pede GSD-2 fresh session. RAG embarcado pede CrewAI Knowledge. Workspace multi-camada com retenção pede AIOX TTL.

Dimensão 7: paralelismo e concorrência

Frameworks single-thread são confortáveis e lentos. Quando volume cresce, paralelismo vira gargalo. GSD-2 foi em worktree por milestone com locks e heartbeats. AIOX tem swarm-execute. BMAD ficou de fora dessa dimensão.

PráticaBMADPaperclipGSD-2CrewAIGSD-1AIOX
Paralelismo nativoNãoConcurrent routinesMilestones em paraleloAsync + Flow listenersTasks within wavesSwarm-execute paralelo
Mecanismo de isolamentoNãoCompany-scopedGit worktree por milestoneIn-processBranch / worktreeSquad boundaries
Concurrency controlNãoCoalescing policyLocks + heartbeatsNãoFlag-basedTask-mode locking parcial
Wave-based executionNãoNãoDispatch groupsNãoPlan waves (core)Wave-execute epic pipeline
Runtime adapter2+ IDEs6+ adapters1 (Pi SDK)1 (Python)14+ runtimes1 (Claude Code)

Vencedor: GSD-2 em isolamento por worktree. GSD-1 em runtime breadth (14+). AIOX em swarm-execute para batches. Paperclip em coalescing policy. BMAD não venceu.

Quando importa pra você: 30 stories em paralelo pedem GSD-2 worktree. Troca de IDE toda semana pede GSD-1. 50 tasks em batch pedem swarm-execute do AIOX.

Dimensão 8: security e safety

Aqui é onde o bench surpreende. Frameworks de agente quase nunca pensam em security. GSD-1 é o único dos cinco com prompt injection scanner. Paperclip é o único com budget hard-stop por agente/run. AIOX é o único com multi-tenant isolation L0-L4 entre 4 negócios.

PráticaBMADPaperclipGSD-2CrewAIGSD-1AIOX
Multi-tenant isolationNãoCompany scopingNãoNãoNão4-business L0-L4
Budget / cost hard-stopNãoHard-stop por runAlertas + routing por custoNãoNãoNão
Prompt injection scannerNãoNãoNãoNãoScanner ativo (única)Não
Path traversal protectionNãoNãoNãoNãoProteção (única)Não
Fetch safety (block IPs)NãoNãoBlock private IPsNãoNãoNão
Shell metachar protectionNãoNãoNãoNãoProteçãoNão
Sandbox para toolsNãoNãoNãoTool sandboxNãoNão
RPM controller (rate limit)NãoNãoNãoRate limitingNãoNão
Advisory hooksNãoNãoNãoNãoAdvisory safety hooksPreToolUse hooks
Atomic checkoutNãoAtomic issue checkoutNãoNãoNãoNão
Append-only auditstepsCompleted frontmatterNãoDecisions RegisterNãoNãoJourney-log

Vencedor: GSD-1 em ataque (5 práticas únicas). Paperclip em budget hard-stop e atomic checkout. AIOX em multi-tenant L0-L4 entre 4 negócios no mesmo repo. Os outros três deixaram security em aberto.

Quando importa pra você: input não-confiável de usuário pede GSD-1 scanner. SaaS multi-cliente pede AIOX L0-L4 ou Paperclip company scoping. Queimando $5k/dia em LLM pede Paperclip budget hard-stop.

Dimensão 9: infrastructure e deployment

Servidor, banco, dashboard, telemetry, crash recovery, rollback. A diferença entre slide-deck e produção. Paperclip foi em React UI + Postgres + rollback. GSD-2 foi em VS Code extension + crash recovery via state rebuild. AIOX tem Apps + Supabase per-business.

PráticaBMADPaperclipGSD-2CrewAIGSD-1AIOX
Método de instalaçãonpx bmad-method installpnpm install + servernpm install -g gsd-pipip install crewainpx get-shit-done-ccnpm install monorepo
Componente servidorNão (file-based)Node.js + React UIVS Code extensionNão (library)Não (CLI)Apps (squad-engine, gateway-ai)
Banco de dadosNãoPostgreSQLSQLite (gsd.db)SQLite + ChromaDBNãoSupabase per-business
Suporte DockerNãoDocker + PlaywrightDockerNãoNãoNão
VS Code extensionNãoNãoFull extensionNãoNãoNão
Web UI / dashboardNãoReact dashboardWeb UI dark modeNãoNãoCLI-first
TelemetryNãoNãoMétricas + audit logOpenTelemetry + AgentOpsNãoSYNAPSE engine-usage
Crash recoveryNãoNãoLock recovery + state rebuildNãoNãoNão
Release automationnpm publish + DiscordCanary auto + stable manualnpm publishPyPI publishnpm publishManual
Rollback automatizadoNãorollback-latest.shNãoNãoNãoNão

Vencedor: Paperclip em infra full-stack (servidor + DB + Docker + UI + rollback). GSD-2 em crash recovery e VS Code extension. CrewAI em telemetry com OpenTelemetry. AIOX e BMAD ficam em CLI puro com gap de infra. Confissão honesta.

Quando importa pra você: 24/7 sem terminal aberto pede Paperclip dashboard. Retomada após crash pede GSD-2. Custo e métrica em produção pede CrewAI OpenTelemetry.

Dimensão 10: densidade de business rules

Quantas regras formais cada framework explicitou em config ou skill? Esse número correlaciona com maturidade. AIOX tem 100+ rules em 15+ famílias. GSD-2 tem 36. BMAD tem 35. CrewAI tem 24.

MétricaBMADPaperclipGSD-2CrewAIGSD-1AIOX
Total de regras extraídas35253624~25100+
Famílias de regras86754+15+
Complexity ratingHighVery HighHighMediumHighVery High
Famílias-chaveConfig, PRD, DocScan, Story DoD, Workflow, BrainstormGovernance, Org, Approvals, Work, BudgetWorkflow, Decisions, Git, Parallel, Routing, CI/CDAgent ID, Task, Crew, Flow, ScaffoldSafety, Plan, Exec, VerifyConstitution, Authority, TTL, Artifact, Story, CODEOWNERS, Composition
Força singularPRD 9 seções + density disciplineBudget hard-stop + multi-tenantParallelism (9 rules) + routing (6)Flow runtime event-drivenSafety (6 attack types)Constitutional enforcement (11 artigos)

Vencedor: AIOX em densidade absoluta (100+ rules, 15+ famílias). GSD-2 e BMAD em densidade moderada com famílias bem definidas. Paperclip em governance e budget. GSD-1 em safety. CrewAI em flow runtime.

Quando importa pra você: framework que vai sustentar produto por 5+ anos pede densidade acima de 30 rules. Rules baixas são placeholder pra dívida técnica do segundo ano. AIOX vai longe, mas com overhead inicial.

Scorecard final 5-way: o número fala

Pareto ao Cubo aplicado: 80% da decisão sai de 5 números. Estes:

MétricaBMADPaperclipGSD-2CrewAIGSD-1AIOX
SINKRA Score (sobre 100)82827481N/AReference
Compliance META_AXIOMAS78,3%71,8%80,5%79,2%N/AReference
Práticas de orquestração182122191728
Práticas exclusivas5665416
Quality gates1514911~515+ por squad
Business rules extraídas35253624~25100+
Práticas de segurança132253
Runtime adapters2+ IDEs6+1114+1
Verdict SINKRA-MAPMAP-READYMAP-READYREVIEWMAP-READYINCOMPLETEReference

Leitura honesta. BMAD e Paperclip empatam em 82/100 SINKRA. GSD-2 lidera em compliance META_AXIOMAS (80,5%). AIOX lidera em práticas de orquestração (28) e exclusivas (16) e business rules (100+). GSD-1 lidera em segurança (5 práticas) e runtime breadth (14+). CrewAI fica perto do topo com 81/100. Cada framework crava em uma dimensão. Nenhum crava em todas.

Composite ideal pelo bench: Governance (AIOX) + Infrastructure (Paperclip) + Engine (GSD-2) + Composition API (CrewAI) + Methodology (BMAD) + Security (GSD-1) = ~90 práticas únicas. Nenhum framework atual tem mais que 28. A oportunidade de cross-pollination no ecossistema é massiva.

A escolha não é "qual é melhor". É "qual problema você está resolvendo". O decision tree por ICP mapeia isso por persona, use-case e tamanho de time. A tese e arquitetura comparada abre o porquê de cada framework ter cravado onde cravou. Para ver BMAD em código, github.com/bmad-code-org/BMAD-METHOD. Para ver AIOX vivo, aioxsquad.ai. O resto é trabalho de arquiteto. Clareza é uma arma quando você usa os números acima e a tese certa antes de decidir.

#bmad-method #aiox #framework #agent-orchestration #sinkra #comparison #listicle #crewai #paperclip #gsd-2 #gsd-1 #5-way-bench #10-dimensoes #70-praticas

Perguntas frequentes

Quais são as 10 dimensões avaliadas no bench?
2.1 Agent Definition & Identity, 2.2 Task & Workflow Model, 2.3 Orchestration Patterns, 2.4 Communication & Handoff, 2.5 Quality Gates & Governance, 2.6 Context Management, 2.7 Parallelism & Concurrency, 2.8 Security & Safety, 2.9 Infrastructure & Deployment, 2.10 Business Rules Density. As 3 últimas (security, infra, business rules) são as que comparações superficiais costumam ignorar.
Quem venceu cada dimensão?
Identity: AIOX (escala) + CrewAI (backstory) + BMAD (Party Mode). Workflow: empate CrewAI/GSD-2. Orquestração: Paperclip (hierarquia). Communication: CrewAI (memory subsystems) + AIOX (QG-CROSS). Gates: BMAD (15 gates) + AIOX (Constitution). Contexto: GSD-2 (fresh session). Paralelismo: GSD-2 (worktree). Security: GSD-1 (5 práticas únicas). Infra: Paperclip (full-stack). Business Rules: AIOX (100+ rules).
Por que GSD-1 ficou marcado como N/A no SINKRA Score?
O pipeline SINKRA-MAP rodou até a fase 5 no GSD-1 e parou. Isso significa que arquitetura foi mapeada, mas quality gates, compliance e score card não foram completados. O verdict é INCOMPLETE, não REJECTED. Mesmo assim, GSD-1 lidera em segurança (5 práticas únicas: prompt injection scanner, path traversal protection, shell metachar protection, advisory hooks, breadth de runtimes) e em runtime adapters (14+).
AIOX é o vencedor geral do bench?
AIOX é o framework de referência do bench, não um competidor pontuado. Lidera em densidade absoluta de práticas (28 de orquestração, 16 exclusivas, 100+ business rules) e em governance (Constitution de 322 linhas, agent authority matrix, 4-business multi-tenant). Mas tem gap em infrastructure ativa (sem dashboard, sem crash recovery, sem rollback automatizado), em security ativa contra ataque (sem scanner de prompt injection) e em budget hard-stop. Cada framework crava onde resolveu o problema dele.
Como usar essa matriz pra decidir entre BMAD e AIOX?
Olhe pelas 3 dimensões esquecidas primeiro (security, infra, business rules). Se security crítica, GSD-1 lidera, não BMAD nem AIOX. Se infra de produção é decisivo, Paperclip lidera. Se governance constitucional e escala importam, AIOX. Se metodologia de dev-lifecycle clássico em time pequeno, BMAD com Quick Flow + Party Mode. O decision tree por ICP aprofunda esse mapeamento por persona, use-case e tamanho de time.

Sobre o autor

Alan Nicolas

Co-Founder & Extraction Architect

Filósofo-construtor, fundador da Academia Lendária e co-fundador da AIOX. Trabalha na interseção entre IA aplicada, extração de conhecimento, sistemas operacionais e criação de movimentos.

  • 7.500+ sessões Claude Code
  • US$28K+ investidos em desenvolvimento com IA
  • 20 trilhões de tokens processados
  • Fundador da Academia Lendária
  • Criador do framework AIOX