A Tese
Há uma conversa que o mercado de tecnologia evita ter em público, mas que qualquer desenvolvedor que trabalha com sistemas reais eventualmente chega: a inteligência artificial, no seu estado atual, pode estar mais próxima do teto do que do teto de vidro.
Não é pessimismo. É engenharia.
A provocação central é precisa: chegamos, ou estamos chegando, a um limite físico e econômico. O consumo de energia elétrica para processar tokens tornou-se impagável em escala. O hardware atual, GPUs que foram adaptadas para IA e não projetadas para ela, está atingindo o limite de densidade térmica. E a pergunta que fica no ar é incômoda: o que exatamente vai mudar o jogo?
A resposta honesta é: não sabemos.
O Problema que Ninguém Quer Nomear
O mercado celebra agentes que fazem e-mails, organizam planilhas e respondem tickets de suporte. Isso é real e útil. Mas existe um abismo entre automação de escritório e análise de sistemas complexos, e é nesse abismo que a IA atual afunda.
Analisar um ERP legado não é ler arquivos PHP. É entender dependências cruzadas construídas ao longo de uma década, regras de negócio que existem apenas na cabeça de um funcionário que saiu em 2019, gambiarras que viraram arquitetura por necessidade. A IA atual, jogando 50 arquivos no contexto, começa a alucinar nas bordas e esquece as regras do primeiro arquivo antes de chegar no último.
O mesmo vale para sistemas jurídicos, onde uma vírgula ou uma jurisprudência de 1998 muda o desfecho de um processo inteiro. E vale para análise de redes sociais em tempo real, onde os dados expiram em segundos e o volume inviabiliza qualquer processamento centralizado.
Para esses cenários, a IA atual ainda é muita fumaça e pouco fogo.
A Estratégia dos Agentes: Certa no Diagnóstico, Frágil na Execução
A resposta que a indústria encontrou foi fragmentar o problema. Dividir o sistema em agentes especializados, cada um responsável por uma fatia do código, com arquivos pequenos e ponteiros para inferir onde cada dado está. Na superfície, funciona. Na prática, é pouco confiável.
O problema central é que o agente não conhece a máquina do usuário. Ele opera em uma sandbox abstrata, recebendo texto sobre o código, não o comportamento do código rodando. Ele não vê os logs do Docker, não sente a latência do disco, não entende o ambiente onde o sistema respira. É um especialista sem a planta da casa.
Quando o sistema cresce, a coesão se perde. Os ponteiros começam a apontar para vizinhos errados. A comunicação entre agentes gera um overhead de tokens que, em sistemas grandes, custa mais do que o processamento real da tarefa. E a memória, que parece existir via RAG, é na prática uma busca por similaridade sem garantia lógica, pode recuperar o contexto errado, pode ignorar algo crítico, não mantém coerência global.
Os agentes atuais simulam raciocínio. Não o executam de verdade.
A Analogia que Acerta o Diagnóstico
A comparação com os mainframes dos anos 70 é provavelmente a mais honesta que existe para descrever o momento atual. A tecnologia é poderosa. É cara. É centralizada. E ninguém sabe exatamente qual será o IBM PC da IA, aquela mudança de arquitetura e de uso que torna a coisa acessível, eficiente e confiável.
Mas existe uma segunda analogia ainda mais reveladora: o banco de dados.
O modelo relacional do Edgar Codd está aí há quase um século e não mudou em essência. O SQL não evoluiu, melhorou. Ficou mais rápido, mais eficiente, mais distribuído. Mas o paradigma base continua o mesmo. E isso aconteceu em grande parte porque o hardware melhorou, não porque alguém descobriu uma nova forma de pensar sobre dados.
A hipótese incômoda é que a IA pode seguir exatamente o mesmo caminho. Tokens mais baratos. Inferência mais rápida. Janelas de contexto maiores. Mas a mesma natureza probabilística, a mesma incapacidade estrutural de entender sistemas complexos com consistência, a mesma limitação fundamental de ser um modelo de linguagem que aproxima padrões em vez de raciocinar sobre fluxos.
SQL não evoluiu, melhorou. IA ainda vai melhorar. Mas evoluir, pelo menos não essa semana.
O Limite Não É Opinião, é Física
Antes de entrar no debate de paradigmas, vale ancorar a discussão no que não é negociável: os limites físicos do hardware atual.
O problema fundamental tem nome: memory bandwidth bottleneck. Para gerar cada token, o modelo precisa mover seus parâmetros inteiros da memória para o chip de processamento. Um modelo de 70 bilhões de parâmetros em precisão de 16 bits ocupa cerca de 140GB. Para rodar com latência aceitável, esse peso precisa trafegar entre memória e compute dezenas de vezes por segundo. A largura de banda disponível nos melhores chips atuais, como o H100 da NVIDIA com seus 3,35 TB/s — já está sendo consumida quase integralmente só para manter o modelo "vivo", antes de fazer qualquer cálculo útil.
Isso cria uma assimetria brutal entre treinamento e inferência. No treinamento, você amortiza o custo de mover os pesos processando milhares de exemplos em paralelo, a GPU fica ocupada o tempo todo. Na inferência, você gera um token de cada vez para um usuário, e o chip passa a maior parte do tempo esperando dados chegarem da memória. É o equivalente computacional de contratar uma equipe inteira de engenheiros para atender um cliente por vez.
O resultado prático é que o custo por token não é principalmente determinado pela inteligência do modelo, é determinado pela física da movimentação de dados. E essa física tem um teto bem definido pela lei de Dennard, que descreveu o fim do scaling de frequência em chips, e pelo limite térmico de silício, que impede aumentar densidade indefinidamente. Não é projeção pessimista. É o mesmo tipo de barreira que encerrou a corrida de clock dos processadores nos anos 2000 e forçou a indústria a ir para múltiplos núcleos, uma solução que funcionou para alguns problemas e criou novos para outros.
A diferença é que em 2005 sabia-se para onde ir. Hoje, na IA, ainda não.
O Argumento Contrário Seria…
Aqui entra a resposta padrão da indústria, e vale a pena ouvi-la com atenção antes de desmontá-la, porque ela não é completamente errada, só incompleta.
O argumento soa assim: "Você está sendo presentista e subestimando a curva. As pessoas dos anos 70 também achavam que o mainframe nunca viraria algo acessível. Temos State Space Models, arquiteturas híbridas, quantização agressiva que reduz modelos de 16-bit para 4-bit ou menos, chips dedicados à inferência como os da Groq e os TPUs do Google. A eficiência está melhorando em ordens de magnitude. O salto está vindo, você só não consegue ver porque está no meio dele."
É sedutor. E tem uma parte verdadeira: ceticismo mal calibrado já errou feio na história da tecnologia, e quem apostou contra a Lei de Moore no momento errado pagou caro.
Mas o argumento tem três fraturas estruturais.
A primeira é que confunde velocidade com direção. Sim, a IA está evoluindo rápido. Mas rápido em qual direção? Todos os avanços recentes, quantização, MoE, destilação, janelas de contexto maiores, chips dedicados, são otimizações do mesmo paradigma. São melhorias na infraestrutura de um modelo que continua sendo, na essência, um preditor estatístico de tokens. Quantização não muda o que o modelo faz, apenas reduz o custo de fazer a mesma coisa. É como dizer que o mainframe dos anos 70 estava "evoluindo rápido" porque ficou 40% mais eficiente a cada geração. Verdade. E continuou sendo mainframe.
A segunda fratura é que o argumento aposta em apostas. State Space Models como o Mamba são matematicamente elegantes e resolvem o problema da complexidade quadrática da atenção, mas ainda não provaram escala em tarefas abertas comparáveis ao GPT-4. Arquiteturas híbridas neural-simbólicas existem em paper há décadas e continuam frágeis fora de domínios muito restritos. Chips como os da Groq são impressionantes para inferência de modelos fixos, mas não resolvem o problema de representação, apenas executam o problema atual mais rápido. Apresentar candidatos experimentais como se fossem soluções iminentes é precisamente o tipo de raciocínio que produz ciclos de hype e decepção.
A terceira fratura é a mais profunda, e é onde o argumento realmente desmorona: ele ignora o problema de representação. Mesmo que amanhã surja uma arquitetura dez vezes mais eficiente que o Transformer, se ela continuar operando fundamentalmente sobre tokens de texto, sobre similaridade estatística entre sequências, ela vai continuar sendo limitada para os mesmos casos que limitam a IA hoje. ERP, jurídico, sistemas distribuídos complexos não são problemas de linguagem. São problemas de estrutura causal, estado persistente e lógica formal. Resolver o custo computacional não resolve isso. Resolve a conta de luz. A inteligência estrutural continua ausente.
A transição do mainframe para o PC não foi só sobre eficiência energética ou miniaturização de chips. Foi sobre uma mudança de paradigma de uso: de centralizado para distribuído, de operado por especialistas para operado por qualquer pessoa, de propósito único para propósito geral. Essa mudança exigiu uma nova forma de pensar sobre o que um computador é e para quem ele serve. A IA ainda está esperando o equivalente dessa virada. E ninguém, hoje, consegue apontar com credibilidade o que ela é ou quando vem.
O Que Falta Para o Salto Real
Sendo direto sobre o estado da pesquisa: existem apostas, não soluções.
State Space Models como o Mamba prometem resolver o problema da complexidade quadrática da atenção, tornando o custo linear ao invés de explodir com o tamanho do contexto. Modelos híbridos entre redes neurais e lógica simbólica poderiam combinar a fluência dos LLMs com a consistência dos sistemas especialistas dos anos 80. Arquiteturas com acesso real ao ambiente, lendo AST do projeto, entendendo containers rodando, interpretando logs em tempo real, mudariam a natureza do que um agente consegue fazer.
Mas nada disso convergiu. Nada disso é dominante. Nada disso é economicamente viável em escala ainda.
O campo está na fase pré-paradigma dominante, igual ao que aconteceu com bancos de dados antes do SQL virar padrão, com redes antes do TCP/IP dominar, com sistemas operacionais antes de alguém descobrir o que um sistema operacional deveria ser.
O problema real, e o menos discutido, é de representação. Os desafios mais difíceis, ERP, jurídico, sistemas distribuídos, não são problemas de texto. São problemas de estrutura, estado e lógica. Enquanto a IA continuar operando fundamentalmente sobre texto, qualquer modelo vai parecer limitado para esses casos, independente de quantos bilhões de parâmetros ele tenha.
Conclusão
Não sabemos o que vai mudar o jogo. Pode ser que amanhã algum pesquisador publique algo que mude tudo. Pode ser que demore uma década. Pode ser que a IA siga o caminho do SQL: se torne infraestrutura sólida, ubíqua e útil, mas sem nunca resolver os problemas realmente difíceis que exigem uma forma diferente de pensar.
A postura mais honesta diante disso não é nem o hype que vende AGI para 2026, nem o ceticismo que descarta tudo como fumaça. É reconhecer que estamos no meio do caminho tecnológico — passamos da fase ingênua de "só escalar resolve", mas ainda não chegamos na fase de engenharia confiável.
Por hora, a IA é um estagiário muito rápido que se perde em projetos com mais de dez pastas. Útil. Impressionante em partes. Mas longe de ser o engenheiro que entende o sistema inteiro.
E isso, por enquanto, é a realidade.