A fronteira legal que a IA está ultrapassando
Quando modelos de linguagem como GPT-4o e Claude reescrevem código open source, estão criando uma obra derivada ou realizando engenharia reversa legítima? Essa questão, que parecia acadêmica há dois anos, tornou-se um dos debates mais urgentes do ecossistema de software. O центр do problema: enquanto a lei de direitos autorais evoluiu lentamente por décadas, a inteligência artificial atropelou décadas de jurisprudência em meses.
A Polymorph, startup de análise de código baseada em IA, revelou em março de 2026 que seu modelo PolyCoder-3 foi capaz de não apenas reescrever funcionalidades de repositórios sob licenças GPL e MIT, mas também identificar e propor alterações nas próprias estruturas de licenciamento — um território juridicamente inexplorado.
Como a IA manipula código — e por que as licenças viraram alvo
Os modelos de linguagem modernos não apenas leem código: eles o internalizam, transformam e regeneram. O processo funciona em três camadas:
Pré-treinamento em massa — Modelos consomem terabytes de código de repositórios como GitHub, GitLab e SourceForge, aprendendo não apenas sintaxe, mas padrões de licenciamento, estruturas de projetos e decisões arquiteturais.
Fine-tuning supervisionado — Técnicas como RLHF (Reinforcement Learning from Human Feedback) orientam os modelos a preferir código "limpo", "seguro" e "compatível com licenças".
Geração contextual — given um prompt, o modelo pode reconstruir funcionalidades inteiras a partir de fragmentos, frequentemente sem cópia caractere-por-caractere — o que complica a definição de "obra derivada".
"O problema não é se a IA copia. É se ela reimagina de forma que a licença original se torna irrelevante ou pior, incompatível com a intenção do autor original." — Roberto Machado, professor de propriedade intelectual na USP e consultor da ABPI.
O mercado de IA para desenvolvedores movimentou US$ 2,8 bilhões em 2025, segundo a Goldman Sachs Research, com projeções de atingir US$ 12 bilhões até 2028. Ferramentas como GitHub Copilot (mais de 1,8 milhão de assinantes pagos), Amazon CodeWhisperer e Cursor dominam o segmento, mas nenhuma respondeu diretamente à questão das licenças até agora.
O quebra-cabeça jurídico: engenharia reversa vs. obra derivada
A distinção entre engenharia reversa legítima e criação de obra derivada não autorizada tem raízes na legislação de direitos autorais dos EUA (17 U.S.C. § 102) e suas equivalentes internacionais, incluindo a Lei 9.609/98 no Brasil e a Lei 11.723 na Argentina.
Engenharia reversa limpa tradicionalmente inclui:
- Descompilação para interoperabilidade
- Análise de funcionalidades
- Reimplementação independente
O problema com IA é que os modelos não "analisam" no sentido humano. Eles estatisticamente recombinam padrões absorvidos durante o treinamento. Isso significa que:
- Um modelo pode gerar código 功能mente idêntico ao original sem nunca ter copiado uma única linha
- A intenção do desenvolvedor original pode ser subvertida sem plágio detectável
- A licença original (GPL, MIT, Apache) pode ser inadvertidamente abandonada ou modificada
Em 2025, o Software Freedom Conservancy (SFC) ajuizou ação contra três empresas de IA, alegando que o treinamento em código open source sem permissão constitui violação de licença. O caso, ainda em tramitação no Northern District of California, pode estabelecer precedente global.
Implicações para a América Latina e o mercado global
O ecossistema open source latino-americano, avaliado em US$ 340 milhões em 2025 (IDC Latin America), depende heavily de licenças permissivas para inovação. Startups em Bogotá, São Paulo e Buenos Aires utilizam código sob MIT, Apache 2.0 e BSD como base para produtos comerciais.
Riscos imediatos:
- Incerteza jurídica sobre a titularidade de código gerado por IA
- Possíveis infrações involuntárias de licenciamento
- Dificuldade em audits de compliance para empresas que usam código AI-generated
Oportunidades:
- Plataformas regionais de IA podem se posicionar como "licencia-compliant" desde o início
- Demand por ferramentas de verificação de licenças em código gerado por IA
- Potencial para modelos entrenados especificamente em código sob licenças permissivas da região
A Linux Foundation inúmera que 97% do código moderno depende de componentes open source. Se a IA comprometer a integridade das licenças, toda a cadeia de suprimentos de software全球化 enfrenta risco sistêmico.
O que esperar
Nos próximos 12 a 18 meses, três cenários são prováveis:
Precedente judicial — O caso SFC vs. Empresas de IA deve chegar a sentença, definindo se treinamento em código open source constitui uso legítimo ou violação.
Resposta regulatória — A União Europeia, através do AI Act, e o Brasil, via proposta de Marco Legal de IA, devem incluir disposições sobre transparência de treinamento.
Adaptação do mercado — Ferramentas de scanning de licenças (como FOSSA, Black Duck) incorporarão detecção de código AI-generated, e novas licenças "AI-friendly" emergirão.
Para desenvolvedores e empresas latino-americanas, a recomendação é clara: verificar a origem de cada snippet de código antes de incorporá-lo em produtos comerciais, e pressionar por transparência nos modelos utilizados.
A questão não é se a IA pode reescrever licenças — é se o direito conseguir追上-la.


