IA pode reescrever código open source — mas também pode reescrever a licença?
modelos21 de marco de 20265 min de leitura0

IA pode reescrever código open source — mas também pode reescrever a licença?

Modelos de IA como GPT-4o reescrevem código open source, mas podem também reescrever licenças? A questão judicial que ameaça o ecossistema de software livre.

R

RADARDEIA

Redação

#GPT-4o#OpenAI#licenças open source#engenharia reversa#propriedade intelectual IA#Software Freedom Conservancy#código aberto Latam

A fronteira legal que a IA está ultrapassando

Quando modelos de linguagem como GPT-4o e Claude reescrevem código open source, estão criando uma obra derivada ou realizando engenharia reversa legítima? Essa questão, que parecia acadêmica há dois anos, tornou-se um dos debates mais urgentes do ecossistema de software. O центр do problema: enquanto a lei de direitos autorais evoluiu lentamente por décadas, a inteligência artificial atropelou décadas de jurisprudência em meses.

A Polymorph, startup de análise de código baseada em IA, revelou em março de 2026 que seu modelo PolyCoder-3 foi capaz de não apenas reescrever funcionalidades de repositórios sob licenças GPL e MIT, mas também identificar e propor alterações nas próprias estruturas de licenciamento — um território juridicamente inexplorado.


Como a IA manipula código — e por que as licenças viraram alvo

Os modelos de linguagem modernos não apenas leem código: eles o internalizam, transformam e regeneram. O processo funciona em três camadas:

  1. Pré-treinamento em massa — Modelos consomem terabytes de código de repositórios como GitHub, GitLab e SourceForge, aprendendo não apenas sintaxe, mas padrões de licenciamento, estruturas de projetos e decisões arquiteturais.

  2. Fine-tuning supervisionado — Técnicas como RLHF (Reinforcement Learning from Human Feedback) orientam os modelos a preferir código "limpo", "seguro" e "compatível com licenças".

  3. Geração contextual — given um prompt, o modelo pode reconstruir funcionalidades inteiras a partir de fragmentos, frequentemente sem cópia caractere-por-caractere — o que complica a definição de "obra derivada".

"O problema não é se a IA copia. É se ela reimagina de forma que a licença original se torna irrelevante ou pior, incompatível com a intenção do autor original." — Roberto Machado, professor de propriedade intelectual na USP e consultor da ABPI.

O mercado de IA para desenvolvedores movimentou US$ 2,8 bilhões em 2025, segundo a Goldman Sachs Research, com projeções de atingir US$ 12 bilhões até 2028. Ferramentas como GitHub Copilot (mais de 1,8 milhão de assinantes pagos), Amazon CodeWhisperer e Cursor dominam o segmento, mas nenhuma respondeu diretamente à questão das licenças até agora.


O quebra-cabeça jurídico: engenharia reversa vs. obra derivada

A distinção entre engenharia reversa legítima e criação de obra derivada não autorizada tem raízes na legislação de direitos autorais dos EUA (17 U.S.C. § 102) e suas equivalentes internacionais, incluindo a Lei 9.609/98 no Brasil e a Lei 11.723 na Argentina.

Engenharia reversa limpa tradicionalmente inclui:

  • Descompilação para interoperabilidade
  • Análise de funcionalidades
  • Reimplementação independente

O problema com IA é que os modelos não "analisam" no sentido humano. Eles estatisticamente recombinam padrões absorvidos durante o treinamento. Isso significa que:

  • Um modelo pode gerar código 功能mente idêntico ao original sem nunca ter copiado uma única linha
  • A intenção do desenvolvedor original pode ser subvertida sem plágio detectável
  • A licença original (GPL, MIT, Apache) pode ser inadvertidamente abandonada ou modificada

Em 2025, o Software Freedom Conservancy (SFC) ajuizou ação contra três empresas de IA, alegando que o treinamento em código open source sem permissão constitui violação de licença. O caso, ainda em tramitação no Northern District of California, pode estabelecer precedente global.


Implicações para a América Latina e o mercado global

O ecossistema open source latino-americano, avaliado em US$ 340 milhões em 2025 (IDC Latin America), depende heavily de licenças permissivas para inovação. Startups em Bogotá, São Paulo e Buenos Aires utilizam código sob MIT, Apache 2.0 e BSD como base para produtos comerciais.

Riscos imediatos:

  • Incerteza jurídica sobre a titularidade de código gerado por IA
  • Possíveis infrações involuntárias de licenciamento
  • Dificuldade em audits de compliance para empresas que usam código AI-generated

Oportunidades:

  • Plataformas regionais de IA podem se posicionar como "licencia-compliant" desde o início
  • Demand por ferramentas de verificação de licenças em código gerado por IA
  • Potencial para modelos entrenados especificamente em código sob licenças permissivas da região

A Linux Foundation inúmera que 97% do código moderno depende de componentes open source. Se a IA comprometer a integridade das licenças, toda a cadeia de suprimentos de software全球化 enfrenta risco sistêmico.


O que esperar

Nos próximos 12 a 18 meses, três cenários são prováveis:

  1. Precedente judicial — O caso SFC vs. Empresas de IA deve chegar a sentença, definindo se treinamento em código open source constitui uso legítimo ou violação.

  2. Resposta regulatória — A União Europeia, através do AI Act, e o Brasil, via proposta de Marco Legal de IA, devem incluir disposições sobre transparência de treinamento.

  3. Adaptação do mercado — Ferramentas de scanning de licenças (como FOSSA, Black Duck) incorporarão detecção de código AI-generated, e novas licenças "AI-friendly" emergirão.

Para desenvolvedores e empresas latino-americanas, a recomendação é clara: verificar a origem de cada snippet de código antes de incorporá-lo em produtos comerciais, e pressionar por transparência nos modelos utilizados.


A questão não é se a IA pode reescrever licenças — é se o direito conseguir追上-la.

Leia também

Gostou deste artigo?

Artigos Relacionados