A OpenAI anunciou o lançamento do GPT‑4o Image Generation, seu recurso de geração de imagens mais avançado até o momento. Integrado ao GPT‑4o, esse recurso visa criar visuais que sejam “bonitos e úteis”, de acordo com a empresa.
Principais recursos da geração de imagens GPT‑4o
Precisão de renderização de texto: o GPT‑4o foi projetado para incorporar perfeitamente símbolos e texto em imagens, permitindo que os usuários se comuniquem com clareza e precisão.
Refinamento interativo: os usuários podem se envolver em interações multi-turno, refinando imagens por meio de conversas. Por exemplo, ao projetar um personagem de videogame, o GPT‑4o garante que os traços e características permaneçam consistentes entre as iterações.

Acompanhamento detalhado de prompts: A OpenAI destacou que, enquanto os sistemas anteriores tinham dificuldade para renderizar de ~5 a 8 objetos, o GPT‑4o pode processar com precisão prompts envolvendo até 10 a 20 objetos, oferecendo melhor controle sobre características, relacionamentos e detalhes.
Consciência contextual: o sistema analisa e aprende com imagens enviadas pelos usuários, integrando seus detalhes para informar e aprimorar sua geração de imagens.

Variedade estilística e realismo: com treinamento em uma ampla gama de estilos, o GPT‑4o é capaz de produzir imagens fotorrealistas ou transformar visuais em representações artísticas adaptadas às preferências do usuário.
Lidando com as limitações
Apesar de seus avanços, a OpenAI reconheceu certas deficiências do GPT‑4o Image Generation. Por exemplo, o modelo “ocasionalmente corta imagens mais longas, como pôsteres, muito apertadas, especialmente perto da parte inferior”. A OpenAI enfatizou os planos para resolver esses problemas por meio de atualizações subsequentes.

Características de segurança
A OpenAI reiterou seu compromisso com o uso ético e responsável da IA, citando as seguintes medidas:
- Metadados C2PA: Todas as imagens geradas incluem
- Metadados C2PA para garantir transparência marcando-os como gerados por IA.
- Ferramentas de busca interna: ferramentas proprietárias permitem a verificação da origem do conteúdo usando atributos técnicos.
- Aplicação rigorosa de políticas: o OpenAI bloqueia solicitações de conteúdo que violam as diretrizes, incluindo solicitações que envolvam violência gráfica, imagens explícitas ou deepfakes prejudiciais. Existem proteções aprimoradas para imagens que envolvam indivíduos reais.
- Integração do LLM de raciocínio: Um modelo de linguagem baseado em raciocínio foi empregado durante o desenvolvimento para ajudar a resolver ambiguidades nas políticas de segurança, garantindo o alinhamento com os padrões éticos da OpenAI.
Aplicações práticas
A empresa explicou que os humanos há muito tempo usam ferramentas visuais — de pinturas rupestres a infográficos modernos — para comunicar e analisar informações. O GPT‑4o preenche a lacuna entre a expressão artística e a utilidade prática, permitindo a criação de recursos visuais como logotipos, diagramas e designs informativos que comunicam significados precisos.
Acesso e Disponibilidade
O lançamento começou em 25 de março de 2025 para usuários Plus, Pro, Team e Free do ChatGPT. O acesso para usuários Enterprise e Edu deve ocorrer em breve. Além disso, os usuários do Sora agora têm acesso aos recursos de geração de imagens do GPT‑4o. A OpenAI observou que os desenvolvedores ganhariam acesso à API nas próximas semanas.
Os usuários podem gerar visuais personalizados simplesmente descrevendo seus requisitos por meio do GPT‑4o. O sistema suporta especificações detalhadas, como proporções de aspecto, códigos hexadecimais de cores e fundos transparentes. No entanto, a OpenAI destacou que renderizar essas imagens altamente detalhadas pode levar até um minuto.