Agora qualquer um pode construir aplicativos que usam DALL-E 2 para gerar imagens

Finalmente, DALL-E 2, o sistema de IA de geração de imagens da OpenAI, está disponível como uma API, o que significa que os desenvolvedores podem integrar o sistema em seus aplicativos, sites e serviços. Em uma postagem de blog hoje, a OpenAI anunciou que qualquer desenvolvedor pode começar a aproveitar o poder do DALL-E 2 – que mais de três milhões de pessoas agora usam para produzir mais de quatro milhões de imagens por dia – uma vez que ele criou uma conta da API OpenAI como parte do beta público.

O preço da API DALL-E 2 varia de acordo com a resolução. Para imagens de 1024 x 1024, o custo é de US$ 0,02 por imagem; As imagens de 512 x 512 custam US$ 0,018 por imagem; e imagens de 256 x 256 custam US$ 0,016 por imagem. Descontos por volume estão disponíveis para empresas que trabalham com a equipe OpenAI Enterprise.

Assim como no DALL-E 2 beta, a API permitirá que os usuários gerem novas imagens a partir de prompts de texto (por exemplo, “um coelhinho fofo pulando em um campo de flores”) ou modifiquem imagens existentes. A Microsoft, um parceiro próximo da OpenAI, aproveita isso no Bing e no Microsoft Edge com seus Criador de imagens ferramenta, que permite aos usuários criar imagens se os resultados da web não retornarem o que eles estão procurando. O aplicativo de design de moda CALA usa a API DALL-E 2 para uma ferramenta que permite aos clientes refinar ideias de design a partir de descrições de texto ou imagens, enquanto a startup de fotos Mixtiles a traz para um fluxo de criação de obras de arte para seus usuários.

Não há muitas mudanças em termos de política com o lançamento da API, o que pode decepcionar aqueles que temem que sistemas generativos de IA como o DALL-E 2 sejam lançados sem consideração suficiente das questões éticas e legais que eles enfrentam. Como antes, os usuários estão vinculados aos Termos de Serviço da OpenAI, que proíbem o uso do DALL-E 2 para gerar conteúdo abertamente violento, sexual ou de ódio. O OpenAI também continua a impedir que os usuários façam upload de fotos de pessoas sem seu consentimento ou imagens às quais não têm direitos, usando uma mistura de sistemas de monitoramento automatizados e humanos para impor isso.

Um pequeno ajuste é que as imagens geradas com a API não precisarão conter uma marca d’água. A OpenAI introduziu a marca d’água durante o DALL-E 2 beta como forma de indicar quais imagens vinham do sistema, mas optou por torná-la opcional com o lançamento da API.

“Encorajamos os desenvolvedores a divulgar que as imagens são geradas por IA, mas não exigem que incluam a assinatura DALL-E 2”, disse Luke Miller, gerente de produto da OpenAI que supervisiona o desenvolvimento do DALL-E.E 2, ao TechCrunch por e-mail.

Ferramenta Designer da Microsoft, alimentada pela API DALL-E 2.

Ferramenta Designer da Microsoft, alimentada pela API DALL-E 2.

O OpenAI também usa filtros de nível de prompt e de imagem com DALL-E 2, embora os filtros que alguns clientes reclamaram sejam superzeloso e impreciso. E a empresa concentrou alguns de seus esforços de pesquisa na diversificação dos tipos de imagens geradas pelo DALL-E 2, com o objetivo de combater os vieses que os sistemas de IA de texto para imagem são vítimas (por exemplo, gerando principalmente imagens de homens brancos quando solicitados por textos como “exemplos de CEOs”).

Mas essas medidas não aplacaram todas as críticas. Em agosto, a Getty Images banido baixar e vender obras de arte geradas usando DALL-E 2 e outras ferramentas semelhantes, seguindo decisões semelhantes por sites como Newgrounds, PurplePort e FurAffinity. O CEO da Getty Images, Craig Peters, disse ao The Verge que a proibição foi motivada por preocupações sobre “correr problemas não resolvidos”, porque conjuntos de dados de treinamento para sistemas como DALL-E 2 contêm imagens protegidas por direitos autorais retirado da web.

Muitos críticos dizem que não se trata apenas de quebrar trabalho de marca que os preocupam sobre DALL-E 2. O sistema ameaça os meios de subsistência de artistas cujos estilos agora podem ser reproduzidos com algumas sequências de texto, eles afirmam, incluindo artistas que não consentiram que seu trabalho seja usado para a formação de DALL-E 2 . (Para ser justo com a OpenAI, a empresa tem permitiu algumas das imagens no conjunto de dados de treinamento DALL-E 2, o que é mais do que pode ser dito para alguns de seus rivais.)

Tentando encontrar um terreno comum, a Getty Images recentemente rivalizou com a Shutterstock anúncio que começaria a usar o DALL-E 2 para gerar conteúdo, mas simultaneamente lançaria um “fundo de contribuição” para reembolsar os criadores quando a empresa vender trabalho para treinar sistemas de IA de texto para imagem. Também proíbe arte de IA enviada por terceiros para minimizar o risco de obras protegidas por direitos autorais acabarem na plataforma.

Os tecnólogos Mat Dryhurst e Holly Herndon estão liderando um esforço chamado Fonte+ para permitir que as pessoas proíbam o uso de seu trabalho ou imagem para fins de treinamento de IA. Mas é voluntário. A OpenAI não disse se participará – ou mesmo se introduzirá uma ferramenta de autoatendimento para permitir que os detentores de direitos excluam seu trabalho de treinamento ou geração de conteúdo.

Misturas DALL-E 2 API

Misturas DALL-E 2 API

Mixtiles é um dos primeiros usuários da API DALL-E 2.

Em uma entrevista, Miller revelou poucos detalhes sobre as novas mitigações, exceto que a OpenAI melhorou suas técnicas para evitar que o sistema gere conteúdo tendencioso, tóxico e ofensivo que os clientes possam achar censurável. Ele descreveu a versão beta do Open API como um processo “iterativo”, que envolverá o trabalho com “usuários e artistas” nos próximos meses, à medida que o OpenAI evolui a infraestrutura que alimenta o DALL-E 2.

Certamente, se o DALL-E 2 beta é uma indicação, o programa API evoluir ao longo do tempo. A princípio, o OpenAI desativou a capacidade de editar os rostos das pessoas com o DALL-E 2, mas depois ativado capacidade depois de fazer melhorias em seu sistema de segurança.

“Fizemos muito trabalho nesse lado das coisas – tanto das imagens que você envia quanto dos prompts que você envia para alinhar isso com nossa política de conteúdo e criar diferentes atenuações para filtrar o nível au do prompt e”, diz Miller. “Estamos sempre pensando em como podemos melhorar o sistema.”

Mas enquanto o OpenAI parece interessado em evitar a controvérsia em torno do Stable Diffusion, o equivalente de código aberto do DALL-E 2 que foi usado para criar pornô, sangue e deepfakes de celebridades, deixa para os usuários da API escolher exatamente como e onde implantar sua tecnologia. Alguns, como a Microsoft, sem dúvida adotarão uma abordagem comedida, lançando lentamente produtos com tecnologia DALL-E 2 para obter feedback. Outros vão mergulhar de cabeça, abraçando tecnologia e dilema ético que vão com isso.

Se há uma coisa certa, é que há uma demanda reprimida por IA generativa – as consequências estão condenadas. Mesmo antes do lançamento oficial da API, os desenvolvedores estavam lançando soluções alternativas para integrar o DALL-E 2 em aplicativos, serviços, sites e até videogames. Com o lançamento da versão beta pública, alimentada pelo formidável poder de marketing do OpenAI, as imagens sintéticas estão prestes a entrar de verdade no mainstream.