Na ultima quinta-feira (9), o projeto gráfico gerado por IA de Vicente Pessôa para o romance ‘Frankenstein’ (editado pelo Clube de Literatura Clássica), de Mary Shelley, foi indicado como semifinalista do Prêmio Jabuti 2023 na categoria “Ilustração”. Um dia depois, um comunicado interno aos participantes anunciou a sua desclassificação, alegando que a técnica não era prevista no regulamento e que, por isso, o assunto fora novamente deliberado pela curadoria.
A polêmica tem sido digna de um marco na história da ilustração, que nunca mais será tratada da mesma forma no país, e suas implicações mais relevantes incluem noções do que seja arte, de como gerar um juízo de valor estético, do uso de tecnologia no trabalho artístico, da apropriação do trabalho alheio etc., etc., etc.
Por isso mesmo, os debates até aqui têm me parecido muito difusos: em geral, o projeto gráfico continua sendo muito elogiado, com a atribuição ou não dos seus méritos ao que se poderia chamar de “ilustração” como uma ressalva de menor ênfase; mas, no meio especializado dos ilustradores, vestes foram rasgadas e um abaixo assinado pediu a cabeça de Vicente Pessôa em uma bandeja, sem direito a dança.
A esta altura, tendo eu sido, com orgulho, o editor do livro, interessa-me organizar as principais questões que este assunto levanta, facilitando a apreciação das suas melhores lições e possíveis legados.
Foi uma pegadinha?
À parte a desonestidade, até que a ideia seria engraçada, mas, antes de qualquer coisa, ninguém enganou ninguém: a utilização do serviço de IA empregado nas ilustrações da edição foi divulgada durante um mês inteiro em outubro de 2022, quando o box contendo o livro (acompanhado da novela ‘Estranho caso de Dr Jekyll e Mr Hyde’) foi lançado.
Foram, enfim, postagens quase diárias nas redes sociais e uma live exclusiva, de mais de uma hora e meia de duração, com o designer Vicente Pessôa explicando todo o processo com o gerente editorial José Lima (à parte de outra live com o tradutor, Eduardo Levy), além de a informação constar nos créditos do livro.
O regulamento do Prêmio Jabuti, fora do ar, trazia apenas a seguinte determinação na categoria “Ilustração”:
“Imagens criadas a partir de desenhos ou de outras técnicas visuais e artísticas, que apresentem uma narrativa de forma autônoma ou associada ao texto, se houver.
Critérios a serem apreciados pelo júri:
1. Originalidade e inventividade
2. Identidade, unidade visual e interação entre imagem e texto (se houver)
3. Capacidade contar uma história
O formulário de inscrição não questionava especificamente a técnica de ilustração utilizada, mas a inscrição foi aceita dentro da categoria. Portanto, não houve pegadinha. Mas isto leva à próxima questão.
A desclassificação foi justa?
Com a pressão da opinião pública, a comissão da Câmara Brasileira do Livro chamou os três jurados — André Dahmer, Eduardo Baptistão e Lucia Mindlin Loeb — para decidir como proceder. Os dois primeiros já confirmaram que, quando avaliaram as ilustrações, não perceberam que elas haviam sido geradas por IA.
Assim, em nome de o “Regulamento do Prêmio (...) não prever a participação de obras produzidas com o auxílio de ferramentas de IA”, a desclassificação foi decidida, note-se, sem qualquer oportunidade de esclarecimento do candidato sobre a técnica empregada.
Aqui, opiniões têm misturado de tudo em seus argumentos: “facilidade” da técnica, moralidade da IA, direitos trabalhistas, resultado independente dos meios, etc. Porém, antes de alçar esses voos legítimos, esgotemos a literalidade do regulamento.
E a pergunta inevitável é: se o regulamento não delimitava uma técnica de ilustração específica, e incluía mesmo uma marca de abrangência falando em “imagens criadas a partir de desenhos ou de outras técnicas visuais e artísticas”, qual é o sentido em alegar que o emprego de IA na geração das imagens não era previsto pelo regulamento? Ou a técnica era, sim, prevista com “outras técnicas visuais e artísticas”, ou a falta de menção a ela não era exclusiva, já que nenhuma outra técnica era especificamente mencionada com essa expressão.
Isto para não mencionar os termos da alegação: “auxílio de ferramentas de IA”. Como saber em que medida a ferramenta não auxiliou os trabalhos de outros artistas? Exigindo os esboços? Mas eles não poderiam ser produzidos independentemente do uso da ferramenta?
Enfim, como lembrou o Vicente: a não ser que as regras sejam mudadas em pleno jogo, o que não é proibido é permitido. Ou então que se faça a próxima questão.
Imagens geradas por IA são criadas a partir de uma “técnica visual ou artística”?
Aqui vale a distinção que considero mais importante para esta discussão: há o “conceber” artístico, e há o “fazer” artístico. Na primeira parte do regulamento do prêmio, a definição do seu objeto de avaliação como “imagens criadas a partir de (...) técnicas visuais ou artísticas” parece se referir primeiramente ao “fazer”, então fiquemos com ele por ora.
Como “modo de fazer” por definição, sempre se reproduz alguma “técnica”, com maior ou menor consciência, na criação intencional de uma imagem. Então, sim, é evidente que a intenção de gerar uma imagem com o Midjourney — o badalado serviço de geração de imagens por IA utilizado pelo Vicente — exige uma técnica para ser realizada.
E o serviço deixa tudo pronto para que essa técnica, do lado humano, possa ser a coisa mais fácil e simples do mundo, como digitar uma única palavra, por exemplo. Se eu dou um comando (um prompt) digitando a palavra “menino”, o serviço restringe as milhões de imagens do seu banco de dados àquelas indexadas para atender ao meu comando, seleciona outros inúmeros definidores dessas imagens que sejam pertinentes ao mesmo comando, combina-os e, geralmente depois de alguns minutos, compõe quatro imagens como resultado.
Serão imagens imprevisíveis, geradas de novo e sempre diferentes a cada prompt, em geral de aspecto exuberante, mas de interesse muito irregular, quando não de conteúdo absurdo, com emendas mal escondidas e mesmo grosserias anatômicas.
Por isso, é fácil saber que o que o Vicente fez — cuja qualidade do resultado estético reconhecida por um júri de especialistas a esta altura é inegável — foi necessariamente mais complexo que um comando tão simples, como veremos. Mas, ainda assim, a “técnica” do “fazer” foi a mesma: o uso de prompts, e isto é mesmo “técnica”, por mais sumário que seja.
Mas alto lá: seria essa uma “técnica visual” (quanto mais “artística”)? Se eu mandar alguém pintar um quadro para mim, a emissão da minha voz seria sozinha uma “técnica visual”? Em outras palavras: a técnica em questão, para gerar diretamente uma imagem (“técnica visual”), pode ser assim tão fácil? E quanto ela pode terceirizar da realização da imagem de modo direto pelo criador?
Sobre a facilidade (lembremos: é a vez do “fazer”, e não ainda do “conceber”): sim, tanto a execução da pintura mais hábil quanto mirar e disparar uma câmera fotográfica, ou colar fotos para compor uma fotomontagem, ou clicar com o cursor do mouse sobre o comando que aplica um filtro do Photoshop são técnicas visuais, “modos de fazer” diretamente ligados à criação de uma imagem e que não deixam de ser consagrados por sua facilidade operacional relativa, por mais que esta possa mesmo variar em tipo e grau.
Com base em facilidade/dificuldade, pode ser difícil comparar a qualidade estética de obras visuais produzidas por técnicas muito diferentes, é verdade, e eu posso mesmo admirar mais os pintores do que os photomonteurs em razão disso — um ponto ao qual ainda pretendo voltar. Mas, se ainda estamos falando do regulamento do Prêmio Jabuti, esta não era a sua preocupação, cujo foco, lembre-se, eram imagens criadas independentemente da técnica (das pinturas às fotomontagens, etc.) e que servissem de ilustração — ou seja, por definição, que acompanhassem um texto e interagissem com o seu sentido.
Sobre a terceirização: dificilmente ela será totalmente eliminada em qualquer execução artística, como um pintor que produza sozinho até mesmo as suas próprias ferramentas, tintas e telas para pintar, mas, de novo, é fácil comparar este aspecto com o de outras técnicas de “fazer” visuais que já são consagradas, como os cliques do mouse que comandem os procedimentos de um programa de ilustração digital, ou todo o princípio de aproveitamento alheio das colagens e do “ready-made” que ganharam os museus de arte há mais de 100 anos, ou (para retomar o exemplo do comando por voz) a própria dinâmica de antigos ateliês de pintura, cujos alunos ajudaram a dar à luz as mais famosas obras-primas dos seus mestres.
Em suma, é verdade: o “modo de fazer” pode se dar de mil maneiras que apenas importam na medida em que se fazem perceber e ser apreciadas no resultado final, atraindo maior ou menor admiração pessoal pelo virtuosismo envolvido, mas não mais do que isso.
Porém, é claro, ainda resta outro incômodo aí, deixado de lado no início desta questão: e a concepção? Um mecenas que encomenda uma obra de arte tem tanto mérito artístico quanto um mestre de ateliê que emprega os alunos em uma produção autoral? É o que nos leva à próxima questão.
Imagens geradas por IA podem ser “originais e inventivas”, ter “identidade, unidade visual” e “capacidade de contar uma história”?
Já vimos que o Midjourney, à la HAL 9000, automatiza o “fazer” da imagem a partir dos prompts mais simples, reduzindo tudo aquilo que um artista poderia ter de fazer manualmente, tanto em pesquisa de modelos como em execução, à técnica mais acessível desses prompts.
Mas notem: o mecanismo tem tudo para gerar imagens divertidas e/ou bizarras, mas simplesmente não tem por onde garantir a criação de uma imagem de méritos artísticos, cuja forma original torne inteligível algum insight próprio.
Pelo contrário: quem já “brincou” de Midjourney sabe que, ainda que você consiga superar as suas anomalias com muita insistência e paciência, o próprio mecanismo do serviço está voltado para imagens francamente derivativas, de onde é difícil escapar dos clichês e briquebraques, caso você se importe com isso.
Então como foi que o trabalho do Vicente — que ele garante que foi gerado integralmente a partir do Midjourney, sem outras interferências conteudísticas suas além dos prompts — foi julgado merecedor dos três critérios de qualidade pelo júri de especialistas de “1. originalidade e inventividade, 2. identidade, unidade visual e interação entre imagem e texto (...) [e] 3. capacidade de contar uma história”?
A resposta simples é: porque ele conseguiu fazer valer, mesmo com a limitação de interferência técnica do serviço, uma concepção artística legítima e bem definida.
Para quem não conhece o Vicente, ele é um designer e ilustrador experiente, com prêmios de projeção nacional muito anteriores à era da IA — sua capa do ‘Livro do Desassossego’, de Fernando Pessoa, com Felipe Turcheti, pelo mesmo Clube de Literatura Clássica, foi finalista da edição do Prêmio Jabuti do ano passado. Além das obras premiadas, ele também tem um amplo trabalho de divulgação das suas concepções artísticas ao público geral e costuma enfatizar o valor do conhecimento de história da arte para a criação visual.
Com esse olhar informado, portanto, ele não se deixou impressionar pela mera brincadeira com o serviço de IA de criar imagens de conteúdo inusitado e de aspecto exuberante, mas viu nele potencial como parte de uma concepção especial para o livro que ilustraria: um romance, afinal, sobre uma criatura humanoide que é composta e desperta para a vida imanente, com uma “alma” de origem muito misteriosa, senão sombria, por um cientista movido pelas técnicas mais ambíguas da história da interferência do homem sobre a vida.
Era a história da ilustração perfeita para o livro: mover o “monstro” da tecnologia para ilustrar o monstro do Dr. Frankenstein.
E como foi que ele transcendeu a improvável função de um “brinquedo” em arte? Não deixando que o “conceber” das imagens ficasse totalmente nas mãos do “monstro” — o que é sempre uma possibilidade aberta aos que apenas brincam com ele.
Para interferir com profundidade nos modificadores que compõem os prompts do Midjourney, Vicente foi específico no que definiu para que as imagens eventualmente atendessem à sua concepção: que fossem geradas em preto e branco, com paradoxos geométricos de Escher, tons de Doré, formato de filme 35 mm, granulações, sobreposições de formas etc., etc., etc. Depois de mais de quatro mil imagens geradas assim, 50 funcionaram e integraram o livro.
Foi, portanto, neste ponto ambíguo e pouco conhecido de como fazer valer a concepção de um artista no uso do Midjourney que os critérios de qualidade do regulamento do Prêmio Jabuti foram atendidos pelo trabalho: além da significância das imagens individuais, a maior prova de que uma concepção autoral corresponde aos méritos do designer é a coerência do conjunto e sua relação com as partes específicas que ele ilustra do romance — afinal, sem uma programação especial, o Midjourney não está preocupado em ser coerente entre um prompt e outro, quanto mais em 50 imagens diferentes. Também não é, até onde eu sei, leitor de obras clássicas da literatura.
Penso que, ao fim e ao cabo, atendo-se ao regulamento do Prêmio Jabuti, é inegável que a comissão preferiria estar melhor preparada para o desafio de receber ilustrações geradas por IA, o que certamente já mudará a partir da próxima edição.
Mas, para completar estas reflexões, o assunto também gera opiniões que independem da burocracia do Prêmio Jabuti e que representam as convicções de muita gente. Comento duas delas.
Não faz sentido contrapor o trabalho de uma pintura ao trabalho de uma imagem gerada por IA
Aqui, voltamos à facilidade/dificuldade técnica do “fazer” uma imagem.
Com o desenvolvimento de novas técnicas na arte da imagem, é natural que estas se tornem tão variadas que passem a exigir critérios ramificados em subgêneros. Assim como pode fazer pouco sentido comparar os méritos literários de uma epopeia em versos com uma crônica de jornal, a distância entre uma pintura a óleo e uma imagem gerada por IA parece ser demais para uma comparação ou competição direta.
Quando se fala em ilustração, até hoje, a função primordial de acompanhar um texto podia tornar a técnica geradora da imagem indiferente, com pinturas e colagens sendo premiadas lado a lado e reconhecidas pelo resultado estético independente. Mas o uso recente e com qualidade competitiva de uma técnica com tantas novidades como a IA, como o caso da semifinal do atual Prêmio Jabuti demonstra paradigmaticamente, parece exigir uma nova expansão de tolerância a essa variedade de técnicas dentro de uma mesma categoria, o que é um assunto que considero aberto.
Mas saindo do muro: se o Vicente tivesse feito toda a sua ilustração para o ‘Frankenstein’ à mão, ela seria mais admirável? Em termos de técnica do “fazer”, sim, certamente. Em termos de estética do “conceber” realizado, não, pois seria um trabalho redundante.
Mas ele conseguiria fazer o mesmo trabalho à mão e sem o Midjourney? O mesmo, com a mesma relação entre “criador e criatura” e no mesmo tempo, creio que não — e é por isso que esta pode ser uma técnica nova por direito.
É imoral gerar imagens por IA
Este é um assunto complexo e, com a ascensão da técnica, cada vez mais urgente: como ficam os artistas cujas obras são selecionadas e classificadas no banco de dados do Midjourney e copiadas para a geração de imagens do serviço?
Na verdade, não é um problema novo e erra quem tenta associá-lo com todas as forças à IA — discussão idêntica já acontece, por exemplo, na técnica da colagem ou da fotomontagem há décadas. Mais próximo de nós, mesmo no premiado projeto gráfico de Elaine Ramos e Gabriela Castro e produção gráfica de Aline Valli para a tradução da ‘Odisseia’ de Christian Werner pela saudosa Cosac Naify, publicada em 2014, foram usadas colagens do artista plástico Odires Mlászho.
Mas quem são os autores das imagens usadas em cada colagem? Eles foram remunerados ou as imagens estão todas em domínio público? Mesmo assim, podem ser usadas sem crédito? Em nome de quem o projeto gráfico deveria ser inscrito em uma competição?
É fato, essa liberdade de uso de modelos, tão natural nas artes, tem sido a praxe desde muito antes da IA. Afinal, nada me impede de abrir no meu computador as imagens de diferentes pinturas disponibilizadas livremente na internet e compor uma imagem própria, copiando e combinando seus diferentes aspectos à mão, o que apenas configurará plágio se a inspiração não for criativa o suficiente.
No caso do Midjourney, tal incorporação tende a ser muito mais ínfima do que em uma colagem: que porcentagem de cada obra é emulada em um banco de dados tão vasto? De todas as imagens possíveis, de acordo com as leis nacionais, apenas aquelas criadas por autores vivos, ou mortos há não mais do que 70 anos, podem gerar direitos de reprodução (se é que armazenadores e digitalizadores também não imponham as suas condições).
Mesmo assim, concordo com propostas de remuneração a detentores de direitos de reprodução por obras visuais que sirvam de modelo para a geração de imagens por IA — sendo um processo todo digital, seria mais fácil do que detectar os empréstimos de colagens.
Apenas inverto o caso: o reconhecimento estético que as imagens geradas por IA recebem é nada menos do que a grande oportunidade de se defender a importância dessa causa, e não ocasião para ilusões ludistas à esta altura já derrotadas.
E para não deixar passar o ludismo: a IA não tirará o emprego dos ilustradores? Não falta consciência aos que apelam para o seu uso?
O uso da IA em alguma medida prática já me parece uma realidade bem mais difundida do que um apelo ludista ainda poderia tentar conter, mas eis um exercício: você, que não é ilustrador, consegue usar o Midjourney e gerar metade do número de imagens à altura do projeto gráfico de ‘Frankenstein’?
O olhar leigo costuma se iludir facilmente, mas eu reconheço que não consigo, o que me parece demonstrar uma conclusão mais realista: a IA não tirará os empregos dos ilustradores, mas ilustradores que dominarem a IA tirarão os empregos dos que não a dominarem.
Leonardo T. Oliveira é doutor em Letras Clássicas pela UFPR e editor do Clube de Literatura Clássica