“Ela foi apanhada por causa dos likes”, foi como um promotor descreveu o caso da mulher de 18 anos de Ohio, nos Estados Unidos, acusada de transmitir ao vivo o suposto estupro de uma amiga de 17 anos. Não há dúvidas de que aplicativos e serviços de vídeos ao vivo, como o Periscope, do Twitter, e o utilizado pelo Facebook, carregam o risco de expor seus usuários a imagens inapropriadas. Em raros mas preocupantes episódios, internautas já assistiram a suicídios, estupros e agressões domésticas ocorrendo em tempo real diante de seus olhos.
O trabalho de assistir e remover o conteúdo violento ou pornográfico destes aplicativos ao vivo, e em sites como o YouTube, tem sido uma tarefa feita primariamente por humanos. Estes profissionais envolvidos na moderação de conteúdo analisam horas de vídeos marcados como inapropriados por usuários, tirando do ar qualquer coisa que viole as regras dos serviços. É um trabalho árduo e algumas vezes pavoroso. Além disso, a grande quantidade de conteúdo desafia a capacidade dessas equipes.
Leia mais sobre inteligência artificial e novas tecnologias
Agora, a inteligência artificial está pronta para ajudar nessa missão ingrata. Softwares que podem assistir a vídeos de forma inteligente estão sendo desenvolvidos por várias companhias, incluindo o Twitter e Facebook, para serem usados em seus serviços de transmissão ao vivo.
Empresas como Clarifai e Dextro também têm feito grandes avanços no desenvolvimento destes programas sofisticados. Dextro, uma startup sediada em Nova York, usa uma inteligência artificial capaz de fazer o reconhecimento de vídeos para fazer facilmente buscas pelo conteúdo transmitido ao vivo. Neste momento, o programa não busca por conteúdo inapropriado – sua missão é procurar vídeos que possam ser interessantes e relevantes para a marca de uma companhia. Mas a mesma tecnologia ou softwares semelhantes podem ser usados para banir imagens pornográficas ou violentas.
O co-fundador da Dextro, David Luan, afirma que o desafio é criar um programa capaz de interpretar não só imagens estáticas, mas aquelas em movimento, além de áudio e outras coisas que ajudam a demonstrar o que está acontecendo no vídeo. “É quase como tentar recriar a experiência humana de assistir a esses vídeos”, afirma Luan.
Companhias tradicionalmente recorrem a palavras-chave (tags, no termo em inglês) para indicar a um sistema de computador a natureza do vídeo, mas Luan lembra que reduzir o significado de um vídeo a alguns poucos termos não necessariamente captura todo o escopo do conteúdo.
“O que é desafiador a respeito destes vídeos é que eles são muito mais complexos do que uma imagem qualquer. Mesmo que eles não passem de uma série de imagens uma atrás das outras, há o elemento do movimento, o áudio, e muito disso se perde se você simplesmente tentar analisar de forma isolada cada uma dessas imagens”, reforça. “Então você realmente precisa tratar isso como um conteúdo único e analisá-lo”. Algo que um simples tagueamento não consegue fazer.
O software da Dextro pode reconhecer objetos e outros elementos significativos em um frame sem a necessidade de intervenção humana, como uma arma em um vídeo potencialmente violento. E a velocidade da inteligência artificial responsável por reconhecimento é uma “mão na roda” para os analistas humanos. O programa da startup pode analisar um vídeo a menos de 300 milissegundos da postagem.
Cortex, a divisão do Twitter que possui uma inteligência artificial focada em analisar vídeos do Periscope, está trabalhando em programas capazes de assistir e recomendar vídeos ao vivo desde julho de 2015. “O Periscope tem trabalhado com a equipe da Cortex para experimentar maneiras de categorizar e identificar o conteúdo de transmissões ao vivo”, afirma o Twitter em um comunicado. “O time está focado em aproveitar essa tecnologia avançada para fornecer uma melhor experiência de descoberta no Periscope”.
A Cortex não confirmou quando o programa passará a ser usado oficialmente.
O Facebook, por outro lado, confirmou que não usa atualmente inteligência artificial para filtrar vídeos com conteúdo pornográfico ou violento, e não quis comentar como está o desenvolvimento nesta área.
Desafio extra
A moderação de conteúdo tradicionalmente tem sido relegada para funcionários locados em países como as Filipinas. Mesmo em um futuro em que a inteligência artificial fará a maior parte do trabalho, Luan ainda vê espaço para intervenção humana neste processo. “Humanos ajudam a evoluir o algoritmo e deixá-lo melhor com o tempo”, diz.
Mas com a grande repercussão dos vídeos transmitidos ao vivo que mostram policiais matando suspeitos negros nos Estados Unidos, a questão de quando a censura é ética ou apropriada representa um desafio extra para desenvolvedores de tecnologia que trabalham com moderação de conteúdo. Como uma máquina lidaria com esses vídeos, se eventualmente assumisse o papel do principal moderador?
“Pra começar, os países variam muito em seus graus de restrição quanto à liberdade de imprensa e de expressão, e mesmo dentro de nosso próprio país (os Estados Unidos) há certos estilos de vida que podem ser considerados indecentes por um ou mais grupo religioso”, afirma Malcolm Harkins, um especialista em privacidade da informação. “Então a definição de conteúdo inapropriado ou indecente tem de ser formulada necessariamente por humanos, o que provavelmente é a parte mais complexa e desafiadora no desenvolvimento dessas aplicações”.