IBM constrói um conjunto de dados com milhões de faces

A codificação de preconceitos em modelos de aprendizado de máquina e, em geral, nos construtos aos quais nos referimos como Inteligência Artificial, é quase inescapável – mas podemos, com certeza, fazer melhor do que nos últimos anos. A IBM espera que um novo banco de dados de um milhão de rostos, mais reflexivo daqueles no mundo real, ajude.

Reconhecimento facial sendo usado para tudo, desde desbloquear o telefone até a porta de uma casa, e ser usado para estimar seu humor ou probabilidade de cometer atos criminosos – e podemos admitir que muitos desses aplicativos são falsos. Mas mesmo os bons geralmente falham em testes simples, como trabalhar adequadamente com pessoas de certos tons de pele ou idades.

Este é um problema de várias camadas, e é claro que a maior parte dele é que muitos desenvolvedores e criadores desses sistemas falham em pensar, sem falar em auditoria, em uma falha de representação em seus dados.

Isso é algo que todos precisam trabalhar mais, mas os dados reais também são importantes. Como você pode treinar um algoritmo de visão computacional para trabalhar bem com todas as pessoas se não houver um conjunto de dados que tenha todas as pessoas envolvidas?

Cada conjunto será necessariamente limitado, mas construir um que tenha o suficiente de todos nele e que ninguém seja sistematicamente excluído é uma meta que vale a pena. E com seu novo conjunto de milhões de imagens, Diversity in Faces (DiF), é o que a IBM tentou criar. Como o papel que introduz o conjunto diz :

Para que o reconhecimento facial funcione conforme desejado – para ser preciso e justo – os dados de treinamento devem fornecer equilíbrio e cobertura suficientes. Os conjuntos de dados de treinamento devem ser grandes o suficiente e diversificados o suficiente para aprender as muitas maneiras pelas quais os rostos são inerentemente diferentes. As imagens devem refletir a diversidade de recursos nos rostos que vemos no mundo.

Os rostos são provenientes de um enorme conjunto de dados de 100 milhões de imagens ( Flickr Creative Commons ), através do qual outro sistema de aprendizado de máquina rondou e encontrou tantas faces quanto podia. Estes foram então isolados e cortados, e foi aí que o verdadeiro trabalho começou.

Esses conjuntos devem ser ingeridos por outros algoritmos de aprendizado de máquina, portanto, precisam ser diversificados e rotulados com precisão. Assim, o conjunto DiF tem um milhão de rostos, e cada um é acompanhado por metadados que descrevem coisas como a distância entre os olhos, o tamanho da testa e tudo o mais. Todas essas medidas juntas criam a “faceprint” que um sistema usaria para, por exemplo, combinar uma imagem com outra da mesma pessoa.

Mas qualquer conjunto dessas medições pode ou não ser bom para identificar pessoas, ou preciso para um determinado grupo étnico, ou o que você tem. Assim, a equipe da IBM montou um conjunto revisado que inclui não apenas coisas simples como distâncias entre recursos, mas como essas medidas se relacionam umas com as outras, por exemplo, como a proporção dessa área acima dos olhos para a área abaixo do nariz. A cor da pele, bem como o contraste e os tipos de coloração, também estão incluídos.

Em um movimento que está muito atrasado, o gênero no conjunto é detectado e codificado de acordo com um espectro, não um binário. Como o gênero é em si não-binário, faz sentido representá-lo como qualquer fração entre 0 e 1. Então, o que você realmente tem é uma métrica descrevendo como os indivíduos se apresentam em uma escala de feminino para masculino.

A idade também é estimada automaticamente, mas, para esses dois últimos valores, uma espécie de “verificação da realidade” também é incluída na forma de um campo “anotação subjetiva”, no qual as pessoas eram convidadas a rotular rostos masculinos ou femininos e adivinhar a idade. Aqui pode haver um viés recodificado, já que o abastecimento de seres humanos tende a introduzi-lo. Tudo isso contribui para um conjunto de medidas consideravelmente mais amplo do que qualquer outro conjunto de treinamento de reconhecimento facial disponível publicamente.

Você pode se perguntar por que raça ou etnia não é uma categoria – John R. Smith, da IBM, que liderou a criação do conjunto, explicou em um e-mail:

Etnia e raça são frequentemente usadas de forma intercambiável, embora a primeira seja mais relacionada à cultura e a segunda seja relacionada à biologia. Os limites dentro de um ou outro não são distintos, e a rotulagem é altamente subjetiva e ruidosa, conforme encontrado no trabalho anterior. Em vez disso, optamos por nos concentrar em esquemas de codificação que pudessem ser determinados de forma confiável e que tivessem algum tipo de escala contínua que pudesse alimentar a análise da diversidade. Podemos retornar a algumas dessas categorias subjetivas.

Mesmo com um milhão de rostos, no entanto, não há garantia de que esse conjunto seja adequadamente representativo – que um número suficiente de grupos e subconjuntos esteja presente para evitar viéses. Na verdade, Smith parece certo que não é, o que é realmente a única posição lógica.

Não podemos garantir isso nesta primeira versão do conjunto de dados. Mas é o objetivo. Primeiro, precisamos descobrir as dimensões da diversidade. Fazemos isso iniciando com dados e esquemas de codificação como nesta versão. Então nós iteramos. Esperamos trazer a maior comunidade de pesquisa e indústria no processo.

Em outras palavras, é um trabalho em andamento. Mas assim é toda a ciência, e apesar dos frequentes erros e promessas quebradas, o reconhecimento facial é indiscutivelmente uma tecnologia com a qual todos estaremos envolvidos no futuro, queiramos ou não.

Qualquer sistema de inteligência artificial é tão bom quanto os dados sobre os quais ele é construído, de modo que as melhorias nos dados ficarão por um longo tempo. Como qualquer outro conjunto, o DiF provavelmente passará por iterações abordando falhas, adicionando mais conteúdo e integrando sugestões ou solicitações de pesquisadores que o utilizam. Você pode solicitar acesso aqui .

Adriano Lopes

Adriano Lopes é o criador e proprietário do MundoHacker.net.br. Desenvolvedor Web, Hacker Ético, Programador C, Python, Especialista em Segurança da Informação.