O reconhecimento facial já tem mais de 50 anos. Uma equipe de pesquisa liderada por Woodrow W Bledsoe realizou experimentos entre 1964 e 1966 para verificar se "computadores de programação" podiam reconhecer rostos humanos. A equipe usou um scanner rudimentar para mapear a localização da linha do cabelo, olhos e nariz da pessoa. A tarefa do computador era encontrar os seus matches.
O computador não foi bem-sucedido. Bledsoe disse: "O problema do reconhecimento facial é dificultado pela grande variabilidade na rotação e inclinação da cabeça, intensidade e ângulo da iluminação, expressão facial, envelhecimento, etc."
De fato, os computadores têm mais dificuldade para reconhecer rostos do que vencer grandes mestres no xadrez, por exemplo. A superação desses problemas ainda demoraria muitos anos.
Graças a melhorias na tecnologia da câmera, processos de mapeamento, aprendizado de máquina e velocidade de processamento, o reconhecimento facial atingiu a maioridade.
A maioria dos sistemas usa a tecnologia de câmera 2D, que cria uma imagem plana de um rosto e mapeia "pontos nodais" (tamanho/formato dos olhos, nariz, maçãs do rosto etc.). O sistema calcula a posição relativa dos pontos e converte os dados em um código numérico. Os algoritmos de reconhecimento pesquisam um banco de dados armazenado de rostos para obter uma comparação correta.
A Tecnologia 2D funciona bem em condições estáveis e bem iluminadas, como o controle de passaporte. Mas ela é menos eficaz em espaços mais escuros e não consegue produzir bons resultados quando os objetos se movimentam. É fácil fazer uma falsificação com uma fotografia, por exemplo.
Uma maneira de superar essas falhas é com a detecção de vivacidade. Esses sistemas procurarão indicadores de uma imagem não viva, tais como características inconsistentes entre o primeiro e o segundo plano. Eles podem pedir ao usuário para piscar ou mover-se. Isto é necessário para combater criminosos que tentam enganar os sistemas de reconhecimento facial usando fotografias ou máscaras.
Outro avanço importante é a "rede neural convolucional profunda" (Convolutional Neural Network). A rede compreende um tipo de aprendizado de máquina no qual um modelo encontra padrões nos dados da imagem. Ela implanta uma rede de neurônios artificiais que imita o funcionamento do cérebro humano. Na verdade, a rede se comporta como uma caixa preta. Ela recebe valores de entrada cujos resultados ainda não são conhecidos. Em seguida, ela faz verificações para garantir que a rede esteja produzindo o resultado esperado. Quando não for esse o caso, o sistema fará ajustes até que esteja configurado corretamente e possa produzir sistematicamente os resultados esperados.
Hoje em dia, processos anteriormente avançados estão chegando aos dispositivos do mercado massivo. Por exemplo, a Apple usa a tecnologia de câmera 3D para alimentar o recurso de Face ID com base em infravermelho térmico no iPhone X. A imagem térmica infravermelha mapeia os padrões de rostos derivados principalmente do padrão de vasos sanguíneos superficiais sob a pele.
A Apple também envia o padrão de rosto capturado para um "enclave seguro" no dispositivo. Isso garante que a autenticação ocorra localmente e que os padrões não sejam acessados pela Apple.
Medições e precisão
Os sistemas de reconhecimento facial são avaliados por três critérios.
1. Falso positivo (também conhecido como "falsa aceitação")
Esse critério descreve quando um sistema faz uma comparação incorreta. O número deve ser o mais baixo possível.
2. Falso negativo (também conhecido como "falsa rejeição")
Com um falso positivo, um usuário legítimo não corresponde ao seu perfil. Esse número também deve ser baixo.
3. Verdadeiro positivo
Esse critério descreve quando um usuário registrado corresponde corretamente ao seu perfil. Esse número deve ser alto.
Essas três medições são transmitidas em porcentagens. Então, digamos que um sistema de entrada avalie 1 mil pessoas por dia. Se cinco pessoas não aprovadas forem admitidas, a taxa de falsos positivos é de cinco em mil. Isso significa 1 em 200 ou 0,5%.
Então, quais porcentagens os sistemas atuais alcançam? O National Institute of Standards and Technology (NIST) testa regularmente vários sistemas para pesquisar um banco de dados de 26,6 milhões de fotos.
Em seu teste de 2018, o Instituto constatou que apenas 0,2% das pesquisas não corresponderam à imagem correta, em comparação com uma taxa de falha de 4% em 2014. Tal fato representa uma melhoria de 20x em quatro anos.
O cientista da computação do NIST, Patrick Grother, afirmou que: "Os ganhos de precisão decorrem da integração, ou substituição completa, das abordagens anteriores por abordagens baseadas em redes neurais convolucionais profundas. Como tal, o reconhecimento facial passou por uma revolução industrial."
Os sistemas de detecção de vivacidade procurarão indicadores de uma imagem não viva, como recursos inconsistentes entre o primeiro e o segundo plano. Eles podem pedir ao usuário para piscar ou mover, por exemplo.
Uma nova confirmação da melhoria da tecnologia veio do Biometric Technology Rally, do Departamento de Segurança Interna dos EUA, em 2018. Em seu teste, o Live Face Identification System (LFIS) da Gemalto obteve uma taxa de aquisição de 99,44% em menos de cinco segundos, em comparação com a média de 65%.
Reconhecimento facial x detecção facial: uma diferença importante
Embora o "reconhecimento facial" seja geralmente usado como um termo genérico, isso não é totalmente preciso. Há uma distinção importante entre o reconhecimento facial e a detecção facial.
O reconhecimento facial descreve o processo de digitalizar um rosto e, em seguida, associá-lo à mesma pessoa em um banco de dados. Essa é a abordagem usada para desbloquear telefones ou autenticar uma pessoa que entra em um edifício.
A detecção facial é quando um sistema tenta simplesmente estabelecer a presença de um rosto. As empresas de mídias sociais usam a detecção facial para filtrar e organizar imagens em grandes catálogos de fotos, por exemplo.
As ferramentas usadas para treinar os dois sistemas são diferentes. Os níveis desejados de precisão também variam. Claramente, o reconhecimento facial usado para fins de identificação precisa ter uma pontuação mais alta do que qualquer sistema usado para apenas organizar imagens.
A confusão entre os dois processos causou certa controvérsia. Em 2019, um pesquisador revelou que os sistemas da Amazon eram muito melhores para classificar o sexo de homens de pele clara do que de mulheres de pele escura. Isso levou a temores de que os sistemas de vigilância pudessem fazer mais correspondências falsas para alguns grupos étnicos. No entanto, a Amazon rebateu as taxas de erro relacionadas à detecção facial, que não é usada para identificar indivíduos específicos.