El reconocimiento facial tiene más de 50 años. Un equipo de investigación dirigido por Woodrow W Bledsoe realizó experimentos entre 1964 y 1966 para ver si las "computadoras de programación" podían reconocer rostros humanos. El equipo usó un escáner rudimentario para mapear la ubicación del nacimiento del cabello, los ojos y la nariz de la persona. La tarea de la computadora era encontrar coincidencias.
No tuvo éxito. Bledsoe dijo: "El problema del reconocimiento facial se dificulta por la gran variabilidad en la rotación y la inclinación de la cabeza, la intensidad y el ángulo de iluminación, la expresión facial, el envejecimiento, etc.".
De hecho, a las computadoras les resulta más difícil reconocer rostros que vencer a los grandes maestros en el ajedrez. Pasarían muchos años antes de que se superaran estos problemas.
Gracias a las mejoras en la tecnología de las cámaras, los procesos de mapeo, el aprendizaje automático y las velocidades de procesamiento, el reconocimiento facial ha alcanzado la madurez.
La mayoría de los sistemas usa tecnología de cámara 2D, que crea una imagen plana de un rostro, y mapea los 'puntos nodales' (tamaño/forma de los ojos, la nariz, los pómulos, etc.). Luego, el sistema calcula la posición relativa de los nodos y convierte los datos en un código numérico. Los algoritmos de reconocimiento buscan en una base de datos almacenada de rostros para encontrar una coincidencia.
La tecnología 2D
La tecnología 2D funciona bien en condiciones estables y de buena iluminación, como es el caso en el control de pasaportes. Sin embargo, es menos efectiva en espacios más oscuros y no puede ofrecer buenos resultados cuando los sujetos se mueven. Es fácil de engañar con una fotografía.
Una forma de superar esos defectos es a través de la detección de prueba de vida. Esos sistemas buscarán indicadores de una imagen no en vivo, como características inconsistentes entre el primer plano y el fondo. Pueden pedir al usuario que parpadee o se mueva. Son necesarios para vencer a los delincuentes que intentan engañar a los sistemas de reconocimiento facial mediante el uso de fotografías o máscaras.
Otro avance clave es la 'red neuronal convolucional profunda'. Se trata de un tipo de máquina de aprendizaje en la que un modelo encuentra patrones en los datos de la imagen. Despliega una red de neuronas artificiales que imita el funcionamiento del cerebro humano. En efecto, la red se comporta como una caja negra. Se le dan valores de entrada cuyos resultados aún no se conocen. Luego realiza comprobaciones para garantizar que la red esté produciendo el resultado esperado. Cuando este no es el caso, el sistema realiza ajustes hasta que se configura correctamente y puede producir sistemáticamente los resultados esperados.
Hoy en día, los procesos previamente avanzados están llegando a los dispositivos del mercado masivo. Por ejemplo, Apple usa tecnología de cámara 3D para la función térmica basada en infrarrojo Face ID en su iPhone X. Las imágenes térmicas IR mapean los patrones de los rostros derivados principalmente del patrón de los vasos sanguíneos superficiales debajo de la piel.
Apple también envía el patrón capturado del rostro a un "enclave seguro" en el dispositivo. Eso garantiza que la autenticación se realice localmente y que Apple no pueda acceder a los patrones.
Mediciones y precisión
Facial recognition systems are assessed by three criteria.
Los sistemas de reconocimiento facial son evaluados mediante tres criterios.
1. Falso positivo (también conocido como falsa aceptación)
Describe cuando un sistema erróneamente hace una coincidencia incorrecta. El número debe ser lo más bajo posible.
2. Falso negativo (también conocido como falso rechazo)
Con un falso positivo, un usuario genuino no coincide con su perfil. Este número también debe ser bajo.
3. Verdadero positivo
Describe cuando un usuario registrado coincide correctamente con su perfil. Este número debe ser alto.
Estas tres medidas se presentan en porcentajes. Entonces, digamos que un sistema de entrada evalúa a 1000 personas por día. Si se permite la entrada de cinco personas no aprobadas, la tasa de falsos positivos es de cinco en 1000. Eso es una de cada 200 o un 0.5%.
Entonces, ¿qué porcentajes alcanzan los sistemas actuales? El Instituto Nacional de Estándares y Tecnología (NIST) regularmente prueba múltiples sistemas para buscar en una base de datos de 26.6 millones de fotos.
En su prueba de 2018, descubrió que solo el 0.2% de las búsquedas no coincidía con la imagen correcta, en comparación con una tasa de fallas del 4% en 2014. Se trata de una mejora de 20 veces en cuatro años.
El científico informático del NIST Patrick Grother dice: "Las ganancias de precisión provienen de la integración, o del reemplazo completo, de enfoques anteriores con aquellos basados en redes neuronales convolucionales profundas. Como tal, el reconocimiento facial ha experimentado una revolución industrial".
Los sistemas de detección de vida buscarán indicadores en una imagen que no tenga vida características inconsistentes entre el primer plano y el fondo. Estos sistemas pueden solicitar al usuario que parpadee o se mueva
La nueva confirmación de la mejora de la tecnología vino de la mano del Rally de Tecnología Biométrica del Departamento de Seguridad Nacional en 2018. En su prueba, el Sistema de Identificación Facial en Vivo (LFIS) de Gemalto obtuvo una tasa de adquisición del 99.44% en menos de cinco segundos, en comparación con el promedio de 65%.
El reconocimiento facial vs. la detección facial: una diferencia importante
Aunque el "reconocimiento facial" se usa generalmente como un término general, no es del todo exacto. Hay una distinción clave entre reconocimiento facial y detección facial.
El reconocimiento facial describe el proceso de escaneo de un rostro y su comparación con la misma persona en una base de datos. Este es el enfoque utilizado para desbloquear teléfonos o autenticar a una persona que ingresa a un edificio.
La detección facial ocurre cuando un sistema simplemente intenta establecer que hay un rostro presente. Las empresas de redes sociales utilizan la detección facial para filtrar y organizar imágenes en grandes catálogos de fotos, por ejemplo.
Las herramientas utilizadas para entrenar los dos sistemas son diferentes. Los niveles de precisión deseados también varían. Claramente, el reconocimiento facial utilizado con fines de identificación debe tener una puntuación más alta que cualquier sistema utilizado únicamente para organizar imágenes.
La confusión entre ambos procesos ha causado cierta controversia. En 2019, un investigador reveló que los sistemas de Amazon eran mucho mejores para clasificar el género de los hombres de piel clara que el de las mujeres de piel oscura. Eso llevó a temer que los sistemas de vigilancia pudieran arrojar más coincidencias falsas para algunos grupos étnicos. Sin embargo, Amazon respondió que las tasas de error estaban relacionadas con la detección facial, que no se utiliza para identificar individuos