Detección de anomalías

En el análisis de datos, la detección de anomalías [también denominada detección de valores atípicos (en inglés: outlier detection)] y, en ocasiones, detección de rarezas suele entenderse como la identificación de elementos, sucesos u observaciones poco frecuentes que se desvían significativamente de la mayoría de los datos y no se ajustan a una noción bien definida de comportamiento normal.^[1] Tales ejemplos pueden despertar sospechas de haber sido generados por un mecanismo diferente,^[2] o parecer incoherentes con el resto de ese conjunto de datos.^[3]

La detección de anomalías tiene aplicación en muchos ámbitos, como la ciberseguridad, la medicina, la visión artificial, la estadística, la neurociencia, la aplicación de la ley y el fraude financiero, por citar sólo algunos. Inicialmente, las anomalías se buscaban para rechazarlas u omitirlas claramente de los datos con el fin de facilitar el análisis estadístico, por ejemplo para calcular la media o la desviación típica. También se eliminaban para mejorar las predicciones de modelos como la regresión lineal y, más recientemente, su eliminación ayuda al rendimiento de los algoritmos de aprendizaje automático. Sin embargo, en muchas aplicaciones, las propias anomalías son de interés y constituyen las observaciones más deseables de todo el conjunto de datos, que es necesario identificar y separar del tráfico o de los valores atípicos irrelevantes.

Existen tres grandes categorías de técnicas de detección de anomalías.^[1] Las técnicas supervisadas de detección de anomalías requieren de un conjunto de datos etiquetados como "normales" y "anormales" e implican el entrenamiento de un clasificador. Sin embargo, este enfoque se utiliza raramente en la detección de anomalías debido a la indisponibilidad general de datos etiquetados y a la naturaleza desequilibrada inherente de las clases. Las técnicas de detección de anomalías semisupervisadas suponen que una parte de los datos está etiquetada. Puede tratarse de cualquier combinación de datos normales o anómalos, pero lo más frecuente es que las técnicas construyan un modelo que represente un comportamiento normal a partir de un conjunto dado de datos normales de entrenamiento y, a partir de ello, comprueben la probabilidad de que el modelo genere una instancia de prueba. Las técnicas no supervisadas de detección de anomalías suponen que los datos no están etiquetados y son, con mucho, las más utilizadas debido a su aplicación más amplia y pertinente.

Definición

En las comunidades de estadística e informática se han hecho muchos intentos de definir una anomalía. Entre los más frecuentes se encuentran:

Un valor atípico es una observación que se desvía tanto de las demás observaciones como para despertar sospechas de que se ha generado por un mecanismo diferente.^[2]
Las anomalías son casos o conjuntos de datos que aparecen muy raramente en el conjunto de datos y cuyas características difieren significativamente de la mayoría de los datos.
Un valor atípico es una observación (o subconjunto de observaciones) que parece incoherente con el resto de ese conjunto de datos.^[3]
Una anomalía es un punto o conjunto de puntos que está relativamente alejado de otros puntos en un espacio multidimensional de características.
Las anomalías son patrones en los datos que no se ajustan a una noción bien definida de comportamiento normal.^[1]
Sean T observaciones de una distribución gaussiana univariante y O un punto de T. Entonces la puntuación z de O es mayor que un umbral preseleccionado si y sólo si O es una anomalía.

Aplicaciones

La detección de anomalías es aplicable en un gran número y variedad de ámbitos, y constituye una importante subárea del aprendizaje automático no supervisado. Como tal, tiene aplicaciones en la detección de intrusos en ciberseguridad, la detección de fraudes, la detección de fallos, la supervisión de la salud de sistemas, la detección de eventos en redes de sensores, la detección de perturbaciones en ecosistemas, la detección de defectos en imágenes mediante visión artificial, el diagnóstico médico y la aplicación de la ley.^[4]

La detección de anomalías fue propuesta para los sistemas de detección de intrusos (IDS) por Dorothy Denning en 1986.^[5] La detección de anomalías para IDS se realiza normalmente con umbrales y estadísticas, pero también puede hacerse con soft computing y aprendizaje inductivo.^[6] Los tipos de estadísticas propuestos en 1999 incluían perfiles de usuarios, estaciones de trabajo, redes, hosts remotos, grupos de usuarios y programas basados en frecuencias, medias, varianzas, covarianzas y desviaciones estándar.^[7] La contraparte de la detección de anomalías en la detección de intrusos es la detección de usos indebidos.

A menudo se utiliza en el preprocesamiento para eliminar los datos anómalos del conjunto de datos. Esto se hace por varias razones. Las estadísticas de los datos, como la media y la desviación estándar, son más precisas tras la eliminación de las anomalías, y también se puede mejorar la visualización de los datos. En el aprendizaje supervisado, la eliminación de los datos anómalos del conjunto de datos suele traducirse en un aumento estadísticamente significativo de la precisión.^[8]^[9] Las anomalías son también a menudo las observaciones más importantes de los datos que hay que encontrar, como en la detección de intrusos o la detección de anomalías en imágenes médicas.

Técnicas populares

En la literatura se han propuesto muchas técnicas de detección de anomalías.^[1]^[10] Algunas de las técnicas más populares son

Estadísticas (unidad tipificada, prueba de rango de Tukey y prueba de Grubbs)
Técnicas basadas en la densidad (k vecinos más próximos,^[11]^[12]^[13] factor atípico local,^[14] bosques de aislamiento,^[15]^[16] y muchas más variaciones de este concepto^[17])
Detección de valores atípicos basada en el subespacio,^[18] la correlación^[19] y el tensor^[20] para datos de alta dimensión^[21]
Máquinas de vectores de soporte^[22] de una clase
Redes neuronales replicantes,^[23] autocodificadores, autocodificadores variacionales,^[24] redes neuronales de memoria a corto plazo.^[25]
Redes bayesianas^[23]
Modelos ocultos de Markov (HMM)^[23]
Determinante de covarianza mínima^[26]^[27]
Agrupación: Detección de valores atípicos basada en el análisis de grupos^[28]^[29]
Desviaciones de las reglas de asociación y conjuntos de elementos frecuentes
Detección de valores atípicos basada en lógica difusa
Técnicas de ensamblaje, utilizando la agrupación de características (en inglés: feature bagging),^[30]^[31] la normalización de puntuaciones^[32]^[33] y diferentes fuentes de diversidad.^[34]^[35]

El rendimiento de los métodos depende del conjunto de datos y los parámetros, y los métodos tienen pocas ventajas sistemáticas sobre otros cuando se comparan entre muchos conjuntos de datos y parámetros.^[36]^[37]