miércoles, 1 de diciembre de 2010

Outlier (Anomalías)

Una anomalía es una observación que se encuentra a una distancia anormal de otros valores en una población.  En esta definición  se deja de lado de analista (o a un proceso) decidir que es anormal. Antes de señalar una anomalía se deba definir lo que es una observación normal.
Hay dos características esenciales para caracterización de la información:
1.      Examinar las formas de las gráficas es importante, incluyendo simetría y desviaciones.
2.      Examinar los datos que están muy lejos de la mayoría. Estos puntos son conocidos como anomalías. Hay dos tipos de técnicas de gráficas  para la identificación de anomalías, diagramas de dispersión y diagramas de caja, también existe el procedimiento analítico Grubbs’ Test para la detención de anomalías cuando la distribución es normal.
Construcción del diagrama de caja
El diagrama de caja es una gráfica útil para describir el comportamiento de los datos en el centro así como también en los extremos de la distribución. El diagrama de caja utiliza la mediana y los cuartiles inferior y superior ( percentiles 25 y 75). Si el cuartil menor es Q1 y el cuartil superior es Q2, la diferencia (Q2-Q1) es llamada rango intercuartil o QI.
Diagrama de caja con vallas
Un diagrama de caja se construye dibujando un cuadro entre los cuartiles superior e inferior con una línea continua trazada a través de la caja para localizar la mediana. Las siguientes cantidades (vallas llamada) son necesarios para la identificación de valores extremos en las colas de la distribución:
·         Menor valla interior: Q1 - 1,5 * CI
·         Valla interior superior: Q2 + 1.5 * CI
·         Menor valla exterior: Q1 - 3 * CI
·         Valla exterior superior: Q2 + 3 * CI

Criterios de detención de anomalías
Un punto más allá de la valla interior a ambos lados se considera un valor atípico leve. Un punto más allá de la valla exterior se considera un valor atípico extremo.

Software y ejemplos
Existe software que sirve para detectar anomalías en este ocasión voy a utilizar R con su paquete de outlier para hacer algunos ejemplos.

Dentro de las funciones con la que cuenta el paquete de outlier se encuentra la función homónima outlier  la cual encuentra el valor con mayor diferencia entre él y la media, el cual podrían ser una anomalía.

En el ejemplo se genera  un vector de 100 valores, después se aplica la función outlier y se obtiene el valor más distante de la media.
También está la función chisq la cual realiza una prueba de ji cuadrado para la detección de un valor atípico en un vector, como se muestra en la imagen.


1 comentario:

  1. Una gráfica que demuestra esto hubiera sido padre. Te pongo seis puntos.

    ResponderEliminar