Utilizando un diagrama de tallo y hojas, podemos comparar, mediante estos diagramas, dos distribuciones. Supongamos una segunda distribución 35 38 32 28 30 29 27 19 48 40 39 24 24 34 26 41 29 48 28 22 De ella podemos elaborar sus diagramas de Tallos y Hojas y compararla con la anterior. |
Un diagrama de caja es un gráfico, basado en cuartiles, mediante el cual se visualiza un conjunto de datos. Está compuesto por un rectángulo, la "caja", y dos brazos, los "bigotes".
Es un gráfico que suministra información sobre los valores mínimo y máximo, los cuartiles Q1, Q2 o mediana y Q3, y sobre la existencia de valores atípicos y la simetría de la distribución.
+-----+-+
* o |-------| | |---|
+-----+-+
+---+---+---+---+---+---+---+---+---+---+---+---+
0 5 10 12
Ordenar los datos y obtener el valor mínimo, el máximo, los cuartiles Q1, Q2 y Q3 y el Rango Inter Cuartilico (RIC)
En el ejemplo:
- Valor 7: es el Q1 (25% de los datos)
- Valor 8.5: es el Q2 o mediana (el 50% de los datos)
- Valor 9: es el Q3 (75% de los datos)
- Rango Inter Cuartilico RIC (Q3-Q1)=2
Para dibujar los bigotes, las líneas que se extienden desde la caja, hay que calcular los límites superior e inferior, Li y Ls, que identifiquen a los valores atípicos.
Para ello se calcula cuándo se consideran atípicos los valores. Son aquellos inferiores a Q1-1.5*RIC o superiores a Q3+1.5*RIC.
En el ejemplo:
- inferior: 7-1.5*2=4
- superior: 9+1.5*2=12
- Ahora se buscan los últimos valores que NO son atípicos, que serán los extremos de los bigotes.
En el ejemplo: 5 y 10hggtgh
- Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls).
- En el ejemplo: 0.5 y 3.5
Además, se pueden considerar valores extremadamente atípicos aquellos que exceden Q1-3*RIC o Q3+3*RIC.
De modo que, en el ejemplo:
- inferior: 7-3*2=1
- superior: 9+3*2=15
Utilidad
Proporcionan una visión general de la simetría de la distribución de los datos; si la mediana no está en el centro del rectángulo, la distribución no es simétrica.
Son útiles para ver la presencia de valores atípicos también llamados outliers.
Proporcionan una visión general de la simetría de la distribución de los datos; si la mediana no está en el centro del rectángulo, la distribución no es simétrica.
Son útiles para ver la presencia de valores atípicos también llamados outliers.
No hay comentarios:
Publicar un comentario