martes, 10 de noviembre de 2015

Medidas de tendencia central

Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización. Cuando se hace referencia únicamente a la posición de estos parámetros dentro de la distribución, independientemente de que ésta esté más o menos centrada, se habla de estas medidas como medidas de posición.1 En este caso se incluyen también los cuantiles entre estas medidas.
Entre las medidas de tendencia central tenemos:
  • Media aritmética
  • Media ponderada
  • [[[Media geométrica]]
  • Media armónica
  • Mediana
  • Moda
Se debe tener en cuenta que existen variables cualitativas y variables cuantitativas, por lo que las medidas de posición o medidas de tendencia se usan de acuerdo al tipo de variable que se está observando, en este caso se observan variables cuantitativas.
Media Aritmética
Dado un conjunto numérico de datos, x1x2, ..., xn, se define su media aritmética como
 \overline{x} = \frac{x_1 + x_2 + ... + x_n}{n} = \frac{1}{n}\sum_{i=1}^n x_i
Esta definición varía, aunque no sustancialmente, cuando se trata de variables continuas, esto es, también puede calcularse para variables agrupadas en intervalos.

Propiedades

Las principales propiedades de la media aritmética son:3
  • Su cálculo es muy sencillo y en él intervienen todos los datos.
  • Su valor es único para una serie de datos dada.
  • Se usa con frecuencia para comparar poblaciones, aunque es más apropiado acompañarla de una medida de dispersión.
  • Se interpreta como "punto de equilibrio" o "centro de masas" del conjunto de datos, ya que tiene la propiedad de equilibrar las desviaciones de los datos respecto de su propio valor:
 \frac{1}{n}\sum_{i=1}^n (x_i-\overline{x}) = \frac{1}{n}\sum_{i=1}^n x_i - \frac{1}{n}\sum_{i=1}^n \overline{x} = \overline{x} - \overline{x} = 0
  • Minimiza las desviaciones cuadráticas de los datos respecto de cualquier valor prefijado, esto es, el valor de  \frac{1}{n}\sum_{i=1}^n (x_i-k)^2 es mínimo cuando k = \overline{x}. Este resultado se conoce como Teorema de König. Esta propiedad permite interpretar uno de los parámetros de dispersión más importantes: la varianza.
x_i' = ax_i+b entonces \overline{x'} = a \overline{x} + b, donde \overline{x'} es la media aritmética de los x_i', para i = 1, ..., n y a y b números reales.

Moda

La moda es el dato más repetido de la encuesta, el valor de la variable con mayor frecuencia absoluta.5 En cierto sentido la definición matemática corresponde con la locución "estar de moda", esto es, ser lo que más se lleva.
Su cálculo es extremadamente sencillo, pues solo necesita un recuento. En variables continuas, expresadas en intervalos, existe el denominado intervalo modal o, en su defecto, si es necesario obtener un valor concreto de la variable, se recurre a la interpolación.
Por ejemplo, el número de personas en distintos vehículos en una carretera: 5-7-4-6-9-5-6-1-5-3-7. El número que más se repite es 5, entonces la moda es 5.
Hablaremos de una distribución bimodal de los datos, cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Cuando en una distribución de datos se encuentran tres o más modas, entonces es multimodal. Por último, si todas las variables tienen la misma frecuencia diremos que no hay moda.
Cuando tratamos con datos agrupados en intervalos, antes de calcular la moda, se ha de definir el intervalo modal. El intervalo modal es el de mayor frecuencia absoluta.
La moda, cuando los datos están agrupados, es un punto que divide el intervalo modal en dos partes de la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que:
\frac{p}{c-p}=\frac{n_i-n_{i-1} }{n_i-n_{i+1} }
Siendo n_{i} la frecuencia absoluta del intervalo modal y n_{i-1} y n_{i+1} las frecuencias absolutas de los intervalos anterior y posterior, respectivamente, al intervalo modal.

Mediana

La mediana es un valor de la variable que deja por debajo de sí a la mitad de los datos, una vez que éstos están ordenados de menor a mayor.7 Por ejemplo, la mediana del número de hijos de un conjunto de trece familias, cuyos respectivos hijos son: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 y 1, es 2, puesto que, una vez ordenados los datos: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posición central es 2:
\rm 
      \underbrace{1,\ 1,\ 1,\ 1,\ 1,\ 1, }_{Mitad \; inferior} \;
      \underbrace{\color{Red} 2, }_{Mediana \;} \;
       \underbrace{2,\ 2,\ 2,\ 3,\ 3,\ 4}_{Mitad \; superior}
En caso de un número par de datos, la mediana no correspondería a ningún valor de la variable, por lo que se conviene en tomar como mediana el valor intermedio entre los dos valores centrales. Por ejemplo, en el caso de doce datos como los siguientes:
\rm 
      \underbrace{1,\ 1,\ 1,\ 1,\ 1, }_{Valores \; inferiores} \;
      \underbrace{\color{Red} 1,\ 2, }_{Valores \; intermedios} \;
      \underbrace{2,\ 2,\ 3,\ 3,\ 4}_{Valores \; superiores}
Se toma como mediana  1,5 = \frac{{\color{Red}1}+{\color{Red}2}}{2}
Existen métodos de cálculo más rápidos para datos más numerosos (véase el artículo principal dedicado a este parámetro). Del mismo modo, para valores agrupados en intervalos, se halla el "intervalo mediano" y, dentro de éste, se obtiene un valor concreto por interpolación.

Desviación estándar

La desviación estándar (σ) mide cuánto se separan los datos.
La fórmula es fácil: es la raíz cuadrada de la varianza. Así que, "¿qué es la varianza?"
Monografias.com

Varianza

la varianza (que es el cuadrado de la desviación estándar: σ2) se define así:
Es la media de las diferencias con la media elevadas al cuadrado.
En otras palabras, sigue estos pasos:
1. Calcula la media (el promedio de los números)
2. Ahora, por cada número resta la media y eleva el resultado al cuadrado (la diferencia elevada al cuadrado).
3. Ahora calcula la media de esas diferencias al cuadrado. (¿Por qué al cuadrado?)

Ejemplo

Tú y tus amigos habéis medido las alturas de vuestros perros (en milímetros):
Las alturas (de los hombros) son: 600mm, 470mm, 170mm, 430mm y 300mm.
Calcula la media, la varianza y la desviación estándar.

Respuesta:

Media =  
600 + 470 + 170 + 430 + 300
  =  
1970
  = 394
5
5
así que la altura media es 394 mm. Vamos a dibujar esto en el gráfico:
Ahora calculamos la diferencia de cada altura con la media:
Para calcular la varianza, toma cada diferencia, elévala al cuadrado, y haz la media:
Varianza: σ2 =  
2062 + 762 + (-224)2 + 362 + (-94)2
  =  
108,520
  = 21,704
5
5
Así que la varianza es 21,704.
Y la desviación estándar es la raíz de la varianza, así que:
Desviación estándar: σ = √21,704 = 147
y lo bueno de la desviación estándar es que es útil: ahora veremos qué alturas están a distancia menos de la desviación estándar (147mm) de la media:
Así que usando la desviación estándar tenemos una manera "estándar" de saber qué es normal, o extra grande o extra pequeño.
Los Rottweilers son perros grandes. Y los Dachsunds son un poco menudos... ¡pero que no se enteren!

*Nota: ¿por qué al cuadrado?

Elevar cada diferencia al cuadrado hace que todos los números sean positivos (para evitar que los números negativos reduzcan la varianza)
Y también hacen que las diferencias grandes se destaquen. Por ejemplo 1002=10,000 es mucho más grande que 502=2,500.
Pero elevarlas al cuadrado hace que la respuesta sea muy grande, así que lo deshacemos (con la raíz cuadrada) y así la desviación estándar es mucho más útil.