Estadística esencial: medidas, distribuciones y series temporales
Medidas de tendencia central y dispersión
Media: es más representativa cuanto mayor sea el grado de curtosis. Minimiza el promedio de las desviaciones cuadráticas; es el valor que, en promedio, menos distancia a todas las observaciones.
Moda: valor o clase más frecuente.
Mediana: valor que ocupa la posición central y divide la distribución aproximadamente en dos partes con el 50% de las observaciones a cada lado.
Desviación típica: medida de la distancia entre los valores de la variable y su valor medio (desviación estándar).
Varianza: mide la dispersión de los datos respecto a la media. No toma necesariamente valores enteros; es menor cuanto más próximos estén los datos a la media aritmética. Sirve para evaluar la representatividad de la media como medida de tendencia central.
Coeficiente de variación (CV de Pearson): invariante ante la transformación Y = aX con a > 0. Cuanto menor es el CV, más representativa es la media en términos relativos.
Curtosis
Mesocúrtica (curtosis normal): γ2 = 0. Leptocúrtica (apuntada): γ2 > 0. Platicúrtica (achatada): γ2 < 0.
Correlación, determinación y covarianza
Coeficiente de correlación (r): mide la relación lineal entre dos variables. Toma valores entre -1 y 1. Si r = 0 no existe correlación lineal. En términos de momentos muestrales, es 0 cuando Sxy = 0. En tablas de contingencia, la independencia se traduce en que las frecuencias esperadas factoricen: fij = fi• · f•j, equivalente a nij/N = (ni/N) · (nj/N).
Coeficiente de determinación (R2): proporción de la varianza de la variable dependiente explicada por la variable independiente en un modelo lineal. Toma valores entre 0 y 1. Si es 0 → no existe relación lineal explicada por el modelo (no hay ajuste lineal).
Covarianza: definida como E[XY] − E[X]E[Y] (o en muestras, Sxy). Si es positiva indica relación directa, si es negativa indica relación inversa, y si es cero no se observa relación lineal entre las variables.
Independencia
Independencia (en tablas de contingencia): nij/N = (ni/N) · (nj/N). Independencia lineal o ausencia de correlación lineal: Sxy = 0; en ese caso r = 0.
Índices y deflactación
Índice Laspeyres: valoración según precios y cantidades del año base. La ponderación base puede quedar desfasada con el tiempo; por eso es el índice que suele emplearse para el IPC. Fórmula de ponderación típica: wi = Pi0 · qi0.
Índice Paasche: utiliza las cantidades del periodo actual; una ponderación típica: wi = Pit · qit.
Índice Fisher: índice compuesto que se define como la media geométrica entre Laspeyres y Paasche: Fisher = sqrt(Laspeyres · Paasche).
Deflactar: convertir valores nominales a precios constantes para comparar magnitudes a lo largo del tiempo (pasar de valores nominales a reales), de modo que se compare el poder adquisitivo.
Series temporales
Series temporales (cronológicas / históricas): sucesión de observaciones de una variable ordenadas en el tiempo. Su análisis sirve para describir la evolución histórica y estudiar patrones en datos cuantitativos asociados a fenómenos que varían con el tiempo.
Tendencia secular: movimiento global de la serie a largo plazo (no cíclico). Variaciones cíclicas: oscilaciones periódicas con frecuencia superior a un año (crestas y valles). Variaciones estacionales: fluctuaciones con periodicidad menor o igual a un año y reconocibles en cada año, generalmente relacionadas con la climatología u otros factores periódicos. Variación errática (irregular / residual): recoge la variabilidad debida a causas impredecibles de pequeña magnitud.
Números índice: propiedades
- Existencia.
- Identidad.
- Circularidad.
- Inversión.
- Proporcionalidad.
El IPC se suele calcular con base en Laspeyres respecto al precio.
Tasa de variación
Tasa de variación media: mide el cambio entre instantes consecutivos del periodo (variación relativa promedio entre periodos).
Variable aleatoria y desigualdad de Chebyshev
Variable aleatoria: modeliza un fenómeno aleatorio. Puede ser discreta (VAD) o continua (VAC) y puede tomar valores positivos o negativos según el fenómeno. La función de distribución acumulada es no decreciente.
Desigualdad de Tchebychev (Chebyshev): útil cuando no conocemos la distribución de probabilidad. Para toda variable con media μ y desviación típica σ y para k > 1 se cumple: P(|X − μ| < kσ) ≥ 1 − 1/k².
Esperanza y varianza de una variable aleatoria
Esperanza (E[X]): momento de primer orden respecto al origen. Propiedades:
- La esperanza de una constante es la propia constante.
- E[c · X] = c · E[X] (linealidad en escala).
- E[X + c] = E[X] + c (cambio de origen).
- La esperanza del sumatorio o de la suma de variables es la suma de las esperanzas (linealidad).
En el caso discreto: E[X] = Σ x · p(x).
Varianza (Var(X)): momento de segundo orden con respecto a la media; mide la dispersión de los valores alrededor de la esperanza. Propiedades:
- Var(constante) = 0.
- Var(c · X) = c² · Var(X) (cambio de escala).
- Var(X + c) = Var(X) (cambio de origen).
Funciones de densidad y distribución
Para una variable aleatoria continua (VAC), la función de densidad f(x) cumple f(x) ≥ 0 y la integral sobre todo el dominio es 1. Para una variable aleatoria discreta (VAD), la función de masa p(x) satisface 0 ≤ p(x) ≤ 1 y la suma de todas las probabilidades es 1.
Función de distribución acumulada F(x): P(X ≤ x). Para variables continuas, f(x) es la derivada de F(x); F(x) representa la probabilidad acumulada hasta ese punto (probabilidad de que la variable sea, como mucho, ese valor).
Tipificación
Tipificación (estandarización): transformación que centra y escala una variable para medir la dispersión relativa, típicamente Z = (X − μ) / σ.
Distribuciones comunes
- Poisson: parámetro λ > 0; la media y la varianza coinciden (E[X] = Var(X) = λ). La variable toma valores en los enteros no negativos (0,1,2,…).
- Normal: parámetros μ (media) y σ² (varianza), con σ² > 0.
- Uniforme continua en [a, b]: f(x) = 1/(b − a) para a ≤ x ≤ b; F(x) = (x − a)/(b − a) para a ≤ x ≤ b. E[X] = (a + b)/2; Var(X) = (b − a)²/12.
- Binomial (n, p): E[X] = n p; Var(X) = n p q, donde q = 1 − p.
Teorema del Límite Central (TCL)
El TCL establece que, bajo repetición de experimentos independientes e idénticamente distribuidos y cuando n tiende a infinito, la suma (o la media) de las variables tiende a una distribución normal, siempre que la esperanza y la varianza de las variables sean finitas y conocidas. Aplicaciones prácticas:
- Binomial B(n,p) ≈ Normal(np, npq) para n grande y p no extremo.
- Poisson P(λ) ≈ Normal(λ, λ) para λ grande.
- Distribuciones continuas o sumas de variables independientes pueden aproximarse por una normal con media y varianza correspondientes cuando se cumple el TCL.
