Medidas de tendencia central y dispersión

Media: es más representativa cuanto mayor sea el grado de curtosis. Minimiza el promedio de las desviaciones cuadráticas; es el valor que, en promedio, menos distancia a todas las observaciones.

Moda: valor o clase más frecuente.

Mediana: valor que ocupa la posición central y divide la distribución aproximadamente en dos partes con el 50% de las observaciones a cada lado.

Desviación típica: medida de la distancia entre los valores de la variable y su valor medio (desviación estándar).

Varianza: mide la dispersión de los datos respecto a la media. No toma necesariamente valores enteros; es menor cuanto más próximos estén los datos a la media aritmética. Sirve para evaluar la representatividad de la media como medida de tendencia central.

Coeficiente de variación (CV de Pearson): invariante ante la transformación Y = aX con a > 0. Cuanto menor es el CV, más representativa es la media en términos relativos.

Curtosis

Mesocúrtica (curtosis normal): γ2 = 0. Leptocúrtica (apuntada): γ2 > 0. Platicúrtica (achatada): γ2 < 0.

Correlación, determinación y covarianza

Coeficiente de correlación (r): mide la relación lineal entre dos variables. Toma valores entre -1 y 1. Si r = 0 no existe correlación lineal. En términos de momentos muestrales, es 0 cuando Sxy = 0. En tablas de contingencia, la independencia se traduce en que las frecuencias esperadas factoricen: fij = fi• · f•j, equivalente a nij/N = (ni/N) · (nj/N).

Coeficiente de determinación (R2): proporción de la varianza de la variable dependiente explicada por la variable independiente en un modelo lineal. Toma valores entre 0 y 1. Si es 0 → no existe relación lineal explicada por el modelo (no hay ajuste lineal).

Covarianza: definida como E[XY] − E[X]E[Y] (o en muestras, Sxy). Si es positiva indica relación directa, si es negativa indica relación inversa, y si es cero no se observa relación lineal entre las variables.

Independencia

Independencia (en tablas de contingencia): nij/N = (ni/N) · (nj/N). Independencia lineal o ausencia de correlación lineal: Sxy = 0; en ese caso r = 0.

Índices y deflactación

Índice Laspeyres: valoración según precios y cantidades del año base. La ponderación base puede quedar desfasada con el tiempo; por eso es el índice que suele emplearse para el IPC. Fórmula de ponderación típica: wi = Pi0 · qi0.

Índice Paasche: utiliza las cantidades del periodo actual; una ponderación típica: wi = Pit · qit.

Índice Fisher: índice compuesto que se define como la media geométrica entre Laspeyres y Paasche: Fisher = sqrt(Laspeyres · Paasche).

Deflactar: convertir valores nominales a precios constantes para comparar magnitudes a lo largo del tiempo (pasar de valores nominales a reales), de modo que se compare el poder adquisitivo.

Series temporales

Series temporales (cronológicas / históricas): sucesión de observaciones de una variable ordenadas en el tiempo. Su análisis sirve para describir la evolución histórica y estudiar patrones en datos cuantitativos asociados a fenómenos que varían con el tiempo.

Tendencia secular: movimiento global de la serie a largo plazo (no cíclico). Variaciones cíclicas: oscilaciones periódicas con frecuencia superior a un año (crestas y valles). Variaciones estacionales: fluctuaciones con periodicidad menor o igual a un año y reconocibles en cada año, generalmente relacionadas con la climatología u otros factores periódicos. Variación errática (irregular / residual): recoge la variabilidad debida a causas impredecibles de pequeña magnitud.

Números índice: propiedades

  • Existencia.
  • Identidad.
  • Circularidad.
  • Inversión.
  • Proporcionalidad.

El IPC se suele calcular con base en Laspeyres respecto al precio.

Tasa de variación

Tasa de variación media: mide el cambio entre instantes consecutivos del periodo (variación relativa promedio entre periodos).

Variable aleatoria y desigualdad de Chebyshev

Variable aleatoria: modeliza un fenómeno aleatorio. Puede ser discreta (VAD) o continua (VAC) y puede tomar valores positivos o negativos según el fenómeno. La función de distribución acumulada es no decreciente.

Desigualdad de Tchebychev (Chebyshev): útil cuando no conocemos la distribución de probabilidad. Para toda variable con media μ y desviación típica σ y para k > 1 se cumple: P(|X − μ| < kσ) ≥ 1 − 1/k².

Esperanza y varianza de una variable aleatoria

Esperanza (E[X]): momento de primer orden respecto al origen. Propiedades:

  • La esperanza de una constante es la propia constante.
  • E[c · X] = c · E[X] (linealidad en escala).
  • E[X + c] = E[X] + c (cambio de origen).
  • La esperanza del sumatorio o de la suma de variables es la suma de las esperanzas (linealidad).

En el caso discreto: E[X] = Σ x · p(x).

Varianza (Var(X)): momento de segundo orden con respecto a la media; mide la dispersión de los valores alrededor de la esperanza. Propiedades:

  • Var(constante) = 0.
  • Var(c · X) = c² · Var(X) (cambio de escala).
  • Var(X + c) = Var(X) (cambio de origen).

Funciones de densidad y distribución

Para una variable aleatoria continua (VAC), la función de densidad f(x) cumple f(x) ≥ 0 y la integral sobre todo el dominio es 1. Para una variable aleatoria discreta (VAD), la función de masa p(x) satisface 0 ≤ p(x) ≤ 1 y la suma de todas las probabilidades es 1.

Función de distribución acumulada F(x): P(X ≤ x). Para variables continuas, f(x) es la derivada de F(x); F(x) representa la probabilidad acumulada hasta ese punto (probabilidad de que la variable sea, como mucho, ese valor).

Tipificación

Tipificación (estandarización): transformación que centra y escala una variable para medir la dispersión relativa, típicamente Z = (X − μ) / σ.

Distribuciones comunes

  • Poisson: parámetro λ > 0; la media y la varianza coinciden (E[X] = Var(X) = λ). La variable toma valores en los enteros no negativos (0,1,2,…).
  • Normal: parámetros μ (media) y σ² (varianza), con σ² > 0.
  • Uniforme continua en [a, b]: f(x) = 1/(b − a) para a ≤ x ≤ b; F(x) = (x − a)/(b − a) para a ≤ x ≤ b. E[X] = (a + b)/2; Var(X) = (b − a)²/12.
  • Binomial (n, p): E[X] = n p; Var(X) = n p q, donde q = 1 − p.

Teorema del Límite Central (TCL)

El TCL establece que, bajo repetición de experimentos independientes e idénticamente distribuidos y cuando n tiende a infinito, la suma (o la media) de las variables tiende a una distribución normal, siempre que la esperanza y la varianza de las variables sean finitas y conocidas. Aplicaciones prácticas:

  • Binomial B(n,p) ≈ Normal(np, npq) para n grande y p no extremo.
  • Poisson P(λ) ≈ Normal(λ, λ) para λ grande.
  • Distribuciones continuas o sumas de variables independientes pueden aproximarse por una normal con media y varianza correspondientes cuando se cumple el TCL.