1. Modelo de Regresión Lineal

  • Modelo teórico (poblacional): Yij = β0 + β1 * Xi + εij | Donde εij ~ NID(0, σ²)
  • Índices: i = nivel de la variable independiente, j = repetición
  • Modelo estimado (muestral): ŷ = b0 + b1 * Xi
  • Forma matricial: y = Xβ + ε | βestimado = (X’ X)⁻¹ X’ y
  • Dimensiones: y es n×1; X es n×p; β es p×1; ε es n×1

2. Fórmulas para Calculadora

  • Pendiente (b1): b1 = Σ(xi – x̄)(yi – ȳ) / Σ(xi – x̄)²
  • Ordenada (b0): b0 = ȳ – b1 * x̄
  • SC Total (SCT): SCT = Σ(Yi – Ȳ)² = ΣYi² – (ΣYi)²/n
  • SC Regresión (SCReg): SCReg = b1 * Σ(xi – x̄)(Yi – Ȳ)
  • SC Error (SCE): SCE = SCT – SCReg
  • CM Modelo (CMM): CMM = SCReg / glMod (glMod = 1 en RLS; p−1 en RLM)
  • CM Error (CME): CME = SCE / glE (glE = n−2 en RLS; n–p en RLM)
  • F calculado: F = CMM / CME
  • T calculado: T = (bj – 0) / E.E.(bj) ~ t (n–p)
  • R²: R² = SCReg / SCT (valor entre 0 y 1)
  • R² ajustado: aj = 1 – (1 – R²) * (n−1)/(n–p)
  • IC parámetro: IC = bj ± E.E.(bj) * t (n–p; 1–α/2)
  • RMSE: RMSE = √ [ Σ(Yi – ŷi)² / n ]
  • Leverage (hii): Corte: hii > 2p/n → Obs. influyente en predicción
  • Distancia de Cook (Di): Corte: Di > 1 → Obs. influyente en parámetros
  • Residuo (ei): ei = Yi – ŷi (Observado – Predicho)
  • Predicho (ŷi): ŷi = b0 + b1 * Xi
  • Residuo parcial (r*j): r*j = ei + bj * Xji

3. Grados de Libertad (gl) – Resumen

  • Total: n – 1
  • Modelo: 1 (en RLS) | p – 1 (en RLM)
  • Error: n – 2 (en RLS) | n – p (en RLM)

4. Tabla ANDEVA Tipo

  • F.V. Modelo: SCReg | gl: 1 (RLS) | CM: SCReg / gl | F: CMM / CME
  • F.V. Error: SCE | gl: n−2 | CM: SCE / gl
  • F.V. Total: SCT | gl: n−1

5. Interpretación de Parámetros

  • b0: «Cuando X = 0, Y vale b0 en promedio». Nota: Solo interpretable si X=0 está DENTRO del rango de los datos.
  • b1: «Por cada unidad que aumenta X, Y cambia en b1 unidades en promedio». En RLM: Se agrega la frase «fijando el resto de las variables».

6. Pruebas de Hipótesis

  • Prueba T (Coeficientes): H0: βi = 0 | HA: βi ≠ 0. Si p-valor < α (0,05) → Rechazar H0.
  • Prueba F (Global): H0: σ²Mod ≤ σ²Error | HA: σ²Mod > σ²Error. Si p-valor < 0,05 → Rechazar H0.
  • Nota: En RLS ambas pruebas son equivalentes (T² = F). En RLM, T es individual y F es global.

7. Supuestos del Modelo (εi ~ NID(0, σ²))

  1. Independencia: Observaciones no correlacionadas. Verificación: Diseño experimental (aleatorizar) y Durbin-Watson.
  2. Homocedasticidad: V(εi) = σ² constante. Verificación: Gráfico Residuos vs Predichos, Levene, Bartlett. (Buscar nube sin patrón).
  3. Normalidad: εi ~ Normal. Verificación: QQ-Plot, Shapiro-Wilks. (Puntos sobre línea de 45°).
  4. Preferencia del Profesor: Prefiere gráficos sobre pruebas formales para identificar dónde está el problema.

8. Diagnóstico

  • Leverage (Palanca): Corte 2p/n. Mide influencia sobre predichos.
  • Distancia de Cook: Corte Di > 1. Mide influencia sobre coeficientes b0 y b1.
  • Residuos Parciales: Permiten evaluar importancia de cada variable fijando el resto, detectar no linealidad y sugerir transformaciones.

9. Medidas de Bondad de Ajuste

  • R²: 0 a 1. Cercano a 1 es predictivo. R² alto ≠ modelo correcto.
  • R² aj.: Solo sube si la variable mejora realmente el modelo.
  • AIC / BIC: Criterios de información. Menor es mejor. BIC penaliza más la complejidad.
  • RMSE: Raíz del error cuadrático medio. Menor es mejor para comparar modelos.
  • Clave: R² bajo no significa modelo incorrecto, solo variabilidad alta.

10. Intervalos de Confianza

  • Fórmula: IC = bj ± E.E.(bj) * t (n–p ; 1–α/2)
  • Interpretación: «Si repitiéramos el experimento n veces, el verdadero valor de βi estará entre [LI] y [LS] el 95% de las veces».
  • Pista: Si el IC contiene 0 → Aceptar H0. Si NO contiene 0 → Rechazar H0.

11. Validación Cruzada

  • Training/Testing: 80% entrenamiento / 20% validación.
  • K-fold: Dividir en k segmentos, rotar entrenamiento y validación.
  • Leave One Out: K-fold con k=n. Ajustar con n-1 datos, testear con 1.

12. Representación Matricial

  • Valores observados: y (vector n×1)
  • Residuos: e = y – Xβestimado
  • Predichos: ŷ = Xβestimado = Hy (Donde H = X (X’ X)⁻¹ X’)
  • Leverages: diag(H) = diag[ X (X’ X)⁻¹ X’ ]

13. Checklist para Responder

  1. Identificar VD e VI(s). Ambas cuantitativas.
  2. Escribir modelo estimado: ŷ = b0 + b1 * X
  3. Prueba de hipótesis: H0 y HA, dar T o F, dar p-valor y concluir.
  4. Interpretación b0: Verificar si X=0 está en el rango.
  5. Interpretación b1: «Por cada unidad…» + «fijando el resto» (en múltiple).
  6. IC: Redacción «si repetimos n veces…». Verificar si contiene 0.
  7. Supuestos: QQ-Plot (Normalidad), Res vs Pred (Homocedasticidad).
  8. Cook > 1 (Eliminar) | Leverage > 2p/n (Sospechosa).
  9. R²: «% de variabilidad explicada».
  10. Predicción: Verificar que valores estén dentro del rango.

14. Frases Clave del Profesor

  • Rechazo H0: «Dado el T/F = (valor) y p-valor = (valor) < 0,05, tengo los antecedentes para rechazar H0. La variable [X] ayuda a predecir [Y] (95% confianza)».
  • Acepto H0: «Con p-valor = (valor) > 0,05, NO tengo antecedentes suficientes para rechazar H0. [X] NO contribuye significativamente a explicar [Y]».
  • R²: «El (valor)% de la variabilidad total es explicada por el modelo y el (100–valor)% restante es debida al error experimental».
  • b1 en múltiple: «Por cada [unidad de X] que aumenta [X], [Y] [aumenta/disminuye] en promedio [valor] [unidad Y], FIJANDO EL RESTO».
  • b0 no válido: «La ordenada no se puede interpretar porque X=0 no está en el rango ([X min] a [X max])».
  • Cook: «No hay ninguna observación que supere Cook = 1, por lo tanto no es necesario eliminar ninguna».