Fundamentos y Aplicación del Modelo de Regresión Lineal
1. Modelo de Regresión Lineal
- Modelo teórico (poblacional): Yij = β0 + β1 * Xi + εij | Donde εij ~ NID(0, σ²)
- Índices: i = nivel de la variable independiente, j = repetición
- Modelo estimado (muestral): ŷ = b0 + b1 * Xi
- Forma matricial: y = Xβ + ε | βestimado = (X’ X)⁻¹ X’ y
- Dimensiones: y es n×1; X es n×p; β es p×1; ε es n×1
2. Fórmulas para Calculadora
- Pendiente (b1): b1 = Σ(xi – x̄)(yi – ȳ) / Σ(xi – x̄)²
- Ordenada (b0): b0 = ȳ – b1 * x̄
- SC Total (SCT): SCT = Σ(Yi – Ȳ)² = ΣYi² – (ΣYi)²/n
- SC Regresión (SCReg): SCReg = b1 * Σ(xi – x̄)(Yi – Ȳ)
- SC Error (SCE): SCE = SCT – SCReg
- CM Modelo (CMM): CMM = SCReg / glMod (glMod = 1 en RLS; p−1 en RLM)
- CM Error (CME): CME = SCE / glE (glE = n−2 en RLS; n–p en RLM)
- F calculado: F = CMM / CME
- T calculado: T = (bj – 0) / E.E.(bj) ~ t (n–p)
- R²: R² = SCReg / SCT (valor entre 0 y 1)
- R² ajustado: R²aj = 1 – (1 – R²) * (n−1)/(n–p)
- IC parámetro: IC = bj ± E.E.(bj) * t (n–p; 1–α/2)
- RMSE: RMSE = √ [ Σ(Yi – ŷi)² / n ]
- Leverage (hii): Corte: hii > 2p/n → Obs. influyente en predicción
- Distancia de Cook (Di): Corte: Di > 1 → Obs. influyente en parámetros
- Residuo (ei): ei = Yi – ŷi (Observado – Predicho)
- Predicho (ŷi): ŷi = b0 + b1 * Xi
- Residuo parcial (r*j): r*j = ei + bj * Xji
3. Grados de Libertad (gl) – Resumen
- Total: n – 1
- Modelo: 1 (en RLS) | p – 1 (en RLM)
- Error: n – 2 (en RLS) | n – p (en RLM)
4. Tabla ANDEVA Tipo
- F.V. Modelo: SCReg | gl: 1 (RLS) | CM: SCReg / gl | F: CMM / CME
- F.V. Error: SCE | gl: n−2 | CM: SCE / gl
- F.V. Total: SCT | gl: n−1
5. Interpretación de Parámetros
- b0: «Cuando X = 0, Y vale b0 en promedio». Nota: Solo interpretable si X=0 está DENTRO del rango de los datos.
- b1: «Por cada unidad que aumenta X, Y cambia en b1 unidades en promedio». En RLM: Se agrega la frase «fijando el resto de las variables».
6. Pruebas de Hipótesis
- Prueba T (Coeficientes): H0: βi = 0 | HA: βi ≠ 0. Si p-valor < α (0,05) → Rechazar H0.
- Prueba F (Global): H0: σ²Mod ≤ σ²Error | HA: σ²Mod > σ²Error. Si p-valor < 0,05 → Rechazar H0.
- Nota: En RLS ambas pruebas son equivalentes (T² = F). En RLM, T es individual y F es global.
7. Supuestos del Modelo (εi ~ NID(0, σ²))
- Independencia: Observaciones no correlacionadas. Verificación: Diseño experimental (aleatorizar) y Durbin-Watson.
- Homocedasticidad: V(εi) = σ² constante. Verificación: Gráfico Residuos vs Predichos, Levene, Bartlett. (Buscar nube sin patrón).
- Normalidad: εi ~ Normal. Verificación: QQ-Plot, Shapiro-Wilks. (Puntos sobre línea de 45°).
- Preferencia del Profesor: Prefiere gráficos sobre pruebas formales para identificar dónde está el problema.
8. Diagnóstico
- Leverage (Palanca): Corte 2p/n. Mide influencia sobre predichos.
- Distancia de Cook: Corte Di > 1. Mide influencia sobre coeficientes b0 y b1.
- Residuos Parciales: Permiten evaluar importancia de cada variable fijando el resto, detectar no linealidad y sugerir transformaciones.
9. Medidas de Bondad de Ajuste
- R²: 0 a 1. Cercano a 1 es predictivo. R² alto ≠ modelo correcto.
- R² aj.: Solo sube si la variable mejora realmente el modelo.
- AIC / BIC: Criterios de información. Menor es mejor. BIC penaliza más la complejidad.
- RMSE: Raíz del error cuadrático medio. Menor es mejor para comparar modelos.
- Clave: R² bajo no significa modelo incorrecto, solo variabilidad alta.
10. Intervalos de Confianza
- Fórmula: IC = bj ± E.E.(bj) * t (n–p ; 1–α/2)
- Interpretación: «Si repitiéramos el experimento n veces, el verdadero valor de βi estará entre [LI] y [LS] el 95% de las veces».
- Pista: Si el IC contiene 0 → Aceptar H0. Si NO contiene 0 → Rechazar H0.
11. Validación Cruzada
- Training/Testing: 80% entrenamiento / 20% validación.
- K-fold: Dividir en k segmentos, rotar entrenamiento y validación.
- Leave One Out: K-fold con k=n. Ajustar con n-1 datos, testear con 1.
12. Representación Matricial
- Valores observados: y (vector n×1)
- Residuos: e = y – Xβestimado
- Predichos: ŷ = Xβestimado = Hy (Donde H = X (X’ X)⁻¹ X’)
- Leverages: diag(H) = diag[ X (X’ X)⁻¹ X’ ]
13. Checklist para Responder
- Identificar VD e VI(s). Ambas cuantitativas.
- Escribir modelo estimado: ŷ = b0 + b1 * X
- Prueba de hipótesis: H0 y HA, dar T o F, dar p-valor y concluir.
- Interpretación b0: Verificar si X=0 está en el rango.
- Interpretación b1: «Por cada unidad…» + «fijando el resto» (en múltiple).
- IC: Redacción «si repetimos n veces…». Verificar si contiene 0.
- Supuestos: QQ-Plot (Normalidad), Res vs Pred (Homocedasticidad).
- Cook > 1 (Eliminar) | Leverage > 2p/n (Sospechosa).
- R²: «% de variabilidad explicada».
- Predicción: Verificar que valores estén dentro del rango.
14. Frases Clave del Profesor
- Rechazo H0: «Dado el T/F = (valor) y p-valor = (valor) < 0,05, tengo los antecedentes para rechazar H0. La variable [X] ayuda a predecir [Y] (95% confianza)».
- Acepto H0: «Con p-valor = (valor) > 0,05, NO tengo antecedentes suficientes para rechazar H0. [X] NO contribuye significativamente a explicar [Y]».
- R²: «El (valor)% de la variabilidad total es explicada por el modelo y el (100–valor)% restante es debida al error experimental».
- b1 en múltiple: «Por cada [unidad de X] que aumenta [X], [Y] [aumenta/disminuye] en promedio [valor] [unidad Y], FIJANDO EL RESTO».
- b0 no válido: «La ordenada no se puede interpretar porque X=0 no está en el rango ([X min] a [X max])».
- Cook: «No hay ninguna observación que supere Cook = 1, por lo tanto no es necesario eliminar ninguna».
Ir arriba