Fundamentos y Aplicación del Modelo de Regresión Lineal

1. Modelo de Regresión Lineal

Modelo teórico (poblacional): Y_ij = β₀ + β₁ * X_i + ε_ij | Donde ε_ij ~ NID(0, σ²)
Índices: i = nivel de la variable independiente, j = repetición
Modelo estimado (muestral): ŷ = b₀ + b₁ * X_i
Forma matricial: y = Xβ + ε | β_estimado = (X’ X)⁻¹ X’ y
Dimensiones: y es n×1; X es n×p; β es p×1; ε es n×1

2. Fórmulas para Calculadora

Pendiente (b₁): b₁ = Σ(x_i – x̄)(y_i – ȳ) / Σ(x_i – x̄)²
Ordenada (b₀): b₀ = ȳ – b₁ * x̄
SC Total (SCT): SCT = Σ(Y_i – Ȳ)² = ΣY_i² – (ΣY_i)²/n
SC Regresión (SCReg): SCReg = b₁ * Σ(x_i – x̄)(Y_i – Ȳ)
SC Error (SCE): SCE = SCT – SCReg
CM Modelo (CMM): CMM = SCReg / gl_Mod (gl_Mod = 1 en RLS; p−1 en RLM)
CM Error (CME): CME = SCE / gl_E (gl_E = n−2 en RLS; n–p en RLM)
F calculado: F = CMM / CME
T calculado: T = (b_j – 0) / E.E.(b_j) ~ t (n–p)
R²: R² = SCReg / SCT (valor entre 0 y 1)
R² ajustado: R²_aj = 1 – (1 – R²) * (n−1)/(n–p)
IC parámetro: IC = b_j ± E.E.(b_j) * t (n–p; 1–α/2)
RMSE: RMSE = √ [ Σ(Y_i – ŷ_i)² / n ]
Leverage (h_ii): Corte: h_ii > 2p/n → Obs. influyente en predicción
Distancia de Cook (D_i): Corte: D_i > 1 → Obs. influyente en parámetros
Residuo (e_i): e_i = Y_i – ŷ_i (Observado – Predicho)
Predicho (ŷ_i): ŷ_i = b₀ + b₁ * X_i
Residuo parcial (r*_j): r*_j = e_i + b_j * X_ji

3. Grados de Libertad (gl) – Resumen

Total: n – 1
Modelo: 1 (en RLS) | p – 1 (en RLM)
Error: n – 2 (en RLS) | n – p (en RLM)

4. Tabla ANDEVA Tipo

F.V. Modelo: SCReg | gl: 1 (RLS) | CM: SCReg / gl | F: CM_M / CM_E
F.V. Error: SCE | gl: n−2 | CM: SCE / gl
F.V. Total: SCT | gl: n−1

5. Interpretación de Parámetros

b₀: «Cuando X = 0, Y vale b₀ en promedio». Nota: Solo interpretable si X=0 está DENTRO del rango de los datos.
b₁: «Por cada unidad que aumenta X, Y cambia en b₁ unidades en promedio». En RLM: Se agrega la frase «fijando el resto de las variables».

6. Pruebas de Hipótesis

Prueba T (Coeficientes): H₀: β_i = 0 | H_A: β_i ≠ 0. Si p-valor < α (0,05) → Rechazar H₀.
Prueba F (Global): H₀: σ²_Mod ≤ σ²_Error | H_A: σ²_Mod > σ²_Error. Si p-valor < 0,05 → Rechazar H₀.
Nota: En RLS ambas pruebas son equivalentes (T² = F). En RLM, T es individual y F es global.

7. Supuestos del Modelo (ε_i ~ NID(0, σ²))

Independencia: Observaciones no correlacionadas. Verificación: Diseño experimental (aleatorizar) y Durbin-Watson.
Homocedasticidad: V(ε_i) = σ² constante. Verificación: Gráfico Residuos vs Predichos, Levene, Bartlett. (Buscar nube sin patrón).
Normalidad: ε_i ~ Normal. Verificación: QQ-Plot, Shapiro-Wilks. (Puntos sobre línea de 45°).
Preferencia del Profesor: Prefiere gráficos sobre pruebas formales para identificar dónde está el problema.

8. Diagnóstico

Leverage (Palanca): Corte 2p/n. Mide influencia sobre predichos.
Distancia de Cook: Corte D_i > 1. Mide influencia sobre coeficientes b₀ y b₁.
Residuos Parciales: Permiten evaluar importancia de cada variable fijando el resto, detectar no linealidad y sugerir transformaciones.

9. Medidas de Bondad de Ajuste

R²: 0 a 1. Cercano a 1 es predictivo. R² alto ≠ modelo correcto.
R² aj.: Solo sube si la variable mejora realmente el modelo.
AIC / BIC: Criterios de información. Menor es mejor. BIC penaliza más la complejidad.
RMSE: Raíz del error cuadrático medio. Menor es mejor para comparar modelos.
Clave: R² bajo no significa modelo incorrecto, solo variabilidad alta.

10. Intervalos de Confianza

Fórmula: IC = b_j ± E.E.(b_j) * t (n–p ; 1–α/2)
Interpretación: «Si repitiéramos el experimento n veces, el verdadero valor de β_i estará entre [LI] y [LS] el 95% de las veces».
Pista: Si el IC contiene 0 → Aceptar H₀. Si NO contiene 0 → Rechazar H₀.

11. Validación Cruzada

Training/Testing: 80% entrenamiento / 20% validación.
K-fold: Dividir en k segmentos, rotar entrenamiento y validación.
Leave One Out: K-fold con k=n. Ajustar con n-1 datos, testear con 1.

12. Representación Matricial

Valores observados: y (vector n×1)
Residuos: e = y – Xβ_estimado
Predichos: ŷ = Xβ_estimado = Hy (Donde H = X (X’ X)⁻¹ X’)
Leverages: diag(H) = diag[ X (X’ X)⁻¹ X’ ]

13. Checklist para Responder

Identificar VD e VI(s). Ambas cuantitativas.
Escribir modelo estimado: ŷ = b₀ + b₁ * X
Prueba de hipótesis: H₀ y H_A, dar T o F, dar p-valor y concluir.
Interpretación b₀: Verificar si X=0 está en el rango.
Interpretación b₁: «Por cada unidad…» + «fijando el resto» (en múltiple).
IC: Redacción «si repetimos n veces…». Verificar si contiene 0.
Supuestos: QQ-Plot (Normalidad), Res vs Pred (Homocedasticidad).
Cook > 1 (Eliminar) | Leverage > 2p/n (Sospechosa).
R²: «% de variabilidad explicada».
Predicción: Verificar que valores estén dentro del rango.

14. Frases Clave del Profesor

Rechazo H₀: «Dado el T/F = (valor) y p-valor = (valor) < 0,05, tengo los antecedentes para rechazar H₀. La variable [X] ayuda a predecir [Y] (95% confianza)».
Acepto H₀: «Con p-valor = (valor) > 0,05, NO tengo antecedentes suficientes para rechazar H₀. [X] NO contribuye significativamente a explicar [Y]».
R²: «El (valor)% de la variabilidad total es explicada por el modelo y el (100–valor)% restante es debida al error experimental».
b₁ en múltiple: «Por cada [unidad de X] que aumenta [X], [Y] [aumenta/disminuye] en promedio [valor] [unidad Y], FIJANDO EL RESTO».
b₀ no válido: «La ordenada no se puede interpretar porque X=0 no está en el rango ([X min] a [X max])».
Cook: «No hay ninguna observación que supere Cook = 1, por lo tanto no es necesario eliminar ninguna».

Fundamentos y Aplicación del Modelo de Regresión Lineal

1. Modelo de Regresión Lineal

2. Fórmulas para Calculadora

3. Grados de Libertad (gl) – Resumen

4. Tabla ANDEVA Tipo

5. Interpretación de Parámetros

6. Pruebas de Hipótesis

7. Supuestos del Modelo (ε_i ~ NID(0, σ²))

8. Diagnóstico

9. Medidas de Bondad de Ajuste

10. Intervalos de Confianza

11. Validación Cruzada

12. Representación Matricial

13. Checklist para Responder

14. Frases Clave del Profesor

Publicidad

Entradas recientes

Fundamentos y Aplicación del Modelo de Regresión Lineal

1. Modelo de Regresión Lineal

2. Fórmulas para Calculadora

3. Grados de Libertad (gl) – Resumen

4. Tabla ANDEVA Tipo

5. Interpretación de Parámetros

6. Pruebas de Hipótesis

7. Supuestos del Modelo (εi ~ NID(0, σ²))

8. Diagnóstico

9. Medidas de Bondad de Ajuste

10. Intervalos de Confianza

11. Validación Cruzada

12. Representación Matricial

13. Checklist para Responder

14. Frases Clave del Profesor

Publicidad

Asignaturas

Entradas recientes

7. Supuestos del Modelo (ε_i ~ NID(0, σ²))