Conceptos Esenciales de Regresión y Econometría Aplicada
Conceptos Fundamentales de Regresión y Econometría
Interpretación de Modelos con Transformaciones Logarítmicas
- Ln(Y) → Ln(X) (Elasticidad Constante): Se espera que cuando “X” varíe porcentualmente en 1%, “Y” varíe porcentualmente en “B1%”.
- Ln(Y) → X (Efecto Semi-Logarítmico): Se espera que cuando “X” aumente en 1 (unidad de X), “Y” varíe porcentualmente en “B1*100%”.
- Y → Ln(X) (Efecto Logarítmico Inverso): Se espera que si “X” varía porcentualmente en 1%, “Y” varíe en “B1/100” (unidades de Y).
Interpretación de Coeficientes Básicos
- B0 (Intercepción): Se espera que cuando “X” es igual a 0 (unidades de X), “Y” sea igual a “B0” (unidades de Y).
- B1 (Pendiente): Se espera que cuando “X” varíe en 1 (unidad de X), “Y” varíe en “B1” (unidades de Y).
Medidas de Bondad de Ajuste
- R² (Coeficiente de Determinación): Un porcentaje de la variabilidad de “Y” se logra explicar con un modelo lineal en “X”.
- R² Ajustado (R²A): Un porcentaje de la variabilidad de “Y” se logra explicar con un modelo lineal en “X”, penalizando por el número de variables utilizadas.
Inferencia Estadística y Pruebas de Hipótesis
- Intervalo de Confianza: Interpretación: Bajo un X% de confianza, el parámetro poblacional B1 está contenido en el intervalo [ ].
- Nota Importante: El parámetro es significativo cuando no incluye el cero en su intervalo.
- Test de Significancia Individual (Test t):
- Hipótesis: H0: B1=0 vs H1: B1≠0.
- Criterio de Rechazo: Se rechaza H0 si: |estadístico T| > 1.96.
- Conclusión: A un X% de confianza, se rechaza/no se rechaza H0: B1=0. Por lo tanto, a un X% de confianza, el parámetro es significativo/no es significativo (dependiendo de si el cero está incluido en el intervalo de confianza).
- Valor p: 1 – Probabilidad = X% de confianza. Se rechaza H0 hasta un __% de confianza. Por lo tanto, el parámetro es significativo/no significativo hasta un __% de confianza (por ejemplo, bajo 90% no es significativo).
- Test de Significancia Global (Test F):
- Hipótesis: H0: B1=B2=B3=0 vs H1: No H0 (al menos un coeficiente es diferente de cero).
- Criterio de Rechazo: Se rechaza H0 hasta un (1 – valor crítico de F)% (o valor p del test F) de confianza.
- Conclusión: El modelo es significativo globalmente hasta un __% de confianza.
Modelos con Formas Funcionales Avanzadas
Modelo Cuadrático
Se busca investigar si el efecto de “X” en “Y” no es constante y depende del nivel de “X”.
Modelo: Y = B0 + B1X1 + B2X2 + B2X3^2
Derivada: ΔY = B2 + 2B3X
(Derivada respecto a X)
Interpretaciones:
- B2 (Efecto Impacto): Se espera que cuando “X” aumenta en 1 (unidad de X) y se tenía 0 (unidades de X), “Y” varíe en “B2” (unidades de Y).
- B3 (Efecto Adicional): Se espera que el efecto de “X” en “Y” aumente/disminuya con el nivel de “X” (depende del signo de B3).
Análisis de la forma de la relación:
- Si Efecto Impacto < 0 y Efecto Adicional > 0 = Forma de U
- Si Efecto Impacto > 0 y Efecto Adicional < 0 = Forma de U invertida (∩)
- Si Efecto Impacto > 0 y Efecto Adicional > 0 = Ascendente
- Si Efecto Impacto < 0 y Efecto Adicional < 0 = Descendente
Modelos con Interacciones
Se sospecha que el efecto de “X1” en “Y” no es constante y que depende del nivel de “X2”.
Modelo: Y = B0 + B1X1 + B2(X1 * X2)
Derivada: ΔY/ΔX1 = B1 + B2X2
(Derivada respecto a X1)
Interpretaciones:
- B1: Se espera que si “X1” aumenta en 1 (unidad de X1), cuando “X2” es igual a 0 (unidades de X2), “Y” varíe en “B1” (unidades de Y).
- B2: Se espera que el efecto de “X1” aumente/disminuya con “X2” (depende del signo de X2).
Variables Dummy
- Dummy en la X: Variable que únicamente tiene el valor de 0 o 1 y representa una cualidad.
- Interpretación (Dummy en X): Se espera que si la variable es “Categoría 1”, “Y” sea “Bdummy” mayor/menor que si es “Categoría 0”.
- Dummy en la Y: Se espera que la probabilidad de “Y” sea de “B%” más/menos para la “Categoría 1”.
Interacción con una Variable Dummy
Modelo: Y = B0 + B1X1 + B2(X1 * Dummy)
Derivada: ΔY/ΔX1 = B1 + B2Dummy
(Derivada respecto a X1)
- Para Categoría 1 (Dummy = 1):
B1 + B2(1) = Resultado_1
- Para Categoría 0 (Dummy = 0):
B1 + B2(0) = Resultado_0
Interpretación: Se espera que por cada unidad adicional de “X1”, “Y” aumente/disminuya en “Resultado_0” si la variable dummy es “Categoría 0”, y aumente/disminuya en “Resultado_1” si la variable dummy es “Categoría 1”.
Problemas Comunes en Econometría
Endogeneidad
- Definición: La endogeneidad ocurre cuando E(u|x) ≠ 0.
- Causas: Se presenta endogeneidad cuando “Y” afecta a “X” o cuando “X” causa a “Y” (causalidad inversa), o por variables omitidas correlacionadas con “X”.
- Efectos: La endogeneidad causa sesgo en los parámetros, lo que implica que los coeficientes estimados serán incorrectos, pero no afecta directamente las varianzas de los estimadores.
- Solución: Estimar a través de Mínimos Cuadrados en Dos Etapas (MC2E) o mediante estimación con variables instrumentales.
Heterocedasticidad
- Definición: Es cuando la varianza de los errores no es constante.
- Causas: Se presenta heterocedasticidad cuando el modelo es de corte transversal, de serie de tiempo, o se detecta mediante gráficos o tests.
- Efectos: La heterocedasticidad afecta a la varianza de los estimadores, por lo que debería cambiar solamente la parte de la varianza y lo relacionado con la inferencia, sin cambiar los coeficientes.
- Solución: Estimar mediante Mínimos Cuadrados Generalizados Factibles (MCGF) o Mínimos Cuadrados Ordinarios con errores estándar robustos.
Omisión de Variables Relevantes
- Efectos: La omisión de variables relevantes genera sesgo en los parámetros y las varianzas calculadas son menores a las verdaderas.
- Inclusión de Variables Irrelevantes: La inclusión de variables irrelevantes no genera sesgo en los parámetros, pero las varianzas son mayores a las verdaderas.
Preguntas Frecuentes en Econometría
a) Definición y Aplicación de la Econometría
R: La econometría es la ciencia (o campo de la economía) que permite cuantificar modelos (o relaciones) económicas. A modo de ejemplo, si buscamos analizar el efecto de X (e.g., el precio) en Y (e.g., la cantidad demandada), la econometría nos permite cuantificar el efecto de un aumento de una unidad de X en Y.
b) Propiedades de los Estimadores Mínimos Cuadrados Ordinarios (MCO)
R: Si se cumplen los supuestos (1) a (7) (o los supuestos del modelo), los estimadores de MCO son MELI (Mejores Estimadores Lineales Insesgados).
c) Importancia de la Inferencia en el Modelo de Regresión Lineal
R: La inferencia nos permite inferir otros aspectos del parámetro poblacional. En particular, en el modelo nos interesa analizar si hay evidencia de que el parámetro sea igual a 0 a nivel poblacional (o evaluar su significancia). Existen múltiples maneras, por ejemplo:
- A través de un intervalo de confianza, se calcula un intervalo en el cual, bajo alguna probabilidad, el parámetro poblacional está incluido.
- A través de un test de hipótesis que evalúa una hipótesis en particular (por ejemplo, si es 0) del parámetro poblacional.
d) Heterocedasticidad en Modelos de Regresión
R: El modelo podría presentar heterocedasticidad por: (i) estar utilizando datos de corte transversal; (ii) porque cuando hay pocos años de educación los salarios están más concentrados y cuando hay más años de educación se dispersan más los salarios; o (iii) porque se omite una variable como la experiencia que está relacionada con la educación. La solución es estimar mediante Mínimos Cuadrados Generalizados (MCG Factibles o MC robustos). Dado que la heterocedasticidad afecta la varianza de los estimadores, debería cambiar solamente la parte de la varianza y lo relacionado con la inferencia, sin cambiar los coeficientes.
e) Propiedades de los Estimadores MCO (Detallado)
R:
- Lineales: Significa que el estimador es una combinación lineal de la variable Y.
- Insesgado: El valor esperado del estimador es exactamente el valor del parámetro poblacional.
- Consistente: A mayor número de muestra, el estimador converge al parámetro poblacional.
- Gauss-Markov (GM): Si se cumplen los supuestos 1 a 7, el estimador de MCO es MELI (Mejor Estimador Lineal Insesgado).
f) Efectos de la Inclusión/Exclusión de Variables
R: El primer comentario implica sacar del modelo variables que son relevantes (i.e., las expectativas son significativas). De esta manera, sacar del modelo generaría sesgo en nuestros parámetros y varianzas más pequeñas de las que en realidad son. Por otro lado, agregar variables adicionales – que no sabemos si son o no relevantes – no generaría sesgo, pero inflaría las varianzas.
g) Formas Funcionales en Modelos de Regresión
R: La forma funcional es la manera en que está escrita la función de regresión poblacional (o cómo está escrita la relación entre Y y las demás X). Estas dependen de la pregunta que buscamos responder o el interés del investigador (quizás nos interesa evaluar la variación porcentual de las variables) o incluso de alguna evidencia empírica (quizás los datos muestran una forma no lineal entre Y y X) o supuestos teóricos (como el supuesto de utilidad o productividad marginal decreciente). Existen múltiples formas funcionales:
- Casos Logarítmicos: Donde nos interesa la variación porcentual.
- Casos Cuadráticos: Donde sospechamos que el efecto de X en Y no es constante y depende del nivel de X.
- Interacciones: Donde sospechamos que el efecto de X en Y no es constante y depende del nivel de otra variable.
- Variables Dummy: Donde buscamos evaluar el efecto de una variable cualitativa.
- Dummy en la Y: Donde nos interesa ver el efecto de X en la probabilidad de tener cierta cualidad.