Conceptos Fundamentales de Regresión y Econometría

Interpretación de Modelos con Transformaciones Logarítmicas

  • Ln(Y) → Ln(X) (Elasticidad Constante): Se espera que cuando “X” varíe porcentualmente en 1%, “Y” varíe porcentualmente en “B1%”.
  • Ln(Y) → X (Efecto Semi-Logarítmico): Se espera que cuando “X” aumente en 1 (unidad de X), “Y” varíe porcentualmente en “B1*100%”.
  • Y → Ln(X) (Efecto Logarítmico Inverso): Se espera que si “X” varía porcentualmente en 1%, “Y” varíe en “B1/100” (unidades de Y).

Interpretación de Coeficientes Básicos

  • B0 (Intercepción): Se espera que cuando “X” es igual a 0 (unidades de X), “Y” sea igual a “B0” (unidades de Y).
  • B1 (Pendiente): Se espera que cuando “X” varíe en 1 (unidad de X), “Y” varíe en “B1” (unidades de Y).

Medidas de Bondad de Ajuste

  • R² (Coeficiente de Determinación): Un porcentaje de la variabilidad de “Y” se logra explicar con un modelo lineal en “X”.
  • R² Ajustado (R²A): Un porcentaje de la variabilidad de “Y” se logra explicar con un modelo lineal en “X”, penalizando por el número de variables utilizadas.

Inferencia Estadística y Pruebas de Hipótesis

  • Intervalo de Confianza: Interpretación: Bajo un X% de confianza, el parámetro poblacional B1 está contenido en el intervalo [ ].
  • Nota Importante: El parámetro es significativo cuando no incluye el cero en su intervalo.
  • Test de Significancia Individual (Test t):
    1. Hipótesis: H0: B1=0 vs H1: B1≠0.
    2. Criterio de Rechazo: Se rechaza H0 si: |estadístico T| > 1.96.
    3. Conclusión: A un X% de confianza, se rechaza/no se rechaza H0: B1=0. Por lo tanto, a un X% de confianza, el parámetro es significativo/no es significativo (dependiendo de si el cero está incluido en el intervalo de confianza).
  • Valor p: 1 – Probabilidad = X% de confianza. Se rechaza H0 hasta un __% de confianza. Por lo tanto, el parámetro es significativo/no significativo hasta un __% de confianza (por ejemplo, bajo 90% no es significativo).
  • Test de Significancia Global (Test F):
    1. Hipótesis: H0: B1=B2=B3=0 vs H1: No H0 (al menos un coeficiente es diferente de cero).
    2. Criterio de Rechazo: Se rechaza H0 hasta un (1 – valor crítico de F)% (o valor p del test F) de confianza.
    3. Conclusión: El modelo es significativo globalmente hasta un __% de confianza.

Modelos con Formas Funcionales Avanzadas

Modelo Cuadrático

Se busca investigar si el efecto de “X” en “Y” no es constante y depende del nivel de “X”.

Modelo: Y = B0 + B1X1 + B2X2 + B2X3^2

Derivada: ΔY = B2 + 2B3X (Derivada respecto a X)

Interpretaciones:

  • B2 (Efecto Impacto): Se espera que cuando “X” aumenta en 1 (unidad de X) y se tenía 0 (unidades de X), “Y” varíe en “B2” (unidades de Y).
  • B3 (Efecto Adicional): Se espera que el efecto de “X” en “Y” aumente/disminuya con el nivel de “X” (depende del signo de B3).

Análisis de la forma de la relación:

  • Si Efecto Impacto < 0 y Efecto Adicional > 0 = Forma de U
  • Si Efecto Impacto > 0 y Efecto Adicional < 0 = Forma de U invertida (∩)
  • Si Efecto Impacto > 0 y Efecto Adicional > 0 = Ascendente
  • Si Efecto Impacto < 0 y Efecto Adicional < 0 = Descendente

Modelos con Interacciones

Se sospecha que el efecto de “X1” en “Y” no es constante y que depende del nivel de “X2”.

Modelo: Y = B0 + B1X1 + B2(X1 * X2)

Derivada: ΔY/ΔX1 = B1 + B2X2 (Derivada respecto a X1)

Interpretaciones:

  • B1: Se espera que si “X1” aumenta en 1 (unidad de X1), cuando “X2” es igual a 0 (unidades de X2), “Y” varíe en “B1” (unidades de Y).
  • B2: Se espera que el efecto de “X1” aumente/disminuya con “X2” (depende del signo de X2).

Variables Dummy

  • Dummy en la X: Variable que únicamente tiene el valor de 0 o 1 y representa una cualidad.
  • Interpretación (Dummy en X): Se espera que si la variable es “Categoría 1”, “Y” sea “Bdummy” mayor/menor que si es “Categoría 0”.
  • Dummy en la Y: Se espera que la probabilidad de “Y” sea de “B%” más/menos para la “Categoría 1”.

Interacción con una Variable Dummy

Modelo: Y = B0 + B1X1 + B2(X1 * Dummy)

Derivada: ΔY/ΔX1 = B1 + B2Dummy (Derivada respecto a X1)

  • Para Categoría 1 (Dummy = 1): B1 + B2(1) = Resultado_1
  • Para Categoría 0 (Dummy = 0): B1 + B2(0) = Resultado_0

Interpretación: Se espera que por cada unidad adicional de “X1”, “Y” aumente/disminuya en “Resultado_0” si la variable dummy es “Categoría 0”, y aumente/disminuya en “Resultado_1” si la variable dummy es “Categoría 1”.

Problemas Comunes en Econometría

Endogeneidad

  • Definición: La endogeneidad ocurre cuando E(u|x) ≠ 0.
  • Causas: Se presenta endogeneidad cuando “Y” afecta a “X” o cuando “X” causa a “Y” (causalidad inversa), o por variables omitidas correlacionadas con “X”.
  • Efectos: La endogeneidad causa sesgo en los parámetros, lo que implica que los coeficientes estimados serán incorrectos, pero no afecta directamente las varianzas de los estimadores.
  • Solución: Estimar a través de Mínimos Cuadrados en Dos Etapas (MC2E) o mediante estimación con variables instrumentales.

Heterocedasticidad

  • Definición: Es cuando la varianza de los errores no es constante.
  • Causas: Se presenta heterocedasticidad cuando el modelo es de corte transversal, de serie de tiempo, o se detecta mediante gráficos o tests.
  • Efectos: La heterocedasticidad afecta a la varianza de los estimadores, por lo que debería cambiar solamente la parte de la varianza y lo relacionado con la inferencia, sin cambiar los coeficientes.
  • Solución: Estimar mediante Mínimos Cuadrados Generalizados Factibles (MCGF) o Mínimos Cuadrados Ordinarios con errores estándar robustos.

Omisión de Variables Relevantes

  • Efectos: La omisión de variables relevantes genera sesgo en los parámetros y las varianzas calculadas son menores a las verdaderas.
  • Inclusión de Variables Irrelevantes: La inclusión de variables irrelevantes no genera sesgo en los parámetros, pero las varianzas son mayores a las verdaderas.

Preguntas Frecuentes en Econometría

a) Definición y Aplicación de la Econometría

R: La econometría es la ciencia (o campo de la economía) que permite cuantificar modelos (o relaciones) económicas. A modo de ejemplo, si buscamos analizar el efecto de X (e.g., el precio) en Y (e.g., la cantidad demandada), la econometría nos permite cuantificar el efecto de un aumento de una unidad de X en Y.

b) Propiedades de los Estimadores Mínimos Cuadrados Ordinarios (MCO)

R: Si se cumplen los supuestos (1) a (7) (o los supuestos del modelo), los estimadores de MCO son MELI (Mejores Estimadores Lineales Insesgados).

c) Importancia de la Inferencia en el Modelo de Regresión Lineal

R: La inferencia nos permite inferir otros aspectos del parámetro poblacional. En particular, en el modelo nos interesa analizar si hay evidencia de que el parámetro sea igual a 0 a nivel poblacional (o evaluar su significancia). Existen múltiples maneras, por ejemplo:

  • A través de un intervalo de confianza, se calcula un intervalo en el cual, bajo alguna probabilidad, el parámetro poblacional está incluido.
  • A través de un test de hipótesis que evalúa una hipótesis en particular (por ejemplo, si es 0) del parámetro poblacional.

d) Heterocedasticidad en Modelos de Regresión

R: El modelo podría presentar heterocedasticidad por: (i) estar utilizando datos de corte transversal; (ii) porque cuando hay pocos años de educación los salarios están más concentrados y cuando hay más años de educación se dispersan más los salarios; o (iii) porque se omite una variable como la experiencia que está relacionada con la educación. La solución es estimar mediante Mínimos Cuadrados Generalizados (MCG Factibles o MC robustos). Dado que la heterocedasticidad afecta la varianza de los estimadores, debería cambiar solamente la parte de la varianza y lo relacionado con la inferencia, sin cambiar los coeficientes.

e) Propiedades de los Estimadores MCO (Detallado)

R:

  • Lineales: Significa que el estimador es una combinación lineal de la variable Y.
  • Insesgado: El valor esperado del estimador es exactamente el valor del parámetro poblacional.
  • Consistente: A mayor número de muestra, el estimador converge al parámetro poblacional.
  • Gauss-Markov (GM): Si se cumplen los supuestos 1 a 7, el estimador de MCO es MELI (Mejor Estimador Lineal Insesgado).

f) Efectos de la Inclusión/Exclusión de Variables

R: El primer comentario implica sacar del modelo variables que son relevantes (i.e., las expectativas son significativas). De esta manera, sacar del modelo generaría sesgo en nuestros parámetros y varianzas más pequeñas de las que en realidad son. Por otro lado, agregar variables adicionales – que no sabemos si son o no relevantes – no generaría sesgo, pero inflaría las varianzas.

g) Formas Funcionales en Modelos de Regresión

R: La forma funcional es la manera en que está escrita la función de regresión poblacional (o cómo está escrita la relación entre Y y las demás X). Estas dependen de la pregunta que buscamos responder o el interés del investigador (quizás nos interesa evaluar la variación porcentual de las variables) o incluso de alguna evidencia empírica (quizás los datos muestran una forma no lineal entre Y y X) o supuestos teóricos (como el supuesto de utilidad o productividad marginal decreciente). Existen múltiples formas funcionales:

  • Casos Logarítmicos: Donde nos interesa la variación porcentual.
  • Casos Cuadráticos: Donde sospechamos que el efecto de X en Y no es constante y depende del nivel de X.
  • Interacciones: Donde sospechamos que el efecto de X en Y no es constante y depende del nivel de otra variable.
  • Variables Dummy: Donde buscamos evaluar el efecto de una variable cualitativa.
  • Dummy en la Y: Donde nos interesa ver el efecto de X en la probabilidad de tener cierta cualidad.