Diferenciación y Optimización de Funciones: Conceptos Esenciales y Teoremas
Diferenciación de Funciones de una Variable Real
Concepto de Derivada e Interpretación Geométrica
Dada una función f: A ⊂ ℝ → ℝ, se dice que es derivable en el punto x₀ ∈ A si existe y es finito el siguiente límite:
f(x) – f(x₀) f(x₀ + h) – f(x₀) lím --------------------------- = lím ---------------------------- x → x₀ x - x₀ h→ 0 h
La derivada de una función f en un punto x₀ es la pendiente de la recta tangente a la función en ese punto.
La ecuación de la recta tangente a la función f en el punto (x₀, f(x₀)) es: y = f(x₀) + f'(x₀)(x – x₀).
Demostración: Derivabilidad Implica Continuidad
Sea f: A ⊂ ℝ → ℝ. Si f es derivable en x₀, entonces f es continua en x₀.
Por ser f derivable en x₀, existe:
f(x) – f(x₀) lím --------------------------- = f'(x₀) ∈ ℝ. Entonces: x → x₀ x - x₀
f(x) – f(x₀) lím f(x) – f(x₀) = lím ------------------------ (x - x₀) = f'(x₀) lím (x – x₀) = 0 x → x₀ x → x₀ x - x₀ x → x₀
Es decir, lim f(x) = f(x₀), con lo que queda demostrado (c.q.d.).
Funciones Crecientes y Decrecientes: Relación con la Derivada
Sea f: (a, b) ⊂ ℝ → ℝ una función continua y derivable en (a, b). Entonces:
- f'(x) ≥ 0 ∀ x ∈ (a, b) ⇔ f(x) es creciente en el intervalo (a, b).
- f'(x) ≤ 0 ∀ x ∈ (a, b) ⇔ f(x) es decreciente en el intervalo (a, b).
- f'(x) > 0 ∀ x ∈ (a, b) ⇒ f(x) es estrictamente creciente en el intervalo (a, b).
- f'(x) < 0 ∀ x ∈ (a, b) ⇒ f(x) es estrictamente decreciente en el intervalo (a, b).
Las dos últimas condiciones son suficientes, no necesarias.
Del teorema anterior se deduce que si f’ es continua, entonces:
- f'(x) > 0 ⇒ f es estrictamente creciente en x₀.
- f'(x) < 0 ⇒ f es estrictamente decreciente en x₀.
Definición de Máximo y Mínimo Local
Sea f: A ⊂ ℝ → ℝ y x₀ ∈ A.
- Se dice que f tiene un máximo local en x₀ si ∃ r > 0 tal que f(x) ≤ f(x₀) ∀ x ∈ (x₀ – r, x₀ + r) ∩ A.
- Se dice que f tiene un mínimo local en x₀ si ∃ r > 0 tal que f(x) ≥ f(x₀) ∀ x ∈ (x₀ – r, x₀ + r) ∩ A.
El óptimo, ya sea máximo o mínimo, se llama global si la correspondiente desigualdad es cierta ∀ x ∈ A.
El óptimo, local o global, es estricto si la desigualdad es estricta.
Teorema de Rolle
Sea f: [a,b] ⊂ ℝ → ℝ una función continua en [a,b] y derivable en (a,b). Si f(a) = f(b), existe al menos un c ∈ (a,b) tal que f'(c) = 0.
Teorema del Valor Medio
Sea f: [a,b] ⊂ ℝ → ℝ una función continua en [a,b] y derivable en (a,b). Entonces existe al menos un c ∈ (a,b) tal que:
f(b) – f(a) f'(c) = ------------------------- b – a
Concepto de Diferencial de una Función en un Punto
Si f es derivable en x₀, llamaremos diferencial de f en x₀ a la aplicación lineal:
Df(x₀): ℝ → ℝ h → Df(x₀)(h) = f'(x₀)h
Demostración: Óptimo Local Implica Derivada Nula
Supongamos que f tiene un mínimo local en x₀. Entonces f(x) ≥ f(x₀) en las proximidades de x₀. Dado que f es derivable en x₀, existe:
f(x) – f(x₀) f'(x₀) = lím --------------------- x → x₀ x - x₀
Si x < x₀, entonces
f(x) – f(x₀) f'(x₀)⁻ = lím --------------------- ≤ 0 y x → x₀⁻ x - x₀
Si x > x₀, entonces
f(x) – f(x₀) f'(x₀)⁺ = lím --------------------- ≥ 0 x → x₀⁺ x - x₀
Como f es derivable en x₀, los límites laterales deben coincidir y, por lo tanto, f'(x₀) = 0.
De la misma manera se realiza la demostración para el caso de un máximo local (c.q.d.).
Punto de Inflexión
Se dice que x₀ es un punto de inflexión si en dicho punto f pasa de ser estrictamente cóncava a ser estrictamente convexa o viceversa.
Teorema 1
Sea f: A ⊂ ℝ → ℝ, con A un conjunto abierto, x₀ ∈ A y f de clase 2 en un intervalo centrado en x₀. Una condición necesaria para que x₀ sea un punto de inflexión es que f”(x₀) = 0.
Teorema 2
Sea f: A ⊂ ℝ → ℝ, con A un conjunto abierto, x₀ ∈ A y f de clase n en A. Si f”(x₀) = …= f⁽ⁿ⁻¹⁾(x₀) = 0 y fⁿ(x₀) ≠ 0, entonces si n es impar, x₀ es un punto de inflexión de f.
Funciones Reales de Varias Variables: Límites y Continuidad
Definición de Función Escalar
Una función real de n variables reales (también llamada función escalar) es cualquier aplicación:
f: ℝⁿ → ℝ x = (x₁, ..., xₙ) ↦ f(x₁, ..., xₙ)
Definición de Función Vectorial
Una función vectorial de ℝⁿ en ℝᵐ es toda aplicación:
f: A ⊂ ℝⁿ → ℝᵐ x → y = f(x)
Siendo x = (x₁, …, xₙ) ∈ A ⊂ ℝⁿ, y = (y₁, …, yₘ) ∈ ℝᵐ.
Definición de Dominio
Se denomina dominio de la función f al conjunto: Dom(f) = {x ∈ ℝⁿ / ∃ f(x)}.
Definición de Conjunto Imagen
Se denomina conjunto imagen de la función f al conjunto: Im(f) = {y ∈ ℝ / y = f(x), para algún x ∈ Dom(f)}.
Concepto de Curva de Nivel
Dada una función f: A ⊂ ℝⁿ → ℝ y una constante k ∈ ℝ, se define la curva de nivel k de f como el conjunto de todos los puntos que tienen imagen igual a k:
Cₖ = {x ∈ ℝⁿ / f(x) = k} ∀ k ∈ ℝ
Definición de Función Continua en un Punto
Una función f: A ⊂ ℝⁿ → ℝ es continua en un punto a ∈ A’ ⊂ A si y solo si:
lim f(x) = f(a) x → a
Es decir, si ∀ ε > 0, ∃ δ > 0 tal que si x ∈ A y ||x – a|| < δ, entonces |f(x) – f(a)| < ε.
Diferenciación de Funciones de Varias Variables Reales
Concepto de Derivada Direccional
Sea f: G ⊂ ℝⁿ → ℝ y e ∈ ℝⁿ tal que ||e|| = 1. Diremos que f es derivable en x₀ ∈ G siguiendo la dirección del vector e si existe el límite:
f(x₀ + te) – f(x₀) lim ---------------------- t→0 t
Si este límite existe, se llamará la derivada de f en x₀ según la dirección del vector e y se denotará por Dₑf(x₀).
Derivada Parcial
Si e = eᵢ, Dₑf(x₀) = Dᵢf(x₀) y se llama la derivada parcial i-ésima de f en x₀:
Dᵢf(x₀) = lim --------------------------- = lim ---------------------------------------------------------- t→0 t t→0 t
Concepto de Vector Gradiente
Sea f: G ⊂ ℝⁿ → ℝ tal que f admite derivadas parciales en x₀ ∈ G. Llamamos vector gradiente de f en x₀ al vector:
∇f(x₀) = (D₁f(x₀), D₂f(x₀), ..., Dₙf(x₀))
Concepto de Función Diferenciable en un Punto
Sea f: G ⊂ ℝⁿ → ℝ, siendo G un conjunto abierto. f es diferenciable en x₀ ∈ G si y solo si existe ∇f(x₀) y además:
|f(x) – f(x₀) - ⟨∇f(x₀), (x – x₀)⟩| lim ---------------------------------------------------------- = 0 x→x₀ ||x – x₀||
Concepto de Diferencial de una Función de Varias Variables en un Punto
Sea f: G ⊂ ℝⁿ → ℝ, siendo G un conjunto abierto tal que f es diferenciable en x₀ ∈ G. Se llama diferencial de f en x₀ a la aplicación lineal de ℝⁿ en ℝ cuya matriz asociada es el ∇f(x₀); es decir:
Df(x₀): ℝⁿ → ℝ h = x - x₀ → Df(x₀)(h) = ⟨∇f(x₀), h⟩
Relación entre Diferenciabilidad, Continuidad y Derivadas Parciales
- Si f es diferenciable, entonces f es continua.
Sea f: A ⊂ ℝ → ℝ. Si f es derivable en x₀, entonces f es continua en x₀.
Por ser f derivable en x₀, existe:
f(x) – f(x₀) lím --------------------------- = f'(x₀) ∈ ℝ. Entonces: x → x₀ x - x₀
f(x) – f(x₀) lím f(x) – f(x₀) = lím ------------------------ (x - x₀) = f'(x₀) lím (x – x₀) = 0 x → x₀ x → x₀ x - x₀ x → x₀
Es decir, lim f(x) = f(x₀), con lo que queda demostrado.
- Si f es diferenciable, entonces existen las derivadas parciales.
Si e = eᵢ, Dₑf(x₀) = Dᵢf(x₀) y se llama derivada parcial i-ésima de f en x₀
Dᵢf(x₀) = lim --------------------------- = lim ----------------------------------------------------------------------- t→0 t t→0 t
- Entre la continuidad y la existencia de derivadas parciales no existe ninguna relación directa (es decir, una no implica la otra).
Teoremas Relativos a la Diferenciación
Función Homogénea y Teorema de Euler
Sea f: ℝⁿ → ℝ una función escalar. Se dice que f es homogénea de grado m si se verifica: f(tx) = tᵐf(x) ∀ x ∈ ℝⁿ y ∀ t > 0.
Teorema de Euler
Si f: ℝⁿ → ℝ es una función diferenciable en ℝⁿ, se verifica que: f es homogénea de grado m ⇔ m · f(x) = ⟨∇f(x), x⟩.
Teorema de la Regla de la Cadena
Sea f: G ⊂ ℝⁿ → ℝᵐ y g: H ⊂ ℝᵐ → ℝᵖ. Si x₀ ∈ G, f(x₀) ∈ H, y f es diferenciable en x₀ y g es diferenciable en f(x₀), entonces g ∘ f es diferenciable en x₀ y además:
D(g ∘ f)(x₀) = Dg(f(x₀)) ∘ Df(x₀)
Y por ser la diferencial una aplicación lineal:
J(g ∘ f)(x₀) = Jg[f(x₀)] · Jf(x₀)
Definición de Matriz Hessiana
Sea f: G ⊂ ℝⁿ → ℝ tal que existen derivadas parciales de orden 2 en x₀ ∈ G. Se llama matriz Hessiana de f en x₀ a la matriz:
/D₁₁f(x₀) D₁₂f(x₀) ...................... D₁ₙf(x₀)/ Hf(x₀) = D₂₁f(x₀) D₂₂f(x₀) ...................... D₂ₙf(x₀) ................ ................ ...................... ................. Dₙ₁f(x₀) Dₙ₂f(x₀) ...................... Dₙₙf(x₀)
Teorema de Schwarz
Sea f: G ⊂ ℝⁿ → ℝ tal que f ∈ Cʳ(G). Entonces todas las derivadas parciales de f de orden menor o igual a r respecto a los mismos índices coinciden.
Convexidad de Conjuntos y Funciones
Definición de Función Cóncava y Convexa
Sea f: M ⊂ ℝⁿ → ℝ, siendo M un conjunto convexo:
- Se dice que f es cóncava en M ⇔ f(αx₁ + (1-α)x₂) ≥ αf(x₁) + (1-α)f(x₂) ∀ α ∈ (0,1) ∀ x₁, x₂ ∈ M.
- Se dice que f es convexa en M ⇔ f(αx₁ + (1-α)x₂) ≤ αf(x₁) + (1-α)f(x₂) ∀ α ∈ (0,1) ∀ x₁, x₂ ∈ M.
Definición de Conjunto Convexo
Un subconjunto S ⊂ ℝⁿ es un conjunto convexo si el segmento que une cualquier par de puntos de S está contenido en S; es decir, si λx + (1-λ)y ∈ S, ∀ x, y ∈ S, ∀ λ ∈ [0,1].
Definición de Envolvente Convexa
Se denomina envolvente convexa de un conjunto S ⊂ ℝⁿ y se denota por conv(S) a la intersección de todos los conjuntos convexos que contienen al conjunto S. Es decir, conv(S) es el menor conjunto convexo que contiene a S.
Programación Estática
Teorema de Weierstrass
Dado el problema general: Optimizar F(x) Sujeto a x ∈ X
Si el conjunto factible es compacto (cerrado y acotado) y no vacío, y la función objetivo F es continua, entonces el problema admite un máximo y un mínimo globales.
Este teorema proporciona condiciones suficientes, no necesarias.
Definición de Problema de Optimización Convexo
Dado un problema de optimización: maximizar F(x₁, …, xₙ) o minimizar F(x₁, …, xₙ) sujeto a (x₁, …, xₙ) ∈ X.
Diremos que es un problema convexo si verifica que:
- La función objetivo es cóncava (para maximización) o convexa (para minimización) en X.
- El conjunto factible X es convexo.
Teorema Fundamental de la Programación Convexa
Dado un problema de optimización convexo, se verifica que:
- Todo óptimo local es un óptimo global. Es decir, si en x₀ ∈ X se alcanza un máximo (o mínimo) local, entonces en x₀ ∈ X se alcanza un máximo (o mínimo) global.
- El conjunto de puntos donde se alcanzan los máximos (o mínimos) del problema (de optimización convexo) es un conjunto convexo.
Optimización sin Restricciones
Condición Necesaria de Primer Orden para Óptimo Local
Sea f: A ⊂ ℝⁿ → ℝ. Si f tiene un extremo relativo en x₀ ∈ Å (interior de A) y además existen todas las derivadas parciales de f en el punto x₀, entonces se verifica que: ∇f(x₀) = (D₁f(x₀), D₂f(x₀), …, Dₙf(x₀)) = 0.
Demostración
Supongamos que f tiene un máximo local en x₀ ∈ Å. Entonces existe B(x₀, r) ∩ A tal que f(x₀) ≥ f(x) ∀ x ∈ B(x₀, r).
Por definición, tenemos que:
f(x₀ + teᵢ) – f(x₀) Dᵢf(x₀) = lim ---------------------- t→0 t
Cuando t tiende a 0, x₀ + teᵢ ∈ B(x₀, r) y por lo tanto f(x₀ + teᵢ) – f(x₀) ≤ 0. Para t > 0 (próximo a cero), tenemos que:
f(x₀ + teᵢ) – f(x₀) ---------------------- ≤ 0 ⇒ lim ---------------------- ≤ 0 t t→0 t
Y para t < 0, tenemos que:
f(x₀ + teᵢ) – f(x₀) ---------------------- ≥ 0 lim ---------------------- ≥ 0 t t→0 t
Entonces, debe ser:
f(x₀ + teᵢ) – f(x₀) Dᵢf(x₀) = lim ---------------------- = 0 ∀ i = 1, ..., n (c.q.d.). t→0 t
Definición de Punto Crítico
Sea f: A ⊂ ℝⁿ → ℝ tal que f ∈ C¹(A).
- Todo punto x₀ ∈ A tal que ∇f(x₀) = 0 se llama punto crítico de f. Puede ser un máximo o mínimo (extremos relativos) o también un punto de silla.
- Los puntos críticos que no son extremos relativos (máximos o mínimos) se llaman puntos de silla.
Optimización con Restricciones de Igualdad
Condición Necesaria de Extremo Condicionado (Teorema de Lagrange)
Sea f: A ⊂ ℝⁿ → ℝ, A abierto. Sean gᵢ, i = 1, …, m, funciones de A en ℝ tales que g = (g₁, …, gₘ), y f ∈ C¹(A).
Sea M = {x ∈ A / g(x) = 0} el subconjunto de A en el que se verifican las restricciones. Si en el punto a ∈ M la función f posee un extremo relativo sobre el conjunto M y además la matriz Jacobiana de g en a tiene rango m, existen m números reales únicos λ₁, …, λₘ llamados multiplicadores de Lagrange en el punto a tales que
Condiciones Suficientes de Extremo Relativo Condicionado
Condición Suficiente I
Sea el problema de optimización condicionado: Optimizar f(x) sujeto a g(x) = 0.
Siendo f, g₁, …, gₘ funciones con derivadas parciales segundas continuas; y sea (x*, λ*) = (x₁*, …, xₙ*, λ₁*, …, λₘ*) un punto crítico de la función de Lagrange. Consideremos HₓL(x, λ*) la matriz Hessiana de la función de Lagrange respecto de las variables x₁, …, xₙ. Entonces se tienen los siguientes resultados:
- Si HₓL(x*, λ*) es una matriz definida positiva, entonces en el punto (x₁*, …, xₙ*) se alcanza un mínimo local condicionado de f.
- Si HₓL(x*, λ*) es una matriz definida negativa, entonces en el punto (x₁*, …, xₙ*) se alcanza un máximo local condicionado de f.
Condición Suficiente II
Dado el problema: Optimizar f(x) sujeto a g(x) = 0.
Si las funciones f y g₁, …, gₘ tienen derivadas de segundo orden continuas en el punto (x*, λ*); y el punto (x*, λ*) es un punto crítico de la Lagrangiana, entonces se verifica que:
- Si HₓL(x*, λ*) es una matriz definida positiva en el conjunto {x ∈ ℝⁿ / Jg(x*)·x = 0} = {x ∈ ℝⁿ / ⟨∇gᵢ(x*), x⟩ = 0, i = 1, …, m}; entonces la función f tiene en x* = (x₁*, …, xₙ*) un mínimo local condicionado.
- Si HₓL(x*, λ*) es una matriz definida negativa en el conjunto {x ∈ ℝⁿ / Jg(x*)·x = 0} = {x ∈ ℝⁿ / ⟨∇gᵢ(x*), x⟩ = 0, i = 1, …, m}; entonces la función f tiene en x* = (x₁*, …, xₙ*) un máximo local condicionado.
Condición Suficiente III
Dado el problema: Optimizar f(x, y) sujeto a g(x, y) = 0.
Si las funciones f y g tienen derivadas de segundo orden continuas en el punto (x*, y*, λ*), y el punto (x*, y*, λ*) es un punto crítico de la función de Lagrange. Entonces tenemos que:
/ 0 D₁g(x*, y*) D₂g(x*, y*) / D₁g(x*, y*) D₁₁L(x*, y*, λ*) D₁₂L(x*, y*, λ*) D₂g(x*, y*) D₂₁L(x*, y*, λ*) D₂₂L(x*, y*, λ*)
Es > 0 ⇒ f tiene en (x*, y*) un máximo local condicionado.
Es < 0 ⇒ f tiene en (x*, y*) un mínimo local condicionado.