Conceptos Clave en Machine Learning: Generalización, Sesgo, Varianza y Modelos Fundamentales
Generalización
En el aprendizaje automático, uno de los desafíos clave es que los modelos no solo se ajusten bien a los datos de entrenamiento, sino que también logren realizar predicciones precisas en ejemplos no vistos. Este comportamiento deseado se conoce como generalización.
En los problemas de aprendizaje supervisado, el modelo hθ se entrena minimizando una función de costo J(θ), lo que permite ajustarse a los datos de entrenamiento. Esta métrica se denomina pérdida (o error) de entrenamiento. Sin embargo, el objetivo final no es simplemente minimizar esta pérdida, sino obtener un modelo que tenga buen rendimiento sobre datos nuevos. La métrica fundamental para evaluar un modelo es el error de prueba, que mide el rendimiento del modelo sobre ejemplos no vistos, provenientes de una distribución de prueba. Este error se estima generalmente con un conjunto de datos de prueba. Minimizar el error de entrenamiento no garantiza un bajo error de prueba. Si el modelo tiene un error de entrenamiento bajo pero un error de prueba alto, se dice que ha sobreajustado los datos (overfitting). En cambio, si ambos errores son altos, se habla de subajuste (underfitting).
Sesgo y Varianza
En el contexto del aprendizaje automático, los conceptos de sesgo y varianza se refieren a dos tipos de errores que pueden surgir al entrenar un modelo:
- Sesgo: Mide la capacidad del modelo para capturar la verdadera relación entre las variables de entrada y salida.
- Varianza: Indica qué tan sensible es el modelo a las fluctuaciones en los datos de entrenamiento.
Ejemplo Ilustrativo
Supongamos que tenemos un conjunto de datos de entrenamiento compuesto por pares entrada-salida
, donde las entradas x(i) son seleccionadas aleatoriamente y las salidas y(i) se generan a partir de una función cuadrática verdadera h*(x(i)), más un término de ruido ξ(i). El objetivo es recuperar h*(⋅) a partir de los datos.
Caso 1: Modelo Lineal (Alto Sesgo)
Si ajustamos un modelo lineal a los datos, ni siquiera el mejor modelo lineal puede predecir con precisión las salidas, ya que la verdadera relación entre x e y es no lineal. Esto genera un alto error de entrenamiento, incluso con una gran cantidad de datos o en ausencia de ruido.
Este escenario refleja un caso de subajuste y se debe al alto sesgo del modelo, ya que suposiciones demasiado rígidas (linealidad) impiden capturar la verdadera estructura de los datos.
Caso 2: Polinomio de Quinto Grado (Alta Varianza)
Ahora bien, si usamos un modelo más complejo como un polinomio de quinto grado, este puede ajustarse muy bien al conjunto de entrenamiento, prediciendo con alta precisión las salidas. Sin embargo, cuando se evalúa en un conjunto de prueba, su rendimiento es deficiente: no generaliza bien. Esto es un caso típico de sobreajuste o alta varianza, ya que el modelo está capturando no solo la estructura real sino también el ruido presente en los datos de entrenamiento.
Este comportamiento se hace evidente al entrenar el modelo con diferentes subconjuntos de datos: cada uno produce una función diferente debido al ajuste a patrones espurios que varían entre muestras. Esto demuestra que el modelo tiene alta sensibilidad a las variaciones en los datos, característica clave de la varianza.
Compensación Sesgo-Varianza
Existe una relación inversa entre sesgo y varianza:
- Modelos simples tienden a tener alto sesgo y baja varianza (subajuste).
- Modelos complejos tienden a tener bajo sesgo y alta varianza (sobreajuste).
El desafío radica en encontrar un equilibrio adecuado: un modelo lo suficientemente flexible para capturar la estructura de los datos sin sobreajustarse al ruido.
Regularización
La regularización es una técnica fundamental en aprendizaje automático para controlar la complejidad del modelo y prevenir el sobreajuste. Al aplicar regularización, buscamos lograr un equilibrio entre el sesgo y la varianza del modelo. Cuando la complejidad se mide a través de los parámetros del modelo (por ejemplo, su norma L2), la regularización permite restringir dicha complejidad, incluso si el número total de parámetros no cambia. Generalmente, se incorpora un término adicional a la función de pérdida, conocido como “regularizador”, que se representa como R(θ).
La pérdida regularizada se define como:
Jreg(θ) = J(θ) + λ * R(θ)
Donde:
- J(θ)
- Es la pérdida original (por ejemplo, el error cuadrático medio).
- λ
- Es el parámetro de regularización (λ ≥ 0), que controla la importancia del término de regularización.
- R(θ)
- Es una función no negativa que mide la complejidad del modelo.
Cuando λ = 0, no hay regularización y se recupera la pérdida original. Si λ es pequeño pero positivo, la regularización actúa como un criterio de desempate para preferir modelos menos complejos. La regularización L2, donde R(θ) = (1/2) * ∑ θj2, es la más utilizada, y en el contexto del aprendizaje profundo se conoce como “weight decay“. Este tipo de regularización penaliza los valores grandes de los parámetros, promoviendo modelos más simples. En cambio, la regularización L1 (utilizada en LASSO) fomenta la esparsidad de los parámetros, es decir, favorece soluciones donde muchos parámetros son exactamente cero, lo que resulta útil para interpretar modelos o seleccionar características.
Regresión Lineal y Gradiente Descendente
La regresión lineal es un método utilizado en aprendizaje automático para modelar y predecir la relación entre una variable dependiente y una o más variables independientes. El objetivo es encontrar la mejor línea recta que se ajuste a los datos. En aprendizaje supervisado, representamos la relación entre entrada y salida con una función hipótesis h(x), que aproxima y como una combinación lineal de las variables de entrada:
hθ(x) = θ0 + θ1x1 + θ2x2 + … + θnxn
Los θi son los parámetros del modelo, también llamados pesos. El término θ0 se conoce como el sesgo o término de intersección. Para simplificar la notación, se introduce x0 = 1, lo que nos permite escribir:
h(x) = θTx
Dado un conjunto de entrenamiento
, el objetivo es encontrar los valores de θ que minimicen la diferencia entre las predicciones del modelo y los valores reales. Para ello, se utiliza la función de costo de error cuadrático medio (MSE):
Para minimizar esta función, se utiliza el algoritmo de gradiente descendente (GD), que ajusta los parámetros de forma iterativa en la dirección del gradiente negativo de J(θ):
θj := θj – α * ∂J(θ)/∂θj
Donde α es la tasa de aprendizaje.
Tipos de Gradiente Descendente
- Gradiente Descendente por Lotes (Batch GD): Utiliza todo el conjunto de entrenamiento en cada iteración. Es más preciso, pero computacionalmente costoso.
- Gradiente Descendente Estocástico (SGD): Utiliza un único ejemplo aleatorio por iteración. Es más rápido y eficiente, pero puede generar una trayectoria ruidosa hacia el mínimo.
- Gradiente Descendente por Mini-Lotes: Compromiso entre los dos anteriores. Utiliza pequeños subconjuntos (mini-batches) del conjunto de entrenamiento. Reduce el costo computacional y estabiliza la convergencia.
Es importante destacar que en el caso de la regresión lineal, la función de costo es convexa, por lo tanto tiene un único mínimo global. Esto significa que el gradiente descendente siempre converge al óptimo global, siempre que la tasa de aprendizaje esté bien elegida. SGD puede no converger exactamente al mínimo, pero se acerca rápidamente y proporciona buenas aproximaciones, lo cual es útil especialmente cuando se trabaja con grandes volúmenes de datos.
Clasificación y Regresión Logística
El objetivo de la clasificación es predecir una clase o categoría, a diferencia de la regresión que predice valores continuos. En la clasificación binaria, la salida Y toma valores:
- 1 → Clase positiva
- 0 → Clase negativa
Ejemplo típico: Detección de spam. Cada entrada x contiene características del correo (palabras, frecuencia, etc.), y y = 1 si es spam, 0 si no lo es. La regresión lineal no es adecuada para clasificación binaria por dos razones:
- Sus predicciones pueden estar fuera del rango [0, 1], por lo que no se pueden interpretar como probabilidades.
- No tiene un umbral claro para separar clases. No hay una transición natural de continuo a clases discretas.
Regresión Logística y la Función Sigmoide
Se utiliza la función sigmoide para redefinir la hipótesis:
hθ(x) = 1 / (1 + exp(−θTx))
Propiedades:
- Salida en el rango (0,1) → se interpreta como probabilidad.
- Es suave y continua.
- A medida que θTx crece, hθ(x) → 1; y si decrece, hθ(x) → 0.
Derivada de la Sigmoide
La derivada es: d/dz σ(z) = σ(z) * (1 − σ(z))
Esta propiedad se utiliza para derivar la función de coste durante el entrenamiento.
Interpretación Probabilística
La regresión logística modela la probabilidad condicional:
P(y = 1 | x; θ) = hθ(x) y P(y = 0 | x; θ) = 1 − hθ(x)
Esto permite interpretar hθ(x) como la probabilidad de pertenecer a la clase positiva.
Función de Verosimilitud
Dado un conjunto de datos {(x(i), y(i))}, la verosimilitud de los datos es:
L(θ) = ∏ hθ(x(i))y(i) * (1 − hθ(x(i)))(1 − y(i))
Asumimos que las muestras son independientes.
Estimación de Parámetros: Máxima Verosimilitud
Se busca maximizar L(θ). Para facilitar los cálculos se trabaja con el logaritmo de la verosimilitud (log-likelihood), y se convierte en una función de coste a minimizar:
J(θ) = −(1/m) ∑ [ y(i) * log hθ(x(i)) + (1 − y(i)) * log(1 − hθ(x(i))) ]
Este J(θ) se minimiza para encontrar los mejores parámetros θ.
Optimización: Gradiente Descendente
Para minimizar J(θ), se usa descenso del gradiente con la actualización:
θ := θ − α * ∇J(θ)
Donde α es la tasa de aprendizaje y ∇J(θ) el gradiente calculado usando la derivada de la sigmoide.
Algoritmos de Aprendizaje Generativo
Discriminativo vs. Generativo
Hasta ahora, hemos visto modelos discriminativos como la regresión logística, que modelan la probabilidad condicional: p(y | x; θ). Este enfoque aprende directamente una frontera de decisión entre clases.
En contraste, los algoritmos generativos modelan la distribución conjunta: p(x, y) = p(x | y) * p(y). Es decir, aprenden:
- Cómo son los datos dentro de cada clase: p(x | y)
- Las probabilidades a priori de las clases: p(y)
Luego, para clasificar un nuevo dato, se aplica la regla de Bayes: p(y | x) = [p(x | y) * p(y)] / p(x). Para predecir la clase más probable, no es necesario calcular el denominador p(x), ya que es común a todas las clases. Se llaman generativos porque estos modelos pueden generar nuevos ejemplos sintéticos: dado un valor de y, es posible muestrear un x a partir de p(x | y). Esto no es posible en modelos discriminativos.
Algoritmo: GDA (Análisis Discriminante Gaussiano)
Es un modelo generativo para clasificación binaria. Supone que los datos de cada clase provienen de una distribución normal multivariante con distinta media pero misma covarianza Σ.
Modelo Probabilístico
- p(y) ~ Bernoulli(φ)
- p(x | y=0) ~ N(μ0, Σ)
- p(x | y=1) ~ N(μ1, Σ)
Parámetros a aprender:
- φ: probabilidad de que y=1
- μ0, μ1: medias por clase
- Σ: matriz de covarianza compartida
Entrenamiento: Máxima Verosimilitud (MLE)
Se maximiza la log-verosimilitud de los datos. Las fórmulas de MLE nos dan estimaciones para los parámetros anteriores, utilizando los datos del conjunto de entrenamiento.
Frontera de Decisión
La frontera es lineal. Se obtiene al igualar p(y=1 | x) = p(y=0 | x). Esto sucede porque el logaritmo del cociente de verosimilitudes es lineal en x cuando ambas clases comparten la misma matriz Σ.
Algoritmo: Naive Bayes
Cuando las características xj son discretas. Ejemplo: filtro de spam en correos. Cada correo se representa como un vector binario donde xj = 1 si aparece la palabra j del diccionario; 0 si no.
Supuesto Fuerte: Independencia Condicional
Se asume que los atributos xj son condicionalmente independientes dados y:
p(x | y) = ∏ p(xj | y)
Esto simplifica mucho el cálculo, aunque no siempre es realista.
Estimación de Parámetros
Usando máxima verosimilitud (MLE):
- p(y): proporción de ejemplos con esa clase.
- p(xj | y): frecuencia con la que aparece xj en la clase y.
Este modelo funciona sorprendentemente bien, incluso con el supuesto fuerte de independencia.
Laplace Smoothing
Problema: si una palabra no aparece en el entrenamiento, se asigna probabilidad cero ⇒ se anula el producto. Solución: usar Laplace smoothing:
p(xj | y) = (conteo + 1) / (total + k)
Esto asegura que ninguna probabilidad sea exactamente cero, evitando errores extremos.
Ensemble Learning
El aprendizaje en conjunto (Ensemble Learning) consiste en construir un modelo robusto combinando múltiples modelos débiles (weak learners). Se basa en la idea de la “sabiduría de las multitudes”: combinar varias predicciones individuales puede dar lugar a un resultado más preciso que el de cualquier modelo individual. Su objetivo es reducir el error de generalización y aumentar la estabilidad de los modelos, especialmente de clasificadores inestables como los árboles de decisión.
Árboles de Decisión como Base
Los árboles de decisión son modelos rápidos y adaptables, pero tienen alta varianza (cambian mucho con pequeños cambios en los datos) y, si no son profundos, también presentan alto sesgo. Por eso se usan árboles no podados (overfitted) como modelos base en técnicas de ensemble.
Bagging (Bootstrap Aggregating)
Propuesto por: Leo Breiman (1996). Idea: Entrenar múltiples modelos sobre subconjuntos del conjunto de datos generados mediante muestreo con reemplazo (bootstrap), y combinar sus predicciones.
Algoritmo Bagging
- Generar B subconjuntos bootstrap del conjunto de entrenamiento original.
- Entrenar un clasificador sobre cada subconjunto.
- Combinar las predicciones:
- Clasificación: votación mayoritaria
- Regresión: promedio
Ventajas de Bagging
- Reduce la varianza del modelo base.
- Elimina ruido específico de cada muestra.
- Reduce la sensibilidad al conjunto de entrenamiento.
- Permite usar muestras OOB (Out-of-Bag) para estimar el error sin conjunto de validación.
- Es altamente paralelizable.
Limitaciones
- Si los modelos entrenados están altamente correlacionados, la mejora se reduce.
Validación: Out-of-Bag (OOB)
- En promedio, cada bootstrap deja fuera ≈ 1/3 de los datos.
- Estas observaciones se pueden usar para:
- Validar modelos individualmente.
- Estimar el error de generalización del ensemble.
Random Forests
Extensión de Bagging que introduce aleatoriedad adicional para reducir la correlación entre árboles.
Diferencias Clave Respecto a Bagging
En cada división del árbol, se selecciona aleatoriamente un subconjunto de variables (k de m) para buscar la mejor división.
Algoritmo
- Crear subconjuntos bootstrap.
- Para cada árbol:
- En cada nodo, seleccionar aleatoriamente k atributos.
- Elegir la mejor división entre esos atributos.
- Entrenar árboles sin poda.
- Agregar las predicciones (votación o promedio).
Hiperparámetro Importante: k
Número de variables consideradas por división.
- Clasificación: k ≈ √m
- Regresión: k ≈ m/3
- Si k = m → comportamiento igual a Bagging.
Ventajas y Consideraciones de Random Forests
- Menor correlación entre árboles → mayor reducción de varianza.
- Mejor rendimiento general que Bagging.
- Con muchas variables irrelevantes, puede costar encontrar las más útiles.
- Funciona mejor con muchos árboles.
SVM (Máquinas de Vectores de Soporte)
SVM es un algoritmo de aprendizaje supervisado utilizado principalmente para problemas de clasificación binaria. El objetivo principal es encontrar un hiperplano que separe de forma óptima las clases en un espacio de características.
Hiperplano Separador
Un hiperplano es un subespacio de dimensión n−1 que divide el espacio de características en dos regiones. Está definido por un vector normal w y un sesgo b, mediante la ecuación:
〈w, x〉 + b = 0
La predicción del modelo se hace con la función signo: y = sign(〈w, x〉 + b)
Margen y Separación
El margen es la distancia entre el hiperplano y los puntos más cercanos de cada clase. SVM busca maximizar este margen, ya que un margen mayor suele implicar una mejor capacidad de generalización. La distancia de un punto x al hiperplano es:
d(x, H) = (〈w, x〉 + b) / ||w||
Maximizar el margen equivale a minimizar ||w||. Por eso, el problema de encontrar el hiperplano óptimo se formula como un problema de optimización convexa cuadrática.
Margen Suave (Soft Margin)
En la práctica, los datos no siempre son separables de forma perfecta. Para permitir errores, se introduce el concepto de margen suave, que añade términos de penalización por errores (εi):
Minimizar: (1/2) * ||w||2 + C * Σ εi
Donde:
- C
- Es un hiperparámetro que controla el equilibrio entre maximizar el margen y minimizar los errores de clasificación.
- εi
- Mide cuánto se violan las restricciones del margen para cada punto.
Producto Escalar y Similitud
SVM toma decisiones basadas en productos escalares entre vectores. El producto escalar 〈x, x’〉 puede interpretarse como una medida de similitud (especialmente cuando los vectores están normalizados), ya que:
〈x, x’〉 = ||x|| * ||x’|| * cos(θ)
Esto es clave para extender SVM a casos no lineales mediante kernels, aunque eso no se trata en este resumen.
Intuición Geométrica
- Puntos lejos del hiperplano se clasifican con alta confianza.
- Puntos cercanos al hiperplano son más inciertos.
- El modelo busca un hiperplano que no solo clasifique bien, sino que lo haga con margen amplio y confianza.
Sistemas de Recomendación
Los sistemas de recomendación son algoritmos diseñados para aprender los intereses y preferencias de los usuarios, con el fin de generar sugerencias personalizadas. Su objetivo es ofrecer recomendaciones relevantes, precisas y útiles. Además de precisión, buscan generar “serendipia”: sorprender al usuario con elementos novedosos que podrían interesarle, incluso si no los había buscado explícitamente.
Tipos de Sistemas de Recomendación
Basados en Popularidad
Ofrecen los ítems más populares sin personalización. No se consideran sistemas de recomendación “inteligentes”, pero son sencillos y escalables.
Filtrado Colaborativo
Utilizan la información de muchos usuarios para encontrar patrones compartidos. Existen dos variantes:
- User-User: Recomienda ítems a un usuario con base en la similitud con otros usuarios.
- Item-Item: Recomienda productos similares a aquellos con los que el usuario ha interactuado.
Estas técnicas pueden usar valoraciones explícitas (calificaciones) o implícitas (clics, tiempo de visualización). Las métricas comunes para medir similitud son la correlación de Pearson y el coseno del ángulo.
Problemas:
- Escalabilidad: El rendimiento disminuye con millones de usuarios e ítems.
- Frío inicio: Dificultad para recomendar nuevos ítems o a nuevos usuarios.
Basados en Contenido
Analizan las características de los ítems (género, descripción, autor, etc.) para recomendar productos similares a los que el usuario ya ha mostrado interés.
Híbridos
Combinan filtrado colaborativo y contenido para superar las limitaciones de cada uno y ofrecer mejores recomendaciones.
Factorización de Matrices
Una técnica muy eficaz en filtrado colaborativo es la factorización de matrices, popularizada tras el concurso Netflix Prize de 2006. Consiste en descomponer la matriz original de usuario-ítem (que contiene interacciones conocidas y muchas celdas vacías) en dos matrices más pequeñas:
M ≈ P × QT
Siendo P representa a los usuarios y Q representa a los ítems. El producto escalar entre los vectores de usuario y de ítem predice la interacción esperada. Esto permite capturar factores latentes que explican por qué un usuario puede preferir un determinado ítem.
Enfoques Según el Tipo de Predicción
Dependiendo de cómo se interpreten las celdas de la matriz, el problema puede ser:
- Regresión: Si se estima un valor numérico (como una calificación de 1 a 5).
- Clasificación: Si se predicen clases discretas (por ejemplo, “le gustará” vs. “no le gustará”).
- Ranking: Si se infiere un orden de preferencia entre varios ítems.
El objetivo final del sistema es completar la matriz de interacciones desconocidas con predicciones precisas, ayudando a cada usuario a descubrir contenido relevante.
Deep Learning
El Deep Learning es una técnica que permite a los sistemas informáticos aprender funciones complejas para mapear entradas a salidas, utilizando múltiples capas de transformaciones. El objetivo principal del Deep Learning es encontrar una función, generalmente no lineal, que pueda transformar datos de un espacio euclídeo a otro. Esta función se define mediante un conjunto de parámetros, que son como los “ajustes” del modelo. Los modelos de Deep Learning aprenden estas funciones a partir de un conjunto de datos, ajustando los parámetros para lograr que la salida de la función sea lo más parecida posible a los datos proporcionados. La “profundidad” en Deep Learning se refiere a las múltiples capas de cálculo que atraviesan los datos.
No Linealidad
Las funciones aprendidas en Deep Learning suelen ser no lineales, y esta no linealidad es crucial porque permite a los modelos resolver problemas mucho más complejos. Las redes neuronales profundas son no lineales gracias a las funciones de activación, como ReLU (Rectified Linear Unit), Sigmoid o Tanh, que se aplican en cada neurona después de la multiplicación de los pesos y la adición del sesgo. Estas funciones transforman la salida de cada neurona de manera que el modelo sea capaz de aprender y ajustar patrones complejos, siendo la Unidad Lineal Rectificada (ReLU) una de las más utilizadas.
Estructura General de las Redes Feedforward
Los modelos de Deep Learning se implementan a menudo como redes neuronales feedforward. Una red neuronal feedforward es un tipo de red neuronal en la que la información se mueve en una sola dirección, desde la capa de entrada hasta la capa de salida, pasando por las capas ocultas. Las redes feedforward no tienen ciclos, lo que significa que la información no regresa de las capas superiores a las inferiores.
Capa de Entrada
Esta capa recibe los datos de entrada y los pasa a las siguientes capas.
Capas Ocultas
Son capas intermedias entre la entrada y la salida. Cada capa contiene varias neuronas, que realizan transformaciones no lineales de los datos de entrada.
Capa de Salida
Esta capa genera la salida final del modelo, ya sea en forma de clasificación o predicción.
h1 = g(W1x + b1)
h2 = g(W2h1 + b2)
…
f(x) = g(WLhL-1 + bL)
- x
- Es la entrada.
- hi
- Son representaciones intermedias (capas ocultas).
- Wi y bi
- Son parámetros aprendibles (pesos y sesgos).
- g
- Es la función de activación no lineal.
Tareas de Aprendizaje
Regresión
La regresión es una tarea de predicción en la que el objetivo es predecir un valor numérico continuo a partir de datos de entrada. Por ejemplo, predecir el precio de una casa en función de sus características.
Clasificación
En la clasificación, el modelo tiene que asignar una etiqueta o clase a una entrada. Por ejemplo, en la clasificación de imágenes, un modelo de Deep Learning puede clasificar una imagen de un perro como “perro” o “gato” si tiene clases predefinidas.
Optimización y Algoritmos de Aprendizaje
El algoritmo de descenso del gradiente es un proceso de optimización utilizado para minimizar la función de pérdida del modelo durante el entrenamiento. La función de pérdida indica qué tan bien las predicciones coinciden con los valores reales. Se ajustan los pesos de la red neuronal en la dirección opuesta al gradiente de la función de pérdida.
Gradiente Descendente Estándar (GD)
Consiste en calcular el gradiente de la función de pérdida con respecto a todos los datos y actualizar los pesos en función de ese gradiente.
Variantes Comunes en Deep Learning
- Mini-Batch Gradient SGD: Utiliza pequeños subconjuntos (mini-batches) del conjunto de entrenamiento para calcular el gradiente, ofreciendo un equilibrio entre la precisión de Batch GD y la velocidad de SGD.
Backpropagation
El algoritmo de Backpropagation es utilizado para ajustar los pesos en una red neuronal entrenada mediante el descenso del gradiente. El proceso comienza calculando el error en la salida, y luego ese error se propaga hacia atrás a través de la red para actualizar los pesos de cada neurona.
Regularización
La regularización es una técnica utilizada para evitar el overfitting, es decir, cuando el modelo se ajusta demasiado a los datos de entrenamiento y pierde capacidad para generalizar a datos nuevos. Existen diversas técnicas de regularización.
Métodos Comunes de Regularización
Penalización de Normas (L1 y L2)
Estas son técnicas que añaden un término penalizador en la función de pérdida para controlar el tamaño de los pesos de la red.
- L1: Puede llevar a la eliminación de algunas características (esparsidad).
- L2: Tiende a hacer que los pesos sean pequeños y distribuidos (weight decay).
Early Stopping
Técnica en la que se detiene el entrenamiento antes de que el modelo se haya entrenado completamente, es decir, antes de que empiece a sobreajustarse a los datos de entrenamiento.
Dropout
Una forma específica de regularización. Durante el entrenamiento, se “apagan” aleatoriamente algunas neuronas en cada iteración, lo que previene que el modelo dependa demasiado de un conjunto de neuronas en particular y mejora la capacidad de generalización.