Regularización del aprendizaje automático explicada con ejemplos | Herramientas de bruñido de Beijing Co., Ltd

imágenes falsas

La regularización en el aprendizaje automático es un conjunto de técnicas que se utilizan para garantizar que un modelo de aprendizaje automático pueda generalizarse a nuevos datos dentro del mismo conjunto de datos. Estas técnicas pueden ayudar a reducir el impacto de los datos ruidosos que quedan fuera del rango de patrones esperado. La regularización también puede mejorar el modelo al facilitar la detección de casos extremos relevantes dentro de una tarea de clasificación.

Considere un algoritmo específicamente entrenado para identificar correos electrónicos no deseados. En este escenario, el algoritmo está entrenado para clasificar correos electrónicos que parecen provenir de una conocida cadena de farmacias de EE. UU. y contienen solo una imagen como probablemente spam. Sin embargo, este enfoque estrecho corre el riesgo de decepcionar a los clientes fieles de la cadena, que esperaban con ansias recibir información sobre las últimas rebajas de la tienda. Un algoritmo más eficaz consideraría otros factores, como el momento de los correos electrónicos, el uso de imágenes y los tipos de enlaces integrados en los correos electrónicos para etiquetarlos con precisión como spam.

Sin embargo, este modelo más complejo también tendría que tener en cuenta el impacto que cada una de estas medidas añadió al algoritmo. Sin regularización, el nuevo algoritmo corre el riesgo de ser demasiado complejo, estar sujeto a sesgos e incapaz de detectar variaciones. A continuación desarrollaremos estos conceptos.

En resumen, la regularización empuja al modelo a reducir su complejidad a medida que se entrena, explicó Bret Greenstein, líder de datos, inteligencia artificial y análisis de PwC.

"La regularización actúa como un tipo de penalización que se agrega a la función de pérdida o al valor que se utiliza para ayudar a asignar importancia a las características del modelo", dijo Greenstein. "Esta penalización impide que el modelo encuentre parámetros que puedan sobreasignar importancia a sus características".

Como tal, la regularización es una herramienta importante que los científicos de datos pueden utilizar para mejorar el entrenamiento del modelo y lograr una mejor generalización o para mejorar las probabilidades de que el modelo funcione bien cuando se expone a ejemplos desconocidos.

Adnan Masood, arquitecto jefe de inteligencia artificial y aprendizaje automático de la consultora de transformación digital UST, dijo que su empresa utiliza regularmente la regularización para lograr un equilibrio entre la complejidad y el rendimiento del modelo, evitando hábilmente tanto el ajuste insuficiente como el excesivo.

El sobreajuste, como se describió anteriormente, ocurre cuando un modelo es demasiado complejo y aprende ruido en los datos de entrenamiento. El desajuste ocurre cuando un modelo es demasiado simple para capturar patrones de datos subyacentes.

"La regularización proporciona un medio para encontrar el equilibrio óptimo entre estos dos extremos", afirmó Masood.

Consideremos otro ejemplo del uso de la regularización en el comercio minorista. En este escenario, la empresa quiere desarrollar un modelo que pueda predecir cuándo un determinado producto podría estar agotado. Para ello, la empresa ha desarrollado un conjunto de datos de capacitación con muchas características, como datos de ventas anteriores, estacionalidad, eventos promocionales y factores externos como el clima o las vacaciones.

Sin embargo, esto podría llevar a un sobreajuste cuando el modelo está demasiado vinculado a patrones específicos en los datos de entrenamiento y, como resultado, puede ser menos efectivo para predecir desabastecimientos basados en datos nuevos e invisibles.

"Sin regularización, nuestro modelo de aprendizaje automático podría aprender demasiado bien los datos de entrenamiento y volverse demasiado sensible al ruido o las fluctuaciones en los datos históricos", dijo Masood.

En este caso, un científico de datos podría aplicar un modelo de regresión lineal para minimizar la suma de la diferencia al cuadrado entre los casos de desabastecimiento reales y previstos. Esto disuade al modelo de asignar demasiada importancia a cualquier característica.

Además, podrían asignar un parámetro lambda para determinar la fuerza de la regularización. Los valores más altos de este parámetro aumentan la regularización y reducen los coeficientes del modelo (pesos del modelo).

Cuando se entrene este modelo regularizado, se equilibrará el ajuste de los datos de entrenamiento y se mantendrán los pesos del modelo pequeños. El resultado es un modelo que es potencialmente menos preciso en los datos de entrenamiento y más preciso al predecir desabastecimientos en datos nuevos e invisibles.

"De esta manera, la regularización nos ayuda a construir un modelo sólido, generalizar mejor los nuevos datos y predecir de manera más efectiva los desabastecimientos, permitiendo así que la empresa administre mejor su inventario y evite la pérdida de ventas", dijo Masood.

Considera que la regularización es vital para gestionar el sobreajuste y el desajuste. También ayuda indirectamente a controlar el sesgo (error debido a suposiciones erróneas) y la varianza (error debido a la sensibilidad a pequeñas fluctuaciones en un conjunto de datos de entrenamiento), facilitando un modelo equilibrado que se generaliza bien con datos invisibles.

Niels Bantilan, ingeniero jefe de aprendizaje automático en Union.ai, una plataforma de orquestación de aprendizaje automático, considera útil pensar en la regularización como una forma de evitar que un modelo de aprendizaje automático memorice los datos durante el entrenamiento.

Por ejemplo, un robot domótico entrenado para preparar café en una cocina podría memorizar sin darse cuenta las peculiaridades y diseños de esa cocina específica. Probablemente se romperá cuando se le presente una cocina nueva donde los ingredientes y el equipo difieren de los que memorizó.

En este caso, la regularización obliga al modelo a aprender conceptos de nivel superior como "las tazas de café tienden a almacenarse en los gabinetes superiores" en lugar de aprender peculiaridades específicas de la primera cocina, como "las tazas de café se almacenan en la parte superior izquierda". estante."

En los negocios, la regularización es importante para poner en funcionamiento el aprendizaje automático, ya que puede mitigar errores y ahorrar costos, ya que es costoso volver a entrenar constantemente los modelos con los datos más recientes.

"Por lo tanto, tiene sentido garantizar que tengan cierta capacidad de generalización más allá de sus datos de entrenamiento, de modo que los modelos puedan manejar situaciones nuevas hasta cierto punto sin tener que volver a entrenarlos en hardware costoso o infraestructura de nube", dijo Bantilan.

El término sobreajuste se utiliza para describir un modelo que ha aprendido demasiado de los datos de entrenamiento. Esto puede incluir ruido, como datos inexactos leídos accidentalmente por un sensor o un ser humano que ingresa deliberadamente datos incorrectos para evadir un filtro de spam o un algoritmo de fraude. También puede incluir datos específicos de esa situación particular, pero no relevantes para otros casos de uso, como el diseño de los estantes de una tienda que podría no ser relevante para diferentes tiendas en un predictor de desabastecimiento.

El desajuste ocurre cuando un modelo no ha aprendido a mapear características para una predicción precisa de nuevos datos. Greenstein dijo que la regularización a veces puede conducir a un desajuste. En ese caso, es importante cambiar la influencia que tiene la regularización durante el entrenamiento del modelo. El desajuste también se relaciona con el sesgo y la variación.

Bantilan describió el sesgo en el aprendizaje automático como el grado en que las predicciones de un modelo coinciden con la verdad real. Por ejemplo, un filtro de spam que prediga perfectamente las etiquetas spam/no spam en los datos de entrenamiento sería un modelo con bajo sesgo. Podría considerarse un alto sesgo si estuviera equivocado todo el tiempo.

La varianza caracteriza el grado en que las predicciones del modelo pueden manejar pequeñas perturbaciones en los datos de entrenamiento. Una buena prueba es eliminar algunos registros para ver qué sucede, dijo Bantilan. Si las predicciones del modelo siguen siendo las mismas, entonces el modelo se considera de baja varianza. Si las predicciones cambian mucho, entonces se considera de alta variación.

Greenstein observó que podría haber una alta variación cuando un modelo entrenado con múltiples variaciones de datos parece aprender una solución pero tiene dificultades para funcionar con datos de prueba. Esta es una forma de sobreajuste y la regularización puede ayudar a abordar el problema.

Bharath Thota, socio en la práctica de análisis avanzado de Kearney, una firma de consultoría de gestión y estrategia global, dijo que algunos de los casos de uso comunes en la industria incluyen los siguientes:

La regularización debe considerarse como una técnica útil en el proceso de mejorar los modelos de ML, más que como un caso de uso específico. Greenstein lo ha encontrado más útil cuando los problemas son de alta dimensión, lo que significa que contienen muchas características y, a veces, complejas. Este tipo de problemas son propensos a un sobreajuste, ya que un modelo puede no identificar patrones simplificados para asignar características a objetivos.

La regularización también es útil con conjuntos de datos ruidosos, como datos de alta dimensión, donde los ejemplos varían mucho y están sujetos a sobreajuste. En estos casos, los modelos pueden aprender el ruido en lugar de una forma generalizada de representar los datos.

También es bueno para problemas no lineales, ya que los problemas que requieren algoritmos no lineales a menudo pueden provocar un sobreajuste. Este tipo de algoritmos descubren límites complejos para clasificar datos que se corresponden bien con los datos de entrenamiento, pero que solo son parcialmente aplicables a los datos del mundo real.

Greenstein señaló que la regularización es una de las muchas herramientas que pueden ayudar a resolver los desafíos de un modelo sobreajustado. Otras técnicas, como el embolsado, las tasas de aprendizaje reducidas y los métodos de muestreo de datos, pueden complementar o reemplazar la regularización, según el problema.

Existe una variedad de técnicas de regularización diferentes. Los enfoques más comunes se basan en métodos estadísticos como la regularización Lasso (también llamada regularización L1), la regularización Ridge (regularización L2) y la regularización Elastic Net, que combina las técnicas Lasso y Ridge. Otras técnicas de regulación utilizan principios diferentes, como el ensamblaje, el abandono de redes neuronales, la poda de modelos basados en árboles de decisión y el aumento de datos.

Masood dijo que la elección del método de regularización y el ajuste del parámetro de fuerza de regularización (lambda) depende en gran medida del caso de uso específico y la naturaleza del conjunto de datos.

"La regularización correcta puede mejorar significativamente el rendimiento del modelo, pero una elección incorrecta podría provocar un rendimiento inferior o incluso dañar el poder predictivo del modelo", advirtió Masood. En consecuencia, es importante abordar la regularización con una comprensión sólida tanto de los datos como del problema en cuestión.

A continuación se ofrecen breves descripciones de las técnicas de regularización comunes.

Regresión de lazo, también conocida como regularización L1. La técnica de regularización de Lasso, acrónimo de operador de selección y contracción mínima absoluta, se deriva del cálculo de la mediana de los datos. Una mediana es un valor en medio de un conjunto de datos. Calcula una función de penalización utilizando pesos absolutos. Thota de Kearney dijo que esta técnica de regularización fomenta la escasez en el modelo, lo que significa que puede establecer algunos coeficientes exactamente en cero, realizando de manera efectiva la selección de características.

Regresión de crestas, también conocida como regularización L2. La regulación de cresta se deriva del cálculo de la media de los datos, que es el promedio de un conjunto de números. Calcula una función de penalización utilizando un cuadrado u otro exponente de cada variable. Thota dijo que esta técnica es útil para reducir el impacto de características irrelevantes o correlacionadas y ayuda a estabilizar el comportamiento del modelo.

Regularización de Elastic Net (L1 + L2). Elastic Net combina técnicas L1 y L2 para mejorar los resultados de ciertos problemas.

Montaje. Este conjunto de técnicas combina las predicciones de un conjunto de modelos, reduciendo así la dependencia de cualquier modelo para la predicción.

Abandono de la red neuronal. Este proceso se utiliza a veces en algoritmos de aprendizaje profundo compuestos por múltiples capas de redes neuronales. Implica eliminar aleatoriamente los pesos de algunas neuronas. Bantilan dijo que esto obliga al algoritmo de aprendizaje profundo a aprender un conjunto de subredes para realizar la tarea de manera efectiva.

Poda de modelos basados en árboles de decisión. Esto se utiliza en modelos basados en árboles como los árboles de decisión. El proceso de poda de ramas puede simplificar las reglas de decisión de un árbol en particular para evitar que dependa de las peculiaridades de los datos de entrenamiento.

Aumento de datos. Esta familia de técnicas utiliza conocimientos previos sobre la distribución de datos para evitar que el modelo aprenda las peculiaridades del conjunto de datos. Por ejemplo, en un caso de uso de clasificación de imágenes, puede voltear una imagen horizontalmente, introducir ruido, borrosidad o recortar una imagen. "Mientras la corrupción o modificación de datos sea algo que podamos encontrar en el mundo real, el modelo debería aprender a manejar esas situaciones", dijo Bantilan.

¿Qué está impulsando el aprendizaje automático?

Elegir entre un sistema de aprendizaje automático o basado en reglas

¿Qué es el clustering en el aprendizaje automático?

Cómo construir y organizar un equipo de aprendizaje automático