¿Qué es el aumento de datos?

El aumento de datos es el proceso de generar artificialmente nuevos datos a partir de datos existentes, principalmente para entrenar nuevos modelos de machine learning (ML). Los modelos de ML requieren conjuntos de datos grandes y variados para el entrenamiento inicial, pero obtener conjuntos de datos del mundo real suficientemente diversos puede ser un desafío debido a los silos de datos, las regulaciones y otras limitaciones. El aumento de datos aumenta artificialmente el conjunto de datos al realizar pequeños cambios en los datos originales. Las soluciones de inteligencia artificial (IA) generativa se utilizan ahora para aumentar los datos de forma rápida y con alta calidad en diversos sectores.

Obtenga más información sobre el machine learning

Obtenga más información sobre la IA generativa

¿Por qué es importante el aumento de datos?

Los modelos de aprendizaje profundo se basan en grandes volúmenes de datos diversos para desarrollar predicciones precisas en diversos contextos. El aumento de datos complementa la creación de variaciones de datos que pueden ayudar a un modelo a mejorar la precisión de sus predicciones. Los datos aumentados son fundamentales en el entrenamiento.

Estos son algunos de los beneficios del aumento de datos.

Rendimiento mejorado del modelo

Las técnicas de aumento de datos ayudan a enriquecer los conjuntos de datos al crear muchas variaciones de los datos existentes. Esto proporciona un conjunto de datos más grande para el entrenamiento y permite que un modelo encuentre características más diversas. Los datos aumentados ayudan al modelo a generalizar mejor a datos invisibles y a mejorar su rendimiento general en entornos del mundo real. 

Reducción de la dependencia de los datos

La recopilación y preparación de grandes volúmenes de datos para el entrenamiento pueden resultar costosas y consumen mucho tiempo. Las técnicas de aumento de datos aumentan la eficacia de los conjuntos de datos más pequeños, lo que reduce considerablemente la dependencia de conjuntos de datos de gran tamaño en los entornos de entrenamiento. Puede usar conjuntos de datos más pequeños para complementar el conjunto con puntos de datos sintéticos.

Mitigación del sobreajuste en los datos de entrenamiento

El aumento de datos ayuda a evitar el sobreajuste cuando entrena modelos de ML. El sobreajuste es un comportamiento de ML no deseado en el que un modelo puede proporcionar predicciones precisas para los datos de entrenamiento, pero tiene problemas con los datos nuevos. Si un modelo se entrena solo con un conjunto de datos limitado, se puede sobreajustar y proporcionar predicciones relacionadas únicamente con ese tipo de datos específico. Por el contrario, el aumento de datos proporciona un conjunto de datos mucho más amplio y completo para el entrenamiento de modelos. Hace que los conjuntos de entrenamiento parezcan exclusivos de las redes neuronales profundas, lo que les impide aprender a trabajar solo con características específicas. 

Obtenga más información sobre el sobreajuste

Obtenga más información sobre las redes neuronales

Mejora de la privacidad de los datos

Si necesita entrenar un modelo de aprendizaje profundo con datos confidenciales, puede utilizar técnicas de aumento en los datos existentes para crear datos sintéticos. Estos datos aumentados retienen las propiedades estadísticas y los pesos de los datos de entrada, a la vez que protegen y limitan el acceso a los originales.

¿Cuáles son los casos de uso del aumento de datos?

El aumento de datos ofrece varias aplicaciones en diversos sectores, lo que mejora el rendimiento de los modelos de ML en muchos sectores.

Atención sanitaria

El aumento de datos es una tecnología útil en las imágenes médicas porque ayuda a mejorar los modelos de diagnóstico que detectan, reconocen y diagnostican enfermedades basándose en imágenes. La creación de una imagen aumentada proporciona más datos de entrenamiento para los modelos, especialmente para las enfermedades raras que carecen de variaciones en los datos de origen. La producción y el uso de datos sintéticos de pacientes promueven la investigación médica mientras que respetan todas las consideraciones de privacidad de los datos. 

Finanzas

El aumento ayuda a producir instancias sintéticas de fraude, lo que permite que los modelos se capaciten para detectar el fraude con mayor precisión en escenarios reales. Los grupos más grandes de datos de entrenamiento ayudan en los escenarios de evaluación de riesgos, ya que mejoran el potencial de los modelos de aprendizaje profundo para evaluar con precisión el riesgo y predecir las tendencias futuras. 

Fabricación

El sector industrial utiliza modelos de ML para identificar defectos visuales en los productos. Al complementar los datos del mundo real con imágenes aumentadas, los modelos pueden mejorar sus capacidades de reconocimiento de imágenes y localizar posibles defectos. Esta estrategia también reduce la probabilidad de enviar un proyecto dañado o defectuoso a las fábricas y líneas de producción.

Comercio minorista

Los entornos minoristas utilizan modelos para identificar los productos y asignarlos a categorías en función de factores visuales. El aumento de datos puede producir variaciones de datos sintéticas de las imágenes de los productos, lo que crea un conjunto de entrenamiento que tiene más variaciones en términos de condiciones de iluminación, fondos de las imágenes y ángulos de los productos.

¿Cómo funciona el aumento de datos?

El aumento de datos transforma, edita o modifica los datos existentes para crear variaciones. La siguiente es una breve descripción del proceso.

Exploración de conjuntos de datos

La primera etapa del aumento de datos consiste en analizar un conjunto de datos existente y comprender sus características. Características como el tamaño de las imágenes de entrada, la distribución de los datos o la estructura del texto proporcionan un contexto adicional para el aumento. 

Puede seleccionar diferentes técnicas de aumento de datos en función del tipo de datos subyacente y de los resultados deseados. Por ejemplo, aumentar un conjunto de datos con muchas imágenes incluye agregarles ruido, escalarlas o recortarlas. Alternativamente, aumentar un conjunto de datos de texto para el procesamiento del lenguaje natural (NLP) reemplaza los sinónimos o parafrasea los fragmentos. 

Obtenga más información sobre el procesamiento de lenguaje natural

Aumento de los datos existentes

Una vez que haya seleccionado la técnica de aumento de datos que funcione mejor para el objetivo deseado, comienza a aplicar diferentes transformaciones. Los puntos de datos o las muestras de imágenes del conjunto de datos se transforman mediante el método de aumento seleccionado, lo que proporciona una gama de nuevas muestras aumentadas. 

Durante el proceso de aumento, se mantienen las mismas reglas de etiquetado para garantizar la coherencia de datos, lo que garantiza que los datos sintéticos incluyan las mismas etiquetas correspondientes a los datos de origen.

Por lo general, se examinan las imágenes sintéticas para determinar si la transformación se realizó correctamente. Este paso adicional dirigido por humanos ayuda a mantener una mayor calidad de los datos. 

Integrar formas de datos

A continuación, combina los nuevos datos aumentados con los datos originales para producir un conjunto de datos de entrenamiento más grande para el modelo de ML. Cuando entrena el modelo, usa este conjunto de datos compuesto de ambos tipos de datos.

Es importante tener en cuenta que los nuevos puntos de datos que se crean mediante el aumento de datos sintéticos tienen el mismo sesgo que los datos de entrada originales. Para evitar que los sesgos se transfieran a los datos nuevos, aborde cualquier sesgo en los datos de origen antes de iniciar el proceso de aumento de datos.

¿Cuáles son algunas técnicas de aumento de datos?

Las técnicas de aumento de datos varían según los distintos tipos de datos y contextos empresariales.

Visión artificial

El aumento de datos es una técnica central en las tareas de visión artificial. Ayuda a crear diversas representaciones de datos y a abordar los desequilibrios de clase en un conjunto de datos de entrenamiento. 

El primer uso del aumento en la visión artificial es mediante el aumento de posición. Esta estrategia recorta, voltea o rota una imagen de entrada para crear imágenes aumentadas. Al recortar, se cambia el tamaño de la imagen o se recorta una pequeña parte de la imagen original para crear una nueva. La transformación de rotación, volteo y cambio de tamaño alteran el original de forma aleatoria con una probabilidad determinada de proporcionar nuevas imágenes.

Otro uso del aumento en la visión artificial es en el aumento del color. Esta estrategia ajusta los factores elementales de una imagen de entrenamiento, como el brillo, el grado de contraste o la saturación. Estas transformaciones de imagen comunes cambian el tono, el equilibrio entre la oscuridad y la luz, y la separación entre las áreas más oscuras y claras de una imagen para crear imágenes aumentadas.

Más información sobre la visión artificial

Aumento de datos de audio

Los archivos de audio, como las grabaciones de voz, también son un campo común en el que puede utilizar el aumento de datos. Las transformaciones de audio suelen incluir la inyección de ruido aleatorio o gaussiano en algunos audios, el avance rápido de las partes, el cambio de la velocidad de las partes a una velocidad fija o la alteración del tono.

Aumento de datos de texto

El aumento de texto es una técnica de aumento de datos vital para el NLP y otros sectores de ML relacionados con el texto. Las transformaciones de los datos de texto incluyen mezclar oraciones, cambiar las posiciones de las palabras, reemplazar palabras por sinónimos cercanos, insertar palabras aleatorias y eliminar palabras aleatorias.

Transferencia de estilo neuronal

La transferencia de estilo neuronal es una forma avanzada de aumento de datos que deconstruye las imágenes en partes más pequeñas. Utiliza una serie de capas convolucionales que separan el estilo y el contexto de una imagen, lo que produce muchas imágenes a partir de una sola. 

Entrenamiento adversativo

Los cambios en el nivel de píxel suponen un desafío para un modelo de ML. Algunas muestras incluyen una capa de ruido imperceptible sobre una imagen para probar la capacidad del modelo de percibir la imagen que hay debajo. Esta estrategia es una forma preventiva de aumento de datos que se centra en el posible acceso no autorizado en el mundo real.

¿Cuál es el rol de la IA generativa en el aumento de datos?

La IA generativa es esencial en el aumento de datos porque facilita la producción de datos sintéticos. Ayuda a aumentar la diversidad de datos, optimizar la creación de datos realistas y preservar la privacidad de los datos. 

Redes generativas adversativas

Las redes generativas adversativas (GAN) son un marco de dos redes neuronales centrales que funcionan en oposición. El generador produce muestras de datos sintéticos y, luego, el discriminador distingue entre los datos reales y las muestras sintéticas.

Con el tiempo, las GAN mejoran continuamente el contenido de salida del generador al centrarse en engañar al discriminador. Los datos que pueden engañar al discriminador cuentan como datos sintéticos de alta calidad, lo que proporciona un aumento de datos con muestras altamente confiables que imitan de cerca la distribución de datos original.

Autocodificadores variacionales

Los autocodificadores variacionales (VAE) son un tipo de red neuronal que ayuda a aumentar el tamaño de la muestra de los datos principales y a reducir la necesidad de recopilar datos, que lleva mucho tiempo. Los VAE tienen dos redes conectadas: un decodificador y un codificador. El codificador toma imágenes de muestra y las traduce en una representación intermedia. El decodificador toma la representación y recrea imágenes similares basándose en su comprensión de las muestras iniciales. Los VAE son útiles porque pueden crear datos muy similares a los datos de muestra, lo que ayuda a agregar variedad y, al mismo tiempo, a mantener la distribución de datos original.

¿Cómo puede AWS cumplir sus requisitos de aumento de datos?

Los servicios de IA generativa en Amazon Web Services (AWS) son un conjunto de tecnologías que las organizaciones de todos los tamaños pueden utilizar para crear y escalar aplicaciones de IA generativa con datos personalizados para casos de uso personalizados. Puede innovar más rápido gracias a nuevas capacidades, una posibilidad de elegir entre los modelos fundacionales (FM) líderes del sector y la infraestructura más rentable. Los siguientes son dos ejemplos de servicios de IA generativa en AWS.

Amazon Bedrock es un servicio totalmente administrado que ofrece una selección de FM de alto rendimiento de las principales empresas de IA. Puede integrar e implementar de forma segura capacidades de IA generativa para aumentar los datos sin administrar la infraestructura.

Amazon Rekognition es un servicio de IA totalmente administrado que ofrece capacidades de visión artificial previamente entrenadas y personalizables para extraer información a partir de las imágenes y los videos. El desarrollo de un modelo personalizado para analizar imágenes es una tarea importante que requiere tiempo, experiencia y recursos. Suele ser necesario disponer de miles o decenas de miles de imágenes etiquetadas manualmente para suministrar al modelo suficientes datos para que pueda tomar decisiones con precisión. 

Con las etiquetas personalizadas de Amazon Rekognition, se realizan varios aumentos de datos para el entrenamiento de modelos, como el recorte aleatorio de la imagen, la fluctuación de los colores y los ruidos gaussianos aleatorios. En lugar de emplear miles de imágenes, debe cargar solo un reducido conjunto de imágenes de entrenamiento (habitualmente, unas pocas cientos menos) específicas para su caso de uso para la consola fácil de usar.

Para comenzar con el aumento de datos en AWS, cree una cuenta hoy mismo.

Pasos siguientes en AWS

Descubra otros recursos relacionados con el producto
Innove más rápido con el conjunto más completo de servicios de IA y ML 
Regístrese para obtener una cuenta gratuita

Obtenga acceso instantáneo al nivel Gratuito de AWS.

Regístrese 
Comenzar a crear en la consola

Comience a crear en la consola de administración de AWS.

Iniciar sesión