15. Etapas de un proyecto de Machine Learning: El modelo

15. Etapas de un proyecto de Machine Learning: El modelo

Author: Marta Arroyo September 21, 2022 Duration: 17:18

📝 Podéis encontrar las notas del programa completas en https://datos.ninja/podcast/15-etapas-proyecto-machine-learning-parte-3/

En el episodio 13 hablamos del planteamiento del problema de Machine Learning.

En el episodio 14 vimos como construir un dataset de calidad.

Y hoy, vemos la fase de diseño del modelo de Machine Learning, aunque damos por hecho que un ingeniero de datos se ha encargado de seleccionar el almacenamiento adecuado para nuestros datos y los tenemos listos para usar.

Si queréis saber más sobre el ciclo de vida de un dato desde su ingesta hasta que está listo para ser utilizado, podéis ver este hilo de twitter al que hago referencia en el episodio de hoy.

Antes de entrenar el modelo hay que preparar los datos.

  • Transformaciones obligatorias de los datos para que sean compatibles con el modelo.
  • Transformaciones opcionales, aunque muy convenientes, que ayudan a que el modelo converja más rápido como la normalización de los datos.
  • Manejo de los valores faltantes, que son aquellos registros de datos que vienen vacíos por alguna razón.

Lo primero que haremos es separar unos cuantos datos que utilizaremos más adelante como conjunto de datos de validación. Estos datos no los podremos usar durante el entrenamiento del modelo.

Después elegiremos la versión más sencilla de un modelo de Machine Learning que se ajuste a nuestro problema.

Añadiremos complejidad al modelo y ajustaremos sus parámetros lo mejor que podamos mediante una función de coste, que cuantifica el error de nuestras predicciones, y un algoritmo de optimización.

Pero ojo que si los resultados son muy buenos en el dataset de entrenamiento, tal vez estemos sobreajustando. Para comprobarlo tenemos el conjunto de validación. Usaremos el dataset de validación para ver si el rendimiento del modelo baja mucho con datos que no ha visto durante el entrenamiento. Si lo hace, estamos sobreajustando y habrá que aplicar técnicas de regularización.

El mejor modelo es el que encuentra el equilibrio entre ajustar los datos de entrenamiento y ser capaz de generalizar y dar buenos resultados con datos que no ha visto antes.

Espero que os guste el episodio 😊

Si es así, no olvidéis dejar un «Me gusta» y algún comentario al episodio en Ivoox o una valoración de 5 estrellas del podcast en Apple podcasts, en Spotify, en Google podcasts o donde quiera que escuchéis el podcast.

Recordad que si tenéis cualquier duda o pregunta podéis contactar conmigo a través del formulario de contacto o podemos seguir la conversación en Twitter.

Muchas gracias por estar ahí y os espero en el próximo episodio de Un Podcast Ninja sobre Big Data.


Marta Arroyo te invita a adentrarte en el universo del Big Data e Inteligencia Artificial. Este podcast está pensado para quienes, desde su día a día aparentemente ordinario, sienten curiosidad por las tecnologías que están redefiniendo nuestro mundo y desean comprenderlas sin necesidad de un doctorado en ciencias de la computación. Cada episodio desmonta conceptos complejos en ideas accesibles, explorando no solo el cómo funcionan estas herramientas, sino también su impacto práctico, sus implicaciones éticas y su rumbo futuro. Escucharás conversaciones que van más allá de la teoría, encontrando aplicaciones reales, historias de implementación y reflexiones sobre el papel humano en un panorama cada vez más automatizado. Es un espacio para aprender, cuestionar y descubrir cómo estos campos no son solo dominio de expertos, sino habilidades que cualquiera puede comenzar a descifrar. Acompaña a Marta en este viaje de transformación digital, donde la información y la algorítmica dejan de ser un misterio para convertirse en un lenguaje familiar. Suscríbete para no perderte ningún episodio de este podcast que democratiza el conocimiento técnico.
Author: Language: es-es Episodes: 100

Big Data e Inteligencia Artificial
Podcast Episodes
108. Agentes [not-audio_url] [/not-audio_url]

Duration: 13:00
Todo el mundo habla de agentes de inteligencia artificial pero muchos no sabrían identificar uno si lo tuvieran delante.🎧 Episodio completoEn este episodio os explico qué es un agente de IA, en qué se diferencia de un mo…
107. Grandes éxitos de la Inteligencia Artificial - Industria y política [Edición 2025] [not-audio_url] [/not-audio_url]

Duration: 29:06
🥷 ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Apúntate aquí a la ⁠Comunidad Ninja⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ 🥷Accede a todo el contenido para convertirte en un ninja de los datos:🎥 ⁠⁠Sesiones en directo⁠⁠⚡️ ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Podcast premium⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠📚 ⁠⁠⁠⁠…
106. Grandes éxitos de la Inteligencia Artificial [Edición 2025] [not-audio_url] [/not-audio_url]

Duration: 30:39
🥷 ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Apúntate aquí a la Comunidad Ninja⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ 🥷Accede a todo el contenido para convertirte en un ninja de los datos:🎥 ⁠Sesiones en directo⁠⚡️ ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Podcast premium⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠📚 ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠…
105. Cómo LinkedIn actualiza sus modelos de IA cada hora (y por qué importa) [not-audio_url] [/not-audio_url]

Duration: 22:02
🥷 ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Apúntate aquí a la membresía ninja⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ 🥷Accede a todo el contenido para convertirte en un ninja de los datos:⚡️ ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Podcast premium⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ 🛠️ ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Tutoriales⁠⁠⁠⁠…
104. ¿Qué significa REALMENTE data-driven? [not-audio_url] [/not-audio_url]

Duration: 19:25
En el episodio de hoy desciframos qué significa REALMENTE ser data-driven y por qué el 76% de las empresas fracasa en el intento.Descubre cómo diseñar una estrategia de datos que funcione de verdad, no solo que quede bon…
103. ¿Qué hace un analista de datos? [not-audio_url] [/not-audio_url]

Duration: 19:43
🥷 ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Apúntate aquí a la membresía ninja⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ 🥷Accede a todo el contenido para convertirte en un ninja de los datos:⚡️ ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Podcast premium⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ 🛠️ ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Tutoriales⁠⁠⁠⁠⁠⁠⁠⁠⁠…
102. Los datos no valen nada sin ESTO [not-audio_url] [/not-audio_url]

Duration: 19:53
🥷 ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Apúntate aquí a la membresía ninja⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ 🥷Accede a todo el contenido para convertirte en un ninja de los datos:⚡️ ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Podcast premium⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ 🛠️ ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Tutoriales⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠📚 ⁠…
101. La amenaza fantasma (3 años después) [not-audio_url] [/not-audio_url]

Duration: 10:42
🥷 Apúntate a la Comunidad NinjaAccede a todo para convertirte en ninja de los datos:🎬 Sesiones de formación⚡️ Podcast premium 🛠 Tutoriales 📚 Resúmenes de libros topHoy te cuento qué trabajos va a hacer desaparecer la Int…
100. ¿Y ahora qué? [not-audio_url] [/not-audio_url]

Duration: 21:25
🎉 Hemos llegado a 100 🎉 Así que hoy tómate algo a nuestra salud y la de nuestro podcast de confianza. Nos lo hemos ganado 😌 ¡Ah! Y apúntate aquí (https://datos.kit.com/roadmap) para el tema del que hablo en el episodio d…
99. Grandes éxitos de la Inteligencia Artificial - Industria y política [Edición 2024] [not-audio_url] [/not-audio_url]

Duration: 27:29
🥷 ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Apúntate aquí a la membresía ninja⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ 🥷 Accede a todo el contenido para convertirte en un ninja de los datos: ⚡️ ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Podcast premium⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ 🛠️ ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Tutoriales⁠⁠⁠⁠⁠⁠⁠…