14. Etapas de un proyecto de Machine Learning: Los datos

Author: Marta Arroyo September 14, 2022 Duration: 16:33

Technology

📝 Podéis encontrar las notas del programa completas en https://datos.ninja/podcast/14-etapas-proyecto-machine-learning-parte-2/

En el episodio de hoy de Un Podcast Ninja sobre Big Data seguimos con la saga de episodios dedicados a las etapas de un proyecto de Machine Learning. Vamos a tratar la parte más importante: los datos.

La disponibilidad de los datos suele ser la parte más limitante cuando queremos resolver un problema mediante Machine Learning.

Por eso, una de las averiguaciones más importantes que tenemos que hacer es saber qué datos tendremos disponibles tanto para entrenar nuestro modelo de Machine Learning como para utilizarlo.

Tiene que ser datos representativos. Es decir, reflejan con exactitud el entorno que estamos modelando.
Los datos tienen que ser consistentes.
Deberían proceder de fuentes fiables y estar disponibles.
Los datos deberían ser abundantes. Cuantos más ejemplos mostremos a nuestro modelo de Machine Learning mejor.

El siguiente paso en el camino para construir un dataset sería etiquetar los datos. Dependiendo del caso de uso y los recursos de los que dispongamos tendremos las siguientes opciones:

Etiquetarlos nosotros mismos.
Contratar a alguien para que lo haga por nosotros. Existen empresas que se dedican exclusivamente al etiquetado de datos.
Utilizar Mechanical Turk, una plataforma de Amazon que pone en contacto a gente que quiere etiquetar datos con gente dispuesta a hacerlo por un módico precio.

Una vez recogidos y etiquetados, una buena práctica es familiarizarnos con ellos antes de comenzar con el entrenamiento del modelo de Machine Learning. Esto nos ayudará a reconocer errores que puedan surgir en nuestros resultados.

Y recordad que si disponéis de tiempo extra para vuestro proyecto de Machine Learning tal vez sea más efectivo dedicarlas a recoger más datos que a tunear el modelo que habéis entrenado.

Espero que el episodio os sea de provecho 😊

Si es así, no olvidéis dejar un «Me gusta» y algún comentario al episodio en Ivoox o una valoración de 5 estrellas del podcast en Apple podcasts, en Spotify, en Google podcasts o donde quiera que escuchéis el podcast.

Recordad que si tenéis cualquier duda o pregunta podéis contactar conmigo a través del formulario de contacto o podemos seguir la conversación en Twitter.

Muchas gracias por estar ahí y os espero en el próximo episodio de Un Podcast Ninja sobre Big Data.

Big Data e Inteligencia Artificial

Marta Arroyo te invita a adentrarte en el universo del Big Data e Inteligencia Artificial. Este podcast está pensado para quienes, desde su día a día aparentemente ordinario, sienten curiosidad por las tecnologías que están redefiniendo nuestro mundo y desean comprenderlas sin necesidad de un doctorado en ciencias de la computación. Cada episodio desmonta conceptos complejos en ideas accesibles, explorando no solo el cómo funcionan estas herramientas, sino también su impacto práctico, sus implicaciones éticas y su rumbo futuro. Escucharás conversaciones que van más allá de la teoría, encontrando aplicaciones reales, historias de implementación y reflexiones sobre el papel humano en un panorama cada vez más automatizado. Es un espacio para aprender, cuestionar y descubrir cómo estos campos no son solo dominio de expertos, sino habilidades que cualquiera puede comenzar a descifrar. Acompaña a Marta en este viaje de transformación digital, donde la información y la algorítmica dejan de ser un misterio para convertirse en un lenguaje familiar. Suscríbete para no perderte ningún episodio de este podcast que democratiza el conocimiento técnico.

Author: Marta Arroyo Language: es-es Episodes: 100

Official website RSS

Podcast Episodes

[not-audio_url]

[/not-audio_url]

108. Agentes

08.04.2026

Duration: 13:00

Todo el mundo habla de agentes de inteligencia artificial pero muchos no sabrían identificar uno si lo tuvieran delante.🎧 Episodio completoEn este episodio os explico qué es un agente de IA, en qué se diferencia de un mo…

[not-audio_url]

[/not-audio_url]

107. Grandes éxitos de la Inteligencia Artificial - Industria y política [Edición 2025]

17.12.2025

Duration: 29:06

🥷 ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Apúntate aquí a la ⁠Comunidad Ninja⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ 🥷Accede a todo el contenido para convertirte en un ninja de los datos:🎥 ⁠⁠Sesiones en directo⁠⁠⚡️ ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Podcast premium⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠📚 ⁠⁠⁠⁠…

[not-audio_url]

[/not-audio_url]

106. Grandes éxitos de la Inteligencia Artificial [Edición 2025]

12.12.2025

Duration: 30:39

🥷 ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Apúntate aquí a la Comunidad Ninja⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ 🥷Accede a todo el contenido para convertirte en un ninja de los datos:🎥 ⁠Sesiones en directo⁠⚡️ ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Podcast premium⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠📚 ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠…

[not-audio_url]

[/not-audio_url]

105. Cómo LinkedIn actualiza sus modelos de IA cada hora (y por qué importa)

29.10.2025

Duration: 22:02

🥷 ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Apúntate aquí a la membresía ninja⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ 🥷Accede a todo el contenido para convertirte en un ninja de los datos:⚡️ ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Podcast premium⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ 🛠️ ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Tutoriales⁠⁠⁠⁠…

[not-audio_url]

[/not-audio_url]

104. ¿Qué significa REALMENTE data-driven?

08.10.2025

Duration: 19:25

En el episodio de hoy desciframos qué significa REALMENTE ser data-driven y por qué el 76% de las empresas fracasa en el intento.Descubre cómo diseñar una estrategia de datos que funcione de verdad, no solo que quede bon…

[not-audio_url]

[/not-audio_url]

103. ¿Qué hace un analista de datos?

26.09.2025

Duration: 19:43

🥷 ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Apúntate aquí a la membresía ninja⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ 🥷Accede a todo el contenido para convertirte en un ninja de los datos:⚡️ ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Podcast premium⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ 🛠️ ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Tutoriales⁠⁠⁠⁠⁠⁠⁠⁠⁠…

[not-audio_url]

[/not-audio_url]

102. Los datos no valen nada sin ESTO

10.09.2025

Duration: 19:53

🥷 ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Apúntate aquí a la membresía ninja⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ 🥷Accede a todo el contenido para convertirte en un ninja de los datos:⚡️ ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Podcast premium⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ 🛠️ ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Tutoriales⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠📚 ⁠…

[not-audio_url]

[/not-audio_url]

101. La amenaza fantasma (3 años después)

20.08.2025

Duration: 10:42

🥷 Apúntate a la Comunidad NinjaAccede a todo para convertirte en ninja de los datos:🎬 Sesiones de formación⚡️ Podcast premium 🛠 Tutoriales 📚 Resúmenes de libros topHoy te cuento qué trabajos va a hacer desaparecer la Int…

[not-audio_url]

[/not-audio_url]

100. ¿Y ahora qué?

18.12.2024

Duration: 21:25

🎉 Hemos llegado a 100 🎉 Así que hoy tómate algo a nuestra salud y la de nuestro podcast de confianza. Nos lo hemos ganado 😌 ¡Ah! Y apúntate aquí (https://datos.kit.com/roadmap) para el tema del que hablo en el episodio d…

[not-audio_url]

[/not-audio_url]

99. Grandes éxitos de la Inteligencia Artificial - Industria y política [Edición 2024]

11.12.2024

Duration: 27:29

🥷 ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Apúntate aquí a la membresía ninja⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ 🥷 Accede a todo el contenido para convertirte en un ninja de los datos: ⚡️ ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Podcast premium⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ 🛠️ ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Tutoriales⁠⁠⁠⁠⁠⁠⁠…