14. Etapas de un proyecto de Machine Learning: Los datos

14. Etapas de un proyecto de Machine Learning: Los datos

Author: Marta Arroyo September 14, 2022 Duration: 16:33

📝 PodĂ©is encontrar las notas del programa completas en https://datos.ninja/podcast/14-etapas-proyecto-machine-learning-parte-2/

En el episodio de hoy de Un Podcast Ninja sobre Big Data seguimos con la saga de episodios dedicados a las etapas de un proyecto de Machine Learning. Vamos a tratar la parte mĂĄs importante: los datos.

La disponibilidad de los datos suele ser la parte mĂĄs limitante cuando queremos resolver un problema mediante Machine Learning.

Por eso, una de las averiguaciones mĂĄs importantes que tenemos que hacer es saber quĂ© datos tendremos disponibles tanto para entrenar nuestro modelo de Machine Learning como para utilizarlo.

  • Tiene que ser datos representativos. Es decir, reflejan con exactitud el entorno que estamos modelando.
  • Los datos tienen que ser consistentes.
  • DeberĂ­an proceder de fuentes fiables y estar disponibles.
  • Los datos deberĂ­an ser abundantes. Cuantos mĂĄs ejemplos mostremos a nuestro modelo de Machine Learning mejor.

El siguiente paso en el camino para construir un dataset serĂ­a etiquetar los datos. Dependiendo del caso de uso y los recursos de los que dispongamos tendremos las siguientes opciones:

  • Etiquetarlos nosotros mismos.
  • Contratar a alguien para que lo haga por nosotros. Existen empresas que se dedican exclusivamente al etiquetado de datos.
  • Utilizar Mechanical Turk, una plataforma de Amazon que pone en contacto a gente que quiere etiquetar datos con gente dispuesta a hacerlo por un mĂłdico precio.

Una vez recogidos y etiquetados, una buena prĂĄctica es familiarizarnos con ellos antes de comenzar  con  el entrenamiento del modelo de Machine Learning. Esto nos ayudarĂĄ a reconocer errores que puedan surgir en nuestros resultados.

Y recordad que si disponéis de tiempo extra para vuestro proyecto de Machine Learning tal vez sea mås efectivo dedicarlas a recoger mås datos que a tunear el modelo que habéis entrenado.

Espero que el episodio os sea de provecho 😊

Si es asĂ­, no olvidĂ©is dejar un «Me gusta» y algĂșn comentario al episodio en Ivoox o una valoraciĂłn de 5 estrellas del podcast en Apple podcasts, en Spotify, en Google podcasts o donde quiera que escuchĂ©is el podcast.

Recordad que si tenéis cualquier duda o pregunta podéis contactar conmigo a través del formulario de contacto o podemos seguir la conversación en Twitter.

Muchas gracias por estar ahĂ­ y os espero en el prĂłximo episodio de Un Podcast Ninja sobre Big Data.


Marta Arroyo te invita a adentrarte en el universo del Big Data e Inteligencia Artificial. Este podcast estĂĄ pensado para quienes, desde su dĂ­a a dĂ­a aparentemente ordinario, sienten curiosidad por las tecnologĂ­as que estĂĄn redefiniendo nuestro mundo y desean comprenderlas sin necesidad de un doctorado en ciencias de la computaciĂłn. Cada episodio desmonta conceptos complejos en ideas accesibles, explorando no solo el cĂłmo funcionan estas herramientas, sino tambiĂ©n su impacto prĂĄctico, sus implicaciones Ă©ticas y su rumbo futuro. EscucharĂĄs conversaciones que van mĂĄs allĂĄ de la teorĂ­a, encontrando aplicaciones reales, historias de implementaciĂłn y reflexiones sobre el papel humano en un panorama cada vez mĂĄs automatizado. Es un espacio para aprender, cuestionar y descubrir cĂłmo estos campos no son solo dominio de expertos, sino habilidades que cualquiera puede comenzar a descifrar. Acompaña a Marta en este viaje de transformaciĂłn digital, donde la informaciĂłn y la algorĂ­tmica dejan de ser un misterio para convertirse en un lenguaje familiar. SuscrĂ­bete para no perderte ningĂșn episodio de este podcast que democratiza el conocimiento tĂ©cnico.
Author: Language: es-es Episodes: 100

Big Data e Inteligencia Artificial
Podcast Episodes
108. Agentes [not-audio_url] [/not-audio_url]

Duration: 13:00
Todo el mundo habla de agentes de inteligencia artificial pero muchos no sabrĂ­an identificar uno si lo tuvieran delante.🎧 Episodio completoEn este episodio os explico quĂ© es un agente de IA, en quĂ© se diferencia de un mo

107. Grandes éxitos de la Inteligencia Artificial - Industria y política [Edición 2025] [not-audio_url] [/not-audio_url]

Duration: 29:06
đŸ„· ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ApĂșntate aquĂ­ a la ⁠Comunidad Ninja⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ đŸ„·Accede a todo el contenido para convertirte en un ninja de los datos:đŸŽ„ ⁠⁠Sesiones en directoâ â âšĄïž ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Podcast premium⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠📚 ⁠⁠⁠⁠

106. Grandes éxitos de la Inteligencia Artificial [Edición 2025] [not-audio_url] [/not-audio_url]

Duration: 30:39
đŸ„· ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ApĂșntate aquĂ­ a la Comunidad Ninja⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ đŸ„·Accede a todo el contenido para convertirte en un ninja de los datos:đŸŽ„ ⁠Sesiones en directoâ âšĄïž ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Podcast premium⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠📚 ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠

105. Cómo LinkedIn actualiza sus modelos de IA cada hora (y por qué importa) [not-audio_url] [/not-audio_url]

Duration: 22:02
đŸ„· ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ApĂșntate aquĂ­ a la membresĂ­a ninja⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ đŸ„·Accede a todo el contenido para convertirte en un ninja de los datos:âšĄïž ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Podcast premium⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ đŸ› ïž ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Tutoriales⁠⁠⁠⁠

104. ¿Qué significa REALMENTE data-driven? [not-audio_url] [/not-audio_url]

Duration: 19:25
En el episodio de hoy desciframos quĂ© significa REALMENTE ser data-driven y por quĂ© el 76% de las empresas fracasa en el intento.Descubre cĂłmo diseñar una estrategia de datos que funcione de verdad, no solo que quede bon

103. ¿Qué hace un analista de datos? [not-audio_url] [/not-audio_url]

Duration: 19:43
đŸ„· ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ApĂșntate aquĂ­ a la membresĂ­a ninja⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ đŸ„·Accede a todo el contenido para convertirte en un ninja de los datos:âšĄïž ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Podcast premium⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ đŸ› ïž ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Tutoriales⁠⁠⁠⁠⁠⁠⁠⁠⁠

102. Los datos no valen nada sin ESTO [not-audio_url] [/not-audio_url]

Duration: 19:53
đŸ„· ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ApĂșntate aquĂ­ a la membresĂ­a ninja⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ đŸ„·Accede a todo el contenido para convertirte en un ninja de los datos:âšĄïž ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Podcast premium⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ đŸ› ïž ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Tutoriales⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠📚 ⁠

101. La amenaza fantasma (3 años después) [not-audio_url] [/not-audio_url]

Duration: 10:42
đŸ„· ApĂșntate a la Comunidad NinjaAccede a todo para convertirte en ninja de los datos:🎬 Sesiones de formaciĂłnâšĄïž Podcast premium 🛠 Tutoriales 📚 ResĂșmenes de libros topHoy te cuento quĂ© trabajos va a hacer desaparecer la Int

100. ¿Y ahora qué? [not-audio_url] [/not-audio_url]

Duration: 21:25
🎉 Hemos llegado a 100 🎉 AsĂ­ que hoy tĂłmate algo a nuestra salud y la de nuestro podcast de confianza. Nos lo hemos ganado 😌 ÂĄAh! Y apĂșntate aquĂ­ (https://datos.kit.com/roadmap) para el tema del que hablo en el episodio d

99. Grandes éxitos de la Inteligencia Artificial - Industria y política [Edición 2024] [not-audio_url] [/not-audio_url]

Duration: 27:29
đŸ„· ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ApĂșntate aquĂ­ a la membresĂ­a ninja⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ đŸ„· Accede a todo el contenido para convertirte en un ninja de los datos: âšĄïž ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Podcast premium⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠ đŸ› ïž ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠Tutoriales⁠⁠⁠⁠⁠⁠⁠