ciencia de datos - freeCodeCamp.org

Estadística para Ciencia de Datos: Una Guía Completa para Aspirantes a Practicantes de ML

Diego Lopez — Tue, 12 Nov 2024 02:32:39 +0000

En este mundo hiperconectado, los datos se generan y consumen a un ritmo sin precedentes.

Por mucho que disfrutemos de esta superconductividad de datos, también invita al abuso. Los profesionales de datos deben estar capacitados para utilizar métodos estadísticos no solo para interpretar números, sino también para descubrir tales abusos y protegernos de ser engañados.

No muchos científicos de datos tienen una formación formal en estadística. También hay muy pocos libros y cursos buenos que enseñen estos métodos estadísticos desde una perspectiva de ciencia de datos.

A través de esta publicación, pretendo arrojar algo de luz sobre lo siguiente:

¿Qué es estadística?
Estadística en relación con el aprendizaje de máquina.
¿Por qué debes profesionalizarte en estadística?
¿Qué curriculum debes seguir para dominar estos temas?
¿Cómo estudiar estadística para convertirse en un practicante en lugar de un examinador?
Consejos prácticos y recursos de aprendizaje.

¿Qué es Estadística?

La estadística es un conjunto de métodos y herramientas matemáticas que nos permiten responder preguntas importantes sobre los datos. Se divide en dos categorías:

Estadística Descriptiva: este ofrece métodos para resumir datos transformando observaciones sin modificar en información significativa que sea fácil de interpretar y compartir.
Estadística Inferencial: este ofrece métodos para estudiar experimentos hechos en pequeños ejemplos de datos y eliminar las interferencias a toda la población (dominio entero).

Ahora, las estadísticas y el aprendizaje automático son dos áreas de estudio estrechamente ralacionadas. Las estadísticas es un pre-requisito importante para el aprendizaje automático aplicado, ya que nos ayuda a seleccionar, evaluar e interpretar modelos predictivos.

Estadísticas y Aprendizaje Automático

El núcleo principal del aprendizaje automático está centrado alrededor de las estadísticas. No puedes resolver problemas del mundo real con aprendizaje automático si no tienes un buen conocimiento de los fundamentos estadísticos.

Ciertamente hay factores que hacen el aprendizaje de estadística muy difícil. Hablo acerca de las ecuaciones matemáticas, notación griega, y conceptos meticulosamente definidos que hace difícil generar interés en el tema.

Podemos abordar estos problemas con explicaciones claras y simples, tutoriales a un ritmo adecuado, y proyectos prácticos para resolver problemas con métodos estadísticos aplicados.

Desde el análisis de datos exploratorio a el diseño de experimentos de pruebas de hipótesis, las estadísticas juegan un rol importante en resolución de problemas principales que abarcan todas las industrias y dominios.

Cualquiera que desee desarrollar una comprensión profunda del aprendizaje automático debe aprender cómo los métodos estadísticos forman la base de los algoritmos de regresión y clasificación, cómo las estadísticas nos permiten aprender de los datos y cómo nos ayudan a extraer significado de datos no etiquetados.

¿Por qué debes dominar la estadística?

Cada organización se esfuerza por convertirse en una organización basada en datos. Por eso estamos siendo testigos de un aumento en la demanda de cientifícos y analistas de datos.

Ahora, para resolver problemas, responder preguntas, y trazar una estrategia, necesitamos hacer sentido de los datos. Afortunadamente, las estadísticas ofrecen una colección de herramientas para producir esos resultados.

De los datos al conocimiento

De manera aislada, las observaciones sin modificar son solo datos. Utilizamos estadísticas descriptivas para transformar estas observaciones en información que tenga sentido.

Luego podemos utilizar estadísticas inferenciales para estudiar pequeñas muestras de datos y extrapolar nuestros hallazgos a toda la población.

Las estadísticas ayudan a responder preguntas como...

¿Qué características son las más importantes?
¿Cómo deberíamos diseñar el experimento para desarrollar nuestra estrategia de producto?
¿Qué métricas de rendimiento deberíamos medir?
¿Cuál es el resultado más común y esperado?
¿Cómo diferenciamos entre ruido y datos válidos?

Todas estas son preguntas comunes e importantes que los equipos de datos deben responder a diario.

Las respuestas nos ayudan a tomar decisiones de manera eficaz. Los métodos estadísticos no solo nos ayudan a establecer proyectos de modelado predictivo, sino también a interpretar los resultados.

Proyectos de estadística y aprendizaje automático

Casi todos los proyectos de aprendizaje automático consisten en las siguientes tareas, y las estadísticas desempeñan un papel central en todos ellos de una forma u otra. A continuación, se explica cómo:

Definición de un enunciado del problema

La parte más crucial del modelado predictivo es la definición real del problema que nos brinda el objetivo real que debemos perseguir.

Esto nos ayuda a decidir el tipo de problema con el que nos enfrentamos (es decir, regresión o clasificación). Y también nos ayuda a decidir la estructura y los tipos de entradas, salidas y métricas con respecto al objetivo.

Pero la formulación del problema no siempre es sencilla. Si eres nuevo en el aprendizaje automático, es posible que requieras una exploración significativa de las observaciones en el dominio. Dos conceptos principales que debes dominar aquí son el análisis exploratorio de datos (EDA) y la minería de datos.

Exploración inicial de datos

La exploración de datos implica obtener un conocimiento profundo tanto de las distribuciones de las variables como de las relaciones entre las variables de los datos.

En parte, la experiencia en un campo le ayuda a adquirir este dominio sobre un tipo específico de variable. Sin embargo, tanto los expertos como los recién llegados al campo se benefician al manejar realmente observaciones reales del campo.

Los conceptos importantes relacionados con las estadísticas se reducen al aprendizaje de las estadísticas descriptivas y la visualización de datos.

Limpieza de datos

A menudo, los puntos de datos que se ha recopilado de un experimento o un repositorio de datos no están en un estado perfecto. Es posible que los datos hayan sido sometidos a procesos o manipulaciones que dañaron su integridad. Esto afecta aún más a los procesos o modelos posteriores que utilizan los datos.

Algunos ejemplos comunes incluyen valores faltantes, corrupción de datos, errores de datos (debido a un sensor defectuoso) y datos sin formato (observaciones con diferentes escalas).

Si desea dominar los métodos de limpieza, debe aprender sobre la detección de valores atípicos y la imputación de valores faltantes.

Preparación de datos y configuración de canales de transformación

Si los datos contienen errores e inconsistencias, a menudo no se pueden utilizar directamente para el modelado.

Primero, es posible que los datos deban pasar por un conjunto de transformaciones para cambiar su forma o estructura y hacerlos más adecuados para el problema que ha definido o los algoritmos de aprendizaje que está utilizando.

Luego, puedes desarrollar un canal de dichas transformaciones que aplique a los datos para producir una entrada consistente y compatible para el modelo.

Debes dominar conceptos como el muestreo de datos y los métodos de selección de características, las transformaciones de datos, el escalado y la codificación.

Selección y evaluación de modelos

Un paso clave para resolver un problema predictivo es seleccionar y evaluar el método de aprendizaje. Las estadísticas de estimación le ayudan a puntuar las predicciones del modelo a partir de datos no vistos.

El diseño experimental es un subcampo de la estadística que impulsa el proceso de selección y evaluación de un modelo. Exige una buena comprensión de las pruebas de hipótesis estadísticas y las estadísticas de estimación.

Ajuste fino del modelo

Casi todos los algoritmos de aprendizaje automático tienen un conjunto de hiperparámetros que permiten personalizar el método de aprendizaje para el marco del problema elegido.

Este ajuste de hiperparámetros suele ser de naturaleza empírica, en lugar de analítica. Requiere grandes conjuntos de experimentos para evaluar el efecto de diferentes configuraciones de hiperparámetros en el rendimiento del modelo.

Plan de estudios de estadística para profesionales

Un buen plan de estudios de estadística para profesionales no solo debe cubrir la gran cantidad de métodos y herramientas que acabo de mencionar. También debe cubrir y explorar los problemas más comunes que enfrenta la industria.

La siguiente es una lista de habilidades ampliamente utilizadas que necesitará conocer para tener éxito en las entrevistas de ciencia de datos y aprendizaje automático y conseguir un trabajo en el campo.

Habilidades de estadística general

Cómo definir preguntas que se puedan responder estadísticamente para una toma de decisiones eficaz.
Calcular e interpretar estadísticas comunes y cómo utilizar técnicas de visualización de datos estándar para comunicar los hallazgos.
Comprensión de cómo se aplica la estadística matemática al campo, conceptos como el teorema del límite central y la ley de los grandes números.
Realizar inferencias a partir de estimaciones de ubicación y variabilidad (ANOVA).
Cómo identificar la relación entre las variables objetivo y las variables independientes.
Cómo diseñar experimentos de prueba de hipótesis estadísticas, pruebas A/B, etc.
Cómo calcular e interpretar métricas de rendimiento como el valor p, alfa, errores tipo 1 y tipo 2, etc.

Conceptos estadísticos importantes

Introducción: comprensión de los tipos de datos (rectangulares y no rectangulares), estimación de la ubicación, estimación de la variabilidad, distribuciones de datos, datos binarios y categóricos, correlación, relación entre diferentes tipos de variables.
Distribución de estadísticas: números aleatorios, ley de los grandes números, teorema del límite central, error estándar, etc.
Muestreo y distribuciones de datos: muestreo aleatorio, sesgo de muestreo, sesgo de selección, distribución de muestreo, arranque, intervalo de confianza, distribución normal, distribución t, distribución binomial, distribución de chi-cuadrado, distribución F, distribución de Poisson y exponencial.
Experimentos estadísticos y pruebas de significancia: pruebas A/B, realización de pruebas de hipótesis (nula/alternativa), remuestreo, significancia estadística, intervalo de confianza, valor p, alfa, pruebas t, grado de libertad, ANOVA, valores críticos, covarianza y correlación, tamaño del efecto, potencia estadística.
Métodos estadísticos no paramétricos: datos de rango, pruebas de normalidad, normalización de datos, correlación de rango, pruebas de significación de rango, prueba de independencia

Consejos prácticos de aprendizaje

La mayoría de las universidades han diseñado sus programas de estudio de estadística para poner a prueba la capacidad de memorización de los estudiantes. Solo comprueban si los estudiantes pueden resolver ecuaciones, definir terminologías e identificar gráficos que deriven ecuaciones, en lugar de centrarse en la aplicación de estos métodos para resolver problemas del mundo real.

Sin embargo, los aspirantes a profesionales deben seguir un proceso paso a paso de aprendizaje e implementación de métodos estadísticos en diferentes problemas utilizando código de Python ejecutable.

Veamos los dos enfoques principales para estudiar estadística un poco más en profundidad:

Enfoque descendente

Supongamos que le piden que diseñe un experimento para probar la eficiencia de dos versiones de una característica de un producto. Se supone que esta característica aumenta la participación de los usuarios en un portal en línea.

Con un enfoque descendente, primero aprenderá más sobre el problema. Luego, una vez que el objetivo esté claro, puede aprender a aplicar los métodos estadísticos adecuados.

Esto lo mantiene involucrado y ofrece una mejor experiencia de aprendizaje práctico.

Enfoque ascendente

Este enfoque es el que utilizan la mayoría de las universidades y cursos en línea para enseñar estadística. Se centra en aprender los conceptos teóricos con notación matemática, la historia de ese concepto y cómo implementarlo.

Para las personas como yo, que tienden a perder interés en el aprendizaje teórico, esta no es la forma correcta de aprender estadística aplicada. Lo vuelve demasiado metafórico, lo que hace que el tema sea árido y deprimente sin ningún vínculo directo con la resolución de problemas.

Como probablemente puedes deducir, recomiendo un enfoque descendente para estudiar estadística.

Veamos ahora algunos recursos específicos que recomiendo para comenzar por el camino correcto.

Recursos de aprendizaje

Libro sobre estadística práctica (en inglés): este libro le enseñará estadística desde el punto de vista de la ciencia de datos. Debe leer al menos los primeros tres capítulos de este libro.

Estadística y probabilidad | Khan Academy (en inglés): este curso te preparará bien para todas las preguntas relacionadas con la estadística y la probabilidad durante la entrevista. Un curso gratuito con una buena recopilación de videoconferencias y problemas prácticos.

Estadística al desnudo: para las personas que temen a las matemáticas y prefieren entender ejemplos prácticos, este es un libro increíble que explica cómo se aplica la estadística en situaciones de la vida real.

Métodos estadísticos para el aprendizaje automático (en inglés): este libro sirve como curso intensivo sobre métodos estadísticos para profesionales del aprendizaje automático. Idealmente, para aquellos con experiencia como desarrolladores.

A continuación…

Crearé una serie de tutoriales sobre cada uno de los temas mencionados anteriormente siguiendo un enfoque de código primero para que podamos comprender y visualizar el significado y la aplicación de estos conceptos.

Si me he olvidado de algún detalle o si quieres que cubra algún otro aspecto de las estadísticas, responde a esta historia y lo agregaré al plan de estudios.

Ciencia de datos con Harshit

Con este canal, planeo lanzar un par de series que cubran todo el espacio de la ciencia de datos. Aquí está el motivo por el cual deberías suscribirte al canal:

Esta serie cubriría todos los tutoriales de calidad requeridos/exigidos sobre cada uno de los temas y subtemas, como los fundamentos de Python para la ciencia de datos.
Explicación de las matemáticas y las derivaciones de por qué hacemos lo que hacemos en ML y Deep Learning.
Podcasts con científicos e ingenieros de datos de Google, Microsoft, Amazon, etc., y directores ejecutivos de empresas impulsadas por big data.
Proyectos e instrucciones para implementar los temas aprendidos hasta ahora. Obtén información sobre nuevas certificaciones, Bootcamp y recursos para aprobar esas certificaciones, como este Examen de Certificación de Desarrollador de TensorFlow de Google.

Si este tutorial te resultó útil, deberías consultar mis cursos de ciencia de datos y aprendizaje automático en Wiplane Academy. Son completos pero compactos y te ayudan a construir una base sólida de trabajo para exhibir.

Recursos para aprender Ciencia de Datos y no desistir en el intento: algunos links y consejos

Andrés Torres — Wed, 12 Jul 2023 14:01:16 +0000

La Ciencia de Datos es un campo emocionante y en constante crecimiento que combina matemáticas, estadísticas y programación para analizar datos y extraer insights. Si estás interesado en adentrarte en este fascinante mundo, aquí tienes una lista de enlaces recomendados para comenzar tu aprendizaje.

Antes que nada tengo que aclarar que incluyo recursos aparte de FreeCodeCamp. Estos recursos pueden ser perfectamente complementarios para los que desean estudiar algunas de las certificaciones de FreeCodeCamp.

Este artículo es un poco más personal dado que la gran mayoría de estos recursos me han ayudado en mi aprendizaje de Ciencia de Datos. Los comparto como aditamiento a un futuro Podcast de FreeCodeCamp español, organizado por Rafael Hernandez.

Si lo que buscas son proyectos de Python, aquí tienes algunos. Por otra parte, si necesitas un esquema de la disciplina, puedes consultar este artículo. Las recomendaciones son opcionales y están basadas en mi análisis propio (que puede errar), aún así espero que alguna parte de este artículo te sea de ayuda. Sin más demoras, he aquí los recursos.

Recursos en español:

Afi Escuela - Machine Learning: Enlace
Descripción: Este canal de YouTube ofrece una serie de videos sobre Machine Learning, donde podrás aprender los conceptos básicos y técnicas avanzadas de esta disciplina.
Data Science: Enlace
Descripción: Explora esta lista de reproducción que cubre diversos temas relacionados con la Ciencia de Datos, incluyendo análisis exploratorio de datos, visualización y algoritmos de aprendizaje automático.
Píldoras Informáticas - SQL: Enlace
Descripción: Aprende SQL, un lenguaje de consulta utilizado para trabajar con bases de datos, a través de esta serie de videos que cubren desde los fundamentos hasta técnicas más avanzadas.
Píldoras Informáticas - Python: Enlace
Descripción: Descubre el lenguaje de programación Python con esta serie de videos que te guiarán desde los conceptos básicos hasta temas más avanzados.
Aprendizaje y Minería de Datos (Con R) - Universidad Politécnica de Valencia: Enlace
Descripción: Esta lista de reproducción ofrece un curso completo sobre Aprendizaje y Minería de Datos utilizando el lenguaje R. Aprenderás técnicas estadísticas y algoritmos utilizados en este campo.
Fundamentos de Estadística - Universidad de los Andes: Enlace
Descripción: A través de este curso en Coursera, obtendrás los fundamentos de la estadística y aprenderás a aplicarlos en situaciones reales.
Curso de R - SEE Sociedad Ecuatoriana de Estadística: Enlace Descripción: Este es un curso en español ofrecido por la Sociedad Ecuatoriana de Estadística (SEE). Está enfocado en el lenguaje de programación R, ampliamente utilizado en análisis estadístico y en ciencia de datos. R es una herramienta poderosa para visualización, manipulación y análisis de datos. Es ideal para aquellos que deseen fortalecer sus habilidades en el análisis estadístico y la manipulación de datos utilizando R.

Recursos en inglés para aprender Ciencia de Datos:

A continuación, se presentan una serie de enlaces recomendados en inglés que te serán útiles para aprender sobre Ciencia de Datos:

Intro to Data Science (Enfoque Matemático)
Matemáticas para Ciencia de Datos (Álgebra Lineal) y Cálculo Multivariable
Aprendizaje Automático (Andrew NG es un clásico)
Aprendizaje Automático (También un clásico y mi primer curso teórico en ML)
Matemáticas para Ciencia de Datos (Avanzado)
Introducción al Aprendizaje Profundo (Mejor hacer este después de varios cursos introductorios)
Aprendizaje Automático (¡Este es mi curso favorito en ML! El curso del Prof. Kilian es muy recomendado)
Aprendizaje Automático (Curso muy práctico y estructurado, necesitarás trabajar en un Notebook de Jupyter para seguir el curso)
Teoría del Aprendizaje Estadístico (Curso bastante avanzado)
Bootcamp de Ciencia de Datos del Hasso Plattner Institute (Este es reciente, la información es libre pero para sacarle provecho tienes que saber las bases de Python y SQL.)

Cursos gratuitos que NO son simples MOOCs:

Programación en Python: Este curso es de la Universidad de Helsinki. Aprendí mucho en los cursos de 2019 y 2020, por lo que considero que la tradición aún continúa.
Data Análisis en Python: De la misma universidad, solo que centrado en el análisis de datos.
Certificado de Analítica de Datos de Google: Sinceramente, no hice el curso de Data Analytics porque era en R y en ese entonces estaba centrado en Python. Sin embargo, completé el Certificado en Gestión de Proyectos, por lo que puedo recomendar la calidad de los cursos de Google. El certificado es de pago, pero puedes pedir ayuda financiera a Coursera en caso de tener una situación económica difícil.
Beca AWS Machine Learning Scholarship Program: También tienes que aplicar a ayuda financiera. En este caso, la beca es condicional a una selección siguiendo los criterios y la fecha de aplicación.
Applied Data Science Lab: Este es como un bootcamp de Ciencia de Datos. El lenguaje de programación es Python y tienes que aprobar una preselección. El programa es bastante práctico y puede ser bastante demandante si no estás familiarizado/a con la programación orientada a objetos.

Por cierto, la universidad también tiene una Maestría en Ingeniería Financiera. Pero a ver, primero debes tener un título de pregrado, aprobar un test cuantitativo y comprometerte a dedicar hasta 25 horas a la semana en el estudio, lo cual puede generar tensión si ya tienes un trabajo.

Otros consejos para aprender:

Aporta a las comunidades: En mi caso, estuve activo en los foros de R Studio y de la Python Software Foundation, aunque la comunidad a la que más he contribuido ha sido FreeCodeCamp. También he tenido el placer de apreciar el proceso de colaboración en GitLab de la comunidad de NumPy. Incluso sin hacer aportes trascendentales, he aprendido mucho en el proceso. Solo en Python, por ejemplo, hay diversas comunidades que puedes explorar. Puedes encontrar sitios como Devto y otros que son muy útiles para conectar con desarrolladores. No todos necesariamente son científicos de datos, pero puedes aprender mucho de otros roles, lo que fortalecerá tu capacidad. Si estás interesado en una comunidad de nicho, puedes visitar Kaggle.

Lee materiales de Data Science: No voy a recomendar sitios específicos para evitar hacer publicidad, pero leer materiales de Data Science puede ayudarte a reforzar lo que has puesto en práctica.

Aunque no puedes aprender Data Science solo leyendo, el acto de leer puede consolidar tus conocimientos. También puedes optar por revisar exclusivamente el código de otros y analizar si podrías resolver los problemas de manera diferente.

No te preocupes por ser constante: Ok aclarando, hay dos formas de ser constante, una buena en la que tu empiezas algo y te has propuesto casi bajo juramento estudiar una determinada materia o avanzar en cierto proyecto hasta terminar. NO me refiero a ese tipo, eso está muy bien.

Me refiero a la forma "falsa" de ser constante que solo está en nuestra mente debido a nuestros sesgos, es algo así como "el perfil perfecto". Tienes que tener título x, más tantos años de experiencia, y esos mismos años deben de ser en un nicho muy específico, y además debes saber solo cierto lenguaje o cierta herramiento, cierto framework para los proyectos, etc. No se permiten desvíos en la carrera, ni cambios de sector o algo que ponga en evidencia tu "carrera progresiva".

Este es un error que puede surgir en recursos humanos, perfiles idealizados en los que los requisitos están mucho más orientados a encontrar un personaje más que personas que sepan hacer el trabajo.

La diversidad de capacidades y experiencias es parte importante del ser humano, simplemente no necesitas ser el "personaje perfecto". Es muy cierto que muchas veces lo mejor es aplicar, no obstante, saber analizar cuales ofertas son realmente irrealistas te ayudará a ahorrar tiempo y esfuerzo.

Puede haber asomo de razón en juzgar a un hombre por los más comunes rasgos de su vida, pero en atención a la natural instabilidad de nuestras costumbres e ideas, entiendo que hasta los buenos autores hacen mal obstinándose en formar del hombre una contextura sólida y constante: eligen un principio general, y de acuerdo con él ordenan o interpretan las acciones, y si no logran acomodarlas a la idea preconcebida, toman el partido de disimular las que no entran en su patrón. Montaigne "De la inconstancia de nuestras acciones". Ensayos

La recomendación es la siguiente, no te dejes intimidar por este tipo de "ofertas", analiza bien y verás que hay empresas que cuyos requisitos realmente concuerdan con la necesidad que estas tienen.

Pregúntate lo siguiente: ¿Estos requisitos que solicitan, qué necesidad llegarán a satisfacer en la empresa? No es lógico solicitar a alguien con un MBA, con 4 años de experiencia en proyectos, dos de ellos solo con Kanban y que sepa Python, R, y también HTML solo para un puesto de analista de datos. O tampoco sería cuerdo solicitar alguien con ingeniería en ciencias de la computación y 3 años de experiencia solo en determinado sector para un puesto con funciones similares al de Junior Developer pero con otro nombre.

Escribe para reforzar lo aprendido: Este consejo puede ser un poco sesgado, ya que yo amo escribir. No es necesario tener el talento de Jorge Luis Borges, pero creo que en la escritura técnica sobre ciencia de datos, lo que importa es que el mensaje cumpla una función pedagógica.

No se trata de entretener o impresionar, sino de crear contenido útil que simplifique el aprendizaje. Debe ser un contenido educativo que facilite el proceso al máximo. Al ponerse en el lugar de quien explica y de la audiencia/estudiante, podrás reflexionar sobre el proceso y ayudarte a memorizar el tema de forma inconsciente.

Haz voluntariado: Existen dos formas de poner en práctica lo aprendido. Una es participar en proyectos de código en comunidades donde todos tienen conocimientos de programación, como trabajar en un repositorio de Github. La otra forma es trabajar en un entorno 100% "natural", donde la mayoría no tiene idea de programación o solo tiene conocimientos generales.

Contribuir a proyectos sociales u ONGs que te interesen realizando tareas como procesamiento, análisis y visualización de datos te dará una idea de las dificultades del "mundo real". Descubrirás que no todas las organizaciones tienen un marco adecuado para trabajar con los datos.

En algunos casos, incluso podrías convertirte en educador además de analista de datos, ya que tendrás que explicar los procesos a tu equipo. Incluso para el diseño de una campaña de educación ambiental, podrías necesitar una muestra confiable, y la recolección de datos en los plazos establecidos por el project manager requerirá ajustar la metodología y la gestión...

¡Ups! Perdón por la digresión, pero espero que haya quedado clara la moraleja: en un caso real, el entorno organizacional tiene su peso y siempre debes recordar que trabajarás con personas, no solo con programas. Tus habilidades de comunicación serán clave. Tu trabajo no consistirá simplemente en trabajar con notebooks de jupyter.

PD. Si puedes conseguir una pasantía o un trabajo junior remunerado, puedes prescindir del voluntariado.

Aquí te dejo 3 enlaces relevantes:

La pregunta del millón: ¿Es necesario tener estudios universitarios (pregrado, máster) para ejercer en Data Science?

Respuesta rápida: No. Respuesta extensa: Depende de lo que quieras hacer y dónde quieras trabajar.

Algunas empresas tienen requisitos específicos según el sector. Sin duda, tener una formación universitaria es beneficioso para solicitar el puesto, pero la experiencia suele tener más peso. Puedes empezar creando tu propio portafolio (incluso un portafolio como desarrollador de front-end podría ser un buen comienzo). También existe la posibilidad de hacer una transición desde otro rol como Software Testing a Data Science.

Incluso puestos como analista de negocios (business analyst) o analista de datos son buenos antecedentes. Estos roles también cuentan como experiencia relevante y, junto con un portafolio y algunas certificaciones, puedes realizar una transición. Esto también aplica si tienes formación universitaria pero en áreas no cuantitativas.

Otras Salidas Profesionales en el Campo de la Ciencia de Datos

Por último, es necesario que te preguntes acerca de tus objetivos. Al tener conocimientos de Data Science, hay opciones de carrera. No es como si Data Scientist fuera tu única opción. Incluso fuera del sector de tecnología, existen diversas salidas en las que tu conocimiento de programación te daría una ventaja.

Hoy día, hay periodistas utilizando la ciencia de datos en sus investigaciones, como se evidenció en el caso de los "Panamá Papers", donde se analizaron millones de documentos para revelar información sobre evasión fiscal y corrupción. Estos periodistas combinan su experiencia en periodismo con habilidades en ciencia de datos para desentrañar historias complejas y presentar información de manera impactante.

Los project managers también se benefician de tener conocimientos en ciencia de datos. Dirigir proyectos con soluciones centradas en inteligencia artificial se ha vuelto cada vez más relevante en el mundo empresarial. Los project managers con habilidades en ciencia de datos pueden aprovechar las capacidades analíticas y predictivas para tomar decisiones informadas y liderar proyectos exitosos en entornos tecnológicos.

Además, existen carreras especializadas en campos como el analista de investigación de mercado, donde la capacidad de utilizar herramientas de ciencia de datos para analizar datos de mercado y extraer información relevante es fundamental. Los analistas de investigación de mercado pueden utilizar técnicas de minería de datos y análisis predictivo para comprender mejor las tendencias del mercado y ayudar a las empresas a tomar decisiones estratégicas.

La consultoría en transformación digital es otro campo donde los conocimientos de ciencia de datos son altamente valorados. Recientemente un estudio de Deloitte encontró que la capitalización potencial de este mercado posee muy altas prospectivas.

Ayudar a las organizaciones a aprovechar los datos para optimizar sus procesos, tomar decisiones basadas en datos y adaptarse a los desafíos digitales se ha convertido en una necesidad en la era de la transformación digital. Los consultores en transformación digital con habilidades en ciencia de datos pueden guiar a las empresas en su viaje hacia la adopción de tecnologías y prácticas basadas en datos.

Estas son solo algunas de tantas opciones, por otra parte, cada vez es más popular el término Data Literacy, o alfabetismo de datos, de allí que un conocimiento mínimo de esta disciplina se pueda volver un requisito creciente en varios sectores.

Conclusión.

A lo largo de nuestro recorrido, hemos descubierto que adquirir habilidades en ciencia de datos no solo es valioso para convertirse en un Data Scientist, sino que también abre un abanico de oportunidades profesionales en campos muy diversos.

En un mundo impulsado por los datos, la capacidad de recopilar, analizar y transformar información en conocimiento es una habilidad altamente demandada. Los profesionales de la ciencia de datos son buscados por su capacidad para extraer insights significativos de grandes volúmenes de datos, identificar patrones, predecir tendencias y tomar decisiones basadas en evidencia.

No hay tal cosa como un "perfil fijo" para ciencia de datos, así que no te presiones más de lo necesario a la hora de las entrevistas.

Por último, sonará un poco cliché, pero la ciencia de datos se ha convertido en un elemento clave para que las organizaciones impulsen la innovación, optimicen sus operaciones, comprendan mejor a sus clientes y se adelanten a las demandas del mercado. La combinación de conocimientos en programación, estadísticas, aprendizaje automático y visualización de datos otorga a los científicos de datos una ventaja competitiva para abordar los desafíos complejos de hoy en día.

¿Cómo es trabajar en Ciencia de Datos,IA, o Big Data?: Respuesta basada en mi propia experiencia

Andrés Torres — Thu, 04 Aug 2022 02:10:29 +0000

Artículo original: How to work in Data Science, AI, or Big Data based on my experience

En 2013, me entrevisté para un puesto senior en el equipo de ciencia y analítica de datos en una compañía que usa la tecnología para el bienestar social JustGiving. Durante mi entrevista, dije que planeaba ofrecer aprendizaje automático por lotes, análisis de gráficos y sistemas de análisis de transmisión, tanto internamente como en la nube.

Tan solo un par de años después, mi anterior jefe Mike Bugembe y yo ¡Estabamos brindando ponencias en conferencias internacionales, ganando premios y convirtiéndonos en autores!

Esta es mi historia y lo que aprendí en el viaje, además de mis recomendaciones para tí.

¿Por qué ingeniería de Big Data y Ciencia de Datos?

Siempre me ha interesado la inteligencia artificial (IA), el aprendizaje automático (ML) y el procesamiento del lenguaje natural (PNL). En particular, me han interesado los sistemas escalables y hacer que los robots sean más inteligentes y receptivos.

Mi interés en la ingeniería de datos proviene de mi experiencia como arquitecto de soluciones. En ese rol, disfruté construyendo sistemas basados en la nube para almacenar y procesar datos para obtener nuevos conocimientos y perspectivas.

También desarrollo big data y pipelines de Aprendizaje Automático (ML) para automatizar todo el proceso de ML. Esto ayuda a los científicos y analistas de datos a ahorrar tiempo en la preparación de datos para entrenar y probar sus algoritmos, ejecutar métricas y derivar indicadores clave de rendimiento a escala.

La preparación de datos es particularmente importante. Los científicos de datos suelen dedicar alrededor del 80 % de su tiempo a ello. Tener acceso a los datos configurados de la manera correcta los hace más productivos y felices.

Mi experiencia previa

Anteriormente obtuve una maestría en ingeniería de sistemas informáticos y un doctorado en Aprendizaje Automático y NLP. Completé ambos en la Universidad de Manchester.

En lugar de unirme a un proveedor especializado en mi Ph.D. área de especialización, decidí ampliar mis habilidades y ganar más exposición de clientes uniéndome a Capgemini. Capgemini es una gran empresa global de servicios de consultoría, tecnología y outsourcing.

Pasé de ser un desarrollador a un arquitecto de soluciones. Allí, ayudé a entregar proyectos a gran escala para compañías Fortune Global 500 en sectores que incluyen seguros, banca minorista, servicios financieros y gobierno central.

Luego me uní a PageGroup. Allí, trabajé como desarrollador principal y arquitecto en un programa de transformación global en 34 países. Dirigí la entrega técnica de soluciones de búsqueda, comunicación multicanal, inteligencia comercial, análisis de texto, integración de bolsas de trabajo y publicidad.

Roles actuales

Ahora soy ingeniero principal de big data y aprendizaje automático en JustGiving. JustGiving es una empresa de tecnología para el bien que ha ayudado a 26 millones de usuarios en 164 países a recaudar $5 mil millones para buenas causas. Fue adquirida en 2017 por Blackbaud, la empresa de software líder en el mundo que impulsa el bien social.

Actualmente dirijo la entrega y la arquitectura de nuestra plataforma interna de ciencia de datos RAVEN y los sistemas de producción de ML. Estos se implementaron inicialmente con Azure, pero luego se alojaron en AWS. También me sumerjo como científico de datos especializado en análisis de transmisión escalable, algoritmos ML y NLP.

Comparto mi experiencia técnica y mis conocimientos internos y externos relacionados con AWS, procesamiento de señales, pilas sin servidor, ML y NLP. También presento regularmente en conferencias de la industria, abro mi código y escribo publicaciones de blog técnicas en Medium y para AWS, como Analizar una serie temporal en tiempo real.

También soy un asesor y consultor autónomo independiente que ayuda a las organizaciones con la arquitectura en la nube, la computación sin servidor y el aprendizaje automático en Starwolf.

Un día típico en la oficina

JustGiving sigue siendo una empresa emergente en el fondo, por lo que no hay un día típico. Me involucro en diversas tareas, como la captura de datos y requisitos de informes, la ingeniería de nuevas canalizaciones de datos, la investigación de problemas operativos.

Además de estas tareas, están las de ejecución de experimentos con datos, el análisis de datos no estructurados en busca de patrones útiles, la exploración de nuevas formas de utilizar los datos para responder preguntas, la presentación de datos con una historia sólida. También comparto mis conocimientos y experiencia con el resto del equipo.

Esto significa que trabajo en estrecha colaboración con marketing, gerentes de productos y analistas de productos para comprender sus necesidades de datos y qué métricas y predicciones son importantes para ellos.

Hablar con otras personas fuera de tu área de especialización ayuda a ampliar tus puntos de vista, a la vez que te brinda una nueva perspectiva sobre nuevas áreas en las que puedes aplicar tus habilidades.

En el aspecto técnico, trabajo con ingenieros, analistas de datos, desarrolladores, analistas de inteligencia comercial, operaciones y científicos de datos para respaldar sus requisitos de datos y plataformas.

Cosas que disfruto acerca de mi trabajo

Me apasiona trabajar con grandes conjuntos de datos, ya que enfrenta diferentes tipos de problemas de rendimiento, costos y operativos que requieren que piense de manera diferente para escalar su almacén de datos, procesos ETL y algoritmos y cómo presenta sus resultados.

Mucho de lo que sabes sobre el almacenamiento de datos con sus millones de registros se dispara cuando llega a cientos de miles de millones de filas y necesitas iterar o realizar uniones complejas para ejecutar consultas de preparación de datos de ML.

La construcción y ejecución de infraestructuras de datos a gran escala y la capacitación en modelos distribuidos son áreas activas en el mundo académico y la industria. Están evolucionando a un ritmo acelerado, con la introducción de nuevas herramientas cada pocos meses.

Me gusta usar las soluciones en la nube de una manera innovadora para mejorar nuestra plataforma de ciencia de datos interna, mejorar nuestros procesos comerciales y hacer que la información de los datos esté disponible para usuarios internos y externos.

Descubrí que muchas empresas ceden su poder al usar terceros para sus soluciones de análisis web, en lugar de crear las suyas propias. Luego, esos datos se almacenan en silos en los departamentos de marketing o ventas, es difícil, si no imposible, recuperarlos en su forma original. Además, no se pueden transmitir, por ejemplo, te impiden hacer recomendaciones o predicciones de ML en tiempo real directamente en su producto.

En JustGiving creamos un producto de análisis web interno llamado KOALA y tenemos estos datos disponibles en tiempo real como una pila sin servidor de AWS. Esto nos permitió tener un conjunto completo de canalizaciones de datos para la capacitación y el análisis de ML internamente, y los gustos de MAGPIE que nos permiten crear métricas e información en tiempo real que podemos brindar a los usuarios.

He aquí un ejemplo de una versión temprana para una campaña de crowdfunding para las víctimas del ataque de Manchester de 2017.

Además, KOALA nos permite hacer predicciones a partir de datos de streaming. Es una solución extremadamente rentable en comparación con pagar por un producto de proveedor. Si lo comparas con una solución de proveedor basada en el mismo tráfico web, KOALA es 10 veces más económico, más amigable para los desarrolladores y obtenemos los datos sin procesar transmitidos en tiempo real, en lugar de en lotes o tener que usar una consulta bloqueada propiciatoria. o sistema de informes.

También soy un gran admirador de Python y he fomentado con éxito su adopción en la empresa y en una comunidad más amplia para las canalizaciones de datos, ML y computación sin servidor. ¿Por qué Python? Tiene amplias bibliotecas ML, se escala con pySpark y es fácil de leer/escribir.

También puedes emplear tu experiencia en contribuir a diferentes causas. Disfruto trabajando con diferentes ONGs, centros de caridad y universidades, así pago lo recibido por la comunidad compartiendo mi conocimiento; como hice en el AWS and British Heart Foundation Hackathon.

El Futuro de Big Data, la Ciencia de Datos y la Inteligencia Artificial

Veo a más personas que usan ML, análisis en tiempo real, análisis gráfico y NLP en sus productos y aplicaciones. Esto se está acelerando a medida que los proveedores de la nube ofrecen interfaces de programas de aplicaciones (API) ML y NLP.

Para el análisis en tiempo real, existe una demanda creciente por parte de los consumidores que son mucho más conscientes de los datos, a la vez que impacientes. Por ejemplo, quieren saber qué está sucediendo en este momento, ver los resultados de su acción y utilizar aplicaciones y sitios web más inteligentes que se adapten a medida que interactúan con ellos.

Por el lado de la infraestructura, veo que la informática sin servidor y la infraestructura de plataforma como servicio (PaaS) en la nube pública, como AWS y Azure, se están volviendo más prominentes. Las funciones en la computación sin servidor son particularmente interesantes para mí, ya que pueden escalar automáticamente en menos de 100 milisegundos, tienen alta disponibilidad y son de bajo costo.

Son de bajo costo, ya que solo paga por el tiempo que se ejecuta su código, en lugar de una máquina o contenedor siempre activo como en la infraestructura de nube más tradicional. Incluso he demostrado que puede implementar la mayoría de los existentes basados en contenedores de microservicios utilizando una pila sin servidor.

Los marcos y lenguajes de programación de código abierto también seguirán creciendo en comparación con los productos y lenguajes específicos de proveedores, ejemplo; Apache Spark, Python, R, SQL.

Lo mismo ocurre con el almacenamiento y el acceso a los datos: el almacenamiento en la nube, los almacenes de datos y los lagos de datos almacenarán datos en formatos más abiertos en lugar de propietarios, y esto será más accesible a través de API estándar o protocolos abiertos.

También habrá requisitos crecientes para analizar fuentes de datos multimedia y no estructurados, y nuevamente los proveedores de la nube tendrán un papel cada vez más importante que desempeñar.

Además, veremos más empresas que hacen la transición de usar estrategias decididas por unos pocos por instinto en la parte superior, a volverse más basadas en experimentos, evidencias y datos. La prueba de nuevos productos o funciones, la identificación de nuevas oportunidades y las decisiones estratégicas provendrán cada vez más del análisis de datos, la percepción y las predicciones.

Esto requerirá que más personal se involucre en la captura y preparación de datos, la ejecución de experimentos usando algoritmos, la visualización de datos y la presentación de resultados.

Como tal, surgirán nuevos trabajos orientados a los datos basados en la creación y capacitación de modelos de datos, lo que interrumpirá algunos de los campos especializados existentes, como la atención médica, la contabilidad y el derecho.

La IA, Internet de las cosas (IoT) y la robótica también reemplazarán algunos trabajos de cuello azul y blanco existentes, por lo que tendremos que pensar en capacitar y mejorar las habilidades de las personas para el panorama cambiante, y posiblemente introducir algún tipo de ingreso básico universal.

Puede establecer paralelismos con el cambio observado durante la revolución industrial desde la época agraria o preindustrial. Para que la IA despegue, necesitamos que sucedan dos cosas: el costo de los trabajadores humanos se vuelve más alto que la alternativa de la IA y que la IA se implemente de manera escalable.

A largo plazo, la computación cuántica también alterará el campo nuevamente en términos de cómo procesamos, analizamos y almacenamos datos, y transformará áreas como la seguridad cibernética, la banca y la IA existente.

Cómo inspirar a la gente a perseguir una carrera en Ciencia de Datos

Creo que es mucho más fácil lograr que las personas se interesen en big data y ciencia de datos de lo que solía ser, gracias a Google y Facebook, que ponen de moda ser inteligente y trabajar dentro de la tecnología.

Además, el creciente número de nuevas empresas jóvenes y flexibles con infraestructuras en la nube pública están compitiendo con éxito y ganando cuotas de mercado de grandes empresas establecidas.

Los empleadores deben estar dispuestos a educar y mejorar las habilidades del personal existente o los graduados en lugar de contratar únicamente a personas con habilidades existentes en ingeniería o ciencia de datos.

Para inspirar al personal existente, debemos mostrar los beneficios, los casos de uso y las fuentes de datos más relevantes para ellos, lo que los hace más productivos y sus trabajos más fáciles. Con más herramientas de exploración de datos disponibles, el personal de otros departamentos fuera de TI o finanzas, como atención al cliente, marketing y gerentes de productos, se beneficiarán de los datos y las perspectivas.

Para las personas que no han trabajado en la industria, creo que debemos comenzar temprano en las escuelas y luego en las universidades. Los profesores y profesores de materias no relacionadas con la informática podrían hacer que los datos sean más visuales e interactivos en sus respectivos campos.

Mi aviso para alguien considerando una carrera en Big Data y Ciencia de Datos

Ya sea que estés graduado, que trabajes en una organización o bien, que no tengas una formación técnica; aún puedes beneficiarse del análisis y la comprensión de los datos.

Por ejemplo, los periodistas de datos normalmente no tienen antecedentes técnicos o científicos, pero pueden realizar análisis simples y crear una historia de datos interesante para el público en general.

Se trata de la automotivación: cuando las cosas se mueven a un ritmo tan rápido, puedes observar de manera amplia todo el sector para obtener una comprensión general. Pero también necesitas enfocar tu energía en un curso o proyecto específico y completarlo.

La industria también tiende a reempaquetar tecnologías antiguas con algunas mejoras como nuevas tendencias, como la seguridad cibernética, la computación cognitiva, los chatbots, la realidad virtual y el aprendizaje profundo en este momento. Por lo tanto, seguiría mi corazón en las áreas que realmente me interesan y en las que deseo enfocarse en lugar de la última tendencia.

¡Detrás de cada tendencia viral por lo general ha habido primeros exploradores que han trabajado y luchado en esa área durante años!

En términos de obtener el conocimiento, es mucho más fácil de lo que solía ser. Por ejemplo, en el pasado, tenías que pagar la capacitación de un proveedor específico y estaba el costo del producto en sí. Ahora puedes acceder a los materiales de aprendizaje, las fuentes de datos y las herramientas de forma gratuita, ¡así que no hay excusa para no comenzar hoy!

En cuanto a los materiales de aprendizaje, gran parte del contenido está disponible de forma gratuita en cursos masivos abiertos en línea, formularios, blogs y repositorios de código fuente. Del mismo modo, existen numerosas fuentes de datos gratuitas, como conjuntos de datos de ML, datos abiertos, fuentes de noticias y redes sociales que puede utilizar.

Hay muchas herramientas por ahí. Algunos son gráficos, pero en mi opinión, deberías aprender a programar en SQL, Python o R. Los tres tienen la capacidad de hacer ciencia de datos a escala gracias a marcos como Apache Spark. Particularmente me gusta Python, ya que se beneficia de ser un lenguaje de desarrollo eficiente con un marco de prueba sólido y numerosos paquetes de ciencia de datos.

Como ingeniero de ML o científico de datos, espera dedicar mucho tiempo a la preparación de datos. Este es un proceso importante para dominar, que implica la limpieza, el análisis, el enriquecimiento y la configuración de los datos para que puedan usarse en los algoritmos y experimentos de ML.

En general, recuerda que los procesos, las herramientas y las fuentes de datos siempre están evolucionando, por lo que no existe un curso de capacitación único que pueda realizar. Deberás tener motivación y apertura mental para aprender y adaptarte constantemente al ecosistema de datos.

Te recomendaría que aprendas otro idioma, como inglés o mandarín, para mantenerte móvil, obtener más oportunidades profesionales y ser competitivo en este mundo interconectado. Esto también abrirá tu mente y te dará una idea de otras culturas y valores, y cómo usan sus datos.

La computación en la nube también significa que ya no necesitas una presencia física en un país para operar en él, por lo que debe estar abierto a construir sistemas en todas las regiones y analizar datos de muchos países. Comience a usar herramientas colaborativas y participe en tecnología para buenas comunidades.

Se reemplazarán algunos trabajos y profesiones, y se perderá cierta experiencia humana, pero seguiremos confiando en los datos y los algoritmos. Por ejemplo, una vez que el transporte sin conductor se adopte ampliamente y se considere más seguro, más barato y más conveniente que los conductores humanos, es posible que las generaciones futuras no deseen conducir un automóvil o incluso tener una licencia de conducir.

Sin embargo, los seres humanos seguirían estando involucrados en los sistemas que automatizan la conducción, el análisis creativo de los datos de telemetría e IoT, la supervisión y el seguimiento del ecosistema y la participación más amplia en la industria del transporte y la economía colaborativa.

Resumen

Si deseas tener una carrera en Ciencia de Datos, ML o Ingeniería de Datos; las necesidades comerciales aún impulsan el desarrollo y análisis de software. Piensa en las métricas que deseas calcular y cómo estas beneficíarían tus decisiones comerciales, o bien, la hipótesis que deseas validar con un experimento. (Siendo esta una buena preparación para la entrevista).

¿Qué acciones tomará Tu audiencia con sus resultados? ¿Qué oportunidades de crecimiento o ahorro de costos existen para una empresa? Luego, vuelve a trabajar para ver qué datos, modelos e infraestructura necesitas para la tarea. Creo que ser curioso, inquisitivo y tener una mente experimental son cualidades importantes.

Científico de datos. Narrado en 5 minutos.

Andrés Torres — Mon, 24 Jan 2022 01:13:41 +0000

El trabajo de científico de datos es un perfil muy demandado a la vez que versátil. Si has estado pensando en dar el primer paso hacia la ciencia de datos. Este artículo te será de mucha ayuda.

Ya sea que se relacione con tus estudios, trabajo, o simplemente quieras saber del trabajo más atractivo del siglo XXI. Aquí te presento los elementos más esenciales que necesitarás para iniciar tus estudios en este campo.

Fundamentos Generales

Entre los fundamentos generales se encuentra una combinación de ciencias duras, lenguajes de programación, conocimientos de bases de datos así como de un conjunto de habilidades y herramientas de utilidad.

Veamos a continuación un resumen de las mayores habilidades.

Matemáticas:

Principalmente, Álgebra Linear, Cálculo Diferencial; añadido a eso las bases generales en geometría y funciones son indispensables para una buena intuición en los modelos de aprendizaje automático.

Necesitarás Álgebra Lineal sobre todo en los aspectos de operaciones y transformaciones con matrices.

Algunos conceptos como reducción de dimensionalidad, solo pueden ser comprendidos a fondo con estas bases.

Por otra parte, el cálculo diferencial es esencial para los conceptos de Función de Pérdida, para la cual es necesario conocer acerca de la optimización matemática.

Estadística:

Por aquí tenemos, estadística descriptiva e inferencial, así como teoría de la probabilidad.

Pero...¿Cuáles son sus Aplicaciones? Quizá no las abarque ni con todo el artículo. Sin embargo, podemos hablar de su amplitud en al menos tres niveles:

Básica:

Las aplicaciones más simples como las medidas de dispersión, Distribuciones de probabilidad, variables aleatorias discretas y continuas.

También tenemos el Teorema del Límite Central, las Pruebas de Hipótesis, y el muestreo.

Intermedia:

Abarca Modelos Lineales, análisis de correlación y análisis exploratorio de datos.

Avanzada:

Aunque no hay como tal una "frontera" que distinga lo avanzado de lo básico, por parsimonia podríamos decir que aquí se incluyen otros tópicos relevantes aunque quizás no indispensables:

Análisis de Series de Tiempo (sobre todo los modelos ARIMA), análisis de supervivencia, y la teoría del aprendizaje estadístico. Esta última es mucha ayuda en Minería de Datos.

Ciencias de la Computación:

Pese a las muchas aplicaciones del área, podemos resumir la indispensabilidad de nuestro diseño curricular en dos elementos: Algoritmos y Estructuras de Datos y Teoría de aprendizaje automático.

Algoritmos y Estructuras de Datos:

Son esenciales no solo en ciencia de datos sino también en programación. Básicamente con ellos se aprende la resolución de problemas mediante algoritmos. Son el precedente necesario a la implementación de cualquier modelo.

Cabe mencionar que incluso existen competencias internacionales de resolución de algoritmos computacionales. Así que su importancia está lejos de poder ser subestimada.

Teoría de aprendizaje automático (Machine Learning):

Es el corazón del cuerpo teórico a dominar.

La teoría abarca, no solo los diferentes modelos de Aprendizaje Automático, sino también conceptos esenciales tales como "Overfitting & Underfitting" y "Cross-Validation".

También hay elementos muy prácticos como la minimización del riesgo empírico, la compensación entre el sesgo y la varianza. ¡Entre muchos más!

¿Suena complicado? No te preocupes, con el tiempo y la práctica, la teoría se vuelve, no solo amena, sino también una herramienta muy eficaz para analizar la calidad de un modelo.

Programación:

Los lenguajes de programación son la base de las operaciones en Ciencia de Datos, pasando desde la limpieza de datos, el ajuste de nuestro conjunto de datos, hasta llegar a la validación y optimización de nuestros algoritmos.

Todas estas tareas pueden realizarse gracias a un lenguaje de programación. Cabe agregar funciones adicionales, tales como manipulación de bases de datos y visualización. A continuación se mencionan los 3 lenguajes más empleados en el campo.

Python:

Es un lenguaje multipropósito, siendo empleado también en Back-end, y hasta en Ciberseguridad. La Ciencia de Datos no es la excepción, Python cuenta con muchas bibliotecas para ello.

Entre sus bibliotecas podemos clasificarlas de la forma siguiente:

Pandas, Numpy, Seaborn, Matplotlib para análisis de datos.

Scipy , Statmodels y Scikit-Learn para aprendizaje automático y análisis matemático-estadístico.

Tensorflow, Pytorch y Keras para aprendizaje profundo.

R:

Otro lenguaje de programación muy empleado en la ciencia de datos es R.

R se centra específicamente en el análisis estadístico, así como la minería y visualización de datos.

Puedes emplear todas las funcionalidades que ofrecen sus paquetes para ciencia de datos, de los que destacan Tidyverse. En cuanto a visualización de datos, R cuenta con los paquetes clásicos de ggplot2.

Finalmente, también cuenta con Shiny, como complemento final, este último paquete te permite interactuar, analizar y comunicar datos con la mayor flexibilidad posible.

SQL:

Es esencial para manejar bases de datos. En palabras simples, con SQL, obtienes lo necesario para el proceso de extracción de datos.

Por mencionar algunas de las funciones más elementales, en SQL puedes crear nuevas tablas y mover información a ellas, trabajar con operadores, agregar datos, organizar tablas, y efectuar declaraciones a través de comandos simples para mantener la integridad de los datos.

Puedes encontrar una introducción a SQL y las bases de datos aquí.

Finalmente, cabe aclarar que estos lenguajes son complementarios, más que excluyentes. La clave está en saber la situación apropiada para aprovechar al máximo las fortalezas de cada uno de ellos.

Esto aplica principalmente a la elección entre Python y R. No obstante es necesaria una advertencia, pese a ser complementarios, lo mejor es comenzar aprendiendo un solo lenguaje a profundidad , hasta tener un buen dominio.

Otros conocimientos útiles:

Git y Github:

Son la base de la colaboración de proyectos. Ya sea un proyecto de software, de aprendizaje automático o relacionados.

Gracias a Github y su sistema de repositorios, puedes solicitar la revisión y colaboración del equipo del trabajo en el proyecto, así como la realización de cambios no determinantes a través de ramificaciones.

Por otra parte, Git, es un open-source, con un sistema de control de versiones, que pese a iniciar en tu repositorio local, te permite trabajar en conjunto con Github, a través de Git-Push y Git-Pull.

Project Management:

Principalmente gestión de proyectos ágiles, la metodología tradicional waterfall, el marco de trabajo Scrum, los requerimientos del producto, las revisiones "Sprint" y las retrospectivas.

Existe una cierta discusión acerca de si las metodologías ágiles funcionan o no con proyectos de ciencia de datos. Dicha cuestión no será abordada.

Lo que sí está claro, es que estas metodologías constituyen un conocimiento práctico a nivel general para el desarrollo de software y relacionados. Por tanto, no está de más tener un conocimiento de estas.

Habilidades Blandas:

Previamente, se han mencionado las diferentes capacidades técnicas. En una economía competitiva las habilidades blandas se convierten en un elemento imprescindible para casi cualquier tipo de ocupación.

A continuación se presentan las más relevantes para el caso de Ciencia de Datos.

Comunicación:

Esta habilidad es esencial, de poco sirve la información si esta no puede comunicarse efectivamente. En inglés existe un término muy acorde; "Data Storytelling".

En otras palabras es necesario ser capaz de interpretar información de gran complejidad y transformarla en una muestra representativa de manera retórica y/o visual.

Visualización de Datos:

Otro aspecto relacionado con la comunicación. Existen muchas bibliotecas así como herramientas de código abierto para la visualización de datos.

Análisis:

Podríamos ponerlo en contexto, como la capacidad de emplear el pensamiento y diseño de sistemas.

Implica considerar los problemas de forma holística con un conjunto de factores interrelacionados para, de esta forma, considerar las mejores alternativas posibles.

Reflexiones finales:

Un elemento adicional, Enfoque profesional:

Este aspecto no suele ser muy mencionado en las instituciones o comunidades profesionales. Pero en la realidad, es necesario cierto grado de especialización en un rubro o sector. Por ejemplo, los modelos de aprendizaje automático suelen ser muy empleados en el sector de salud.

Otro caso frecuente es la reciente aplicación de ciencia de datos a la cadena de suministro. Como último ejemplo, no puede faltar el sector financiero, cuyas aplicaciones son muy diversas. Y la lista puede seguir, dependiendo de tus inclinaciones y aptitudes profesionales.

En conclusión, cierto nivel de especialización es benéfico más que perjudicial.

Aprender Ciencia de Datos con freeCodeCamp:

freeCodeCamp ofrece muchos recursos para el aprendizaje de Ciencia de Datos, tanto en artículos como en su canal de YouTube.

En un futuro se espera un plan de estudios en ciencia de datos con matemáticas y aprendizaje automático a nivel avanzado. Puedes tener más información al respecto aquí.

Si llegaste hasta aquí, muchas gracias por leer y espero que este artículo haya sido de beneficio, ya sea como fuente de inspiración o al menos, de conocimiento general.