En este mundo hiperconectado, los datos se generan y consumen a un ritmo sin precedentes.

Por mucho que disfrutemos de esta superconductividad de datos, también invita al abuso. Los profesionales de datos deben estar capacitados para utilizar métodos estadísticos no solo para interpretar números, sino también para descubrir tales abusos y protegernos de ser engañados.

No muchos científicos de datos tienen una formación formal en estadística. También hay muy pocos libros y cursos buenos que enseñen estos métodos estadísticos desde una perspectiva de ciencia de datos.

A través de esta publicación, pretendo arrojar algo de luz sobre lo siguiente:

  • ¿Qué es estadística?
  • Estadística en relación con el aprendizaje de máquina.
  • ¿Por qué debes profesionalizarte en estadística?
  • ¿Qué curriculum debes seguir para dominar estos temas?
  • ¿Cómo estudiar estadística para convertirse en un practicante en lugar de un examinador?
  • Consejos prácticos y recursos de aprendizaje.

¿Qué es Estadística?

La estadística es un conjunto de métodos y herramientas matemáticas que nos permiten responder preguntas importantes sobre los datos. Se divide en dos categorías:

  1. Estadística Descriptiva: este ofrece métodos para resumir datos transformando observaciones sin modificar en información significativa que sea fácil de interpretar y compartir.
  2. Estadística Inferencial: este ofrece métodos para estudiar experimentos hechos en pequeños ejemplos de datos y eliminar las interferencias a toda la población (dominio entero).

Ahora, las estadísticas y el aprendizaje automático son dos áreas de estudio estrechamente ralacionadas. Las estadísticas es un pre-requisito importante para el aprendizaje automático aplicado, ya que nos ayuda a seleccionar, evaluar e interpretar modelos predictivos.

Estadísticas y Aprendizaje Automático

El núcleo principal del aprendizaje automático está centrado alrededor de las estadísticas. No puedes resolver problemas del mundo real con aprendizaje automático si no tienes un buen conocimiento de los fundamentos estadísticos.

Ciertamente hay factores que hacen el aprendizaje de estadística muy difícil. Hablo acerca de las ecuaciones matemáticas, notación griega, y conceptos meticulosamente definidos que hace difícil generar interés en el tema.

Podemos abordar estos problemas con explicaciones claras y simples, tutoriales a un ritmo adecuado, y proyectos prácticos para resolver problemas con métodos estadísticos aplicados.

Desde el análisis de datos exploratorio a el diseño de experimentos de pruebas de hipótesis, las estadísticas juegan un rol importante en resolución de problemas principales que abarcan todas las industrias y dominios.

Cualquiera que desee desarrollar una comprensión profunda del aprendizaje automático debe aprender cómo los métodos estadísticos forman la base de los algoritmos de regresión y clasificación, cómo las estadísticas nos permiten aprender de los datos y cómo nos ayudan a extraer significado de datos no etiquetados.

¿Por qué debes dominar la estadística?

Cada organización se esfuerza por convertirse en una organización basada en datos. Por eso estamos siendo testigos de un aumento en la demanda de cientifícos y analistas de datos.

Ahora, para resolver problemas, responder preguntas, y trazar una estrategia, necesitamos hacer sentido de los datos. Afortunadamente, las estadísticas ofrecen una colección de herramientas para producir esos resultados.

De los datos al conocimiento

De manera aislada, las observaciones sin modificar son solo datos. Utilizamos estadísticas descriptivas para transformar estas observaciones en información que tenga sentido.

Luego podemos utilizar estadísticas inferenciales para estudiar pequeñas muestras de datos y extrapolar nuestros hallazgos a toda la población.

Las estadísticas ayudan a responder preguntas como...

  • ¿Qué características son las más importantes?
  • ¿Cómo deberíamos diseñar el experimento para desarrollar nuestra estrategia de producto?
  • ¿Qué métricas de rendimiento deberíamos medir?
  • ¿Cuál es el resultado más común y esperado?
  • ¿Cómo diferenciamos entre ruido y datos válidos?

Todas estas son preguntas comunes e importantes que los equipos de datos deben responder a diario.

Las respuestas nos ayudan a tomar decisiones de manera eficaz. Los métodos estadísticos no solo nos ayudan a establecer proyectos de modelado predictivo, sino también a interpretar los resultados.

Proyectos de estadística y aprendizaje automático

Casi todos los proyectos de aprendizaje automático consisten en las siguientes tareas, y las estadísticas desempeñan un papel central en todos ellos de una forma u otra. A continuación, se explica cómo:

Definición de un enunciado del problema

La parte más crucial del modelado predictivo es la definición real del problema que nos brinda el objetivo real que debemos perseguir.

Esto nos ayuda a decidir el tipo de problema con el que nos enfrentamos (es decir, regresión o clasificación). Y también nos ayuda a decidir la estructura y los tipos de entradas, salidas y métricas con respecto al objetivo.

Pero la formulación del problema no siempre es sencilla. Si eres nuevo en el aprendizaje automático, es posible que requieras una exploración significativa de las observaciones en el dominio. Dos conceptos principales que debes dominar aquí son el análisis exploratorio de datos (EDA) y la minería de datos.

Exploración inicial de datos

La exploración de datos implica obtener un conocimiento profundo tanto de las distribuciones de las variables como de las relaciones entre las variables de los datos.

En parte, la experiencia en un campo le ayuda a adquirir este dominio sobre un tipo específico de variable. Sin embargo, tanto los expertos como los recién llegados al campo se benefician al manejar realmente observaciones reales del campo.

Los conceptos importantes relacionados con las estadísticas se reducen al aprendizaje de las estadísticas descriptivas y la visualización de datos.

Limpieza de datos

A menudo, los puntos de datos que se ha recopilado de un experimento o un repositorio de datos no están en un estado perfecto. Es posible que los datos hayan sido sometidos a procesos o manipulaciones que dañaron su integridad. Esto afecta aún más a los procesos o modelos posteriores que utilizan los datos.

Algunos ejemplos comunes incluyen valores faltantes, corrupción de datos, errores de datos (debido a un sensor defectuoso) y datos sin formato (observaciones con diferentes escalas).

Si desea dominar los métodos de limpieza, debe aprender sobre la detección de valores atípicos y la imputación de valores faltantes.

Preparación de datos y configuración de canales de transformación

Si los datos contienen errores e inconsistencias, a menudo no se pueden utilizar directamente para el modelado.

Primero, es posible que los datos deban pasar por un conjunto de transformaciones para cambiar su forma o estructura y hacerlos más adecuados para el problema que ha definido o los algoritmos de aprendizaje que está utilizando.

Luego, puedes desarrollar un canal de dichas transformaciones que aplique a los datos para producir una entrada consistente y compatible para el modelo.

Debes dominar conceptos como el muestreo de datos y los métodos de selección de características, las transformaciones de datos, el escalado y la codificación.

Selección y evaluación de modelos

Un paso clave para resolver un problema predictivo es seleccionar y evaluar el método de aprendizaje. Las estadísticas de estimación le ayudan a puntuar las predicciones del modelo a partir de datos no vistos.

El diseño experimental es un subcampo de la estadística que impulsa el proceso de selección y evaluación de un modelo. Exige una buena comprensión de las pruebas de hipótesis estadísticas y las estadísticas de estimación.

Ajuste fino del modelo

Casi todos los algoritmos de aprendizaje automático tienen un conjunto de hiperparámetros que permiten personalizar el método de aprendizaje para el marco del problema elegido.

Este ajuste de hiperparámetros suele ser de naturaleza empírica, en lugar de analítica. Requiere grandes conjuntos de experimentos para evaluar el efecto de diferentes configuraciones de hiperparámetros en el rendimiento del modelo.

Plan de estudios de estadística para profesionales

Un buen plan de estudios de estadística para profesionales no solo debe cubrir la gran cantidad de métodos y herramientas que acabo de mencionar. También debe cubrir y explorar los problemas más comunes que enfrenta la industria.

La siguiente es una lista de habilidades ampliamente utilizadas que necesitará conocer para tener éxito en las entrevistas de ciencia de datos y aprendizaje automático y conseguir un trabajo en el campo.

Habilidades de estadística general

  • Cómo definir preguntas que se puedan responder estadísticamente para una toma de decisiones eficaz.
  • Calcular e interpretar estadísticas comunes y cómo utilizar técnicas de visualización de datos estándar para comunicar los hallazgos.
  • Comprensión de cómo se aplica la estadística matemática al campo, conceptos como el teorema del límite central y la ley de los grandes números.
  • Realizar inferencias a partir de estimaciones de ubicación y variabilidad (ANOVA).
  • Cómo identificar la relación entre las variables objetivo y las variables independientes.
  • Cómo diseñar experimentos de prueba de hipótesis estadísticas, pruebas A/B, etc.
  • Cómo calcular e interpretar métricas de rendimiento como el valor p, alfa, errores tipo 1 y tipo 2, etc.

Conceptos estadísticos importantes

  • Introducción: comprensión de los tipos de datos (rectangulares y no rectangulares), estimación de la ubicación, estimación de la variabilidad, distribuciones de datos, datos binarios y categóricos, correlación, relación entre diferentes tipos de variables.
  • Distribución de estadísticas: números aleatorios, ley de los grandes números, teorema del límite central, error estándar, etc.
  • Muestreo y distribuciones de datos: muestreo aleatorio, sesgo de muestreo, sesgo de selección, distribución de muestreo, arranque, intervalo de confianza, distribución normal, distribución t, distribución binomial, distribución de chi-cuadrado, distribución F, distribución de Poisson y exponencial.
  • Experimentos estadísticos y pruebas de significancia: pruebas A/B, realización de pruebas de hipótesis (nula/alternativa), remuestreo, significancia estadística, intervalo de confianza, valor p, alfa, pruebas t, grado de libertad, ANOVA, valores críticos, covarianza y correlación, tamaño del efecto, potencia estadística.
  • Métodos estadísticos no paramétricos: datos de rango, pruebas de normalidad, normalización de datos, correlación de rango, pruebas de significación de rango, prueba de independencia

Consejos prácticos de aprendizaje

La mayoría de las universidades han diseñado sus programas de estudio de estadística para poner a prueba la capacidad de memorización de los estudiantes. Solo comprueban si los estudiantes pueden resolver ecuaciones, definir terminologías e identificar gráficos que deriven ecuaciones, en lugar de centrarse en la aplicación de estos métodos para resolver problemas del mundo real.

Sin embargo, los aspirantes a profesionales deben seguir un proceso paso a paso de aprendizaje e implementación de métodos estadísticos en diferentes problemas utilizando código de Python ejecutable.

Veamos los dos enfoques principales para estudiar estadística un poco más en profundidad:

Enfoque descendente

Supongamos que le piden que diseñe un experimento para probar la eficiencia de dos versiones de una característica de un producto. Se supone que esta característica aumenta la participación de los usuarios en un portal en línea.

Con un enfoque descendente, primero aprenderá más sobre el problema. Luego, una vez que el objetivo esté claro, puede aprender a aplicar los métodos estadísticos adecuados.

Esto lo mantiene involucrado y ofrece una mejor experiencia de aprendizaje práctico.

Enfoque ascendente

Este enfoque es el que utilizan la mayoría de las universidades y cursos en línea para enseñar estadística. Se centra en aprender los conceptos teóricos con notación matemática, la historia de ese concepto y cómo implementarlo.

Para las personas como yo, que tienden a perder interés en el aprendizaje teórico, esta no es la forma correcta de aprender estadística aplicada. Lo vuelve demasiado metafórico, lo que hace que el tema sea árido y deprimente sin ningún vínculo directo con la resolución de problemas.

Como probablemente puedes deducir, recomiendo un enfoque descendente para estudiar estadística.

Veamos ahora algunos recursos específicos que recomiendo para comenzar por el camino correcto.

Recursos de aprendizaje

  • Libro sobre estadística práctica (en inglés): este libro le enseñará estadística desde el punto de vista de la ciencia de datos. Debe leer al menos los primeros tres capítulos de este libro.
image-2
  • Estadística y probabilidad | Khan Academy (en inglés): este curso te preparará bien para todas las preguntas relacionadas con la estadística y la probabilidad durante la entrevista. Un curso gratuito con una buena recopilación de videoconferencias y problemas prácticos.
image-3
  • Estadística al desnudo: para las personas que temen a las matemáticas y prefieren entender ejemplos prácticos, este es un libro increíble que explica cómo se aplica la estadística en situaciones de la vida real.
image-4
  • Métodos estadísticos para el aprendizaje automático (en inglés): este libro sirve como curso intensivo sobre métodos estadísticos para profesionales del aprendizaje automático. Idealmente, para aquellos con experiencia como desarrolladores.
image-5

A continuación…

Crearé una serie de tutoriales sobre cada uno de los temas mencionados anteriormente siguiendo un enfoque de código primero para que podamos comprender y visualizar el significado y la aplicación de estos conceptos.

Si me he olvidado de algún detalle o si quieres que cubra algún otro aspecto de las estadísticas, responde a esta historia y lo agregaré al plan de estudios.

Ciencia de datos con Harshit

Con este canal, planeo lanzar un par de series que cubran todo el espacio de la ciencia de datos. Aquí está el motivo por el cual deberías suscribirte al canal:

Si este tutorial te resultó útil, deberías consultar mis cursos de ciencia de datos y aprendizaje automático en Wiplane Academy. Son completos pero compactos y te ayudan a construir una base sólida de trabajo para exhibir.