¿Cómo es trabajar en Ciencia de Datos,IA, o Big Data?: Respuesta basada en mi propia experiencia

Artículo original: How to work in Data Science, AI, or Big Data based on my experience

En 2013, me entrevisté para un puesto senior en el equipo de ciencia y analítica de datos en una compañía que usa la tecnología para el bienestar social JustGiving. Durante mi entrevista, dije que planeaba ofrecer aprendizaje automático por lotes, análisis de gráficos y sistemas de análisis de transmisión, tanto internamente como en la nube.

Tan solo un par de años después, mi anterior jefe Mike Bugembe y yo ¡Estabamos brindando ponencias en conferencias internacionales, ganando premios y convirtiéndonos en autores!

Esta es mi historia y lo que aprendí en el viaje, además de mis recomendaciones para tí.

¿Por qué ingeniería de Big Data y Ciencia de Datos?

Siempre me ha interesado la inteligencia artificial (IA), el aprendizaje automático (ML) y el procesamiento del lenguaje natural (PNL). En particular, me han interesado los sistemas escalables y hacer que los robots sean más inteligentes y receptivos.

Mi interés en la ingeniería de datos proviene de mi experiencia como arquitecto de soluciones. En ese rol, disfruté construyendo sistemas basados en la nube para almacenar y procesar datos para obtener nuevos conocimientos y perspectivas.

También desarrollo big data y pipelines de Aprendizaje Automático (ML) para automatizar todo el proceso de ML. Esto ayuda a los científicos y analistas de datos a ahorrar tiempo en la preparación de datos para entrenar y probar sus algoritmos, ejecutar métricas y derivar indicadores clave de rendimiento a escala.

La preparación de datos es particularmente importante. Los científicos de datos suelen dedicar alrededor del 80 % de su tiempo a ello. Tener acceso a los datos configurados de la manera correcta los hace más productivos y felices.

Mi experiencia previa

Anteriormente obtuve una maestría en ingeniería de sistemas informáticos y un doctorado en Aprendizaje Automático y NLP. Completé ambos en la Universidad de Manchester.

En lugar de unirme a un proveedor especializado en mi Ph.D. área de especialización, decidí ampliar mis habilidades y ganar más exposición de clientes uniéndome a Capgemini. Capgemini es una gran empresa global de servicios de consultoría, tecnología y outsourcing.

Pasé de ser un desarrollador a un arquitecto de soluciones. Allí, ayudé a entregar proyectos a gran escala para compañías Fortune Global 500 en sectores que incluyen seguros, banca minorista, servicios financieros y gobierno central.

Luego me uní a PageGroup. Allí, trabajé como desarrollador principal y arquitecto en un programa de transformación global en 34 países. Dirigí la entrega técnica de soluciones de búsqueda, comunicación multicanal, inteligencia comercial, análisis de texto, integración de bolsas de trabajo y publicidad.

Roles actuales

Ahora soy ingeniero principal de big data y aprendizaje automático en JustGiving. JustGiving es una empresa de tecnología para el bien que ha ayudado a 26 millones de usuarios en 164 países a recaudar $5 mil millones para buenas causas. Fue adquirida en 2017 por Blackbaud, la empresa de software líder en el mundo que impulsa el bien social.

Actualmente dirijo la entrega y la arquitectura de nuestra plataforma interna de ciencia de datos RAVEN y los sistemas de producción de ML. Estos se implementaron inicialmente con Azure, pero luego se alojaron en AWS. También me sumerjo como científico de datos especializado en análisis de transmisión escalable, algoritmos ML y NLP.

Comparto mi experiencia técnica y mis conocimientos internos y externos relacionados con AWS, procesamiento de señales, pilas sin servidor, ML y NLP. También presento regularmente en conferencias de la industria, abro mi código y escribo publicaciones de blog técnicas en Medium y para AWS, como Analizar una serie temporal en tiempo real.

También soy un asesor y consultor autónomo independiente que ayuda a las organizaciones con la arquitectura en la nube, la computación sin servidor y el aprendizaje automático en Starwolf.

Un día típico en la oficina

JustGiving sigue siendo una empresa emergente en el fondo, por lo que no hay un día típico. Me involucro en diversas tareas, como la captura de datos y requisitos de informes, la ingeniería de nuevas canalizaciones de datos, la investigación de problemas operativos.

Además de estas tareas, están las de ejecución de experimentos con datos, el análisis de datos no estructurados en busca de patrones útiles, la exploración de nuevas formas de utilizar los datos para responder preguntas, la presentación de datos con una historia sólida. También comparto mis conocimientos y experiencia con el resto del equipo.

Esto significa que trabajo en estrecha colaboración con marketing, gerentes de productos y analistas de productos para comprender sus necesidades de datos y qué métricas y predicciones son importantes para ellos.

Hablar con otras personas fuera de tu área de especialización ayuda a ampliar tus puntos de vista, a la vez que te brinda una nueva perspectiva sobre nuevas áreas en las que puedes aplicar tus habilidades.

En el aspecto técnico, trabajo con ingenieros, analistas de datos, desarrolladores, analistas de inteligencia comercial, operaciones y científicos de datos para respaldar sus requisitos de datos y plataformas.

Cosas que disfruto acerca de mi trabajo

Me apasiona trabajar con grandes conjuntos de datos, ya que enfrenta diferentes tipos de problemas de rendimiento, costos y operativos que requieren que piense de manera diferente para escalar su almacén de datos, procesos ETL y algoritmos y cómo presenta sus resultados.

Mucho de lo que sabes sobre el almacenamiento de datos con sus millones de registros se dispara cuando llega a cientos de miles de millones de filas y necesitas iterar o realizar uniones complejas para ejecutar consultas de preparación de datos de ML.

La construcción y ejecución de infraestructuras de datos a gran escala y la capacitación en modelos distribuidos son áreas activas en el mundo académico y la industria. Están evolucionando a un ritmo acelerado, con la introducción de nuevas herramientas cada pocos meses.

Me gusta usar las soluciones en la nube de una manera innovadora para mejorar nuestra plataforma de ciencia de datos interna, mejorar nuestros procesos comerciales y hacer que la información de los datos esté disponible para usuarios internos y externos.

Descubrí que muchas empresas ceden su poder al usar terceros para sus soluciones de análisis web, en lugar de crear las suyas propias. Luego, esos datos se almacenan en silos en los departamentos de marketing o ventas, es difícil, si no imposible, recuperarlos en su forma original. Además, no se pueden transmitir, por ejemplo, te impiden hacer recomendaciones o predicciones de ML en tiempo real directamente en su producto.

En JustGiving creamos un producto de análisis web interno llamado KOALA y tenemos estos datos disponibles en tiempo real como una pila sin servidor de AWS. Esto nos permitió tener un conjunto completo de canalizaciones de datos para la capacitación y el análisis de ML internamente, y los gustos de MAGPIE que nos permiten crear métricas e información en tiempo real que podemos brindar a los usuarios.

He aquí un ejemplo de una versión temprana para una campaña de crowdfunding para las víctimas del ataque de Manchester de 2017.

Además, KOALA nos permite hacer predicciones a partir de datos de streaming. Es una solución extremadamente rentable en comparación con pagar por un producto de proveedor. Si lo comparas con una solución de proveedor basada en el mismo tráfico web, KOALA es 10 veces más económico, más amigable para los desarrolladores y obtenemos los datos sin procesar transmitidos en tiempo real, en lugar de en lotes o tener que usar una consulta bloqueada propiciatoria. o sistema de informes.

También soy un gran admirador de Python y he fomentado con éxito su adopción en la empresa y en una comunidad más amplia para las canalizaciones de datos, ML y computación sin servidor. ¿Por qué Python? Tiene amplias bibliotecas ML, se escala con pySpark y es fácil de leer/escribir.

También puedes emplear tu experiencia en contribuir a diferentes causas. Disfruto trabajando con diferentes ONGs, centros de caridad y universidades, así pago lo recibido por la comunidad compartiendo mi conocimiento; como hice en el AWS and British Heart Foundation Hackathon.

El Futuro de Big Data, la Ciencia de Datos y la Inteligencia Artificial

Veo a más personas que usan ML, análisis en tiempo real, análisis gráfico y NLP en sus productos y aplicaciones. Esto se está acelerando a medida que los proveedores de la nube ofrecen interfaces de programas de aplicaciones (API) ML y NLP.

Para el análisis en tiempo real, existe una demanda creciente por parte de los consumidores que son mucho más conscientes de los datos, a la vez que impacientes. Por ejemplo, quieren saber qué está sucediendo en este momento, ver los resultados de su acción y utilizar aplicaciones y sitios web más inteligentes que se adapten a medida que interactúan con ellos.

Por el lado de la infraestructura, veo que la informática sin servidor y la infraestructura de plataforma como servicio (PaaS) en la nube pública, como AWS y Azure, se están volviendo más prominentes. Las funciones en la computación sin servidor son particularmente interesantes para mí, ya que pueden escalar automáticamente en menos de 100 milisegundos, tienen alta disponibilidad y son de bajo costo.

Son de bajo costo, ya que solo paga por el tiempo que se ejecuta su código, en lugar de una máquina o contenedor siempre activo como en la infraestructura de nube más tradicional. Incluso he demostrado que puede implementar la mayoría de los existentes basados en contenedores de microservicios utilizando una pila sin servidor.

Los marcos y lenguajes de programación de código abierto también seguirán creciendo en comparación con los productos y lenguajes específicos de proveedores, ejemplo; Apache Spark, Python, R, SQL.

Lo mismo ocurre con el almacenamiento y el acceso a los datos: el almacenamiento en la nube, los almacenes de datos y los lagos de datos almacenarán datos en formatos más abiertos en lugar de propietarios, y esto será más accesible a través de API estándar o protocolos abiertos.

También habrá requisitos crecientes para analizar fuentes de datos multimedia y no estructurados, y nuevamente los proveedores de la nube tendrán un papel cada vez más importante que desempeñar.

Además, veremos más empresas que hacen la transición de usar estrategias decididas por unos pocos por instinto en la parte superior, a volverse más basadas en experimentos, evidencias y datos. La prueba de nuevos productos o funciones, la identificación de nuevas oportunidades y las decisiones estratégicas provendrán cada vez más del análisis de datos, la percepción y las predicciones.

Esto requerirá que más personal se involucre en la captura y preparación de datos, la ejecución de experimentos usando algoritmos, la visualización de datos y la presentación de resultados.

Como tal, surgirán nuevos trabajos orientados a los datos basados en la creación y capacitación de modelos de datos, lo que interrumpirá algunos de los campos especializados existentes, como la atención médica, la contabilidad y el derecho.

La IA, Internet de las cosas (IoT) y la robótica también reemplazarán algunos trabajos de cuello azul y blanco existentes, por lo que tendremos que pensar en capacitar y mejorar las habilidades de las personas para el panorama cambiante, y posiblemente introducir algún tipo de ingreso básico universal.

Puede establecer paralelismos con el cambio observado durante la revolución industrial desde la época agraria o preindustrial. Para que la IA despegue, necesitamos que sucedan dos cosas: el costo de los trabajadores humanos se vuelve más alto que la alternativa de la IA y que la IA se implemente de manera escalable.

A largo plazo, la computación cuántica también alterará el campo nuevamente en términos de cómo procesamos, analizamos y almacenamos datos, y transformará áreas como la seguridad cibernética, la banca y la IA existente.

Cómo inspirar a la gente a perseguir una carrera en Ciencia de Datos

Creo que es mucho más fácil lograr que las personas se interesen en big data y ciencia de datos de lo que solía ser, gracias a Google y Facebook, que ponen de moda ser inteligente y trabajar dentro de la tecnología.

Además, el creciente número de nuevas empresas jóvenes y flexibles con infraestructuras en la nube pública están compitiendo con éxito y ganando cuotas de mercado de grandes empresas establecidas.

Los empleadores deben estar dispuestos a educar y mejorar las habilidades del personal existente o los graduados en lugar de contratar únicamente a personas con habilidades existentes en ingeniería o ciencia de datos.

Para inspirar al personal existente, debemos mostrar los beneficios, los casos de uso y las fuentes de datos más relevantes para ellos, lo que los hace más productivos y sus trabajos más fáciles. Con más herramientas de exploración de datos disponibles, el personal de otros departamentos fuera de TI o finanzas, como atención al cliente, marketing y gerentes de productos, se beneficiarán de los datos y las perspectivas.

Para las personas que no han trabajado en la industria, creo que debemos comenzar temprano en las escuelas y luego en las universidades. Los profesores y profesores de materias no relacionadas con la informática podrían hacer que los datos sean más visuales e interactivos en sus respectivos campos.

Mi aviso para alguien considerando una carrera en Big Data y Ciencia de Datos

Ya sea que estés graduado, que trabajes en una organización o bien, que no tengas una formación técnica; aún puedes beneficiarse del análisis y la comprensión de los datos.

Por ejemplo, los periodistas de datos normalmente no tienen antecedentes técnicos o científicos, pero pueden realizar análisis simples y crear una historia de datos interesante para el público en general.

Se trata de la automotivación: cuando las cosas se mueven a un ritmo tan rápido, puedes observar de manera amplia todo el sector para obtener una comprensión general. Pero también necesitas enfocar tu energía en un curso o proyecto específico y completarlo.

La industria también tiende a reempaquetar tecnologías antiguas con algunas mejoras como nuevas tendencias, como la seguridad cibernética, la computación cognitiva, los chatbots, la realidad virtual y el aprendizaje profundo en este momento. Por lo tanto, seguiría mi corazón en las áreas que realmente me interesan y en las que deseo enfocarse en lugar de la última tendencia.

¡Detrás de cada tendencia viral por lo general ha habido primeros exploradores que han trabajado y luchado en esa área durante años!

En términos de obtener el conocimiento, es mucho más fácil de lo que solía ser. Por ejemplo, en el pasado, tenías que pagar la capacitación de un proveedor específico y estaba el costo del producto en sí. Ahora puedes acceder a los materiales de aprendizaje, las fuentes de datos y las herramientas de forma gratuita, ¡así que no hay excusa para no comenzar hoy!

En cuanto a los materiales de aprendizaje, gran parte del contenido está disponible de forma gratuita en cursos masivos abiertos en línea, formularios, blogs y repositorios de código fuente. Del mismo modo, existen numerosas fuentes de datos gratuitas, como conjuntos de datos de ML, datos abiertos, fuentes de noticias y redes sociales que puede utilizar.

Hay muchas herramientas por ahí. Algunos son gráficos, pero en mi opinión, deberías aprender a programar en SQL, Python o R. Los tres tienen la capacidad de hacer ciencia de datos a escala gracias a marcos como Apache Spark. Particularmente me gusta Python, ya que se beneficia de ser un lenguaje de desarrollo eficiente con un marco de prueba sólido y numerosos paquetes de ciencia de datos.

Como ingeniero de ML o científico de datos, espera dedicar mucho tiempo a la preparación de datos. Este es un proceso importante para dominar, que implica la limpieza, el análisis, el enriquecimiento y la configuración de los datos para que puedan usarse en los algoritmos y experimentos de ML.

En general, recuerda que los procesos, las herramientas y las fuentes de datos siempre están evolucionando, por lo que no existe un curso de capacitación único que pueda realizar. Deberás tener motivación y apertura mental para aprender y adaptarte constantemente al ecosistema de datos.

Te recomendaría que aprendas otro idioma, como inglés o mandarín, para mantenerte móvil, obtener más oportunidades profesionales y ser competitivo en este mundo interconectado. Esto también abrirá tu mente y te dará una idea de otras culturas y valores, y cómo usan sus datos.

La computación en la nube también significa que ya no necesitas una presencia física en un país para operar en él, por lo que debe estar abierto a construir sistemas en todas las regiones y analizar datos de muchos países. Comience a usar herramientas colaborativas y participe en tecnología para buenas comunidades.

Se reemplazarán algunos trabajos y profesiones, y se perderá cierta experiencia humana, pero seguiremos confiando en los datos y los algoritmos. Por ejemplo, una vez que el transporte sin conductor se adopte ampliamente y se considere más seguro, más barato y más conveniente que los conductores humanos, es posible que las generaciones futuras no deseen conducir un automóvil o incluso tener una licencia de conducir.

Sin embargo, los seres humanos seguirían estando involucrados en los sistemas que automatizan la conducción, el análisis creativo de los datos de telemetría e IoT, la supervisión y el seguimiento del ecosistema y la participación más amplia en la industria del transporte y la economía colaborativa.

Resumen

Si deseas tener una carrera en Ciencia de Datos, ML o Ingeniería de Datos; las necesidades comerciales aún impulsan el desarrollo y análisis de software. Piensa en las métricas que deseas calcular y cómo estas beneficíarían tus decisiones comerciales, o bien, la hipótesis que deseas validar con un experimento. (Siendo esta una buena preparación para la entrevista).

¿Qué acciones tomará Tu audiencia con sus resultados? ¿Qué oportunidades de crecimiento o ahorro de costos existen para una empresa? Luego, vuelve a trabajar para ver qué datos, modelos e infraestructura necesitas para la tarea. Creo que ser curioso, inquisitivo y tener una mente experimental son cualidades importantes.