↘️ 🧑🏿‍🤝‍🧑🏻 ♍️ Pavel Klemenkov, NVIDIA: Estamos tratando de reducir la brecha entre lo que un científico de datos puede hacer y lo que necesita poder hacer. 🕘 🙎 😭

Comenzó el segundo grupo de estudiantes del programa de maestría en ciencia de datos e inteligencia de negocios, Ozon Masters, y para decidir dejar una aplicación y aprobar las pruebas en línea fue más fácil, les preguntamos a los maestros del programa qué esperar de la capacitación y el trabajo con datos.

imagen

El profesor principal de NVIDIA Data Scientist y del curso Big Data and Data Engineering, Pavel Klemenkov, habló sobre por qué los matemáticos escriben código y estudian en Ozon Masters durante dos años.

- ¿Hay muchas compañías que usan algoritmos de ciencia de datos?

- En realidad mucho. Un buen número de grandes empresas que tienen datos realmente grandes, o bien comienzan a trabajar con ellas de manera eficiente o han estado trabajando durante mucho tiempo. Está claro que la mitad del mercado utiliza datos que pueden caber en una tableta Excel o pueden contarse en un servidor grande, pero es imposible decir que solo unas pocas empresas pueden trabajar con datos.

- Cuéntame un poco sobre los proyectos que usan ciencia de datos.

- Por ejemplo, mientras trabajábamos en Rambler, creamos un sistema de publicidad que funciona según los principios de RTB (Real Time Bidding); necesitábamos construir muchos modelos que optimizaran la compra de publicidad o, por ejemplo, pudieran predecir la probabilidad de un clic, conversión, etc. Al mismo tiempo, una subasta de publicidad genera una gran cantidad de datos: registros de solicitudes del sitio a compradores potenciales de anuncios, registros de impresiones de anuncios, registros de clics: estos son docenas de terabytes de datos por día.

Además, para estas tareas observamos un fenómeno interesante: cuantos más datos proporcione para capacitar al modelo, mayor será su calidad. Por lo general, para una cierta cantidad de datos, la calidad del pronóstico deja de mejorar, y para mejorar aún más la precisión, debe usar un modelo fundamentalmente diferente, un enfoque diferente para la preparación de datos, características, etc. Aquí vertimos más datos y la calidad creció.

Este es un caso típico en el que los analistas tenían que, en primer lugar, trabajar con grandes conjuntos de datos para al menos realizar un experimento, y donde era imposible sobrevivir con una pequeña muestra que cabe en un macbook cómodo. Al mismo tiempo, necesitábamos modelos distribuidos, porque de lo contrario era imposible entrenarlos. Con la introducción de la visión por computadora en la producción, estos ejemplos se están volviendo más comunes, ya que las imágenes son una gran cantidad de datos, y se necesitan millones de imágenes para entrenar un modelo grande.

La pregunta surge de inmediato: cómo almacenar toda esta información, cómo procesarla de manera eficiente, cómo usar algoritmos de aprendizaje distribuido: el enfoque de las matemáticas desnudas se está desplazando hacia la ingeniería. Incluso si no escribe un código en producción, debe poder trabajar con herramientas de ingeniería para realizar un experimento.

- ¿Cómo ha cambiado el enfoque de las vacantes de ciencia de datos en los últimos años?

- Big data ha dejado de ser exagerado y se ha convertido en realidad. Los discos duros son lo suficientemente baratos, lo que significa que existe la oportunidad de recopilar todos los datos en general, de modo que en el futuro serán suficientes para probar cualquier hipótesis. Como resultado, el conocimiento de las herramientas para trabajar con Big Data se está volviendo muy popular y, como resultado, cada vez aparecen más oportunidades de trabajo para los ingenieros de datos.

Según tengo entendido, el resultado del trabajo de un científico de datos no es un experimento, sino un producto que ha alcanzado la producción. Y justo desde este punto de vista, antes del advenimiento de los grandes datos, el proceso era más simple: los ingenieros se dedicaron al aprendizaje automático para resolver problemas específicos, y no hubo problemas para llevar los algoritmos a producción.

- ¿Qué se necesita para seguir siendo un especialista solicitado?

- Ahora, muchas personas han llegado a la ciencia de los datos que han aprendido matemáticas, teoría del aprendizaje automático, participaron en concursos de análisis de datos en los que se proporciona una infraestructura preparada: se borran los datos, se definen las métricas y no se requiere que la solución sea reproducible y rápida.

Como resultado, los chicos que están mal preparados para las realidades de los negocios vienen a trabajar, y se forma una brecha entre los principiantes y los desarrolladores experimentados.

Con el desarrollo de herramientas que le permiten ensamblar su propio modelo a partir de módulos prefabricados, y Microsoft, Google y muchos otros ya tienen tales soluciones, y la automatización del aprendizaje automático, esta brecha se hará aún más pronunciada. En el futuro, la profesión requerirá investigadores serios que presenten nuevos algoritmos y empleados con habilidades avanzadas de ingeniería que implementen modelos y automaticen procesos. Solo el curso de Ozon Masters en ingeniería de datos se centra en el desarrollo de habilidades de ingeniería y la capacidad de utilizar algoritmos de aprendizaje automático distribuidos en Big Data. Estamos tratando de reducir la brecha entre lo que un científico de datos puede hacer y lo que debería poder hacer en la práctica.

- ¿Por qué las matemáticas con diploma van a estudiar negocios?

- La comunidad rusa de ciencia de datos ha llegado a comprender que las habilidades y la experiencia se convierten rápidamente en dinero, por lo tanto, tan pronto como un especialista tiene experiencia práctica, su costo comienza a crecer muy rápidamente, las personas más capacitadas son muy caras, y esto es cierto en el momento actual de desarrollo mercado.

La mayor parte del trabajo de un científico de datos es ir a los datos, comprender lo que hay allí, consultar con las personas responsables de los procesos comerciales y generar estos datos, y solo luego usarlos para construir modelos. Para comenzar a trabajar con Big Data, es extremadamente importante tener habilidades de ingeniería: es mucho más fácil sortear las esquinas afiladas, que son muchas en ciencia de datos.

Una historia típica: escribió una consulta SQL que se ejecuta utilizando el framework Hive, que se ejecuta en big data. La solicitud se procesa en diez minutos, en el peor de los casos, en una o dos horas, y a menudo, cuando recibe la carga de estos datos, se da cuenta de que olvidó tener en cuenta algún factor o información adicional. Debe reenviar la solicitud y esperar estos minutos y horas. Si eres un genio de la eficiencia, entonces asumiremos otra tarea, pero, como lo demuestra la práctica, tenemos pocos genios de la eficiencia, y la gente solo está esperando. Por lo tanto, en los cursos dedicaremos mucho tiempo a la eficiencia del trabajo para escribir inicialmente consultas que funcionen no durante dos horas, sino durante varios minutos. Esta habilidad multiplica la productividad y, con ella, el valor de un especialista.

- ¿En qué se diferencia Ozon Masters de otros cursos?

- Los empleados de Ozon enseñan en Ozon Masters, y las tareas se basan en casos comerciales reales que se resuelven en las empresas. De hecho, además de la falta de habilidades de ingeniería, la persona que ha aprendido ciencia de datos en la universidad tiene otro problema: la tarea empresarial está formulada en el lenguaje de los negocios, y su objetivo es bastante simple: ganar más dinero. Y el matemático sabe bien cómo optimizar las métricas matemáticas, pero encontrar una métrica que se correlacione con una métrica empresarial es difícil. Y debe comprender que está resolviendo un problema comercial, formular métricas que puedan optimizarse matemáticamente junto con las empresas. Esta habilidad se adquiere a expensas de casos reales, y Ozon los da.
E incluso si abandona los casos, la escuela enseña a muchos profesionales que resuelven problemas comerciales en empresas reales. Como resultado, el enfoque de la enseñanza es aún más práctico. Al menos en mi curso, trataré de cambiar el enfoque sobre cómo usar las herramientas, qué enfoques existen, etc. Junto con los estudiantes, entenderemos que cada tarea tiene su propia herramienta, y cada herramienta tiene un campo de aplicabilidad.

- El programa de entrenamiento más famoso en análisis de datos, por supuesto, ShAD: ¿cuál es la diferencia específica de él?

- Está claro que ShAD y Ozon Masters, además de la función educativa, resuelven el problema local de capacitación. Los principales graduados de SHAD son reclutados principalmente para Yandex, pero el problema es que Yandex, debido a su especificidad, y era grande y creado cuando había pocas herramientas buenas para trabajar con big data, tiene su propia infraestructura y herramientas para trabajar con datos, lo que significa tendrá que dominarlos. Ozon Masters tiene un mensaje diferente: si ha dominado con éxito el programa y Ozon o una de las 99% de otras compañías lo invita a trabajar, será mucho más fácil comenzar a beneficiar al negocio, el conjunto de habilidades adquiridas a través de Ozon Masters será suficiente para comenzar a trabajar.

- El curso dura dos años. ¿Por qué lleva tanto tiempo?

- Buena pregunta. Durante mucho tiempo, porque el contenido y el nivel de los maestros es un programa de maestría integral, que requiere mucho tiempo para dominar, incluida la tarea.

Desde el punto de vista de mi curso, esperar que el estudiante pase 2-3 horas a la semana en tareas es algo común. Primero, las tareas se realizan en el grupo de entrenamiento, y cualquier grupo común implica que varias personas lo usan simultáneamente. Es decir, debe esperar a que la tarea comience a ejecutarse, algunos recursos se pueden seleccionar y transferir a una cola de mayor prioridad. Por otro lado, cualquier trabajo con big data lleva mucho tiempo.

, — , 25 12:00, Ozon Masters . c Zoom YouTube.

Pavel Klemenkov, NVIDIA: Estamos tratando de reducir la brecha entre lo que un científico de datos puede hacer y lo que necesita poder hacer.