En 2012 Harvard Business Review calificó el puesto del científico de datos como “el trabajo más sexy del sigo 21”. Podría decirse que ese trabajo es también el más difuso.
Para contratar a las personas adecuadas para el rol correcto, es importante distinguir entre los diferentes tipos de científico de datos, y me parece útil distinguirlos a partir de los entregables que crean. Un tipo de científico de datos los genera para consumo humano, en forma de recomendaciones de producto y estrategia: son los “científicos de decisión”. El otro tipo los crea para consumo de las máquinas, incluidos modelos, datos de entrenamiento y algoritmos: son los “científicos de modelado”.
Ciencia de datos para humanos: Los consumidores de este producto son tomadores de decisiones, incluidos ejecutivos, gerentes de proyectos o médicos. Quieren obtener conclusiones a partir de los datos, para evaluar aspectos sobre qué contenido licenciar, qué prospecto de ventas seguir o qué medicina tiene menos probabilidades de causar una reacción alérgica. Estos científicos de datos definen mediciones, realizan experimentos, señalan inferencias causales y generan recomendaciones.
Ciencia de datos para máquinas: Las computadoras consumen datos en forma de datos de entrenamiento, modelos y algoritmos. Por ejemplo, sistemas de recomendación que sugieren la playera que podría gustarle a un consumidor, o la medicina que un médico debería considerar para su receta con base en una meta específica, como el minimizar las tasas de reingreso al hospital.
Más detalle a los roles de datos
En operaciones de datos más grandes y sofisticadas, son necesarios roles específicos. He aquí cinco áreas clave que contribuyen a las operaciones de la ciencia de datos. Estos roles abarcan la creación, mantenimiento y uso de datos, y son adicionales a los científicos de decisiones y de modelado, descritos previamente.
- Infraestructura de datos: La ingestión, disponibilidad, operaciones, accesos y sistemas en tiempo de ejecución de datos para respaldar los flujos de trabajo de los científicos de datos.
- Ingeniería de los datos: La determinación de los esquemas de datos para respaldar las mediciones y necesidades de modelado, y la limpieza, agregación y manejo de series de datos.
- Calidad y gobernanza de datos: Herramientas, procesos y guías para asegurar que los datos sean correctos, monitoreados, documentados y estandarizados. Esto incluye herramientas para el data lineage y la seguridad de datos.
- Ingeniería de análisis de datos: Les permite a los científicos de datos enfocados en el análisis escalar a través de aplicaciones analíticas para uso interno, por ejemplo, librerías de software de análisis y microservicios analíticos.
- Gerencia de producto para los productos de datos: La creación de productos que los consumidores internos utilicen dentro de su flujo de trabajo. Los ejemplos incluyen un portal para leer resultados de exámenes A/B, una herramienta de análisis de fallos y un tablero de control que permita el autoservicio de datos y el diagnóstico de cambios a las medidas o desempeño del modelo.
¿A quién contratar?
Entonces, ¿a qué clase de científico de datos debería estar reclutando? Para responder esta pregunta, decida en primer lugar en qué etapa está su operación de datos. Segundo, pregunte cuán vitales son los datos para sus productos. Si es una organización pequeña que apenas empieza y está contratando a su primer científico de datos, trate de contratar a alguien que pueda desempeñar tantos de estos roles como sea posible. Si es una firma más grande o está más adelantado en su operación de datos, la respuesta dependerá más de cuán esenciales sean los datos para su producto.
¿Cómo organizar?
Si la ciencia de datos es un diferenciador estratégico para su organización, el jefe de la unidad de ciencia de datos debería idealmente reportarle al CEO. Si esto no es posible, la persona debería al menos reportarle a alguien que entienda la estrategia de datos. La ciencia de datos tiene su propia serie de habilidades, procesos y cultura si la ciencia de datos es crítica para su organización, es mejor no enterrarla bajo una parte de la organización que tiene una cultura diferente.
La otra gran pregunta es si integrar o no la ciencia de datos a las diferentes unidades de negocio. Y de ser así, ¿cómo? Hay tres modelos básicos: centralizada en un equipo de ciencia de datos, distribuida a lo largo de las unidades de negocio, o un híbrido de ambas, donde usted tenga un equipo centralizado que le reporte a un líder de departamento, pero que trabaje en unidades diferentes. A menos que su operación de datos incluya a varios cientos de empleados, el modelo híbrido es el más efectivo.
Lo necesario para el éxito
Aunque diferentes clases de científicos de datos podrían tener diferentes especialidades, hay algunas cosas que todos necesitan para tener éxito. Necesitan socios empresariales que puedan ayudarlos a integrarse a los negocios y productos centrales. También necesitan socios de datos –como ingenieros de aplicación de software e ingenieros de infraestructura de datos– que ayuden a asegurar que la instrumentación y alimentación de datos sean correctos y accesibles. Además, necesitan líderes dispuestos a invertir en las bases necesarias para su trabajo, incluyendo calidad, manejo y visualización de datos, así como una cultura que abrace los datos como parte del desarrollo del negocio.
Un consejo final para quienes contratan científicos de datos: busquen personas que estén enamoradas de resolver problemas –no con soluciones o métodos específicos– y personas que sean increíblemente colaborativas. No importa qué clases de científicos de datos está contratando, deben ser capaces de trabajar al lado de los otros equipos de la compañía para ser exitosos. Finalmente, busque personas que tengan una elevada integridad. Como sociedad, tenemos una responsabilidad social de usar los datos para bien y con respeto. Los científicos de datos tienen la responsabilidad de la custodiarlos dentro y fuera de la organización en que trabajan.
Yael Garten es directora de ciencia de datos e ingeniería de Siri en Apple.