¿Qué es la ciencia de datos?

La ciencia de datos es el estudio de cómo extraer y aplicar conocimientos a partir de la información, y hoy, una de las carreras más cotizadas.

En muchas circunstancias, implica trabajar con grandes conjuntos de datos, como estadísticas de uso para un programa móvil o de escritorio, una base de datos de direcciones o una colección de tendencias comerciales financieras.

Los usos de la ciencia de datos en el mundo real van desde aplicaciones de tecnología financiera (por ejemplo, la creación de servicios bancarios más orientados al consumidor respaldados por una detección de fraude superior) hasta un mayor desarrollo de tecnologías como la inteligencia artificial (IA) y el aprendizaje automático.

Un día en la vida: una mirada al trabajo diario de los científicos de datos

La ciencia de datos no debe confundirse con un campo preocupado por la búsqueda de avances teóricos y lejanos. Los científicos de datos reales realizan tareas más prácticas durante su trabajo diario, incluidas las siguientes:

Recopilación y limpieza de datos, potencialmente en múltiples sistemas de TI dispares, para que se puedan utilizar en proyectos.

Crear visualizaciones que condensen información compleja en un gráfico o tabla accesible

Contribuir a los cuadros de mando que contienen esas visualizaciones y ayudar a las partes interesadas de una organización y a los usuarios finales a tomar decisiones informadas

Colaborar con estos mismos grupos para explicar las características de los proyectos de ciencia de datos y qué conclusiones sacar de sus resultados.

De hecho, el 80 por ciento del tiempo típico de un científico de datos se dedica simplemente a encontrar, limpiar y organizar información clave, y solo el 20 por ciento se dedica al análisis, según una evaluación de IBM.

Eso puede parecer sorprendente, pero es un buen reflejo de lo que realmente implica el trabajo de la ciencia de datos, es decir, asegurar la mejor información disponible para un tablero, visualización u otro proyecto.

Después de todo, cualquier modelo que cree un científico de datos es tan bueno como la información que lo sustenta, por lo que vale la pena tomarse el tiempo para recopilar tantos activos como sea necesario y asegurarse de que sean coherentes y minimicen los sesgos comunes, como:

Sesgo de muestreo

Creación de muestras no representativas al favorecer, a menudo sin intención, la selección de ciertos criterios.

Sesgo de anclaje

Establecerse en los conjuntos de datos recopilados al comienzo de un proyecto, incluso si hay información posterior que debería recopilarse y que podría producir resultados diferentes.

Sesgo de confirmación

Buscar exclusivamente elementos que confirmen una opinión existente, una práctica que casi inevitablemente excluye datos que harían un modelo más preciso.

Cuando se realiza con la debida diligencia, rigurosas metodologías estadísticas y las herramientas técnicas de apoyo adecuadas, la ciencia de datos es invaluable para organizaciones en campos tan variados como tecnología, salud, finanzas y seguros.

Por ejemplo, el trabajo de los científicos de datos actuales es fundamental para hacer que los altavoces domésticos conectados, como Alexa de Amazon o Google Home, sean más “inteligentes” y para mejorar continuamente las direcciones proporcionadas por los servicios de mapas.

Al mismo tiempo, es importante para la investigación cuantitativa al crear pólizas de seguro, realizar la gestión de riesgos y garantizar una verificación de identidad adecuada.

Líneas de tendencia y conocimientos: perspectivas para las carreras en ciencia de datos

Harvard Business Review una vez llamó al científico de datos “el trabajo más sexy del siglo XXI”, una ocupación con escasez de oferta y alta demanda.

En 2017, IBM publicó un estudio que respalda esa conclusión con el hallazgo clave de que se esperaba que el número total de trabajos de ciencia de datos aumentara un 28 por ciento entre 2017 y 2020, agregando 364,000 puestos para un total de 2020 de más de 2.7 millones solo en los EE. UU.

La Oficina de Estadísticas Laborales de EE. UU. (BLS) ha llegado a conclusiones similares sobre la trayectoria a corto y mediano plazo de las carreras de ciencia de datos.

El BLS no divide a los científicos de datos en una categoría exclusiva, sino que los agrupa con científicos de investigación informática y de información.

Para el período de 2016 a 2026, el BLS espera un crecimiento del 19 por ciento en el empleo para estos profesionales, mucho más rápido que el promedio (por debajo del 10 por ciento) para todas las ocupaciones. El salario medio se estimó en más de 114.000 dólares en 2017.

¿Qué alimenta estas altas expectativas para la ciencia de datos? Una gran razón es la experiencia multifacética que poseen los científicos de datos, que abarca no solo el aprendizaje automático y la habilidad tecnológica, sino también el conocimiento matemático y el pensamiento analítico.

En consecuencia, pueden trabajar en proyectos como iniciativas de inteligencia empresarial que difunden datos a las partes interesadas adecuadas, junto con tareas más técnicas, como mejorar un algoritmo de recomendación en una plataforma de comercio electrónico.