La empresa más conocida en esta categoría es Segment, pero últimamente han entrado a competir otras soluciones como RudderStack o Snowplow que pueden ser alojadas en los propios servidores proporcionando mayor flexibilidad.
Cuando un usuario navega por un sitio web, esa sesión del navegador genera eventos que necesitan ser registrados, validados, enriquecidos y almacenados. Las plataformas de recopilación de datos sirven precisamente para almacenar estos eventos y la analítica que generan estos usuarios. Estos datos de usuarios requieren un stack completo de herramientas. El lado del cliente recopila los datos, el middleware transporta esos datos y el lado del servidor almacena y carga los datos en los almacenes y otras aplicaciones destino. Los eventos de los usuarios son las acciones y actividades que los usuarios hacen cuando interactúan con el producto. Los datos de los usuarios son usados para múltiples tareas dentro del negocio como construir y ejecutar un roadmap de producto de forma eficiente, la tabla de precios o el diseño de la experiencia del usuario.
Con este análisis de soluciones modernas de datos se pretenden cubrir todos los componentes de un pipeline de datos.
El stack moderno de datos es la evolución desde un sistema viejo basado en herramientas frágiles que necesitaban constante mantenimiento a un conjunto de herramientas que automatizan, simplifican y aceleran las decisiones de negocio centralizando todos los datos en un único lugar accesible donde poder crear modelos de datos unificados con la capacidad de sincronizarse con herramientas que usan los comerciales.
Septiembre es el verdadero Año Nuevo, porque es cuando de verdad me incorporo a la rutina después de los días de verano y empiezan los planes para los próximos meses.
Después de los días de verano es un buen momento para concretar esos propósitos para el curso sep 2020 - ago 2021.
Estudiar una carrera requiere compromiso, motivación y disciplina grande porque son mínimo 4 años de tu tiempo. En este post te cuento por qué estudiar esta carrera con especialización en Ingeniería del Software y por qué considero que es una buena opción entrar en una universidad online como UNIR.
Hay cosas que se aprenden en la universidad que es difícil obtener en otro lado. En este punto de mi carrera profesional un título no me hubiera generado más dinero, pero lo que sí me ha ayudado la universidad es a saber más fundamentos, tener mejores conocimientos, contactos y tener mejores proyectos personales. La universidad, por tanto, es una herramienta que si la aprovechas vale totalmente la pena.
Una de mis cosas favoritas es curar contenido, con lo mejor en productos digitales, startups tecnológicas, datos y desarrollo de software moderno. Esta es la lista con mis podcasts favoritos en 2020.
¿Hay algo más recompensante que la satisfacción de aprender por auténtica curiosidad intelectual sin que nadie te obligue? Tengo un problema con Audible y es que se me hace complicado retener lo que escucho. Con los podcasts no me pasa esto. Trato de apuntar todo lo que me resulta más interesante. Siempre tengo un cuaderno o app de notas al lado, y puedo hacerlo mientras voy de camino al trabajo o hago la compra. Las distracciones siempre estarán ahí, pero intento hacer uso de ellas para ser productivo.
En este post reflexiono sobre los principales beneficios y retos que podría generar el despliegue de la inteligencia de negocio en una organización.
No ha habido un mejor momento para ser analista de BI (Business Intelligence) como ahora pero es bueno también volver no solo a los beneficios que puede aportar la inteligencia de negocio sino también a los retos que tiene desplegar este tipo de iniciativas dentro de una organización.
Tener un sentido de misión me hace más feliz. ¿Qué hago en este mundo? ¿Por qué lo hago? ¿Por qué me levanto cada mañana?
Me gusta la frase de Séneca “Si uno no sabe a que puerto se dirige cualquier viento es un buen viento”. Hay cuatro cosas por las que me levanto cada mañana y que me importan más en mi vida: mi trabajo (desarrollo profesional), mi familia, mis amigos (la gente que quiero) y la parte espiritual de la vida.
Con la palabra anonimización se reconoce el dato disociado, como aquel que no permite la identificación de un afectado o interesado.
Estos son algunos ejemplos de riesgos referentes a la preservación de la privacidad o anonimización que consiste en alterar o introducir ruido en los datos para que la reidentificación de los usuarios no sea posible:
La principal diferencia entre un almacén de datos y los sistemas operacionales es su objetivo, el primero está orientado al análisis y la toma de decisiones y los segundos a las operaciones del día a día y a la operativa diaria de la empresa.
Podemos prever que los sistemas operacionales reciben multitud de transacciones repetitivas y conocidas y el almacén de datos recibe consultas masivas, puntuales y no conocidas.
Como diferencia encontramos también el rendimiento, la volatilidad, los usuarios (más expertos en el almacén de datos), estructura (relacional versus multidimensional), alcance histórico, detalle de los datos y el volumen, mucho mayor en un almacén de datos. Los datos que contiene el almacén de datos han de estar integrados en una estructura consistente porque, entre sus objetivos, está el de eliminar las posibles inconsistencias que se dan entre los diferentes sistemas operacionales.
Espresso es una base de datos NoSQL altamente distribuida con tolerancia ante fallos para diferentes servicios de LinkedIn. Usa cerca de 100 clusters, almacenando unos 420 terabytes de datos de la fuente de verdad (Source of Truth en inglés) y manejando más de dos millones de queries por segundo en los picos de carga.
LinkedIn decidió migrar uno de sus servicios internos (Babylonia) de usar Oracle a Espresso, con el requerimiento principal de mantener corriendo Babylonia ininterrumpido en producción durante la migración para que esta transición no afectase a los usuarios finales. El uso del modelo relacional (Oracle) era poco adecuado para resolver el problema planteado con Babylonia porque a medida que el sistema crecía, ellos estaban almacenando más datos en la base de datos y lanzando más queries contra ella. Los trabajos (jobs) periódicos que necesitaban para correr las tablas de la base de datos se estaban volviendo pesados.