Posts Tagged 'mineria de datos'

Taller de minería de datos de Gordon Linoff – Segmentación por Comportamiento

En el 1er Congreso Internacional de CRM de México de 2007 (Noviembre 12 y 13), Gordon Linoff dictó el taller de minería de datos. En Noviembre y Diciembre comenté los temas del taller y la técnica de modelado de Cluster Analysis. En esta ocasión voy a comentar el tema de la segmentación por comportamiento.

Esta segmentación fue explicada utilizando el caso de estudio de un periódico. El periódico en cuestión tiene millones de clientes suscritos y gasta una cantidad considerable en investigaciones de mercado, las cuales consisten en contactar a una muestra de varios miles de clientes a los cuales se les aplica una encuesta y posteriormente se clasifican según su uso actual y tendencia en los siguientes segmentos: en riesgo, en crecimiento, en desarrollo y comprometidos. El orden de los segmentos corresponde al aumento de su “lealtad” hacia el periódico, en donde el segmento en riesgo es el que menos usa el periódico y tiene la tendencia que representa el menor valor y el segmento de los comprometidos son los que más usan el servicio y tienen la mejor tendencia, por lo que se les considera como los más leales.

La segmentación en esas categorías permite identificar a los clientes de valor. Sin embargo, más allá de eso no explica mucho y por lo tanto no hay muchas posibilidades de acción.

Entonces el objetivo se replanteó: hay que identificar los comportamientos de los clientes con la intensión no solo de entenderlos sino de facilitar el determinar acciones para cambiar dicho comportamiento. Y entender el comportamiento de los clientes implica conocer su ciclo de vida y que eventos los caracterizan. Para poder hacer esto, como se explicó en posts anteriores, hay que involucrar a los usuarios del negocio por que son ellos los que pueden identificar los comportamientos significativos y de utilidad para el negocio. También por que son ellos los que tienen un mayor entendimiento de los clientes.

El análisis entonces se enfocó en analizar a los clientes por su comportamiento a lo largo del tiempo, como lo muestra la siguiente figura, en donde se puede ver cuando un cliente inicia consumiendo un servicio P1 (tal vez una suscripción básica), después aumenta sus consumos a P2 (ej. pide algunas revistas complementarias), posteriormente cancela el servicio P2 y mantiene solo su consumo P1 y luego suspende su consumo totalmente. Posteriormente se pueden observar algunos comportamientos un poco diferentes.

Gordon-Behavior1

El análisis consiste entonces en caracterizar el comportamiento de cada uno de los trimestres (etiquetas en negro de arriba). Entonces hay trimestres en donde el comportamiento es el inicio del servicio o New, si no hay cambios se mantiene activo, los aumentos en servicios son Up y las disminuciones en servicio son Down.

Gordon Behavior 2

El análisis del comportamiento toma mucho sentido cuando se analizan sobre el tiempo. Entonces se identifican los siguientes seis comportamientos principales:

Gordon Behavior 3

Posteriormente, para cada cliente del estudio se analiza su comportamiento y se determina a que categoría pertenece, comparándolo con el segmento original. La siguiente figura muestra el caso para algunos clientes.

Gordon Behavior 4

Como puede verse, hasta ahora la parte interesante del proceso ha tenido más que ver con el entendimiento de los clientes y del negocio para poder hacer un planteamiento que tenga sentido. Es muy común ver segmentaciones basadas únicamente en el saldo de los clientes y al final, si bien es un dato importante, por si mismo no da mucha orientación de acciones claras a ejecutar.

Posteriormente se cuantificaron los clientes y se realizaron nuevas categorías basadas en el comportamiento y ahora si con minería de datos se buscaron las reglas que se repetían para cada nuevo segmento, permitiendo redefinirlo. Por ejemplo, algunas reglas que se identificaron para el nuevo segmento Commited (que tienden a permanecer como clientes… esto es Steady, Growing Existing y Declining Current) fueron:

  • Producto actual suscripción diaria, pago con tarjeta de crédito y antigüedad mayor a 6 meses.
  • Producto actual suscripción de y días a la semana, pago con facturación y antigüedad mayor a 1 año.
  • Producto actual suscripción días hábiles y antigüedad de entre 1 y 6 años

Los nuevos segmentos que se generaron con este análisis y con la minería de datos tuvieron ventajas significativas con los segmentos originales:

  • Mayor confiabilidad. Los encuestados no siempre dicen la verdad… o al menos sus respuestas no necesariamente corresponden con su comportamiento.
  • Mayor alcance. La muestra permite tomar decisiones precisas únicamente sobre los clientes encuestados. Sin embargo es difícil la toma de decisiones con precisión para los millones de clientes no encuestados.
  • Facilidad para la toma de decisiones. Los segmentos por comportamiento y las reglas que los definen son más entendibles para la gente de negocio y permiten generar acciones más fáciles ya sea para promover que más clientes cumplan una regla que los convierta en “commited” como para identificar de manera temprana el cambio en un cliente que pudiera ponerlo en riesgo.

La técnica que se utilizó fue la de árboles de decisión, el cual explicaré en el siguiente post.

Por José Corona, Solvis Consulting México

Posts anteriores relacionados:

Taller de minería de datos de Gordon Linoff -Cluster Analysis

Taller de minería de datos de Gordon Linoff – 2a parte

Taller de Minería de Datos de Gordon Linoff – 1er Congreso Internacional CRM México

Taller de minería de datos de Gordon Linoff – Cluster Analysis

En el 2º día de su taller de minería de datos, Gordon Linoff presentó 4 técnicas de modelado. En esta ocasión voy a comentar la primera, que fue análisis para agrupación o cluster analysis.

Vale la pena señalar que la descripción de la técnica fue acompañada con reflexiones del problema de negocio, lo cual nos permite identificar con mayor facilidad las áreas de oportunidad en nuestros propios ambientes de trabajo. Además, la forma como Gordon los describe produce un efecto similar a cuando uno ve una película de artes marciales… sale uno con ganas de analizar algunos datos para descubrir información relevante de nuestros clientes.

Análisis para agrupación (Cluster Analysis). Este caso se refiere a un análisis de agrupación geográfica que se llevó a cabo para un periódico (The Boston Globe) que quería extender su radio de acción a localidades más pequeñas, incluyendo noticias locales y vendiendo publicidad también local.

El objetivo de la minería fue clasificar a las localidades según sus similitudes y diferencias y lograr un número eficiente de regiones para determinar las “versiones” del periódico y unas rutas razonables para su entrega.

Como en caso todos los trabajos de minería, una de las partes mas laboriosas y no menos complejas es la preparación de los datos. En este caso se determinaron registros a nivel localidad con datos tanto del mismo periódico (suscriptores) como de los censos disponibles.

La técnica utilizada se llama: agrupación por k-promedios modificada (modified k-mean clustering). Esta técnica tiene la ventaja de poderse explicar de una manera bastante gráfica.

Se grafican los datos y se escogen algunos de ellos arbitrariamente como las semillas que serán los centroides de las grupos. Los demás datos se asignan a la semilla que les queda mas cerca formando los grupos iniciales. Tomen nota del dato (o punto) que se encuentra en un cuadro en la segunda gráfica.

TallerGL-Cluster-1 TGL-Cluster2

Posteriormente los centroides se mueven al centro real de su grupo. Y se repite el ejercicio. Podemos ver que el dato en el cuadro pasa del grupo verde al grupo rosa.

TGL-Cluster3 TGL-Cluster4

El proceso de mover los centroides y reasignar los grupos se repite hasta que los grupos permanecen estables, lo cual sucede después de unas cuantas interacciones. Entonces tenemos los grupos o clusters finales.

Una agrupación exitosa debe de producir grupos de tamaños similares y esto tiene mucho que ver con la preparación y selección adecuada de los datos. De lo contrario se puede producir un efecto de sistema solar, esto es, un gran grupo con la gran mayoría de los objetos de estudio (el sol) y unos cuantos grupos muy pequeños (planetas), dicha agrupación en realidad no aporta mucho pues casi todos caen en el gran conjunto sol. Entonces habrá que revisar los datos y replantear el proceso.

En el caso de estudio presentado, las principales variables que se utilizaron fueron el ingreso familiar, el grado de estudios y tipo de ocupación. La clasificación final generó cuatro grupos con las siguientes características:

Grupo

Localidades

Subscriptores

Hogares

Penetración

1AA

72

82mil

375mil

22%

1AB

49

11mil

277mil

4%

1b

61

203mil

1.2millones

17%

2

50

137mil

313mil

44%

Como se puede ver, son bastante homogéneos en cuanto al número de localidades (de 49 a 72). Sin embargo, el número de hogares y sus grados de penetración son bastante diferentes, lo que representa una oportunidad de negocio.

Todas las zonas geográficas tenían un cluster dominante y el proceso ayudo a identificar las oportunidades para modificar las zonas y lograr que hubiera mayor coincidencia con los clusters y así tener una mejor estrategia para aumentar su penetración. En el caso del Boston Globe, la gente de negocio tenía una idea razonablemente buena de cómo agrupar las localidades, pero la minería definitivamente mejoró el resultado.

Un aspecto que me resultó bastante interesante es que la mayoría de las personas grafican los clusters como círculos. Sin embargo, las divisiones de los clusters en realidad son líneas rectas. Gordon comentó que lo mismo sucede con las burbujas… y es verdad, si uno recuerda haber jugado con burbujas de jabón, cuando estas se pegan la unión es recta.

En el siguiente “post” comentaré la segmentación de clientes según su comportamiento, también para un periódico.

Por José Corona, Solvis Consulting México

Posts anteriores relacionados:

Taller de minería de datos de Gordon Linoff – 2a parte

Taller de Minería de Datos de Gordon Linoff – 1er Congreso Internacional CRM México

Taller de minería de datos de Gordon Linoff – 2a parte

El día de ayer asistí a la segunda parte del taller de Minería de Gordon Linoff: Creación de modelos de minería de datos. En el explicó algunas de las técnicas mas comunes para el entendimiento de los clientes.

En primer lugar hizo énfasis en la importancia de tener un Data Warehouse con suficiente historia para poder hacer un mejor análisis de los clientes. Para algunos tipos de negocio, como el de retail, hay comportamientos importantes que solo pueden observarse en temporadas clave, como en la navideña. Pero si el Data Warehouse tiene solo la historia de algunos meses, podríamos perder patrones altamente importantes (y de alto margen) de los clientes.

Algunos conceptos clave:

  • Entrenamiento – es el proceso de crear un modelo a partir de un conjunto inicial de datos.
  • Calificación (scoring) – Es el proceso de aplicar el modelo a un conjunto de datos nuevo.
  • Minería Dirigida – Busca patrones basados en eventos conocidos. Generalmente el modelado predictivo y de propensión.
  • Minería No Dirigida – Busca patrones en datos sin tener un ejemplo definido para poder entenderlos mejor: Clustering o análisis de agrupación

Pero como en este caso se trata de clientes, también hay que entender y obtener información del cliente. Esto nos obliga a definir primero… que es un cliente, entender las características específicas que los describen, conocer los eventos significativos de su vida (como personas y como clientes), entender su ciclo de vida como cliente y tener claro como se organizan los procesos de negocio alrededor del ciclo de vida, de sus principales eventos y de los datos que los describen. Esto refuerza lo que comentó en la sesión anterior, el negocio tiene que estar involucrado en el análisis.

De lo que me pareció mas importante fue que en la mayoría de los casos que presento, el planteamiento original con que inicio la minería tuvo que ser replanteado. Generalmente esto se debió a que en un inicio se tenía una idea que parecía como la obvia, pero al ir redescubriendo a los clientes a través de sus datos esa idea en realidad no era correcta o no era aplicable. Por ejemplo, en el caso del modelo de churn (deserción de clientes) de un telco, el planteamiento original fue determinar un índice de propensión de churn a todos los clientes. Sin embargo esto creaba una serie de complejidades que en realidad no aportaban mucho al negocio. El planteamiento final fue el siguiente: Para el 24 de cada mes, obtener la lista de los 10,000 clientes elite con mayor probabilidad de desertar durante el mes siguiente.

Gordon explico las técnicas de modelado para los siguientes casos de negocio:

  • Análisis para agrupación (cluster) geográfica para un periódico que quería extender su radio de acción a localidades más pequeñas, incluyendo noticias locales y vendiendo publicidad también local.
  • Segmentación de clientes según su comportamiento, también para un periódico.
  • Predicción de Churn para una empresa de Telecomunicaciones.
  • Determinar la siguiente mejor oferta para los anuncios en Internet de un banco.

Cada uno de los ejemplos fue sumamente interesante y creo que vale la pena comentarlos por separado para poder resaltar sus puntos clave. Por esta razón los voy ir comentando durante los siguientes días.

Por José Corona, Solvis Consulting México
Posts anterior relacionado:

Taller de Minería de Datos de Gordon Linoff – 1er Congreso Internacional CRM México

Taller de Minería de Datos de Gordon Linoff – 1er Congreso Internacional CRM México

Hoy asistí al taller de Minería de Datos de Gordon Linoff: Diseño y minería de las bases de datos en un modelo de CRM.

El taller tiene dos módulos. En el día de hoy, el módulo fue el “Proceso de la minería de datos”. En el Gordon se enfocó en dar un panorama general de lo que es la minería de datos en el contexto del CRM. El primer paso fue una definición de minería: Explorar y analizar grandes cantidades de datos con el fin de descubrir patrones y reglas que sean significativas.

Como primer punto señalo el origen de los datos y la complejidad para obtener significado de grandes depósitos que semejan basureros de datos hasta las peculiaridades de los datos según su sistema de procedencia (transaccional, datawerehouse, datamart, etc.).Buna parte de la minería de datos tiene que ver con las consideraciones para interpretar información con diferentes características y sobre todo, manejar con cuidado datos “sucios”, datos normalizados y desnormalizados.

Un punto muy importante es la participación de los usuarios de los datos, esto es, las personas que pueden entender desde el punto de vista del negocio los datos base para el análisis. Por un lado son los que pueden explicar diversas “peculiaridades” de la información para tener interpretaciones correctas (ejemplo, clientes nuevos que tienen pocos registros). Pero también permiten orientar la búsqueda de comportamientos que tengan valor para el negocio, como es el caso de los comportamientos que preceden un evento significativo, como la cancelación de un servicio.

Para poder tener una idea mejor de las capacidades de la minería de datos, Gordon presentó tres casos de estudio: uno de empresas de telecomunicaciones y dos de retail, el primero sin programa de lealtad y el segundo con programa de lealtad que le permite identificar a cada uno de sus clientes.

En cada caso explicó como se fueron identificando relaciones existentes en la información, sin embargo, por medio de gráficas y mapas, se fueron discriminando aquellas que tenían un potencial de negocio sumamente claro de las que no agregaban valor, como la identificación prospectos para servicios de ISP o la propensión de compra de productos en localidades con alta población hispana en Texas.

Existen otras formas para entender a los clientes, como es el caso de las encuestas o de los estudios de mercado, sin embargo, como en el caso de los detectives forenses de la famosa serie de televisión CSI… los clientes pueden mentir (en una encuesta), pero la evidencia (los datos) no. Esto es: un cliente puede decir que si esta interesado en un producto… pero no lo compra.

Alguien pregunto:¿Cuándo debemos pensar en minería de datos y cuando en herramientas de análisis tipo OLAP? Gordon explica que en los casos en donde sabemos que existe una relación, las herramientas OLAP nos permite entender mejor sus características y variantes. En aquellos casos en donde no sabemos que relaciones existen… la minería de datos es la opción para descubrirlas o… desenterrarlas.

Sin embargo hay que ser cuidadosos, la definición de minería a manera de broma que contó Gordon resume el riesgo: “La minería de datos consiste en torturar a los datos hasta que confiesen… si los torturas lo suficiente ellos confesaran cualquier cosa.”.

Gordon hablará mañana de las técnicas de modelación de datos mas utilizadas.

Por José Corona, Solvis Consulting México.


Follow MundoContact on Twitter

¡Bienvenidos al blog Mundo Contact!

La Red de la Comunidad de TIC, Centros de Contacto, CRM, Social Media y Marketing te da la bienvenida al blog de Mundo Contact. Este blog pretende ser el punto de encuentro de todos aquellos que compartimos los mismos intereses, aspiraciones y proyectos profesionales.

Tus puntos de vista, opiniones, experiencias e ideas, sumadas a todas las que aporten los miles de miembros de esta red a nivel mundial, detonará el enorme potencial de conocimiento que las comunidades son capaces de generar de manera genuina y colaborativa.

En este proyecto, el blog Mundo Contact es sólo un punto de encuentro que funciona de manera neutral y ajena a intereses comerciales y políticos.

Síguenos en:

Twitter
Facebook
LinkedIn
Viadeo
FriendFeed
Flickr
You Tube
Slideshare
Delicious
Blog
Wiki
Noticias
Soluciones
Revista
Datos Duros

Twitter

Twitter Counter

TwitterCounter for @MundoContact

Twitter Grade

Bitacoras.com
AddThis Feed Button
AddThis Social Bookmark Button

Secciones

RSS Noticias en línea

  • Ha ocurrido un error; probablemente el feed está caído. Inténtalo de nuevo más tarde.

RSS Soluciones en la industria

  • Ha ocurrido un error; probablemente el feed está caído. Inténtalo de nuevo más tarde.

RSS Revista Mundo-Contact

  • Ha ocurrido un error; probablemente el feed está caído. Inténtalo de nuevo más tarde.

Cifras de la Industria

mayo 2013
L M X J V S D
« may    
 12345
6789101112
13141516171819
20212223242526
2728293031  

Contenido protegido por derechos de Autor

Creative Commons License
Mundo-Contact Blog by Mundo-Contact is licensed under a Creative Commons Atribución 3.0 Unported License.
Based on a work at blog.mundo-contact.com.
Permissions beyond the scope of this license may be available at http://mundocontact.wordpress.com/.

Seguir

Recibe cada nueva publicación en tu buzón de correo electrónico.

Únete a otros 34 seguidores

%d bloggers like this: