Posts Tagged 'Cluster Analysis'

Taller de minería de datos de Gordon Linoff – Cluster Analysis

En el 2º día de su taller de minería de datos, Gordon Linoff presentó 4 técnicas de modelado. En esta ocasión voy a comentar la primera, que fue análisis para agrupación o cluster analysis.

Vale la pena señalar que la descripción de la técnica fue acompañada con reflexiones del problema de negocio, lo cual nos permite identificar con mayor facilidad las áreas de oportunidad en nuestros propios ambientes de trabajo. Además, la forma como Gordon los describe produce un efecto similar a cuando uno ve una película de artes marciales… sale uno con ganas de analizar algunos datos para descubrir información relevante de nuestros clientes.

Análisis para agrupación (Cluster Analysis). Este caso se refiere a un análisis de agrupación geográfica que se llevó a cabo para un periódico (The Boston Globe) que quería extender su radio de acción a localidades más pequeñas, incluyendo noticias locales y vendiendo publicidad también local.

El objetivo de la minería fue clasificar a las localidades según sus similitudes y diferencias y lograr un número eficiente de regiones para determinar las “versiones” del periódico y unas rutas razonables para su entrega.

Como en caso todos los trabajos de minería, una de las partes mas laboriosas y no menos complejas es la preparación de los datos. En este caso se determinaron registros a nivel localidad con datos tanto del mismo periódico (suscriptores) como de los censos disponibles.

La técnica utilizada se llama: agrupación por k-promedios modificada (modified k-mean clustering). Esta técnica tiene la ventaja de poderse explicar de una manera bastante gráfica.

Se grafican los datos y se escogen algunos de ellos arbitrariamente como las semillas que serán los centroides de las grupos. Los demás datos se asignan a la semilla que les queda mas cerca formando los grupos iniciales. Tomen nota del dato (o punto) que se encuentra en un cuadro en la segunda gráfica.

TallerGL-Cluster-1 TGL-Cluster2

Posteriormente los centroides se mueven al centro real de su grupo. Y se repite el ejercicio. Podemos ver que el dato en el cuadro pasa del grupo verde al grupo rosa.

TGL-Cluster3 TGL-Cluster4

El proceso de mover los centroides y reasignar los grupos se repite hasta que los grupos permanecen estables, lo cual sucede después de unas cuantas interacciones. Entonces tenemos los grupos o clusters finales.

Una agrupación exitosa debe de producir grupos de tamaños similares y esto tiene mucho que ver con la preparación y selección adecuada de los datos. De lo contrario se puede producir un efecto de sistema solar, esto es, un gran grupo con la gran mayoría de los objetos de estudio (el sol) y unos cuantos grupos muy pequeños (planetas), dicha agrupación en realidad no aporta mucho pues casi todos caen en el gran conjunto sol. Entonces habrá que revisar los datos y replantear el proceso.

En el caso de estudio presentado, las principales variables que se utilizaron fueron el ingreso familiar, el grado de estudios y tipo de ocupación. La clasificación final generó cuatro grupos con las siguientes características:

Grupo

Localidades

Subscriptores

Hogares

Penetración

1AA

72

82mil

375mil

22%

1AB

49

11mil

277mil

4%

1b

61

203mil

1.2millones

17%

2

50

137mil

313mil

44%

Como se puede ver, son bastante homogéneos en cuanto al número de localidades (de 49 a 72). Sin embargo, el número de hogares y sus grados de penetración son bastante diferentes, lo que representa una oportunidad de negocio.

Todas las zonas geográficas tenían un cluster dominante y el proceso ayudo a identificar las oportunidades para modificar las zonas y lograr que hubiera mayor coincidencia con los clusters y así tener una mejor estrategia para aumentar su penetración. En el caso del Boston Globe, la gente de negocio tenía una idea razonablemente buena de cómo agrupar las localidades, pero la minería definitivamente mejoró el resultado.

Un aspecto que me resultó bastante interesante es que la mayoría de las personas grafican los clusters como círculos. Sin embargo, las divisiones de los clusters en realidad son líneas rectas. Gordon comentó que lo mismo sucede con las burbujas… y es verdad, si uno recuerda haber jugado con burbujas de jabón, cuando estas se pegan la unión es recta.

En el siguiente “post” comentaré la segmentación de clientes según su comportamiento, también para un periódico.

Por José Corona, Solvis Consulting México

Posts anteriores relacionados:

Taller de minería de datos de Gordon Linoff – 2a parte

Taller de Minería de Datos de Gordon Linoff – 1er Congreso Internacional CRM México

Taller de minería de datos de Gordon Linoff – 2a parte

El día de ayer asistí a la segunda parte del taller de Minería de Gordon Linoff: Creación de modelos de minería de datos. En el explicó algunas de las técnicas mas comunes para el entendimiento de los clientes.

En primer lugar hizo énfasis en la importancia de tener un Data Warehouse con suficiente historia para poder hacer un mejor análisis de los clientes. Para algunos tipos de negocio, como el de retail, hay comportamientos importantes que solo pueden observarse en temporadas clave, como en la navideña. Pero si el Data Warehouse tiene solo la historia de algunos meses, podríamos perder patrones altamente importantes (y de alto margen) de los clientes.

Algunos conceptos clave:

  • Entrenamiento – es el proceso de crear un modelo a partir de un conjunto inicial de datos.
  • Calificación (scoring) – Es el proceso de aplicar el modelo a un conjunto de datos nuevo.
  • Minería Dirigida – Busca patrones basados en eventos conocidos. Generalmente el modelado predictivo y de propensión.
  • Minería No Dirigida – Busca patrones en datos sin tener un ejemplo definido para poder entenderlos mejor: Clustering o análisis de agrupación

Pero como en este caso se trata de clientes, también hay que entender y obtener información del cliente. Esto nos obliga a definir primero… que es un cliente, entender las características específicas que los describen, conocer los eventos significativos de su vida (como personas y como clientes), entender su ciclo de vida como cliente y tener claro como se organizan los procesos de negocio alrededor del ciclo de vida, de sus principales eventos y de los datos que los describen. Esto refuerza lo que comentó en la sesión anterior, el negocio tiene que estar involucrado en el análisis.

De lo que me pareció mas importante fue que en la mayoría de los casos que presento, el planteamiento original con que inicio la minería tuvo que ser replanteado. Generalmente esto se debió a que en un inicio se tenía una idea que parecía como la obvia, pero al ir redescubriendo a los clientes a través de sus datos esa idea en realidad no era correcta o no era aplicable. Por ejemplo, en el caso del modelo de churn (deserción de clientes) de un telco, el planteamiento original fue determinar un índice de propensión de churn a todos los clientes. Sin embargo esto creaba una serie de complejidades que en realidad no aportaban mucho al negocio. El planteamiento final fue el siguiente: Para el 24 de cada mes, obtener la lista de los 10,000 clientes elite con mayor probabilidad de desertar durante el mes siguiente.

Gordon explico las técnicas de modelado para los siguientes casos de negocio:

  • Análisis para agrupación (cluster) geográfica para un periódico que quería extender su radio de acción a localidades más pequeñas, incluyendo noticias locales y vendiendo publicidad también local.
  • Segmentación de clientes según su comportamiento, también para un periódico.
  • Predicción de Churn para una empresa de Telecomunicaciones.
  • Determinar la siguiente mejor oferta para los anuncios en Internet de un banco.

Cada uno de los ejemplos fue sumamente interesante y creo que vale la pena comentarlos por separado para poder resaltar sus puntos clave. Por esta razón los voy ir comentando durante los siguientes días.

Por José Corona, Solvis Consulting México
Posts anterior relacionado:

Taller de Minería de Datos de Gordon Linoff – 1er Congreso Internacional CRM México


Follow MundoContact on Twitter

¡Bienvenidos al blog Mundo Contact!

La Red de la Comunidad de TIC, Centros de Contacto, CRM, Social Media y Marketing te da la bienvenida al blog de Mundo Contact. Este blog pretende ser el punto de encuentro de todos aquellos que compartimos los mismos intereses, aspiraciones y proyectos profesionales.

Tus puntos de vista, opiniones, experiencias e ideas, sumadas a todas las que aporten los miles de miembros de esta red a nivel mundial, detonará el enorme potencial de conocimiento que las comunidades son capaces de generar de manera genuina y colaborativa.

En este proyecto, el blog Mundo Contact es sólo un punto de encuentro que funciona de manera neutral y ajena a intereses comerciales y políticos.

Síguenos en:

Twitter
Facebook
LinkedIn
Viadeo
FriendFeed
Flickr
You Tube
Slideshare
Delicious
Blog
Wiki
Noticias
Soluciones
Revista
Datos Duros

Twitter

Twitter Counter

TwitterCounter for @MundoContact

Twitter Grade

Bitacoras.com
AddThis Feed Button
AddThis Social Bookmark Button

Secciones

RSS Noticias en línea

  • Ha ocurrido un error; probablemente el feed está caído. Inténtalo de nuevo más tarde.

RSS Soluciones en la industria

  • Ha ocurrido un error; probablemente el feed está caído. Inténtalo de nuevo más tarde.

RSS Revista Mundo-Contact

  • Ha ocurrido un error; probablemente el feed está caído. Inténtalo de nuevo más tarde.

Cifras de la Industria

mayo 2013
L M X J V S D
« may    
 12345
6789101112
13141516171819
20212223242526
2728293031  

Contenido protegido por derechos de Autor

Creative Commons License
Mundo-Contact Blog by Mundo-Contact is licensed under a Creative Commons Atribución 3.0 Unported License.
Based on a work at blog.mundo-contact.com.
Permissions beyond the scope of this license may be available at http://mundocontact.wordpress.com/.

Seguir

Recibe cada nueva publicación en tu buzón de correo electrónico.

Únete a otros 34 seguidores

%d bloggers like this: