Taller de minería de datos de Gordon Linoff – Cluster Analysis

En el 2º día de su taller de minería de datos, Gordon Linoff presentó 4 técnicas de modelado. En esta ocasión voy a comentar la primera, que fue análisis para agrupación o cluster analysis.

Vale la pena señalar que la descripción de la técnica fue acompañada con reflexiones del problema de negocio, lo cual nos permite identificar con mayor facilidad las áreas de oportunidad en nuestros propios ambientes de trabajo. Además, la forma como Gordon los describe produce un efecto similar a cuando uno ve una película de artes marciales… sale uno con ganas de analizar algunos datos para descubrir información relevante de nuestros clientes.

Análisis para agrupación (Cluster Analysis). Este caso se refiere a un análisis de agrupación geográfica que se llevó a cabo para un periódico (The Boston Globe) que quería extender su radio de acción a localidades más pequeñas, incluyendo noticias locales y vendiendo publicidad también local.

El objetivo de la minería fue clasificar a las localidades según sus similitudes y diferencias y lograr un número eficiente de regiones para determinar las “versiones” del periódico y unas rutas razonables para su entrega.

Como en caso todos los trabajos de minería, una de las partes mas laboriosas y no menos complejas es la preparación de los datos. En este caso se determinaron registros a nivel localidad con datos tanto del mismo periódico (suscriptores) como de los censos disponibles.

La técnica utilizada se llama: agrupación por k-promedios modificada (modified k-mean clustering). Esta técnica tiene la ventaja de poderse explicar de una manera bastante gráfica.

Se grafican los datos y se escogen algunos de ellos arbitrariamente como las semillas que serán los centroides de las grupos. Los demás datos se asignan a la semilla que les queda mas cerca formando los grupos iniciales. Tomen nota del dato (o punto) que se encuentra en un cuadro en la segunda gráfica.

TallerGL-Cluster-1 TGL-Cluster2

Posteriormente los centroides se mueven al centro real de su grupo. Y se repite el ejercicio. Podemos ver que el dato en el cuadro pasa del grupo verde al grupo rosa.

TGL-Cluster3 TGL-Cluster4

El proceso de mover los centroides y reasignar los grupos se repite hasta que los grupos permanecen estables, lo cual sucede después de unas cuantas interacciones. Entonces tenemos los grupos o clusters finales.

Una agrupación exitosa debe de producir grupos de tamaños similares y esto tiene mucho que ver con la preparación y selección adecuada de los datos. De lo contrario se puede producir un efecto de sistema solar, esto es, un gran grupo con la gran mayoría de los objetos de estudio (el sol) y unos cuantos grupos muy pequeños (planetas), dicha agrupación en realidad no aporta mucho pues casi todos caen en el gran conjunto sol. Entonces habrá que revisar los datos y replantear el proceso.

En el caso de estudio presentado, las principales variables que se utilizaron fueron el ingreso familiar, el grado de estudios y tipo de ocupación. La clasificación final generó cuatro grupos con las siguientes características:

Grupo

Localidades

Subscriptores

Hogares

Penetración

1AA

72

82mil

375mil

22%

1AB

49

11mil

277mil

4%

1b

61

203mil

1.2millones

17%

2

50

137mil

313mil

44%

Como se puede ver, son bastante homogéneos en cuanto al número de localidades (de 49 a 72). Sin embargo, el número de hogares y sus grados de penetración son bastante diferentes, lo que representa una oportunidad de negocio.

Todas las zonas geográficas tenían un cluster dominante y el proceso ayudo a identificar las oportunidades para modificar las zonas y lograr que hubiera mayor coincidencia con los clusters y así tener una mejor estrategia para aumentar su penetración. En el caso del Boston Globe, la gente de negocio tenía una idea razonablemente buena de cómo agrupar las localidades, pero la minería definitivamente mejoró el resultado.

Un aspecto que me resultó bastante interesante es que la mayoría de las personas grafican los clusters como círculos. Sin embargo, las divisiones de los clusters en realidad son líneas rectas. Gordon comentó que lo mismo sucede con las burbujas… y es verdad, si uno recuerda haber jugado con burbujas de jabón, cuando estas se pegan la unión es recta.

En el siguiente “post” comentaré la segmentación de clientes según su comportamiento, también para un periódico.

Por José Corona, Solvis Consulting México

Posts anteriores relacionados:

Taller de minería de datos de Gordon Linoff – 2a parte

Taller de Minería de Datos de Gordon Linoff – 1er Congreso Internacional CRM México

Anuncios

3 thoughts on “Taller de minería de datos de Gordon Linoff – Cluster Analysis

  1. Que tal Hector,
    En su cuadrante mágico del 2o cuarto de 2007 para “Customer Data Mining”, Gartner pone en el cuadrante de líderes a SAS y SPSS.
    En mi experiencia en particular en México es a SAS a quien he visto en proyectos precisamente con grandes volúmenes de información, pero también en donde se quiere cubrir el ciclo completo de Minería, Marketing Automation y Customer Intelligence.
    En el tema de plataformas de BI Gartner pone a Business Objects, SAS, Oracle y Hyperion (comprado por Oracle) y Cognos (comprado por IBM).
    Saludos

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s