En el 2º día de su taller de minería de datos, Gordon Linoff presentó 4 técnicas de modelado. En esta ocasión voy a comentar la primera, que fue análisis para agrupación o cluster analysis.
Vale la pena señalar que la descripción de la técnica fue acompañada con reflexiones del problema de negocio, lo cual nos permite identificar con mayor facilidad las áreas de oportunidad en nuestros propios ambientes de trabajo. Además, la forma como Gordon los describe produce un efecto similar a cuando uno ve una película de artes marciales… sale uno con ganas de analizar algunos datos para descubrir información relevante de nuestros clientes.
Análisis para agrupación (Cluster Analysis). Este caso se refiere a un análisis de agrupación geográfica que se llevó a cabo para un periódico (The Boston Globe) que quería extender su radio de acción a localidades más pequeñas, incluyendo noticias locales y vendiendo publicidad también local.
El objetivo de la minería fue clasificar a las localidades según sus similitudes y diferencias y lograr un número eficiente de regiones para determinar las “versiones” del periódico y unas rutas razonables para su entrega.
Como en caso todos los trabajos de minería, una de las partes mas laboriosas y no menos complejas es la preparación de los datos. En este caso se determinaron registros a nivel localidad con datos tanto del mismo periódico (suscriptores) como de los censos disponibles.
La técnica utilizada se llama: agrupación por k-promedios modificada (modified k-mean clustering). Esta técnica tiene la ventaja de poderse explicar de una manera bastante gráfica.
Se grafican los datos y se escogen algunos de ellos arbitrariamente como las semillas que serán los centroides de las grupos. Los demás datos se asignan a la semilla que les queda mas cerca formando los grupos iniciales. Tomen nota del dato (o punto) que se encuentra en un cuadro en la segunda gráfica.
Posteriormente los centroides se mueven al centro real de su grupo. Y se repite el ejercicio. Podemos ver que el dato en el cuadro pasa del grupo verde al grupo rosa.
El proceso de mover los centroides y reasignar los grupos se repite hasta que los grupos permanecen estables, lo cual sucede después de unas cuantas interacciones. Entonces tenemos los grupos o clusters finales.
Una agrupación exitosa debe de producir grupos de tamaños similares y esto tiene mucho que ver con la preparación y selección adecuada de los datos. De lo contrario se puede producir un efecto de sistema solar, esto es, un gran grupo con la gran mayoría de los objetos de estudio (el sol) y unos cuantos grupos muy pequeños (planetas), dicha agrupación en realidad no aporta mucho pues casi todos caen en el gran conjunto sol. Entonces habrá que revisar los datos y replantear el proceso.
En el caso de estudio presentado, las principales variables que se utilizaron fueron el ingreso familiar, el grado de estudios y tipo de ocupación. La clasificación final generó cuatro grupos con las siguientes características:
|
Grupo |
Localidades |
Subscriptores |
Hogares |
Penetración |
|
1AA |
72 |
82mil |
375mil |
22% |
|
1AB |
49 |
11mil |
277mil |
4% |
|
1b |
61 |
203mil |
1.2millones |
17% |
|
2 |
50 |
137mil |
313mil |
44% |
Como se puede ver, son bastante homogéneos en cuanto al número de localidades (de 49 a 72). Sin embargo, el número de hogares y sus grados de penetración son bastante diferentes, lo que representa una oportunidad de negocio.
Todas las zonas geográficas tenían un cluster dominante y el proceso ayudo a identificar las oportunidades para modificar las zonas y lograr que hubiera mayor coincidencia con los clusters y así tener una mejor estrategia para aumentar su penetración. En el caso del Boston Globe, la gente de negocio tenía una idea razonablemente buena de cómo agrupar las localidades, pero la minería definitivamente mejoró el resultado.
Un aspecto que me resultó bastante interesante es que la mayoría de las personas grafican los clusters como círculos. Sin embargo, las divisiones de los clusters en realidad son líneas rectas. Gordon comentó que lo mismo sucede con las burbujas… y es verdad, si uno recuerda haber jugado con burbujas de jabón, cuando estas se pegan la unión es recta.
En el siguiente “post” comentaré la segmentación de clientes según su comportamiento, también para un periódico.
Por José Corona, Solvis Consulting México
Posts anteriores relacionados:
Taller de minería de datos de Gordon Linoff – 2a parte
Taller de Minería de Datos de Gordon Linoff – 1er Congreso Internacional CRM México




Comentarios recientes