Un repositorio para la clase TC1002s
Miguel Frias A01024080
Guadalupe Nuñez Castro A01024201
José Javier Verdugo A01023944
En el presente, se tomó una base de datos de las cuentas bancarias como efectivo y compras. Postereriormente se aplicó la técnica clustering k-means y se decidió la cantidad de clusters con el fin de dividirlo de la mejor manera. Con esto, se obtuvo un valor de k y se calcularon los centros del algoritmo k-means para analisar y separar los datos.
Creemos que los datos son representativos de los datos porque estos centros están localizados en puntos especifícos que pueden agrupar muchos datos que corresponden y tienen similitudes con el centro.
Al tener muchos datos a analizar, se requiere entender y ver los datos en más de dos dimensiones, por ello elegir los clusters que fue difícil. Analizando muchas gráficas y comparando en 2 dimensiones varias columnas elegimos el valor de clusters a usar. Mediante técnica visual.
Para sacar la distancia entre los centros se hizo uso de una función de Python que se encuentra en otro documento.
El tiempo no lo dejó, pero si se hubiese podido, hubieramos hecho un análisis de cajas y bigotes para el mayor entendimiento. En este análisis es importante que no hayan muchos outiliers porque las cajas estarían muy desfasada de ambos lados.
Los centros que obtuvo Atom son de gran ayuda para analizar los datos, porque sabiendo los centros se puede saber que los datos que están en ese cluster se parecen de gran manera. Un analista de datos podría con esto entender que es lo que significa cada cluster.