Skip to content

Latest commit

 

History

History
102 lines (56 loc) · 4.39 KB

File metadata and controls

102 lines (56 loc) · 4.39 KB

Sesión 03: Exploración de Variables Categóricas y Análisis Multivariable

🎯 Objetivos

  • Identificar distintas técnicas para explorar y visualizar variables categóricas.
  • Añadir anotaciones a nuestras gráficas para hacerlas más comprensibles.
  • Utilizar gráficas de barras.
  • Graficar un conjunto de datos agrupado de acuerdo a dos variables categóricas.
  • Producir más de una gráfica al mismo tiempo para compararlas.
  • Graficar un conjunto de datos numéricos agrupados de acuerdo a una variable categórica.

📂 Contenido

Variables Categóricas

En la sesión pasada aprendimos a explorar la distribución de variables numéricas. ¿Qué hay de las categóricas? Hay muchas técnicas más que han sido desarrolladas para analizar variables categóricas, como las gráficas de barras y las tablas de contigencia. En esta sesión aprenderemos a utilizar estas técnicas.

También aprenderemos a darle un poco más de claridad a nuestras gráficas añadiendo títulos y leyendas. Además, aprenderemos a producir más de una gráfica al mismo tiempo para poder comparar entre múltiples categorías.


Anotando nuestras gráficas

En la sesión anterior aprendimos a realizar gráficas de distribuciones de datos, pero no vimos cómo añadir anotaciones para darle más claridad a nuestras visualizaciones.

Un científico de datos es un comunicador, y como tal es muy importante que podamos generar gráficas comprensibles y fáciles de interpretar para que la información que encontremos pueda ser transmitida.

Ejemplo 1 Reto 1


Gráficas de barras y la Moda

Así como los histogramas nos sirven para visualizar las distribuciones de variables numéricas, las gráficas de barras son una herramienta muy común para visualizar los conteos de frecuencias de variables categóricas.

En una gráfica de barras, el eje y puede indicar tanto conteo de frecuencias como el porcentaje de la frecuencia. Veamos cómo realizar ambas.

Ejemplo 2 Reto 2


Gráficas de pie

Un pequeño comentario acerca de las gráficas de pie:

Las gráficas de pie, aunque son muy utilizadas en la media popular, son gráficas en realidad bastante inefectivas. Para el cerebro humano es muy difícil comparar los distintos tamaños de los pedazos del pie, lo cual se presta a muchas malinterpretaciones.

Es recomendable usar gráficas de barras en vez de gráficas de pie. Si quieres saber más acerca de las razones por las que hay que evitar las gráficas de pie, puedes ir a este link: https://www.perceptualedge.com/articles/visual_business_intelligence/save_the_pies_for_dessert.pdf


Tablas de contigencia e indexación en múltiples niveles

Es común que tengamos más de una variable categórica en nuestros conjuntos. Si queremos realizar un conteo de frecuencias usando dos o más variables categóricas para agrupar a nuestros datos podemos usar lo que se llama "tablas de contigencia".

pandas ofrece un método llamado crosstab que nos permite realizar estas tablas en un santiamén.

¡También aprovecharemos los resultados de nuestro método crosstab para aprender a indexar DataFrames con múltiples niveles de columnas!

Ejemplo 3 Reto 3


Graficando en múltiples axis

Cuando tenemos tablas de contigencia, la única manera de poder visualizarlas en una gráfica es generando varias gráficas al mismo tiempo. Afortunadamente matplotlib hace de este proceso algo muy sencillo.

Ejemplo 4 Reto 4


Boxplots y Violinplots

Las tablas de contingencia son muy útiles cuando queremos hacer conteo de frecuencias utilizando dos o más categorías para agrupar nuestros datos. En cambio los boxplots y violinplots resultan ser muy útiles cuando queremos analizar la distribución de una variable numérica después de haber sido agrupada utilizando una variable categórica.

Ejemplo 5 Reto 5


Postwork

Postwork Sesión 3