# Cargar la librería ggplot2 si no está cargada
library(ggplot2)
# Crear un dataframe con los datos
datos_hinchas <- data.frame(
Equipo = c("Alianza Lima", "Universitario de Deportes", "Otro Equipo", "Ninguno"),
Cantidad_Hinchas = c(67, 92, 21, 20)
)
# Reordenar el dataframe por la cantidad de hinchas de manera decreciente
datos_hinchas$Equipo <- factor(datos_hinchas$Equipo, levels = datos_hinchas$Equipo[order(-datos_hinchas$Cantidad_Hinchas)])
# Crear el gráfico de barras
grafico_hinchas <- ggplot(datos_hinchas, aes(x = Equipo, y = Cantidad_Hinchas)) +
geom_bar(stat = "identity", fill = c("blue", "red", "green", "black")) +
labs(title = "Cantidad de Hinchas de la Liga 1 en FCM", x = "¿Cual es el equipo de la Liga 1 por el cual usted hincha?", y = "Cantidad de Hinchas") +
theme_minimal()
# Mostrar el gráfico
print(grafico_hinchas)Graficas de Resumen de Variables Cualitativas
SEMESTRE 2023 II
Facultad: Facultad de Ciencias Matematicas
Curso: Programación en Lenguaje Estadistico
Docente: Mg. Kelva Nathaly Llanos Miranda
Resumen
Este artículo explora la visualización de datos en el contexto de variables cualitativas. Presentamos gráficas como herramientas efectivas para resumir información y demostramos su utilidad mediante ejemplos prácticos. Utilizamos un conjunto de datos de Kaggle para analizar características que influyen en el éxito en una primera cita. La visualización de datos se revela como un recurso esencial en estadísticas para comprender y comunicar hallazgos de manera efectiva.
Introducción
Visualización de Datos
La visualización de datos constituye un proceso esencial mediante el cual se plasma información numérica o categórica en la forma de gráficos, diagramas o visualizaciones interactivas. Su objetivo primordial radica en presentar los datos de manera que resulten más accesibles y comprensibles para el observador. En este contexto, algunos aspectos fundamentales que caracterizan la visualización de datos comprenden:
Claridad: Las visualizaciones desempeñan un papel crucial al simplificar la presentación de datos complejos, permitiendo así una comprensión más rápida y efectiva de la información contenida en ellos.
Identificación de Patrones y Tendencias: Las visualizaciones tienen la capacidad de desvelar patrones, tendencias y relaciones subyacentes en los datos, lo que resulta sumamente valioso para el análisis y la toma de decisiones informadas.
Comunicación: Las visualizaciones se erigen como herramientas altamente efectivas para transmitir datos y resultados a un público diverso, facilitando la comprensión de conceptos técnicos.
Exploración Interactiva: La disponibilidad de herramientas de visualización interactiva habilita a los usuarios a explorar los datos de forma dinámica, adentrándose en detalles específicos que pueden proporcionar revelaciones significativas.
Comparación: Las visualizaciones ofrecen un medio idóneo para cotejar múltiples conjuntos de datos, categorías o momentos en el tiempo, lo que resulta esencial en el análisis comparativo.
Detección de Anomalías: A través de las visualizaciones, es factible resaltar valores atípicos o inusuales en los datos, lo que puede conducir a la identificación de situaciones singulares que requieran un análisis adicional.
Las técnicas de visualización de datos abarcan una amplia gama de tipos de gráficos y representaciones, que incluyen desde gráficos de barras, gráficos de líneas, histogramas y diagramas de dispersión, hasta mapas de calor, gráficos de torta y diagramas de caja, entre otros. Cabe destacar que las herramientas de visualización de datos han evolucionado significativamente, ofreciendo un alto grado de flexibilidad y personalización, lo que permite a los usuarios adaptar las visualizaciones a sus necesidades y objetivos particulares.
En resumen, la visualización de datos es un proceso enriquecedor que trasciende la mera representación gráfica, al impulsar una comprensión más profunda, una exploración minuciosa y una comunicación efectiva de los datos, sin entrar en detalle sobre su importancia.
Importancia de la Visualización de Datos
La visualización de datos es fundamental en el análisis y comunicación de información numérica y categórica. Sus beneficios clave incluyen:
Simplificación de Datos: Las visualizaciones convierten datos complejos en representaciones visuales más digeribles, lo que facilita la comprensión de información detallada de un vistazo.
Identificación de Patrones: Los gráficos y visualizaciones permiten descubrir patrones, tendencias y relaciones ocultas en los datos, lo que es esencial para la toma de decisiones informadas.
Comunicación Efectiva: Las visualizaciones son herramientas poderosas para transmitir resultados y hallazgos de manera clara y accesible a audiencias diversas.
Exploración Interactiva: La interactividad en las visualizaciones permite a los usuarios explorar datos a profundidad, descubriendo información relevante de manera dinámica.
Comparación de Datos: Las visualizaciones facilitan la comparación de diferentes conjuntos de datos, categorías o periodos, lo que es esencial para el análisis comparativo.
Detección de Anomalías: Las visualizaciones resaltan valores inusuales o atípicos en los datos, ayudando a identificar puntos de interés.
En resumen, la visualización de datos simplifica la información, destaca patrones, mejora la comunicación, permite la exploración interactiva y respalda la comparación y la detección de anomalías en los datos. Estos aspectos son fundamentales en la toma de decisiones y el análisis de datos en una amplia variedad de contextos.
Nociones de StoryTelling
El storytelling, o narración de historias, es una técnica de comunicación que consiste en contar relatos de manera persuasiva y cautivadora con el propósito de transmitir un mensaje, una idea o una emoción. A través de la narración efectiva, se logra involucrar al público, crear conexiones emocionales y hacer que la información sea memorable y significativa. Esta técnica se utiliza en una amplia gama de contextos, desde marketing y publicidad hasta presentaciones empresariales, educación y la divulgación de información, con el objetivo de comunicar de manera más efectiva y envolvente.
En la visualización de datos es la práctica de utilizar narrativas coherentes y atractivas para contextualizar y dar sentido a la información presentada a través de gráficos, diagramas y visualizaciones. En este contexto, el storytelling busca no solo mostrar datos, sino también comunicar una historia o mensaje específico que involucre al público, lo haga más comprensible y memorable, y permita la toma de decisiones informadas. Este enfoque combina la eficacia de la visualización de datos con la potencia de las historias para generar un impacto significativo en la audiencia, destacando conexiones, patrones y conclusiones clave en los datos.
¿Porque R para la visualizacion de graficas?
R es una elección atractiva para la visualización de datos debido a su capacidad para generar gráficos de alta calidad, ofrecer interactividad a través de paquetes como Shiny, contar con una amplia comunidad y recursos en línea, integrar análisis de datos en el mismo entorno y permitir una alta personalización de gráficos. Sin embargo, otras plataformas como Power BI, SPSS y Tableau también son populares en el campo de la visualización de datos.
Power BI se destaca por su facilidad de uso y capacidad de integración con otras herramientas de Microsoft, SPSS es ampliamente utilizado en el ámbito de la investigación y análisis estadístico, y Tableau se conoce por su enfoque en la creación de paneles de control interactivos. La elección entre estas herramientas dependerá de las necesidades específicas y la familiaridad del usuario con cada plataforma.
Tipos de Datos Cualitativos
Los datos cualitativos constituyen una categoría fundamental en la recopilación de información, representando atributos no numéricos o características descriptivas en lugar de valores cuantitativos.
Estos datos se caracterizan por su naturaleza subjetiva y se utilizan para capturar aspectos cualitativos de fenómenos, como opiniones, actitudes, percepciones y descripciones narrativas. La recopilación y análisis de datos cualitativos desempeñan un papel esencial en diversas disciplinas, incluyendo la sociología, la antropología, la psicología y la investigación cualitativa en general.
Estos datos proporcionan una comprensión enriquecida y contextual de fenómenos complejos y son una herramienta valiosa para investigaciones cualitativas y etnográficas.
Datos Cualitativos Ordinarios
Los datos cualitativos ordinales son una categoría especial de datos cualitativos que tienen un orden inherente, pero no se pueden cuantificar en una escala numérica continua. En otras palabras, representan categorías o etiquetas que tienen un orden específico, pero las diferencias entre ellas no son necesariamente uniformes o cuantificables. Ejemplos comunes de datos cualitativos ordinales incluyen clasificaciones como “bajo, medio, alto” o “muy insatisfecho, insatisfecho, satisfecho, muy satisfecho”.
La característica distintiva de los datos ordinales es que permiten establecer relaciones de orden o jerarquía entre las categorías, lo que significa que una categoría es mayor o menor que otra en términos de la característica medida. Sin embargo, no se pueden realizar operaciones matemáticas significativas con estos datos, como sumar, restar o calcular promedios, debido a la falta de una escala numérica real. En cambio, se utilizan técnicas de análisis estadístico no paramétrico para analizar y resumir datos ordinales, como pruebas de chi-cuadrado y pruebas de rangos.
Los datos cualitativos ordinales son comunes en encuestas de opinión, escalas de calificación de satisfacción del cliente, clasificaciones de nivel educativo, y en muchos otros contextos donde se desea capturar la jerarquía de las categorías sin atribuir valores numéricos exactos. Estos datos son valiosos para la toma de decisiones, el análisis de tendencias y la evaluación de preferencias, ya que proporcionan una comprensión más detallada que los datos cualitativos nominales, pero sin la cuantificación precisa de los datos cuantitativos.
Datos Cualitativos Nominales
Los datos cualitativos nominales son una categoría de datos que se utilizan para representar categorías o etiquetas que no tienen un orden inherente. En otras palabras, estas categorías no se pueden ordenar jerárquicamente ni se pueden realizar comparaciones cuantitativas entre ellas. Ejemplos de datos cualitativos nominales incluyen el género (masculino, femenino, otro), colores (rojo, azul, verde), o estados civiles (soltero, casado, divorciado).
La característica distintiva de los datos nominales es que se utilizan para clasificar o categorizar elementos en grupos específicos, pero no se pueden establecer relaciones de orden entre estos grupos. A menudo se representan mediante etiquetas o palabras en lugar de números. Estos datos son esenciales para organizar y categorizar información, pero no se pueden someter a operaciones matemáticas, como promedios o cálculos estadísticos.
Los datos nominales son comunes en muchas áreas, desde la sociología y la psicología hasta la ciencia de la computación y la investigación de mercado. Se utilizan para describir características o atributos categóricos y son fundamentales para el análisis de frecuencias y la generación de tablas de contingencia en estadísticas. Su uso principal radica en la organización y clasificación de datos en grupos o categorías sin ningún orden específico.
Libreria ggplot2
ggplot2 es una poderosa librería de visualización de datos en R que se destaca en la creación de gráficos de alta calidad, incluyendo gráficos de variables cualitativas. En el contexto de las variables cualitativas, ggplot2 proporciona una serie de características y funcionalidades que facilitan la creación de gráficos efectivos. Aquí hay algunas consideraciones clave:
Geometrías adecuadas: ggplot2 ofrece diversas geometrías (geoms) específicas para la representación de datos cualitativos, como
geom_barpara gráficos de barras ygeom_pointpara diagramas de dispersión. Esto permite seleccionar la geometría más apropiada para representar la naturaleza de los datos cualitativos.Personalización: Puedes personalizar gráficos de variables cualitativas en ggplot2 de muchas maneras, incluyendo el ajuste de colores, etiquetas, temas y escalas. Esto te permite adaptar la visualización para que se ajuste a tus necesidades específicas y a la estética de tu proyecto.
Facetas: ggplot2 permite dividir gráficos en facetas según una o más variables cualitativas. Esto es especialmente útil para explorar relaciones dentro de subgrupos o categorías de datos.
Etiquetas y temas: La librería permite agregar etiquetas informativas a tus gráficos y personalizar temas para que se ajusten a tus preferencias o requisitos de presentación.
Combinación de gráficos: Puedes combinar diferentes capas de gráficos, lo que es útil para mostrar múltiples variables cualitativas o combinarlas con variables cuantitativas.
Interactividad: ggplot2 también puede integrarse con herramientas interactivas como Shiny, lo que permite crear gráficos de variables cualitativas interactivos que los usuarios pueden explorar y personalizar.
En resumen, ggplot2 es una librería versátil y ampliamente utilizada en R para crear gráficos de variables cualitativas. Su flexibilidad y capacidad de personalización lo convierten en una elección sólida para representar y explorar datos cualitativos de manera efectiva en diversos contextos, desde la investigación académica hasta la visualización de datos en el ámbito empresarial.
Graficas Especializadas
La representación visual de datos es una herramienta esencial en el análisis de información, y las gráficas especializadas desempeñan un papel fundamental en la síntesis de variables cualitativas. Estas gráficas van más allá de las representaciones básicas, permitiendo la representación efectiva y detallada de datos cualitativos, lo que facilita la identificación de patrones, tendencias y relaciones dentro de categorías y etiquetas.
A continuación, exploraremos algunas de las gráficas especializadas más comunes para comprender cómo pueden utilizarse para resumir variables cualitativas en diferentes contextos y disciplinas.
Gráfico de Barras
Descripción del gráfico de barras
El gráfico de barras es una de las representaciones visuales más utilizadas para resumir variables cualitativas. En este tipo de gráfico, las categorías o etiquetas se muestran en el eje horizontal (eje X), y en el eje vertical (eje Y) se representa la frecuencia o proporción de cada categoría. Cada categoría se representa con una barra cuya altura es proporcional a la frecuencia o el porcentaje que representa en el conjunto de datos. Estas son algunas de las características y usos clave de los gráficos de barras:
Comparación de categorías: Los gráficos de barras son ideales para comparar categorías o etiquetas y determinar cuál es la más común o predominante en un conjunto de datos. Esto facilita la identificación de tendencias y patrones.
Categorías discretas: Son efectivos para representar variables cualitativas discretas, como colores, estados civiles, tipos de productos, etc. Cada categoría se muestra claramente y no hay continuidad entre las barras.
Facilitan la interpretación: La representación visual de las barras hace que la información sea fácil de interpretar, incluso para aquellos que no tienen conocimientos técnicos en estadística.
Posibilidad de apilamiento: En algunos casos, se pueden crear gráficos de barras apilados o agrupados para representar múltiples variables cualitativas o subcategorías, lo que permite una comparación más detallada.
Personalización: Los gráficos de barras se pueden personalizar en cuanto a colores, etiquetas, títulos y otros elementos visuales para adaptarlos a las necesidades de presentación o comunicación específicas.
En resumen, los gráficos de barras son una herramienta valiosa en la visualización de datos para resumir variables cualitativas. Permiten una fácil comparación de categorías y facilitan la interpretación de la información, lo que los convierte en una opción común en informes, presentaciones y análisis de datos en una amplia variedad de campos y disciplinas.
Ejemplo de cómo crear uno en R
Caso Hipotetico:
En un esfuerzo por comprender las preferencias deportivas de los estudiantes de la Facultad de Ciencias Matematica de UNMSM, se llevó a cabo una encuesta en la que se les preguntó a los participantes sobre su afiliación a equipos de fútbol de la Liga 1 del Perú. Los estudiantes tenían la opción de elegir entre cuatro categorías: “Alianza Lima”, “Universitario de Deportes”, “Otro Equipo” o “Ninguno”. El objetivo de la encuesta era determinar cuál de estos equipos gozaba de una mayor base de seguidores entre los estudiantes de la facultad.
El gráfico de barras representa los resultados de la encuesta, mostrando la cantidad de hinchas que se identificaron con cada equipo. Observamos que “Universitario de Deportes” lidera con la mayor cantidad de hinchas, seguido por “Alianza Lima”. Sin embargo, también se observa un número significativo de estudiantes que prefieren a “Otro Equipo” o que no tienen afinidad con ningún equipo (“Ninguno”).
Ventajas y limitaciones
Las gráficas de barras son una herramienta de visualización de datos ampliamente utilizada y tienen sus ventajas y limitaciones.
| VENTAJAS | LIMITACIONES |
|---|---|
|
|
|
|
|
|
|
|
|
Gráfico de Sectores (Pastel)
Descripción del gráfico de sectores
Las gráficas circulares, también conocidas como diagramas de sectores o gráficos de pastel, son representaciones visuales de datos utilizadas para resumir variables cualitativas. Estas gráficas representan la composición de una variable cualitativa dividiéndola en segmentos proporcionales en forma de sectores circulares. Cada segmento, o “rebanada”, del círculo representa una categoría o etiqueta particular de la variable cualitativa.
En un gráfico circular, el tamaño de cada sector está en proporción a la frecuencia o porcentaje de esa categoría en el conjunto de datos. Las gráficas circulares son especialmente útiles cuando se desea mostrar cómo una variable cualitativa se distribuye en relación con el total de las categorías.
Estas son algunas características clave de las gráficas circulares para variables cualitativas:
Representación proporcional: Cada sector del círculo representa una categoría y su tamaño relativo es proporcional a la frecuencia o porcentaje de esa categoría en los datos.
\[ text{Porcentaje de un sector} = \frac{\text{Frecuencia de la categoría}}{\text{Total de frecuencias}} \times 100\% \]
\[ \text{Ángulo del sector} = \frac{\text{Frecuencia de la categoría}}{\text{Total de frecuencias}} \times 360^\circ \]
Total del círculo: La suma de los ángulos de todos los sectores en un gráfico circular es igual a 360 grados, que representa la totalidad de los datos.
Etiquetas: Las categorías suelen etiquetarse junto a cada sector para indicar a qué se refiere.
Es importante destacar que, aunque las gráficas circulares son efectivas para representar la distribución de categorías en una variable cualitativa, a veces pueden ser menos precisas que otros tipos de gráficas.
Ejemplo de cómo crear uno en R
irculares muestran la composición de los hinchas de “Alianza Lima” y “Universitario de Deportes” según el sexo. Cada gráfico representa un equipo y muestra las proporciones de hinchas masculinos y femeninos. Las áreas de las secciones en el círculo indican las proporciones relativas de hinchas de cada sexo en el equipo respectivo.
datos_hinchas_sexos <- data.frame(
Equipo = c("Alianza Lima", "Universitario de Deportes", "Alianza Lima", "Universitario de Deportes"),
Sexo = c("Masculino", "Masculino", "Femenino", "Femenino"),
Cantidad_Hinchas = c(30, 47, 37, 45)
)
datos_hinchas_sexos Equipo Sexo Cantidad_Hinchas
1 Alianza Lima Masculino 30
2 Universitario de Deportes Masculino 47
3 Alianza Lima Femenino 37
4 Universitario de Deportes Femenino 45
library(ggplot2)
grafico_alianza_lima <- ggplot(datos_hinchas_sexos[datos_hinchas_sexos$Equipo == "Alianza Lima", ], aes(x = "", y = Cantidad_Hinchas, fill = Sexo)) +
geom_bar(stat = "identity") +
geom_text(aes(label = paste(round(Cantidad_Hinchas / sum(Cantidad_Hinchas) * 100), "%")), position = position_stack(vjust = 0.5), show.legend = FALSE) +
coord_polar("y") +
labs(title = "Hinchas de Alianza Lima por Sexo", fill = "Sexo") +
theme_minimal()
print(grafico_alianza_lima)library(ggplot2)
grafico_universitario <- ggplot(datos_hinchas_sexos[datos_hinchas_sexos$Equipo == "Universitario de Deportes", ], aes(x = "", y = Cantidad_Hinchas, fill = Sexo)) +
geom_bar(stat = "identity") +
geom_text(aes(label = paste(round(Cantidad_Hinchas / sum(Cantidad_Hinchas) * 100), "%")), position = position_stack(vjust = 0.5), show.legend = FALSE) +
coord_polar("y") +
labs(title = "Hinchas de Universitario de Deportes por Sexo", fill = "Sexo") +
theme_minimal()
grafico_universitarioVentajas y limitaciones
Las gráficas de sectores, también conocidas como gráficas circulares o gráficos de pastel, son una forma común de visualizar datos cualitativos o categóricos en una representación circular. Tienen sus ventajas y limitaciones:
| VENTAJAS | LIMITACIONES |
|---|---|
|
|
|
|
|
|
|
|
Diagrama de Barras Apiladas
Descripción del diagrama de barras apiladas
Las gráficas de barras apiladas, también conocidas como gráficas de barras segmentadas, son una representación visual de datos que se utiliza para mostrar cómo se distribuye una variable cualitativa en función de otra variable cualitativa. En estas gráficas, cada barra representa el total de la primera variable, y esta barra se divide en segmentos o subgrupos que representan las categorías de la segunda variable. Cada segmento de la barra apilada corresponde a una categoría específica de la variable secundaria y muestra cuánto contribuye esa categoría al total de la variable principal.
Este tipo de gráfica es particularmente útil cuando se desea comparar cómo se dividen los totales en diferentes categorías secundarias o cuando se desea destacar las relaciones entre dos variables cualitativas. Las gráficas de barras apiladas permiten observar la proporción de cada categoría secundaria en relación con el total de la variable principal. Esto facilita la identificación de tendencias, patrones y diferencias en la distribución de datos.
En resumen, las gráficas de barras apiladas ofrecen una representación visual efectiva para analizar y comparar la distribución de una variable cualitativa en función de otra, lo que las convierte en una herramienta valiosa en la visualización de datos y la toma de decisiones.
Ejemplo de cómo crear uno en R
Este gráfico de barras apiladas representa la cantidad de estudiantes de dos equipos deportivos, “Universitario de Deportes” y “Alianza Lima”, clasificados en dos categorías de situación académica, “Regular” y “Observado”. Cada barra apilada muestra cómo se divide el grupo de estudiantes de cada equipo en función de su situación académica.
El propósito de este gráfico es proporcionar una visualización clara de la distribución de estudiantes en términos de su situación académica para cada equipo deportivo. Los colores azul y rojo se utilizan para distinguir entre las dos categorías de situación académica.
# Crear un dataframe con los valores deseados
equipo <- factor(rep(c("Universitario de Deportes", "Alianza Lima"), each = 2), levels = c("Universitario de Deportes", "Alianza Lima"))
sit_academica <- factor(rep(c("Regular", "Observado"), times = 2), levels = c("Regular", "Observado"))
cantidad <- c(72, 20, 24, 43)
df_equipos <- data.frame(Equipo = equipo, Situacion_Academica = sit_academica, Cantidad = cantidad)
df_equipos Equipo Situacion_Academica Cantidad
1 Universitario de Deportes Regular 72
2 Universitario de Deportes Observado 20
3 Alianza Lima Regular 24
4 Alianza Lima Observado 43
# Cargar la librería ggplot2 si no está cargada
library(ggplot2)
# Crear un gráfico de barras apiladas
grafico_barras_apiladas <- ggplot(df_equipos, aes(x = Equipo, y = Cantidad, fill = Situacion_Academica)) +
geom_bar(stat = "identity") +
labs(title = "Gráfico de Barras Apiladas", y = "Cantidad") +
scale_fill_manual(values = c("Regular" = "blue", "Observado" = "red")) +
theme_minimal()
# Mostrar el gráfico
print(grafico_barras_apiladas)Ventajas y limitaciones
Las gráficas de barras apiladas tienen sus propias ventajas y limitaciones:
| VENTAJAS | LIMITACIONES |
|---|---|
|
|
|
|
|
|
|
|
Estrategias de Selección de Gráficas
La elección de las estrategias adecuadas para la selección de gráficas en el contexto de variables cualitativas es fundamental para la correcta representación y comunicación de datos. Cuando lidiamos con datos categóricos o cualitativos, es esencial identificar las mejores prácticas y enfoques para visualizar la información de manera efectiva.
La selección de gráficas apropiadas no solo facilita la comprensión de los datos, sino que también permite destacar patrones, relaciones y tendencias, lo que resulta esencial en la toma de decisiones informadas. En esta discusión, exploraremos diversas estrategias para elegir las gráficas más adecuadas en función de las características de las variables cualitativas, el contexto de análisis y los objetivos de comunicación. Además, examinaremos ejemplos prácticos que ilustran cómo estas estrategias pueden aplicarse en diferentes situaciones.
Consideraciones de Selección
Al seleccionar la gráfica adecuada para representar una variable cualitativa, es fundamental considerar varios aspectos que garantizarán una visualización efectiva y una comunicación clara de los datos. Aquí hay algunas consideraciones importantes a tener en cuenta al elegir una gráfica para variables cualitativas:
Tipo de Datos Cualitativos: Antes que nada, debes comprender el tipo de datos cualitativos que estás manejando. ¿Son datos nominales o datos ordinales? Los datos nominales representan categorías sin un orden intrínseco, mientras que los datos ordinales tienen un orden o jerarquía específica. La naturaleza de tus datos influirá en la elección de la gráfica.
Número de Categorías: Considera cuántas categorías distintas tiene tu variable cualitativa. Si tienes un pequeño número de categorías (por ejemplo, 2-5), algunas gráficas simples como gráficos de barras o gráficos circulares pueden ser apropiadas. Para un mayor número de categorías, gráficas más complejas como diagramas de mosaico o diagramas de barras apilados pueden ser preferibles.
Distribución de Frecuencias: Observa la distribución de frecuencias de tus categorías. ¿Tienes algunas categorías que son mucho más comunes que otras? Esto puede influir en la elección de la gráfica. Algunas gráficas pueden enfatizar mejor las diferencias entre categorías desequilibradas.
Comparación y Relaciones: Piensa en si necesitas comparar categorías entre sí o si deseas mostrar relaciones entre variables cualitativas. Algunas gráficas, como los diagramas de dispersión de mosaico, son excelentes para resaltar relaciones, mientras que otras, como los gráficos de barras apiladas, permiten la comparación directa.
Objetivo de Comunicación: Define claramente tu objetivo de comunicación. ¿Estás tratando de resumir datos, resaltar diferencias o contar una historia específica? La elección de la gráfica debe estar alineada con tus objetivos.
Simplicidad vs. Complejidad: Considera la simplicidad versus la complejidad de la gráfica. A veces, menos es más, y una gráfica simple puede ser la mejor opción. En otros casos, una representación más detallada puede ser necesaria.
Audiencia: Piensa en quién será tu audiencia. La gráfica debe ser comprensible para el público al que te diriges. Asegúrate de que la elección de la gráfica sea apropiada para la audiencia.
Contexto de Datos: Evalúa el contexto de tus datos. ¿Están relacionados con un tema específico o dominio? Algunos dominios pueden tener convenciones específicas para la representación gráfica.
Herramientas y Software: Asegúrate de estar familiarizado con las herramientas y software disponibles para crear la gráfica. Algunos tipos de gráficas pueden requerir un software especializado.
Prueba y Evaluación: No dudes en probar varias opciones y evaluar cuál comunica mejor tus datos. La retroalimentación y la revisión son clave para la elección final.
La elección de la gráfica adecuada para una variable cualitativa dependerá de la combinación de estos factores. No existe una única gráfica que sirva para todos los escenarios, por lo que es esencial seleccionar la que mejor se adapte a tus necesidades específicas.
Ejemplos de Malas Elecciones
Los gráficos circulares, como los gráficos de torta, pueden volverse ineficaces cuando se utilizan para representar un gran número de categorías. La subdivisión excesiva del círculo puede hacer que la visualización sea confusa y difícil de interpretar. Por ejemplo, si intentas mostrar la distribución de preferencias de sabores entre 10 tipos de helados, un gráfico circular no será una elección adecuada.
# Ejemplo de un mal uso de gráfico circular con muchas categorías
sabores <- c("Vainilla", "Chocolate", "Fresa", "Menta", "Nuez", "Frambuesa", "Café", "Turrón", "Mango", "Piña")
frecuencias <- c(15, 22, 18, 10, 5, 8, 14, 20, 12, 17)
pie(frecuencias, labels = sabores, col = rainbow(length(sabores)))Utilizar un gráfico de barras apiladas sin mostrar proporciones o porcentajes en cada barra puede dificultar la interpretación de los datos. Si no se incluye información relativa en las barras apiladas, los lectores no podrán determinar con precisión la distribución de las categorías. Por ejemplo, si representas las preferencias de género para ciertos productos en un gráfico de barras apiladas, pero no muestras las proporciones, la información es menos clara.
# Ejemplo de un gráfico de barras apiladas con proporciones
productos <- c("Producto A", "Producto B", "Producto C", "Producto D")
hombres <- c(25, 15, 30, 20)
mujeres <- c(20, 18, 25, 15)
datos <- data.frame(Productos = productos, Hombres = hombres, Mujeres = mujeres)
# Transformar los datos a formato largo
library(reshape2)
datos_largos <- melt(datos, id.vars = "Productos")
# Crear el gráfico de barras apiladas
library(ggplot2)
ggplot(datos_largos, aes(x = Productos, y = value, fill = variable)) +
geom_bar(stat = "identity") +
labs(title = "Gráfico de Barras Apiladas por Género", y = "Cantidad") +
scale_fill_manual(values = c("Hombres" = "blue", "Mujeres" = "pink")) +
theme_minimal()Estrategias de Selección Exitosa
Seleccionar gráficas exitosas para datos cualitativos implica considerar varios factores que permitan una representación efectiva de la información. Aquí tienes algunas estrategias para lograr una selección exitosa:
Comprende tus datos: Familiarízate con la naturaleza de tus datos cualitativos (nominales u ordinales) y las relaciones que deseas destacar.
Define objetivos claros: Establece claramente qué deseas lograr con la visualización.
Elije la gráfica adecuada: Selecciona el tipo de gráfica que mejor se adapte a tus datos y objetivos, como gráficos de barras, de sectores o de mosaico.
Simplifica: Evita sobrecargar la visualización con información innecesaria.
Utiliza colores efectivamente: Destaca categorías o patrones con colores, pero úsalos con moderación.
Proporciona contexto: Agrega etiquetas, títulos y ejes claros para facilitar la comprensión.
Muestra proporciones o porcentajes: Si es relevante, incluye estas medidas para un mayor entendimiento.
Evita gráficas engañosas: Elije visualizaciones que no distorsionen la percepción de los datos.
Obtén retroalimentación: Prueba tu visualización y solicita comentarios de otros para identificar mejoras.
Ajusta según sea necesario: Sé flexible y adapta tus gráficas conforme cambien tus objetivos o tu comprensión de los datos.
Caso Aplicado en un DataSet
Estos datos se recopilaron de participantes en eventos experimentales de citas rápidas entre 2002 y 2004. Durante los eventos, los asistentes tendrían una "primera cita" de cuatro minutos con todos los demás participantes del sexo opuesto. Al final de los cuatro minutos, se preguntó a los participantes si les gustaría volver a ver a su cita. También se les pidió que calificaran su cita según seis atributos:
Atractivo
Sinceridad
Inteligencia
Divertido
Ambición
Intereses compartidos.
library(readr)
speed_dating <- read_csv("speed-dating.csv")Rows: 8378 Columns: 123
── Column specification ────────────────────────────────────────────────────────
Delimiter: ","
chr (59): gender, d_d_age, race, race_o, d_importance_same_race, d_importanc...
dbl (64): has_null, wave, age, age_o, d_age, samerace, importance_same_race,...
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
dataset_final <- subset(speed_dating, select = c(gender, age, race, importance_same_race, field, d_attractive_important, d_sincere_important, d_intellicence_important, d_funny_important, d_ambition_partner, d_shared_interests_important, match))exito <- subset(dataset_final, match==1)
tabla1 <- table(exito$race)
data1 <- as.data.frame(tabla1)
data1 Var1 Freq
1 asian/pacific islander/asian-american 267
2 black/african american 85
3 european/caucasian-american 788
4 latino/hispanic american 123
5 other 103
library(ggplot2)
graf_1 <- ggplot(data1, aes(x = Var1, y = Freq)) +
geom_bar(stat = "identity") +
labs(title = "Cantidad de Matches por Raza Etnica en cada cita rapida", x = "Raza Etnica", y = "Cantidad de Matches") +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
# Mostrar el gráfico
print(graf_1)latinos <- subset(dataset_final, race=="latino/hispanic american")
tabla2 <- table(latinos$match)
data2 <- as.data.frame(tabla2)
data2 Var1 Freq
1 0 541
2 1 123
# Cargar la librería ggplot2
library(ggplot2)
# Crear un gráfico circular a partir de data2
grafico_circular <- ggplot(data2, aes(x = "", y = Freq, fill = Var1)) +
geom_bar(stat = "identity") +
labs(title = "Comparativa de Match en Latinos", fill = "Situación") +
coord_polar("y") +
theme_minimal()
# Mostrar el gráfico circular
print(grafico_circular)mujeres <- subset(dataset_final, gender == "female")
tabla3 <- table(mujeres$d_funny_important)
data3 <- as.data.frame(tabla3)
data3 Var1 Freq
1 [0-15] 1699
2 [16-20] 1954
3 [21-100] 531
library(ggplot2)
graf_3 <- ggplot(data3, aes(x = Var1, y = Freq)) +
geom_bar(stat = "identity") +
labs(title = "¿Considera usted que el ser gracioso es importante en una cita?", x = "Escalas", y = "Mujeres") +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
# Mostrar el gráfico
print(graf_3)tabla4 <- table(mujeres$d_attractive_important)
data4 <- as.data.frame(tabla4)
data4 Var1 Freq
1 [0-15] 2033
2 [16-20] 1432
3 [21-100] 719
library(ggplot2)
graf_4 <- ggplot(data4, aes(x = Var1, y = Freq)) +
geom_bar(stat = "identity") +
labs(title = "¿Considera usted que el ser atractivo fisicamente es importante en una cita?", x = "Escalas", y = "Mujeres") +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
# Mostrar el gráfico
print(graf_4)tabla5 <- table(mujeres$d_intellicence_important)
data5 <- as.data.frame(tabla5)
data5 Var1 Freq
1 [0-15] 634
2 [16-20] 2352
3 [21-100] 1198
library(ggplot2)
graf_5 <- ggplot(data5, aes(x = Var1, y = Freq)) +
geom_bar(stat = "identity") +
labs(title = "¿Considera usted que el ser inteligente y/o culto es importante en una cita?", x = "Escalas", y = "Mujeres") +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
# Mostrar el gráfico
print(graf_5)tabla6 <- table(dataset_final$gender, dataset_final$d_ambition_partner)
data6 <- as.data.frame(tabla6)
data6$Var1 <- factor(data6$Var1)
data6 Var1 Var2 Freq
1 female [0-5] 1142
2 male [0-5] 1358
3 female [6-8] 2295
4 male [6-8] 2323
5 female [9-10] 747
6 male [9-10] 513
library(ggplot2)
grafico6 <- ggplot(data6, aes(x = Var2, y = Freq, fill = Var1)) +
geom_bar(stat = "identity", position = "stack") +
labs(title = "¿Considera importante la ambición en la otra persona para tener un match?", x= "Importancia de la Ambicion",y = "Cantidad") +
theme_minimal()
# Mostrar el gráfico
print(grafico6)