Introducción

Lo que sigue a continuación es tomado del tutorial de RStudio Cloud: The Basics

Comience aquí para aprender las habilidades en las que confiará en cada análisis (y cada manual básico que sigue): cómo inspeccionar, visualizar, crear subconjuntos y transformar sus datos, así como también cómo ejecutar el código.

Si está listo para comenzar, vaya al primer tutorial. No hay necesidad de instalar o descargar nada. Cada tutorial tiene todo lo que necesita para escribir y ejecutar código R, directamente en el tutorial.

El tutorial tiene dos partes:

  1. Visualization Basics

Start here and begin making plots with R. Plots are one of the most important tools for data science; they are also one of the most fun.

  1. Programming Basics

This tutorial demystifies programming with R. Here, you’ll learn how to run functions and build objects.

  1. Conceptos básicos de visualización

Comience aquí y comience a hacer gráficos con R. Los gráficos son una de las herramientas más importantes para la ciencia de datos; también son uno de los más divertidos.

  1. Conceptos básicos de programación

Este tutorial desmitifica la programación con R. Aquí, aprenderá cómo ejecutar funciones y construir objetos.

Bienvenidos

La visualización es una de las herramientas más importantes para la ciencia de datos.

También es una excelente manera de comenzar a aprender R; cuando visualiza datos, obtiene una recompensa inmediata que lo mantendrá motivado a medida que aprende. Después de todo, ¡aprender un nuevo idioma puede ser difícil!

Este tutorial le enseñará cómo visualizar datos con el paquete de visualización más popular de R, ggplot2.

El tutorial se centra en tres habilidades básicas:

  1. Cómo crear gráficos con una template reutilizable

  2. Cómo agregar variables a un gráfico con aesthetics

  3. Cómo hacer diferentes “tipos” de gráficos con geoms

En este tutorial, usaremos los paquetes principales de tidyverse, incluido ggplot2. Ya cargué los paquetes por ti, ¡así que comencemos!

Estos ejemplos se extrajeron de R for Data Science de Hadley Wickham y Garrett Grolemund, publicado por O’Reilly Media, Inc., 2016, ISBN: 9781491910399. Puede adquirir el libro en shop.oreilly.com.

Una plantilla de código

“El gráfico simple ha traído más información a la mente del analista de datos que cualquier otro dispositivo”. — John Tukey

Comencemos con una pregunta para explorar.

¿Qué piensas?

¿Los autos con motores más grandes usan más combustible que los autos con motores más pequeños?

  • Los autos con motores más grandes usan más combustible.

  • Los autos con motores más grandes usan menos combustible.

En otras palabras, existe una relación negativa entre el tamaño del motor y la eficiencia del combustible. Ahora probemos tu hipótesis con datos.

mpg

Puede probar su hipótesis con el conjunto de datos mpg que viene en el paquete ggplot2. mpg contiene observaciones recopiladas en 38 modelos de automóviles por la Agencia de Protección Ambiental de EE. UU.

Para ver el marco de datos de mpg, escriba mpg en el bloque de código a continuación y haga clic en “Enviar respuesta”.

library(ggplot2)  # Si no funciona hay que instalar ggplot2 [install.packages("ggplot2")]
mpg 

This dataset contains a subset of the fuel economy data that the EPA makes # available on https://fueleconomy.gov/. It contains only models which had a # new release every year between 1999 and 2008 - this was used as a proxy for # the popularity of the car.

Entre las variables en mpg están:

  1. displ, el tamaño del motor de un automóvil, en litros.

  2. hwy, la eficiencia de combustible de un automóvil en la carretera, en millas por galón (mpg). Un automóvil con un mpg bajo consume más combustible que un automóvil con un mpg alto cuando recorren la misma distancia.

Ahora usemos estos datos para hacer nuestro primer gráfico.

Un Gráfico

El siguiente código usa funciones del paquete ggplot2 para trazar la relación entre displ y hwy.

ggplot(data = mpg) + 
  geom_point(mapping = aes(x = displ, y = hwy))

¿Puedes identificar la relación?

Y la respuesta es…

El gráfico muestra una relación negativa entre el tamaño del motor (displ) y la eficiencia del combustible (hwy). Los puntos que tienen un gran valor de displ tienen un pequeño valor de autopista y viceversa.

En otras palabras, los autos con motores grandes usan más combustible. Si esa era tu hipótesis, ¡tenías razón!

Ahora veamos cómo hicimos la trama.