Usando la base de datos Movies_gross_rating.xlsx la cual reporta información sobre el top 20 de películas desde el año 1989 hasta 2014 que encuentra en el material de la tarea, el ejercicio requiere que se analice dicha base datos. Todos los gráficos deben ser construidos usando el paquete Ggplot2 y también usndo Base u otro paquete, es decir se deben observar los dos tipos de gráficos.

  1. Entregue los datos generales de la base de datos, número de observaciones, tipo y número de variables y aquellos que considere necesarios, sobre la base de datos

-La base de datos movies_gross_rating.xlsx contiene 508 películas desde 1989 hasta el año 2014 y algunas variables observadas de dichas películas, las cuales nos permiten conocer sus características principales para así poder realizar clasificaciones. La tabla tiene 4194 datos.En total posee 9 variables, las cuales se clasifican en cualitativas nominales, estas son el título,la fecha de lanzamiento y el género; cualitativas categóricas, en este caso el MPAA Rating; cuantitativas discretas, como el presupuesto, el gross, el tiempo de ejecución y el recuento del rating; y finalmente las cuantitativas continuas, como el rating.

2.Construya y analice una tabla de frecuencia para datos no agrupados y un gráfico de barras para la variable categórica “Genre”. Los análisis deben escribirse de manera independiente y se debe emitir un concepto sobre las diferencias y similitudes en el uso de ambos paquetes en el gráfico.

library(readxl)
Movies_gross_rating <- read_excel("C:/Users/LENOVO/Downloads/Movies_gross_rating.xlsx")
View(Movies_gross_rating)
library(summarytools)
freq(Movies_gross_rating$Genre)
## Frequencies  
## Movies_gross_rating$Genre  
## Type: Character  
## 
##                         Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## --------------------- ------ --------- -------------- --------- --------------
##                Action     76     14.96          14.96     14.96          14.96
##             Adventure     26      5.12          20.08      5.12          20.08
##             Animation     63     12.40          32.48     12.40          32.48
##                Comedy     94     18.50          50.98     18.50          50.98
##                 Crime     16      3.15          54.13      3.15          54.13
##                 Drama     56     11.02          65.16     11.02          65.16
##                Family     28      5.51          70.67      5.51          70.67
##               Fantasy     22      4.33          75.00      4.33          75.00
##               History      4      0.79          75.79      0.79          75.79
##                Horror      9      1.77          77.56      1.77          77.56
##               Mystery     10      1.97          79.53      1.97          79.53
##               Romance     26      5.12          84.65      5.12          84.65
##       Science Fiction     31      6.10          90.75      6.10          90.75
##              Thriller     34      6.69          97.44      6.69          97.44
##                   War      8      1.57          99.02      1.57          99.02
##               Western      5      0.98         100.00      0.98         100.00
##                  <NA>      0                               0.00         100.00
##                 Total    508    100.00         100.00    100.00         100.00

Analizamos tabla de datos

-El género con mayor frecuencia de las películas entre 1989 y el 2014

-Dentro de este rating se tomaron 508 datos y dentro de la variable Genre se observan 16 tipos de género de las películas

-La variable “Genre” de acuerdo con los datos que se tomaron, es clasificada según su naturaleza como variable cualitativa nominal.

-El promedio de películas que se rankean por año es de 32 aproximadamente.

library(readxl)
Movies_gross_rating <- read_excel("C:/Users/LENOVO/Downloads/Movies_gross_rating.xlsx")
View(Movies_gross_rating)
library(BSDA)
library(RColorBrewer)
coul <- brewer.pal(8,"Set2")
x<-table(Movies_gross_rating$Genre)
barplot(x, names=row.names(x), main = "tabla de la variable Genre", col = coul,xlab = "generos",ylab = "frecuencia", fill=coul)

library(moments)
skewness(x)
## [1] 1.028993
kurtosis(x)
## [1] 2.999357
mean(x)
## [1] 31.75
median(x)
## [1] 26
sd(x)
## [1] 26.91592
mode(x)
## [1] "numeric"

analizando la grafica realizada de la variable Genre utilizando el paquete de BSDA nos damos de cuenta que la grafica posee una simetria mayor que 0, mas especificamente 1.02 significa que tiene una asimetria positiva, luego hayamos que tiene una distribucion palicurtica ya que los datos arrojan una curtosis menor que 3,la media de los generos es 31.75, la mediana de los generos es 26.

library(ggplot2) 
ggplot(Movies_gross_rating, aes(x= Movies_gross_rating$Genre))+ geom_bar(fill = "cyan3")

Analisis de la garfica usando ggplot 2 y analizando similitudes y diferencias entre BSDA y ggplot2

-En esta grafica podemos observar que la frecuencia del genero de comedia es superior al resto de generos, alcanzando un total de 18.50% y qué el menor porcentaje de espectadores lo obtuvo el genero de historia con un total de 0.79%. Por otra parte podemos decir que el paquete BSDA nos arroja un grafico a base de pasos suspensivos, mientras que el ggplot nos da una gramatica de graficos donde distintos componentes independientes se pueden combinar de muchas maneras diferentes.

  1. Construya y analice cuartiles para la variable “Runtime” con un gráfico de caja y bigote mostrando de manera gráfica los aspectos más importantes.
data<-(Movies_gross_rating)
library(carData)
data("Davis")
boxplot(data$Runtime, col = coul, xlab = "Runtime", ylab = "frecuecy")

summary(Movies_gross_rating$Runtime)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    79.0   100.0   115.0   117.7   130.0   201.0

##analisis diagrama caja y bigote con BSDA

-En este diagrama de caja y bigote podemos observar por medio de los cuartiles se representan una especie de frontera en los datos, el dato más bajo de tiempo de película se encuentra por encima de 80 minutos, es decir normalmente las películas duraban mínimo un aproximado 80 minutos, la mediana se ubica entre 100 y 120 minutos, deducimos que el promedio de tiempo de duración de cada película no superaba los 120 minutos, lo que nos deja que el dato más alto se ubica por debajo de 175 minutos que quiere decir que lo máximo que duraba una película era de menos de 175 minutos, además de eso se puede observar que existen puntos que representan los datos atípicos y estos se ubican entre 175 y 200 minutos lo cual quiere decir que eran muy pocas las películas que duraban más de 175 minutos

library(ggplot2)
B<-ggplot(data,aes(x =data$Runtime, y = data$Runtime))+
  geom_boxplot(outlier.colour = 25,fill = "cyan3")+
theme_bw() 
B

quantile(Movies_gross_rating$Runtime)
##   0%  25%  50%  75% 100% 
##   79  100  115  130  201

#analisis con ggplot del boxplot

-En este diagrama están representados una serie de datos y que a través de los cuartiles podemos deducir que nuestro dato inferior en el diagrama quiere decir el tiempo menor normalmente de las películas que se proyectaban en 1989 el tiempo medio de duración de las películas vistas en esa época se encuentran exactamente115 minutos, Por otro lado podemos observar que tenemos datos atípicos que representan películas con tiempo de duración entre 175 a 201 minutos exactamente; como la mediana se encuentra en el centro de la caja, podemos deducir que los datos son más simétricos

##similitudes y diferencias de un digrama realizado con BSDA y ggplot2

-Los datos en el diagrama de caja de ggplot2 se encuentran determinados con más exactitud, se puede observar una gráfica más completa que no solo tiene el diagrama si no que también se ubica sobre una especie de tablero cuadrículado que permite que a la vista los datos sean más fáciles de interpretar, en ggplot2 observamos que el diagrama no está delimitado por los datos inferiores o superiores si no que la linea representa el punto máximo y el punto mínimo sin cerrar en bigote, utilizando ggplot2 se puede cambiar el color de fondo específico que este ofrece. Mientras en el diagrama de BSDA encontramos la información menos detallada, una representación muy básica del diagrama en el que no podemos editar el fondo que simplemente es plano

4.Grafique como le parezca apropiado la variable “Budget”, debe incluir el análisis.

library(BSDA)
hist(Movies_gross_rating$Budget, xlab = "Budget", ylab = "Frecuency",
     main = "histograma de Budget", col = coul)

library(moments)
skewness(Movies_gross_rating$Budget)
## [1] 1.083681
kurtosis(Movies_gross_rating$Budget)
## [1] 4.190951
mean(Movies_gross_rating$Budget)
## [1] 83922275
median(Movies_gross_rating$Budget)
## [1] 7e+07
var(Movies_gross_rating$Budget)
## [1] 3.570687e+15
sd(Movies_gross_rating$Budget)
## [1] 59755226
library(FinCal)
coefficient.variation(sd(Movies_gross_rating$Budget),mean(Movies_gross_rating$Budget))
## [1] 0.7120306

analisis de grafica de la variable Budget

-A partir de su grafica, realizada para la variable “Budget”, obtenemos las siguientes conclusiones: En este caso, se infiere que la distribución de los datos es asimétrica y es sesgada a la derecha, con esto también sabemos que la asimetría que presenta es positiva. Con el cálculo del coeficiente de variación, es posible afirmar que es una muestra muy dispersa, lo que a su vez hace que la media sea escasamente confiable, dado que su resultado tiende a 1, asimismo, observamos que en este caso el coeficiente de variación supera el 30%, lo cual reafirma que la media de estos datos es poco representativa. Finalmente, ya que el coeficiente de curtosis es mayor a 3, podemos decir que la forma de la gráfica de esta variable es leptocúrtica.

II. Dada la siguiente tabla de frecuencia para datos agrupados, proveniente de la base de datos de R llamada “Tea” la cual habla sobre el consumo tea y su percepción sobre este en 300 personas

analisis de “Tea”

Si analizamos estadísticamente la tabla y la información proporcionadas de la base de datos “Tea”, sabemos inicialmente que el número de la muestra es de 300 personas. Al calcular el rango obtenemos que es igual a 75 y su número total de clases es 7. También obtuvimos que la amplitud de las clases es de 10,7 aproximadamente y que en la clase 1 (15 – 25.7) se concentran la mayoría de los datos.

vmax - vmin=

90-15=75

k= 1+3.3log(75)= 7

75/7= 10.7

III. Usando la base de datos winequality-red.cvs que se ha trabajado de manera amplia en la clase, indique las características de la base datos y el tipo de variables que contiene realizando su clasificación, luego planee un gráfico diferente y una tabla de frecuencia, que le parezca correspondiente para al menos 5 variables de las 12 que contiene la base de datos

-A partir de la base de datos surgen varias preguntas que pueden resolverse con la información que esta brinda, una de ellas es ¿cómo varía la calidad de los vinos según la concentración de sus componentes? Analizando cada una de las características podremos hallar la respuesta. La base de datos winequality-red.csv comprende 1599 vinos y las variables allí contenidas nos permiten conocer la concentración de algunos de sus componentes, como la cantidad de alcohol, acidez, pH, entre otros, y en definitiva la calidad de cada vino, en una escala de 1 a 10. La tabla tiene 19.188 datos. En total posee 12 variables cuantitativas, las cuales a su vez se clasifican en cuantitativas continuas, como la acidez fija, la acidez volátil, el ácido cítrico, el azúcar residual, cloruros, densidad, pH, sulfatos, alcohol; y en cuantitativas discretas, como el dióxido de azufre libre, el dióxido de azufre total y la calidad.

grafica de la variable sulphates

winequality_red <- read.csv("C:/Users/LENOVO/Downloads/winequality_red.csv", sep=";")
View(winequality_red)
library(carData)
y<-c(winequality_red$sulphates)
boxplot(y, col = "pink2", xlab = "sulphates", ylab = "count", main = "sulfatos presentes en el vino" )

Grafica de la variable density

winequality_red <- read.csv("C:/Users/LENOVO/Downloads/winequality_red.csv", sep=";")
View(winequality_red)
library(BSDA)
q<-c(winequality_red$density)
hist(q,xlab = "densidad", ylab = "frecuency", col = coul, main = "densidad en el vino")

Grafica de la variable cholorides

winequality_red <- read.csv("C:/Users/LENOVO/Downloads/winequality_red.csv", sep=";")
View(winequality_red)
library(ggplot2)
d<-c(winequality_red$chlorides)
ggplot(winequality_red, aes(x=winequality_red$chlorides))+geom_bar(fill = "green3")

grafica de la variable citrid.acid

library(BSDA)
t<-c(winequality_red$citric.acid)
barplot(t,xlab="citrid.acid",ylab = "frecuency", main = "acido citrico dentro de las botellas de vino", fill = "red4")

grafico pie chart variable pH

library(BSDA)
boxplot(winequality_red$pH, xlab = "Ph", ylab = "frecuency", main = "pH en el vino", fill = "blue3") 

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.