Explorar datos de películas
Se cargan datos de películas de un archivo url en formato csv, se describen los datos y se analiza y determina la frecuencia de películas nacionales siendo estas americanas o extranjeras mediante representación gráfica.
Cargar librerías
Cargar datos
Mostrar datos
Análisis descriptivo de datos numéricos
Análisis de frecuencia de la variable foreign
Visualizar datos de frecuencia de foreign
Librería de R para trabajar con Python
# install.packages("reticulate")
# library(reticulate)
Se cargan las librerías de Python previamente instaladas con la función py_install() de la librería reticulate de R. La función repl_python() se utiliza para ejecutar ventana de comando o shell de Python
# py_install(packages = "pandas")
# py_install(packages = "matplotlib")
# repl_python() # par ejecutar ventana de comando de Python
import pandas as pd
import matplotlib.pyplot as plt
datos = pd.read_csv("https://raw.githubusercontent.com/rpizarrog/Analisis-Inteligente-de-datos/main/datos/movies-db.csv")
datos
## name year ... foreign age_restriction
## 0 Toy Story 1995 ... 0 0
## 1 Akira 1998 ... 1 14
## 2 The Breakfast Club 1985 ... 0 14
## 3 The Artist 2011 ... 1 12
## 4 Modern Times 1936 ... 0 10
## 5 Fight Club 1999 ... 0 18
## 6 City of God 2002 ... 1 18
## 7 The Untouchables 1987 ... 0 14
## 8 Star Wars Episode IV 1977 ... 0 10
## 9 American Beauty 1999 ... 0 14
## 10 Room 2015 ... 1 14
## 11 Dr. Strangelove 1964 ... 1 10
## 12 The Ring 1998 ... 1 18
## 13 Monty Python and the Holy Grail 1975 ... 1 18
## 14 High School Musical 2006 ... 0 0
## 15 Shaun of the Dead 2004 ... 1 18
## 16 Taxi Driver 1976 ... 1 14
## 17 The Shawshank Redemption 1994 ... 0 16
## 18 Interstellar 2014 ... 0 10
## 19 Casino 1995 ... 0 18
## 20 The Goodfellas 1990 ... 0 14
## 21 Blue is the Warmest Colour 2013 ... 1 18
## 22 Black Swan 2010 ... 0 16
## 23 Back to the Future 1985 ... 0 0
## 24 The Wave 2008 ... 1 16
## 25 Whiplash 2014 ... 1 12
## 26 The Grand Hotel Budapest 2014 ... 0 14
## 27 Jumanji 1995 ... 0 12
## 28 The Eternal Sunshine of the Spotless Mind 2004 ... 0 14
## 29 Chicago 2002 ... 0 12
## 30 Jumangi 2020 ... 0 12
##
## [31 rows x 8 columns]
Con la función type() se determina el tipo de estructura de datos y con la función dtypes asociada a un objeto en este caso datos se determina el tipo de objeto de cada variable del conjunto de datos
print(type(datos))
## <class 'pandas.core.frame.DataFrame'>
print(datos.dtypes)
## name object
## year int64
## length_min int64
## genre object
## average_rating float64
## cost_millions float64
## foreign int64
## age_restriction int64
## dtype: object
datos.describe()
## year length_min ... foreign age_restriction
## count 31.000000 31.000000 ... 31.000000 31.000000
## mean 1996.290323 116.903226 ... 0.387097 12.903226
## std 17.586346 24.888223 ... 0.495138 5.028948
## min 1936.000000 81.000000 ... 0.000000 0.000000
## 25% 1988.500000 99.500000 ... 0.000000 12.000000
## 50% 1999.000000 113.000000 ... 0.000000 14.000000
## 75% 2009.000000 123.500000 ... 1.000000 16.000000
## max 2020.000000 179.000000 ... 1.000000 18.000000
##
## [8 rows x 6 columns]
Se determina la frecuencia de las observaciones por la variable de interés foreign.
ceros = datos['foreign'] == 0
print(ceros.value_counts())
## True 19
## False 12
## Name: foreign, dtype: int64
frecuencia = (datos.groupby("foreign").agg(frequency=("foreign", "count")))
frecuencia
## frequency
## foreign
## 0 19
## 1 12
datos.groupby('foreign').count()['name'].plot(kind='bar')
El conjunto de datos contiene observaciones relacionadas con características de películas, el data.frame de datos tiene 31 observaciones y diez variables.
Existe 19 películas en idioma inglés y 12 en idioma extranjero difenrete al inglés.