1 Objetivo

Explorar datos de películas

2 Descripción

Se cargan datos de películas de un archivo url en formato csv, se describen los datos y se analiza y determina la frecuencia de películas nacionales siendo estas americanas o extranjeras mediante representación gráfica.

3 Desarrollo

  • Cargar librerías

  • Cargar datos

  • Mostrar datos

  • Análisis descriptivo de datos numéricos

  • Análisis de frecuencia de la variable foreign

  • Visualizar datos de frecuencia de foreign

3.1 Cargar librerías

Librería de R para trabajar con Python

# install.packages("reticulate")
# library(reticulate)

Se cargan las librerías de Python previamente instaladas con la función py_install() de la librería reticulate de R. La función repl_python() se utiliza para ejecutar ventana de comando o shell de Python

# py_install(packages = "pandas")
# py_install(packages = "matplotlib")
# repl_python() # par ejecutar ventana de comando de Python
import pandas as pd
import matplotlib.pyplot as plt

3.2 Cargar datos

datos = pd.read_csv("https://raw.githubusercontent.com/rpizarrog/Analisis-Inteligente-de-datos/main/datos/movies-db.csv")

3.2.1 Mostrar datos

datos
##                                          name  year  ...  foreign age_restriction
## 0                                   Toy Story  1995  ...        0               0
## 1                                       Akira  1998  ...        1              14
## 2                          The Breakfast Club  1985  ...        0              14
## 3                                  The Artist  2011  ...        1              12
## 4                                Modern Times  1936  ...        0              10
## 5                                  Fight Club  1999  ...        0              18
## 6                                 City of God  2002  ...        1              18
## 7                            The Untouchables  1987  ...        0              14
## 8                        Star Wars Episode IV  1977  ...        0              10
## 9                             American Beauty  1999  ...        0              14
## 10                                       Room  2015  ...        1              14
## 11                            Dr. Strangelove  1964  ...        1              10
## 12                                   The Ring  1998  ...        1              18
## 13            Monty Python and the Holy Grail  1975  ...        1              18
## 14                        High School Musical  2006  ...        0               0
## 15                          Shaun of the Dead  2004  ...        1              18
## 16                                Taxi Driver  1976  ...        1              14
## 17                   The Shawshank Redemption  1994  ...        0              16
## 18                               Interstellar  2014  ...        0              10
## 19                                     Casino  1995  ...        0              18
## 20                             The Goodfellas  1990  ...        0              14
## 21                 Blue is the Warmest Colour  2013  ...        1              18
## 22                                 Black Swan  2010  ...        0              16
## 23                         Back to the Future  1985  ...        0               0
## 24                                   The Wave  2008  ...        1              16
## 25                                   Whiplash  2014  ...        1              12
## 26                   The Grand Hotel Budapest  2014  ...        0              14
## 27                                    Jumanji  1995  ...        0              12
## 28  The Eternal Sunshine of the Spotless Mind  2004  ...        0              14
## 29                                    Chicago  2002  ...        0              12
## 30                                    Jumangi  2020  ...        0              12
## 
## [31 rows x 8 columns]

3.2.2 Tipos de datos

Con la función type() se determina el tipo de estructura de datos y con la función dtypes asociada a un objeto en este caso datos se determina el tipo de objeto de cada variable del conjunto de datos

print(type(datos))
## <class 'pandas.core.frame.DataFrame'>
print(datos.dtypes)
## name                object
## year                 int64
## length_min           int64
## genre               object
## average_rating     float64
## cost_millions      float64
## foreign              int64
## age_restriction      int64
## dtype: object

3.2.3 Análisis descriptivo de datos numéricos

datos.describe()
##               year  length_min  ...    foreign  age_restriction
## count    31.000000   31.000000  ...  31.000000        31.000000
## mean   1996.290323  116.903226  ...   0.387097        12.903226
## std      17.586346   24.888223  ...   0.495138         5.028948
## min    1936.000000   81.000000  ...   0.000000         0.000000
## 25%    1988.500000   99.500000  ...   0.000000        12.000000
## 50%    1999.000000  113.000000  ...   0.000000        14.000000
## 75%    2009.000000  123.500000  ...   1.000000        16.000000
## max    2020.000000  179.000000  ...   1.000000        18.000000
## 
## [8 rows x 6 columns]

3.2.4 Frecuencia de la variable foreign

Se determina la frecuencia de las observaciones por la variable de interés foreign.

ceros = datos['foreign'] == 0
print(ceros.value_counts())
## True     19
## False    12
## Name: foreign, dtype: int64
frecuencia = (datos.groupby("foreign").agg(frequency=("foreign", "count")))
frecuencia
##          frequency
## foreign           
## 0               19
## 1               12

3.2.5 Visualizar la frecuencia de foreign

datos.groupby('foreign').count()['name'].plot(kind='bar')

4 Interpretación

El conjunto de datos contiene observaciones relacionadas con características de películas, el data.frame de datos tiene 31 observaciones y diez variables.

Existe 19 películas en idioma inglés y 12 en idioma extranjero difenrete al inglés.