Estadistica y probalidad

Turismo Receptivo

Es aquella actividad que recibe a turistas provenientes de otros lugares. Es decir, es el territorio ofertante de productos y servicios que acoge a los viajeros de manera temporal para la realización de actividades turísticas.

Se le llama “receptivo” porque el país o región en cuestión está “recibiendo” visitantes de otros lugares. Este tipo de turismo se centra en los turistas que llegan a un sitio específico y se alojan en sus hoteles, comen en sus restaurantes y compran sus productos.

¿Que implica el Turismo Receptor?

Es la bienvenida vibrante que un país ofrece a los visitantes internacionales, brindándoles experiencias inolvidables y, al mismo tiempo, enriqueciendo su propia esencia.

US FLY: Agencia de viajes

es una agencia de viajes que ofrece paquetes turísticos y experiencias memorables para tus vacaciones. Su objetivo principal es brindar vacaciones y experiencias inolvidables a sus clientes, con respaldo y garantía. Además, cuentan con una amplia gama de hoteles según la experiencia que deseas vivir, ya sea de aventura o descanso.

Condicion del premio de la agencia de viajes US FLY

El premio se le otorga a clientes de 16 a 63 años de edad que hayan viajado al departamento de Valle del cauca, entre el año 2021 a 2022. El premio es otorgado una vez cada dos meses a un cliente que haya pagado un paquete turistico que incluya como minimo 4 noches de alojamiento en cualquier tipo de alojamiento.

La base de datos Turismo_Receptivo.xlsx contiene informacion acerca de los turistas nacionales e internacionales entre el año 2021 y 2022 junto a algunas variables relacionadas con las caracteristicas del turista y del viaje. Las variables son las siguientes:

Datos de excel

library(readxl)
Turismo_Receptivo <- read_excel("Turismo_Receptivo.xlsx")
head(Turismo_Receptivo)
## # A tibble: 6 × 10
##   GENERO `PAiS DE PROCEDENCIA` DEPARTAMENTO `RANGO EDAD` `MOTIVO VIAJE` NOCHES
##    <dbl>                 <dbl>        <dbl> <chr>                 <dbl>  <dbl>
## 1      0                    57           31 39-50                     1      2
## 2      1                    57           31 39-50                     2      2
## 3      0                    57           31 15-26                     2      2
## 4      1                    57           13 27-38                     1      1
## 5      0                    57           13 27-38                     1      1
## 6      1                    57           13 27-38                     1      2
## # ℹ 4 more variables: `TIPO ALOJAMIENTO` <dbl>,
## #   `GASTO TURISTICO GENERADO` <dbl>, MEDIO <dbl>, AÑO <dbl>
tail(Turismo_Receptivo)
## # A tibble: 6 × 10
##   GENERO `PAiS DE PROCEDENCIA` DEPARTAMENTO `RANGO EDAD` `MOTIVO VIAJE` NOCHES
##    <dbl>                 <dbl>        <dbl> <chr>                 <dbl>  <dbl>
## 1      1                    57           20 27-38                     1      9
## 2      1                    57           20 27-38                     1      9
## 3      1                    57           20 27-38                     1     10
## 4      0                    57            6 15-26                     1      6
## 5      0                    57            6 15-26                     1      9
## 6      0                    57            6 15-26                     1      9
## # ℹ 4 more variables: `TIPO ALOJAMIENTO` <dbl>,
## #   `GASTO TURISTICO GENERADO` <dbl>, MEDIO <dbl>, AÑO <dbl>

NA: Corresponde a una observacion faltante.


Estructura de los datos

str(Turismo_Receptivo)
## tibble [102 × 10] (S3: tbl_df/tbl/data.frame)
##  $ GENERO                  : num [1:102] 0 1 0 1 0 1 1 0 1 1 ...
##  $ PAiS DE PROCEDENCIA     : num [1:102] 57 57 57 57 57 57 57 57 57 57 ...
##  $ DEPARTAMENTO            : num [1:102] 31 31 31 13 13 13 6 6 6 17 ...
##  $ RANGO EDAD              : chr [1:102] "39-50" "39-50" "15-26" "27-38" ...
##  $ MOTIVO VIAJE            : num [1:102] 1 2 2 1 1 1 2 3 3 1 ...
##  $ NOCHES                  : num [1:102] 2 2 2 1 1 2 2 3 4 4 ...
##  $ TIPO ALOJAMIENTO        : num [1:102] 1 1 1 2 2 2 1 3 2 2 ...
##  $ GASTO TURISTICO GENERADO: num [1:102] 500000 150000 150000 650000 0 170000 450000 600000 1500000 800000 ...
##  $ MEDIO                   : num [1:102] 1 2 2 2 1 2 2 3 2 2 ...
##  $ AÑO                     : num [1:102] 2021 2021 2021 2021 2021 ...

Se observan 102 individuos con 10 variables, todas cuantitativas, lo que no es correcto ya que el archivo contiene variables cualitativas.

Resumen de los datos

summary(Turismo_Receptivo)
##      GENERO       PAiS DE PROCEDENCIA  DEPARTAMENTO    RANGO EDAD       
##  Min.   :0.0000   Min.   :56.00       Min.   : 4.00   Length:102        
##  1st Qu.:0.0000   1st Qu.:57.00       1st Qu.:13.00   Class :character  
##  Median :1.0000   Median :57.00       Median :23.00   Mode  :character  
##  Mean   :0.5882   Mean   :56.99       Mean   :20.62                     
##  3rd Qu.:1.0000   3rd Qu.:57.00       3rd Qu.:29.00                     
##  Max.   :1.0000   Max.   :57.00       Max.   :32.00                     
##                   NA's   :6           NA's   :5                         
##   MOTIVO VIAJE       NOCHES      TIPO ALOJAMIENTO GASTO TURISTICO GENERADO
##  Min.   :1.000   Min.   : 0.00   Min.   :1.000    Min.   :      0         
##  1st Qu.:1.000   1st Qu.: 1.00   1st Qu.:1.000    1st Qu.: 400000         
##  Median :2.000   Median : 3.00   Median :1.000    Median : 700000         
##  Mean   :1.784   Mean   : 4.01   Mean   :1.931    Mean   : 910594         
##  3rd Qu.:2.000   3rd Qu.: 6.00   3rd Qu.:2.000    3rd Qu.:1000000         
##  Max.   :4.000   Max.   :15.00   Max.   :6.000    Max.   :6500000         
##                  NA's   :1                        NA's   :1               
##      MEDIO           AÑO      
##  Min.   :1.00   Min.   :2021  
##  1st Qu.:1.00   1st Qu.:2021  
##  Median :2.00   Median :2022  
##  Mean   :1.98   Mean   :2022  
##  3rd Qu.:2.00   3rd Qu.:2022  
##  Max.   :6.00   Max.   :2022  
## 

Se observan datos faltante en algunas variables.


Eliminacion de los datos faltantes

turismo_receptivo1=na.omit(Turismo_Receptivo)
str(turismo_receptivo1)
## tibble [93 × 10] (S3: tbl_df/tbl/data.frame)
##  $ GENERO                  : num [1:93] 0 1 0 1 0 1 1 0 1 1 ...
##  $ PAiS DE PROCEDENCIA     : num [1:93] 57 57 57 57 57 57 57 57 57 57 ...
##  $ DEPARTAMENTO            : num [1:93] 31 31 31 13 13 13 6 6 6 17 ...
##  $ RANGO EDAD              : chr [1:93] "39-50" "39-50" "15-26" "27-38" ...
##  $ MOTIVO VIAJE            : num [1:93] 1 2 2 1 1 1 2 3 3 1 ...
##  $ NOCHES                  : num [1:93] 2 2 2 1 1 2 2 3 4 4 ...
##  $ TIPO ALOJAMIENTO        : num [1:93] 1 1 1 2 2 2 1 3 2 2 ...
##  $ GASTO TURISTICO GENERADO: num [1:93] 500000 150000 150000 650000 0 170000 450000 600000 1500000 800000 ...
##  $ MEDIO                   : num [1:93] 1 2 2 2 1 2 2 3 2 2 ...
##  $ AÑO                     : num [1:93] 2021 2021 2021 2021 2021 ...
##  - attr(*, "na.action")= 'omit' Named int [1:9] 17 55 59 62 70 78 79 80 81
##   ..- attr(*, "names")= chr [1:9] "17" "55" "59" "62" ...
summary(turismo_receptivo1)
##      GENERO       PAiS DE PROCEDENCIA  DEPARTAMENTO    RANGO EDAD       
##  Min.   :0.0000   Min.   :56.00       Min.   : 4.00   Length:93         
##  1st Qu.:0.0000   1st Qu.:57.00       1st Qu.:13.00   Class :character  
##  Median :1.0000   Median :57.00       Median :23.00   Mode  :character  
##  Mean   :0.6129   Mean   :56.99       Mean   :20.44                     
##  3rd Qu.:1.0000   3rd Qu.:57.00       3rd Qu.:29.00                     
##  Max.   :1.0000   Max.   :57.00       Max.   :32.00                     
##   MOTIVO VIAJE       NOCHES   TIPO ALOJAMIENTO GASTO TURISTICO GENERADO
##  Min.   :1.000   Min.   : 0   Min.   :1.000    Min.   :      0         
##  1st Qu.:1.000   1st Qu.: 1   1st Qu.:1.000    1st Qu.: 400000         
##  Median :2.000   Median : 3   Median :1.000    Median : 700000         
##  Mean   :1.806   Mean   : 4   Mean   :1.925    Mean   : 867957         
##  3rd Qu.:2.000   3rd Qu.: 6   3rd Qu.:2.000    3rd Qu.:1000000         
##  Max.   :4.000   Max.   :15   Max.   :6.000    Max.   :6500000         
##      MEDIO            AÑO      
##  Min.   :1.000   Min.   :2021  
##  1st Qu.:1.000   1st Qu.:2021  
##  Median :2.000   Median :2022  
##  Mean   :1.989   Mean   :2022  
##  3rd Qu.:2.000   3rd Qu.:2022  
##  Max.   :6.000   Max.   :2022

Se observa que el numero de individuos despues de la eliminacion de datos faltantes son 93 con 10 variables.

Renombrar las variables

GENERO=turismo_receptivo1$GENERO
GENERO=as.factor(GENERO)
PAIS=turismo_receptivo1$`PAiS DE PROCEDENCIA`
PAIS=as.factor(PAIS)
DEP=turismo_receptivo1$DEPARTAMENTO
DEP=as.factor(DEP)
R.EDAD=turismo_receptivo1$`RANGO EDAD`
MOTIVO=turismo_receptivo1$`MOTIVO VIAJE`
MOTIVO=as.factor(MOTIVO)
NOCHES=turismo_receptivo1$NOCHES
ALOJAMIENTO=turismo_receptivo1$`TIPO ALOJAMIENTO`
ALOJAMIENTO=as.factor(ALOJAMIENTO)
GASTO=turismo_receptivo1$`GASTO TURISTICO GENERADO`
MEDIO=turismo_receptivo1$MEDIO
MEDIO=as.factor(MEDIO)
AÑO=turismo_receptivo1$AÑO
datos=data.frame(GENERO,PAIS,DEP,R.EDAD,MOTIVO,NOCHES,ALOJAMIENTO,GASTO,MEDIO,AÑO)
str(datos)
## 'data.frame':    93 obs. of  10 variables:
##  $ GENERO     : Factor w/ 2 levels "0","1": 1 2 1 2 1 2 2 1 2 2 ...
##  $ PAIS       : Factor w/ 2 levels "56","57": 2 2 2 2 2 2 2 2 2 2 ...
##  $ DEP        : Factor w/ 16 levels "4","6","9","11",..: 15 15 15 5 5 5 2 2 2 7 ...
##  $ R.EDAD     : chr  "39-50" "39-50" "15-26" "27-38" ...
##  $ MOTIVO     : Factor w/ 4 levels "1","2","3","4": 1 2 2 1 1 1 2 3 3 1 ...
##  $ NOCHES     : num  2 2 2 1 1 2 2 3 4 4 ...
##  $ ALOJAMIENTO: Factor w/ 6 levels "1","2","3","4",..: 1 1 1 2 2 2 1 3 2 2 ...
##  $ GASTO      : num  500000 150000 150000 650000 0 170000 450000 600000 1500000 800000 ...
##  $ MEDIO      : Factor w/ 6 levels "1","2","3","4",..: 1 2 2 2 1 2 2 3 2 2 ...
##  $ AÑO        : num  2021 2021 2021 2021 2021 ...
summary(datos)
##  GENERO PAIS         DEP        R.EDAD          MOTIVO     NOCHES   ALOJAMIENTO
##  0:36   56: 1   23     :18   Length:93          1:31   Min.   : 0   1:48       
##  1:57   57:92   29     :13   Class :character   2:50   1st Qu.: 1   2:31       
##                 6      :11   Mode  :character   3:11   Median : 3   3: 2       
##                 13     : 9                      4: 1   Mean   : 4   4: 4       
##                 32     : 8                             3rd Qu.: 6   5: 1       
##                 19     : 7                             Max.   :15   6: 7       
##                 (Other):27                                                     
##      GASTO         MEDIO       AÑO      
##  Min.   :      0   1:43   Min.   :2021  
##  1st Qu.: 400000   2:37   1st Qu.:2021  
##  Median : 700000   3: 1   Median :2022  
##  Mean   : 867957   4: 2   Mean   :2022  
##  3rd Qu.:1000000   5: 3   3rd Qu.:2022  
##  Max.   :6500000   6: 7   Max.   :2022  
## 

Analisis descriptivo

tabla=table(MOTIVO)
tabla
## MOTIVO
##  1  2  3  4 
## 31 50 11  1
round(prop.table(tabla)*100,1)
## MOTIVO
##    1    2    3    4 
## 33.3 53.8 11.8  1.1

INTERPRETACION DE DATOS

barplot(tabla, main="diagrama de barras motivo", col=c("yellow","pink","orange","green"))

summary(NOCHES)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##       0       1       3       4       6      15
hist(NOCHES, main="NOCHES", col="red")

Filtro de promocion

datos1=subset(datos, NOCHES > 4)
str(datos1)
## 'data.frame':    38 obs. of  10 variables:
##  $ GENERO     : Factor w/ 2 levels "0","1": 2 2 1 2 1 2 1 1 1 1 ...
##  $ PAIS       : Factor w/ 2 levels "56","57": 2 2 2 2 2 2 2 2 2 2 ...
##  $ DEP        : Factor w/ 16 levels "4","6","9","11",..: 3 16 16 6 2 8 13 13 5 5 ...
##  $ R.EDAD     : chr  "15-26" "39-50" "51-62" "39-50" ...
##  $ MOTIVO     : Factor w/ 4 levels "1","2","3","4": 4 1 1 1 1 1 1 1 1 2 ...
##  $ NOCHES     : num  8 5 6 9 5 6 6 8 5 5 ...
##  $ ALOJAMIENTO: Factor w/ 6 levels "1","2","3","4",..: 5 2 2 1 2 2 1 2 2 2 ...
##  $ GASTO      : num  0 1200000 500000 1500000 900000 1000000 900000 900000 1000000 900000 ...
##  $ MEDIO      : Factor w/ 6 levels "1","2","3","4",..: 1 1 1 1 1 1 1 2 1 1 ...
##  $ AÑO        : num  2021 2021 2021 2022 2022 ...

La filtracion de individuos arroja que 38 individuos son probables a ganar el premio que otorga la agencia de viajes US FLY.

str(datos1)
## 'data.frame':    38 obs. of  10 variables:
##  $ GENERO     : Factor w/ 2 levels "0","1": 2 2 1 2 1 2 1 1 1 1 ...
##  $ PAIS       : Factor w/ 2 levels "56","57": 2 2 2 2 2 2 2 2 2 2 ...
##  $ DEP        : Factor w/ 16 levels "4","6","9","11",..: 3 16 16 6 2 8 13 13 5 5 ...
##  $ R.EDAD     : chr  "15-26" "39-50" "51-62" "39-50" ...
##  $ MOTIVO     : Factor w/ 4 levels "1","2","3","4": 4 1 1 1 1 1 1 1 1 2 ...
##  $ NOCHES     : num  8 5 6 9 5 6 6 8 5 5 ...
##  $ ALOJAMIENTO: Factor w/ 6 levels "1","2","3","4",..: 5 2 2 1 2 2 1 2 2 2 ...
##  $ GASTO      : num  0 1200000 500000 1500000 900000 1000000 900000 900000 1000000 900000 ...
##  $ MEDIO      : Factor w/ 6 levels "1","2","3","4",..: 1 1 1 1 1 1 1 2 1 1 ...
##  $ AÑO        : num  2021 2021 2021 2022 2022 ...
summary(datos1)
##  GENERO PAIS         DEP        R.EDAD          MOTIVO     NOCHES      
##  0:14   56: 1   6      : 6   Length:38          1:21   Min.   : 5.000  
##  1:24   57:37   23     : 6   Class :character   2:16   1st Qu.: 6.000  
##                 32     : 5   Mode  :character   3: 0   Median : 7.500  
##                 11     : 3                      4: 1   Mean   : 7.289  
##                 13     : 3                             3rd Qu.: 9.000  
##                 20     : 3                             Max.   :15.000  
##                 (Other):12                                             
##  ALOJAMIENTO     GASTO         MEDIO       AÑO      
##  1:14        Min.   :      0   1:25   Min.   :2021  
##  2:22        1st Qu.: 900000   2: 7   1st Qu.:2022  
##  3: 0        Median : 900000   3: 0   Median :2022  
##  4: 1        Mean   :1194737   4: 0   Mean   :2022  
##  5: 1        3rd Qu.:1000000   5: 1   3rd Qu.:2022  
##  6: 0        Max.   :4500000   6: 5   Max.   :2022  
## 
hist(datos1$NOCHES, main="Histograma de promocion", col="violet")

boxplot(datos1$NOCHES, main="Box-plot de NOCHES", col="cyan")
grid()

boxplot(datos1$GASTO, main="Box-plot de GASTO", col="aquamarine")
grid()

boxplot(datos1$NOCHES~datos1$DEP, main="Box-plot de NOCHES", col="purple")

plot(NOCHES,GASTO)
grid()

cor(NOCHES,GASTO)
## [1] 0.3737272

\[r_{NOCHES,GASTO}=0.37\]

Esto indica una baja relación entre las noches y el gasto turistico generado.

mean(NOCHES)
## [1] 4
tapply(NOCHES, DEP, mean)
##         4         6         9        11        13        16        17        19 
##  6.000000  5.818182  8.000000  5.750000  2.444444  7.500000  5.333333  2.857143 
##        20        23        26        28        29        30        31        32 
##  7.250000  3.500000  6.000000  4.000000  2.153846 10.000000  1.200000  4.000000

Regresion y correlacion

La regresión expresa una variable (respuesta) en términos de otra(s) variables (indpendientes) por medio de una ecuación matemática

\[y =f(x_1,x_2, \dots , x_k )\]

Tursimo en el Valle del cauca

\(Y:\) Turismo

\(X_i:\) GENERO, PAIS, DEP, R.EDAD, MOTIVO,NOCHES,ALOJAMIENTO, GASTO, MEDIO, AÑO

\[0 \leq Y \leq 102\]

Ecuación de la recta

\[y=m*x+b\]

Recta de regresion

Se observan dos variables a un mismo individuo. \((x,y)\)

\(y:\) variable respuesta

\(x:\) variable independiente

\[y=mx+b\]

plot(NOCHES,GASTO, main="Diagrama de dispersion GASTO vs. NOCHES")

Se busca ajustar una linea recta adecuada para expresar \(y=GASTO\) en términos de \(x=NOCHES\), el número de posibilidades de linea recta son infinitos, por lo que se debe definir un criterio para encontrar una única recta.

Regresion lineal

r0=lm(GASTO~NOCHES)
coef(r0)
## (Intercept)      NOCHES 
##    431210.8    109186.6
plot(NOCHES,GASTO, main="Diagrama de dispersion GASTO vs. NOCHES")
abline(r0)

r=round(cor(GASTO,NOCHES), 2)
r
## [1] 0.37
R2=r^2*100
R2
## [1] 13.69

Coeficiente de correlacion: \(r=0.37\), indica una relacion directa entre GASTO Y NOCHES y la fuerza es debil.

Pendiente: \(m=109186.6\), en promedio por cada unidad que aumenten las noches, el gasto aumenta 109186.6 pesos

Intercepto: \(b=431210.8\), es el valor promedio del GASTO cuando NOCHES=0

Ecuación de regresión de GASTO en términos de las NOCHES

\[\widehat{GASTO}=109186.6*NOCHES+431210.8\]

Coeficioente de determinacion \(R^2\)

\[SCT=SCM+SCE\] + \(SCT:\) Suma total de cuadrados

Esta ecuacion particiona la dispersion total de \(y\) (\(SCT\)) en dos partes, uno bueno \(SCM\) y uno malo \(SCE\)

\[R^2= \dfrac{SCM}{SCT}= 1-\dfrac{SCE}{SCT}\] \[0\% \leq R^2 \leq 100\%\]

Se quiere que el coeficiente de determinación sea lo más grande posible.

Es el porcentaje de explicación de la variable \(Y\) por parte del modelo (variable \(X\))

\[R^2=r^2*100\%\] \[R^2=0.37^2*100\%=13.69\%\] Esto indica que la variacion del GASTO se explica en un 13.69% por las NOCHES.

Modelo 2

r1=lm(GASTO~AÑO)
coef(r1)
##   (Intercept)           AÑO 
## -1342810264.7      664617.6
r=cor(GASTO,AÑO)
r
## [1] 0.3203133
R2=r^2*100
round(R2,2)
## [1] 10.26

\[\widehat{GASTO}=664617.6*AÑO+(-1342810264.7)\]

\[R^2=10.26\%\]

Glosario de funciones en R

¡GRACIAS!

Caren Natali Lancheros Parra y Rodrigo Sanchez Villanueva

Email: ,