Enunciado
En un estudio de mercado se desea investigar los principales factores
que pueden influir en aumentar la probabilidad de que un nuevo producto
sea introducido con éxito en el mercado. Con esta finalidad, se ha
aplicado una encuesta a 240 empresas industriales de las cuales 156
declararon haber intentado introducir en el mercado un nuevo producto.
Entonces, el objetivo es explicar el comportamiento en términos de
probabilidad de una
variable dependiente dicotómica (éxito o fracaso en el lanzamiento de un
nuevo producto), en función de un conjunto de variables
predictoras.
1.Realizar un análisis completo.
#Importar base de datos
library(readxl)
datos <- read_excel(file.choose())
#visualización de datos
head(datos)
##Identificar la ecuación
modelo_Logit2= glm(exito ~ . ,
data=datos, family="binomial")
summary(modelo_Logit2)
Call:
glm(formula = exito ~ ., family = "binomial", data = datos)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -9.2364 2.2282 -4.145 3.39e-05 ***
publicid 2.0206 0.5000 4.042 5.31e-05 ***
gradnoveProd Nuevos -1.2305 0.5377 -2.288 0.02211 *
tipoConsumo industrial 0.1633 0.7813 0.209 0.83442
imasdSi 3.5647 1.3678 2.606 0.00915 **
sectecngBaja -2.1564 0.8265 -2.609 0.00908 **
sectecngMedia -0.6872 0.8638 -0.796 0.42632
personal 0.4214 0.1490 2.829 0.00467 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 211.91 on 155 degrees of freedom
Residual deviance: 104.43 on 148 degrees of freedom
AIC: 120.43
Number of Fisher Scoring iterations: 8
Validación Global
Ho: B1 = B2=B3=B4=B5=B6
H1: al menos un Bi es Diferente
```r
with(modelo_Logit2,
pchisq(null.deviance - deviance,
df.null - df.residual,
lower.tail = FALSE)
)
```
```
[1] 3.05507e-20
```
P-valor aprox 0 < alfa(0.05)
Rechazo Ho
Conclusión : Al menos un coeficiente de regresión aporta significativamente al modelo Logístico.
B. Validación Individual
Ho: Bi= 0
H1: Bi dif 0 Para todo i = 1,2,3,4,5,6
summary(modelo_Logit2)
Call:
glm(formula = exito ~ ., family = "binomial", data = datos)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -9.2364 2.2282 -4.145 3.39e-05 ***
publicid 2.0206 0.5000 4.042 5.31e-05 ***
gradnoveProd Nuevos -1.2305 0.5377 -2.288 0.02211 *
tipoConsumo industrial 0.1633 0.7813 0.209 0.83442
imasdSi 3.5647 1.3678 2.606 0.00915 **
sectecngBaja -2.1564 0.8265 -2.609 0.00908 **
sectecngMedia -0.6872 0.8638 -0.796 0.42632
personal 0.4214 0.1490 2.829 0.00467 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 211.91 on 155 degrees of freedom
Residual deviance: 104.43 on 148 degrees of freedom
AIC: 120.43
Number of Fisher Scoring iterations: 8
Conclusión: Sector teconológico y Tipo de consumo resultan no significativo.
Precaución : Revisar posteriormente cual es el mejor modelo.
C. Tabla de clasificación
predicciones <- ifelse(test=modelo_Logit2$fitted.values >0.5 , yes=1,no=0)
tabla = table(modelo_Logit2$model$exito,predicciones ,
dnn =c("observaciones","predicciones"))
tabla
predicciones
observaciones 0 1
0 52 13
1 10 81
prop.table(tabla)*100
predicciones
observaciones 0 1
0 33.333333 8.333333
1 6.410256 51.923077
Tenemos un 33.33+ 51.92 = 85.25 % de correcta clasificación.
d. Coeficiente determinación
library(DescTools)
PseudoR2(modelo_Logit2, c("McFadden", "CoxSnell" , "Nagelkerke"))
McFadden CoxSnell Nagelkerke
0.5072108 0.4979163 0.6702109
##Creando el data frame con las nuevas observaciones[Rose y Jack]
prediccion_2= data.frame(
"publicid"=c(6.25),
"gradnove"=c('Mejoras Sustanciales'),
"tipo" =c('Consumo industrial'),
"imasd" = c('No') ,
"sectecng"= c('Media') ,
"personal"=c(20)
)
prediccion_2
prediccion=predict(modelo_Logit2, newdata = prediccion_2,type = "response")
prediccion ##Probabilidad de supervivencia
1
0.9999876