¿cuales son los diferentes tipos de distribuciones a nivel estadistico?
distribucion lognorm:
la distribucion log-normal es una distribucion la cual tiene un proposito en particular, el cual es, modelar variables aleatorias cuyo logartimo sigue una distribucion normal es decir que al momento de querer graficar una distribucion log-normal, deberia de ser simetrica entorno a su medida, se va a observar la forma de la campana de gauss, la media, mediana,moda, seran iguales y estaran ubicadas en el centro de la distribucion. Estas son algunas de las caracteristicas que debe tener el grafico log-normal, pero se tiene en cuenta que para poder utilizar de forma correcta el log-norm, es necesario usar otras funciones que nos permitan calcularla de forma correcta
dlnorm(x, meanlog, sdlog):es una de las funciones las cuales nos proporciona la informacion necesaria para el log-normal, esta funcion devuelve la densidad de la distribucion del log-normal, para el valor designado x
x: representa el valor el cual quieres evaluar la funcion densidad, puede ser cualquier numero solo positivo o un vector de valores
meanlog: representa la media de los logaritmos de la variable . Es decir, representa el valor promedio del logaritmo natural del o los datos x
sdlog: es la deviacion estandar de los logaritmos de las variable aleatoria x esta tiene el objetivo de controlar la dispersion de los datos, despues de que el logaritmo se aplica
plnorm(q,meanlog,sdlog):
esta funcion permite calcular la probabilidad acumulada de la
distribucion log-normal hasta el valor
q es decir, la probabilidad de que una variable aleatoria en
log-normal x, sea menor o igual a q por lo tanto, la probabilidad acumulada se
toma desde el valor minimo posible en la variable aleatoria, (0 en
log-normal), hasta el numero q
q: es el valor del cuantil, es decir, el valor que indica hasta cuando se calcula la probabilidad acumulada que depende de x
meanlog: aqui se debe poner la media del logaritmo natural de la variable aleatoria x debido a que la media del logaritmo indica la posicion de distribucion
sdlog: aqui se debe poner la desviacion estandar del logaritmo de la variable que se encuentre en x esta seccion de aqui nos ayuda a determinar cuanta dispersion y concentracion hay en los valores de x
qlnorm(p,meanlog,sdlog): es una de las partes de log-norm, se utiliza para poder calcular el percentil de la distribucion del log-normal, este mismo calculo se hace atravez de una variablep la cual nos va a inidicar la probabilidad acumulada
p: este valor nos indica la probabilidad acumulada, normalmente es un valor entre el 0 y el 1, por ejemplo sip=0.20 se esta indicando hasta que punto se quiere encontrar el cuantil, en esta caso es hasta el 20% de los datos de la distribucion normal en log-normal
meanlog: esta seccion de aqui indica el valor de la media del logaritmo que sigue la distribucion del log-normal, este permite ajustar el parametro de ubicacion de distribucion
sdlog: este valor es el que nos ayuda a controlar la dispersion de la distribucion y encontrar que tan concentrados o dispersos esta los datos, estan los valores de la variable
rlnorm(n, meanlog, sdlog): esta funcion genera los valores aleatorios que siguen la distribucion del log-normal
n: en esta seccion de aqui se colocan la cantidad de valores aleatorios que deseas generar, por ejemplo: si n=32, la funcion va agenerar 32 numeros meanlog: en esta seccion se hubican la media del logaritmo natural debido a que se tiene en cuenta que no se puede usar la media de la variable directamente, sino que se debe usar ln(x) para definir su ubicacion de distribucion
sdlog: aqui se ubica la desviacion estandar del logaritmo natual, esta misma nos ayuda a medir la dispersion y concentracion de los datos, debido a que si el valor de esta misma es pequeña, los valores estaran mas concentrados, de lo contrario estaran mas dispersos
ejemplo distribucion lognormal:
## [1] "en este ejemplo se nos va a dar diferentes precios que vale un reloj se tiene en cuenta que estos valores deben estar agrupados en un vector,debiod a que estamos buscando un reloj que tenga un coste de 200.000 pesos colombianos se tomo una muestra de 5 precios en 5 tiendas diferentes"
## [1] 200000 500000 700000 900000 1200000
## [1] "este es el valor que vamos a poner en meanlog debido a que esta es la media del logaritmo 13.2990507588049"
## [1] "este es el valor que vamos a poner en sdlog esta es la desviacion estandar del logaritmo0.690769279702911"
## [1] "dlnorm(200000,meanlog_uno,sdlog_uno"
## [1] "este es el valor que le corresponde a 8.25861631873386e-07 dlnorm"
## [1] "--------------------------------------------------------------------------------------------------------------------------------------"
## [1] "CALCULAR PROBABILIDAD ACUMULADA"
## [1] "plnorm(200000,meanlog_uno,sdlog_uno )"
## [1] "el valor de la probabilidad acumulada es de0.0567948642182419"
## [1] "--------------------------------------------------------------------------------------------------------------------------------------"
## [1] "EL SIGUIENTE PASO ES CALCULAR EL PERCENTIL"
## [1] "se indica un 90% como valor percentil, debido aque el valor de 200.000 esta por debajo del 90% de los datos muestrales "
## [1] "qlnorm(0.9,meanlog_uno,sdlog_uno)el valor es1445993.53485805"
## [1] "---------------------------------------------------------------------------------------------------------------------------------------\n"
## [1] "GENERAR LOS VALORES ALEATORIOS"
## [1] "rlnorm(10,meanlog_uno,sdlog_uno)"
## [1] "---------------------------------------------------------------------------------------------------------------------------------------\n"
## [1] "\n x <- seq(0,1e6,length.out=1000)\ndensidad_funcion <- dlnorm(x,meanlog_uno,sdlog_uno)\nplot(x,densidad_funcion,type=l,col=red,lwd=2,\n main=la distribucion log-normal de los precios de relojes,\n xlab =precio de relojes,ylab=densidad de probabilidad)\n \n\n "
distribucion Gaussiana:
se tiene en cuenta que la distribucion Gaussiana funciona distribuyendo varios datos de forma uniforme y simetrica alrededor de un promedio que nos permite dilucidar varios datos, pueden ser alturas, fenomenos naturales, eventos sociales, etc.
pnorm(q,mean,sd,lower.tail = TRUE/FALSE): esta funcion nos permite calcular distribucion acumulada, de la distribucion normal o Gaussiana, esta nos da la probabilidad acumulada de que las variables que son de una indole aleatoria, esta misma obtiene las que estan por debajo de cierto valor,que el mismo usuario debe indicar, esta misma nos va ayudar a construir el grafico gaussiano
q: esta variable nos va a servir para inidicarle a la funcion que numero queremos que calcule la probabilidad acumulada
mean: la medida de distribucion la cual se debe obtener de todos los datos que nosotros pongamos en el vector para poder calcular la media de los datos que nosotros queremos
sd: la desviacion estandar de la distribucion, es decir, de los datos que nosotros vayamos a usar para construir el grafico Gaussiano
lower.tail: esta parte de aqui es un medidor el cual nos va a ayudar a poder encontrar los las probabilidades, si el lower.tail es TRUE, se calcula la probabilidad por debajo de q si es FALSE, se calcula la probabilidad que esta por encima de q
qnorm(q,mean,sd,lower.tail=TRUE/FALSE): esta funcion es encargada de calcular el percentil o cuantil de la distribucion gaussiana, por lo tanto calcula el valor de la variable que corresponde a esa probabilidad acumulada
p: la probabilidad que se tiene acumulada para poder obtener el cuantil de la forma correcta
mean: la media de la distribucion de los datos que se tienen en conocimiento para poder desarrollarlo de forma correcta, o tambien se conoce como la media de la distribucion normal o Gausiana
sd: la desviacion estandar de la distribucion de los datos que se tienen para poder definir la distribucion gaussiana, normalmente o por defecto este valor es 1
lower.tail=TRUE/FALSE: un medidor el cual nos proporciona los calculo percentiles, si lower.tail es TRUE se obtiene el cuantil de la cola inferior o menor, si es FALSE, es al contrario.
rnorm(n, mean, sd): esta funcion nos ayuda a generar numeros aleatorios de acuerdo a la distribucion Gaussiana, esta misma es capaz de generar datos de forma especifica y dispersa, incluso si es una variable tan caotica como su misma descripcion lo indica, es posible controlar esta misma, atravez de la media, y desviacion estandar de los datos
n: aqui, tu puedes poner cuantos numeros aleatorios quieres generar, el limite de este mismo generador es debido a el software R
mean: la media de la distribucion de los datos que nosotros obtengamos de los vectores o de una lista en especifico de los datos que queremos calcular
sd: la desviacion estandar de la distribucion normal, que nosotros tengamos a disposicion
dnorm(x, mean, sd,log):esta funcion nos ayuda a calcular la densidad de la probabilidad de la distribucion Gaussiana que nosotros estamos usando, pero se tiene en cuenta que debe ser un valor en especifico que el mismo usuario debe indicar
x: aqui nosotros debemos indicar a que numero vamos a calcularle la densidad de probabilidad, este mismo puede ser un solo numero, o puede ser varios en un vector
mean: aqui se encuentra la media de la distribucion que nosotros tengamos en los datos a la disposicion
sd:la desviacion estandar que nosotros tengamos la distribucion normal o Gaussiana
log=TRUE/FALSE:normalmente el log no es tan usado dentro de esta funcion, debido a que no es caracter obligatorio, pero si se quiere, usar, si log es TRUE, te dara el valor del logaritmo de la densidad, de lo contrario, te dara la densidad de la probabilidad
ejemplo distribucion Gaussiana:
## [1] "muy bien, se acaba de hacer un rifa para un viaje a ida a cali a pie, pero a nuestro vendedor le gustaria conocer la distribucion Gaussiana de esos datos que recopilo,debido a que las boletas se distribuyen de forma aletoria, debido a que la empresa le interesa tener en cuenta esos datos para futuras inversiones"
## [1] 65 94 16 13 98 45 65 16 81 15 89 20 30 78 27 36 10 11 12 72
## [1] "este es el valor que vamos a poner en mean debido a que esta es la media 44.65"
## [1] "este es el valor que vamos a poner en sd esta es la desviacion estandar 31.9444830917641"
## [1] "nuestro querido vendedor quiere ver la densidad de la probabilidad de un digito en especifico en este caso la boleta numero 11 "
## [1] "dnorm(boleta_premio,mean = media_uno_ejemplo_dos, sd=desviacion_uno_ejemplo_dos ) en este caso el boleto premio es de 11"
## [1] "0.0071706906538474este es el resultado del dnorm"
## [1] "--------------------------------------------------------------------------------------------------------------------------------------"
## [1] "CALCULAR LA PROBABILIDAD DE QUE ALGUIEN OBTENGA UNA BOLETA MENOR A 11"
## [1] "pnorm(boleta_premio,media_uno_ejemplo_dos,desviacion_uno_ejemplo_dos)"
## [1] "la probabilidad de que alguien obtenga una boleta menor a 11, es de 0.14608113586851"
## [1] "---------------------------------------------------------------------------------------------x-----------------------------------------"
## [1] "EL SIGUIENTE PASO ES CALCULAR EL PERCENTIL"
## [1] "se indica un 90% como valor percentil, debido a que se indentificaria que, las personas que saquen el 11, no pertecenerian a ese 90% que obtendran otros numeros que no sean el 11 "
## [1] " qnorm(percentil_ejemplo_dos,mean=media_uno_ejemplo_dos,sd=desviacion_uno_ejemplo_dos)el valor es 85.5885023167633"
## [1] "---------------------------------------------------------------------------------------------------------------------------------------\n\n"
## [1] "GENERAR LOS VALORES ALEATORIOS"
## [1] " rnorm(100,mean=media_uno_ejemplo_dos,sd=desviacion_uno_ejemplo_dos)"
## [1] "---------------------------------------------------------------------------------------------------------------------------------------\n"
## [1] "para obtener esta grafica histograma se uso este codigo\n hist(boletas_aleatorios,breaks = 100,probability =TRUE,\n main =distribucion de las boletas de la rifa,\n xlab = boletas,\n col =purple,border=black)\ncurve(dnorm(x,mean =media_uno_ejemplo_dos,sd=desviacion_uno_ejemplo_dos),\n add=TRUE,col=red,lwd=2)"
distribucion Chi cuadrada:
la distribucion chi cuadrada tiene diferentes usos dentro de varios ambitos de la ciencia pero principalmente se tiene en cuenta que es de una indole para analizar datos categoricos
dchisq(x, df): esta funcion ayuda medir el valor de la densidad de probabilidad dependiendo del valor de x: , dado ciertos grados de libertad df:
x: esta variable es la que indica que valores o vectores deseas calcular para la densidad de la probabilidad
df: en este variable se debe de colocar los grados de libertad que tienen la distribucion chi cuadrada, el mismo grado de libertad es normalmente proporcional a la cantidad de variables aleatorias que no estan en un posible control directo o indirecto
pchisq(q, df): esta variable ayuda a medir la distribucion acumulativa que se tiene dentro de la distribucion chi cuadrada dependiendo de q: y df:
q: este es el valor el cual indica a que numero se le debe de calcular la probabilidad acumulada
df: en este variable tambien se deben situar las variables aleatorias o las variables que no se pueden controlar directamente
qchisq(p, df): esta funcion nos va a ayudar a poder calcular el cualtil o percentil de la distribucion que se tenga de chi cuadrado para un valor en especifico de p
p: este es el valor de probabilidades, el cual debe ser un valor entre 0 y 1, el cual debe de comprometer especialmente calcular la distribucion por debajo de cierto porcentaje
df: esta seccion de la funcion representa los grados de libertad de la funcion, que son proporcionales a ciertas caracteristicas incontrolables que se tengan en la distribucion
rchisq(n, df):esta funcion es la que nos ayuda a generar los numeros aleatorios que siguen a la distribucion chi cuadrada
n: este argumento representa la cantidad de numeros aleatorios que van a producir dependiendo del usuario
df:en esta variable se indica el grado de libertad de la funcion dentro de la distribucion dependiendo de las variables aleatorios
ejemplo distribucion chi cuadrada:
## [1] "La empresa de Tía Paola quiere saber cuál es el chi cuadrado de sus tres productos estrella."
##
## Chi-squared test for given probabilities
##
## data: pasteles
## X-squared = 10, df = 2, p-value = 0.006738
## [1] "Dado que se puede obtener el valor de p con chisq.test, si el valor de p es menor a 0.05, se debe rechazar la hipótesis nula, es decir, la idea de que no hay diferencia en la preferencia entre los pasteles."
## [1] "La densidad de probabilidad en x=3.0 es 0.0513934432679231 (dchisq(3.0, df))"
## [1] "La probabilidad acumulada hasta q=3.0 es 0.916735483336449 (pchisq(3.0, df))"
## [1] "El cuantil para p = 0.95 es 3.84145882069412 (qchisq(0.95, df))"
## [1] "Se generan 10 números aleatorios dentro de la distribución (rchisq(10, df))."
## [1] "\n x <- seq(0, 10, by = 0.1)\ny <- dchisq(x, df)\n\n\nplot(x, y, type = l, lwd = 2,\n col = red, main = Distribución Chi-Cuadrado,\n xlab = Valor Chi-Cuadrado, ylab = Densidad, ylim = c(0, 0.5))\n\n\nabline(v = 3.0, col = purple, lty = 2)\n\n\nlegend(topright, legend = c(Densidad, Valor Chi-Cuadrado = 3.0),\n col = c(red, purple), lty = c(1, 2), lwd = 2)\n \n \n \n \n \n \n \n "
distribucion Poisson:
la distribucion poisson normalmente se utiliza para poder medir la cantidad de veces, o las probabilidad de que un evento ocurra en cierto tiempo, en cierto lugar y en ciertas condiciones por lo tanto se tiene en cuenta que este tipo de distribuciones son muy utilizadas en el ambito cientifico
dpois(x, lambda): esta funcion nos ayuda a calcular las probabilidades mas exactas de que un evento o eventos ocurran x y dado el promedio de las veces que sucedio ese evento o eventos lambda
x: en esta seccion de la funcion se deben poner que eventos se quiere conocer su probabilidad
lambda: en la variable lambda , se debe poner la tasa media de eventos o la que se cree que es posible que suceda
ppois(q, lambda): esta funcion nos ayuda a poder calcular la probabilidad acumulada de que ocurran q eventos o menos eventos
q: este es el valor el cual indica a que numero se le debe de calcular la probabilidad acumulada
lambda: la tasa media de los eventos que se creen o que han sucedido
qpois(p, lambda): esta funcion nos ayuda a poder calcular el percentil de eventos necesarios para poder la probabilidad acumulada p:
p: la probabilidad acumulada deseada o que se quiere calcular, este valor debe ser entre 1 y 0
lambda: la tasa media de eventos que se ha llegado a observar con anterioridad
rpois(n, lambda):esta funcion nos ayuda a generar los eventos aleatorios que necesitemos en la distribucion poisson con el promedio de lambda:
n: la cantidad de valores de eventos aleatorios que se quieren generar
lambda: este variable nos proporciona la media de los eventos
ejemplo distribucion Poisson:
## [1] "Resulta que mi amiga Trixi quiere saber cuántos clientes entran cada 10 minutos a su tienda de salchipapas."
## [1] "Trixi me dijo que entran 12 clientes en una hora, por lo tanto, en una hora hay 6 intervalos de 10 minutos, así que 12/6 es igual a 2. Este será el valor de lambda."
## [1] "Ahora queremos saber cuál es la probabilidad de que lleguen 4 clientes en 10 minutos"
## [1] "dpois(4, lambda)"
## [1] "La probabilidad de que lleguen 4 clientes en 10 minutos es de 0.0902235221577418"
## [1] "Ahora queremos saber cuál es la probabilidad de que lleguen al menos 3 clientes"
## [1] "ppois(2, lambda)"
## [1] "La probabilidad de que lleguen al menos 3 clientes es de 0.323323583816937"
## [1] "Ahora vamos a medir la mínima cantidad de clientes para tener al menos 95% de probabilidad acumulada"
## [1] "qpois(0.95, lambda)"
## [1] "Cantidad mínima de clientes para alcanzar 95% de probabilidad acumulada: 5"
## [1] "Ahora vamos a simular la entrada de clientes en 10 intervalos de 10 minutos"
## [1] "clientes_diez <- rpois(10, lambda)"
## [1] 2 2 1 2 1 3 1 5 5 3
## [1] "\n\nclientes <- 0:10\nproba <- dpois(clientes, lambda)\n\nbarplot(proba, names.arg = clientes, col =red,\n main = Cantidad de Clientes que Llegan cada 10 Minutos,\n xlab = Número de Clientes,\n ylab = Probabilidad,\n border = purple)\n\nabline(v = lambda + 0.5, col = blue, lty = 2, lwd = 2)\ntext(lambda + 0.5, max(proba), labels = paste(Promedio =, lambda), pos = 3, col = green)\n\n"
distribucion Exponencial:
la distribucion exponencial se encarga principalmente de poder calcular y modelar de forma efectiva fenomenos que estan involucrados esencialmente con tiempos de espera o intervalos de tiempos
dexp(x, rate): esta funcion esta encargada de calcular la densidad de probabilidad en un punto especifico x
x: en esta variable debe ir el numero el cual se desea medir la densidad
rate: la tasa de ocurrencia del evento el cual se quiere medir
pexp(q, rate): esta funcion nos permite calcular la probabilidad acumulada de que el tiempo que transcurre hasta que llegue el evento sea menor o igual a q
q: esta variable es la cual indica hasta que punto maximo se quiere llegar a medir la probabilidad acumulada
rate: la tasa de ocurrencia, del evento en si
qexp(p, rate): calcula el percentil para el nivel de probabilidad, que el usuario indique en la variable p .
p: la probabilidad acumulada deseada o que se quiere calcular, este valor debe ser entre 1 y 0 y este a su vez nos va a proporcionar todo lo que tenga que ver con esa misma propiedad acumulada, hasta el evento esperado
rate: la tasa de ocurrencia del evento que se esta esperando
rexp(n, rate):esta funcion nos ayuda a generar los eventos aleatorios que necesitemos en la distribucion poisson con el promedio de lambda:
n: el numero de valores aleatorios que se van a utilizar para poder llegar a tener la distribucion exponencial correcta
rate: la tasa de ocurrencia del evento en si que se esta esperando
ejemplo distribucion Exponencial:
## [1] "debido a que estoy haciendo un servicio de telefonia, tengo mucho trafico telefonico, por lo tanto recibo llamadas cada 5 minutos"
## [1] "por lo tanto con esta informacion ya sabremos que la tasa de ocurrencia es: 0.2, debido a que se hace un llamada cada 5 minutos"
## [1] "vamos a medir la densidad de probabilidad, para cuando x = 3 minutos"
## [1] "dexp(2,rate)"
## [1] "el resultado es 0.109762327218805"
## [1] "ahora vamos a medir la probabilidad acumulada hasta q = 6 minutos "
## [1] "pexp(6,rate)"
## [1] "la probabilidad acumulada , hasta que el evento sea menor o igual a 6 minutos es 0.698805788087798"
## [1] "qexp(0.9,rate)"
## [1] "el tiempo minimo de espera necesario para que la probabilidad acumulada se al menos del 90% es 11.5129254649702"
## [1] "tiempo_randon<- rexp(10,rate)\n\nx <- seq(0,20, by = 0.1)\ny <- dexp(x,rate)\nplot(x,y,type=l,col=red,\n main = tiempos entre llamadas,\n xlab =tiempo minutos,\n ylab = densidad de probabilidad)\nabline(v = cuanetil_niveta,col=purple,lty=2)\ntext (cuanetil_niveta,max(y)*0.8,labels=paste(cuantil del 90%=,round(cuanetil_niveta,2)),pos = 3, col =blue)\nlegend(topright, legend = Densidad de Probabilidad, col = blue, lty = 1)"