1. Presentació de la base de dades

Base de dades

Per a aquest projecte d’estadísitica hem seleccionat una base de dades procedent de […] que conté informafció sobre els preus del lloguer a Barcelona i els metres quadrats del pis llogat, segons el sexe del inquilí, la ubicació del pis, el semestre i l’any en que s’ha celebrat el contracte de lloguer.

Previsualització

2. Presentació de les variables

Variables contínues

  • Preu total del lloguer : Euros

  • Nombre de metres quadrats del pis : Metres quadrats

Variables binàries

  • Sexe del inquilí : Mascle (M) o Famella (F)

  • Semestre de l’inici del lloguer: Primer (1) o Segon (2)

Variables categòriques

  • Ubicació del pis (districte) : (10) Ciutat Vella, L’Eixample, Sants-Montjuïc, Les Corts, Sarrià-Sant Gervasi, Gràcia, Horta-Guinardó, Nou Barris, Sant Andreu i Sant Martí

  • Any de l’inici del lloguer : (4) 2019, 2020, 2021, 2022

3. Descripció de les dades

  • Font : La base de dades ha estat obtinguda d’un repositori del Ajuntament de Barcelona.

  • La mostra compta amb 1011 registres corresponents a individus que han llogat un pis a Barcelona durant els últims 4 anys. Des de 2019 fins 2022.

  • La base de dades també compta amb el semestre en que es va celebrar el contracte de lloguer corresponent ls primers 6 mesos del any corresponent o en els 6 posteriors.

  • A la mostra apareixen contractes celebrats en els 10 districtes de Barcelona.

  • Els metres quadrats de cada pis i el preu per metre quadrat de cada habitatge. El que ens ha permes fer un cálcul aproximat del preu total del lloguer de cada pis i d’aquesta manera, incorporar una variable numèrica més representativa a la nostra base de dades. Així, compta amb 7 variables en total.

Preu per m²

  • A barcelona, durant els últims 4 anys, el preu ha estat principalment entre els 10 i els 15 euros/m²

Nombre de m²

  • La mitjana de metres quadrats en els pisos de lloguer de la mostra és d’uns 71 m².
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   48.00   64.50   68.70   71.38   74.95  131.40
  • En la distribució, la desviació estandart es de 12,2 m².
## [1] 12.24582

Preu total del lloguer

  • El preu total del lloguer es casi sempre molt proper als 1000 €/mes i quasi mai baixa dels 600.

Sexe

  • La mostra esta formada per 492 dones i 519 homes. Així que la proporcio mostral d’ambdós sexes es molt proporera al 50%.

Districte

La mostra compta amb les següentes freüències per a cada Districte de Barcelona:

  • Ciutat Vella : 60

  • Eixample : 90

  • Gràcia : 75

  • Horta-Guinardó : 150

  • Les Corts : 45

  • Nou Barris : 150

  • Sant Andreu : 93

  • Sant Martí : 150

  • Sants-Montjuïc : 108

  • Sarrià-Sant Gervasi : 90

Any i Semestre

  • Els quatre anys que composen la linea temporal de la mostra representen aproximadament un 25% de els registres en cada cas.

  • Per als Semestres, comptem amb 506 registres dels primers 6 mesos de l’any i 505 dels 6 últims.

4. Interval de confiança d’una variable contínua

Proposta

La variable continua que hem triat per crear un interval de confiança és el del preu total del lloguer. Per això, hem utilitzat la funció t.test() de Rstudio i el nivell de confiança triat ha estat el de 95%.

D’aquesta manera podrem veure en quin rang de preu han estat la majoria de lloguers a Barcelona durant els últims 4 anys i el podrem comparar amb una mitjana a nivell estatal.

Cálculs

t.test(DADES$`Lloguer Total`)
## 
##  One Sample t-test
## 
## data:  DADES$`Lloguer Total`
## t = 113.38, df = 1010, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  935.8450 968.8089
## sample estimates:
## mean of x 
##   952.327

Resultats importants :

  • Interval de confiança = [935.85,968.81]

Conclusions

Per començar podem veure que el resultat obtingut de l’interval de confiança és [935.85,968.81] i sabem que un 95% de les ocasions la mitjana del lloguer total pagat estarà en aquest interval.

A més d’això, podem observar que el lloguer mitjà de la ciutat de Barcelona és força superior al de la mitjana nacional (674) i podriem afirmar que Barcelona és una ciutat cara per viure dins d’Espanya.

5. Prova d’hipotesis per al paràmetre d’una variable

Proposta

El lloguer a Barcelona es car, però també es diu que els pisos disponibles son mes aviat petits. Pensem que la mitjana del total de metres quadrats que tenen els pisos a Barcelona és menor que la mitjana nacional, que és de 97 m².

Per això, hem presentat les hipòtesis següents per comprovar-ho :

  • Hipòtesi nul·la : La mitjana de Barcelona és la mateixa que la nacional (97 m²)

  • Hipòtesi alternativa : La mitjana de Barcelona és menor que la mitjana nacional

A continuació hem utilitzat la funció t.test() especificant els arguments mu=97 i alternative=”less”

Cálculs

t.test(DADES$`Nombre m2`,mu=97,alternative = "less")
## 
##  One Sample t-test
## 
## data:  DADES$`Nombre m2`
## t = -66.527, df = 1010, p-value < 2.2e-16
## alternative hypothesis: true mean is less than 97
## 95 percent confidence interval:
##      -Inf 72.01221
## sample estimates:
## mean of x 
##  71.37814

Resultats importants :

  • p-valor = 2.2e-16

Conclusions

Podem observar que el p-valor que hem obtingut és 2.2e-16 pel que podem rebutjar la nostra hipòtesi nul·la amb els nivells de confiança usuals (𝛂=0.1, 𝛂=0.05 i 𝛂=0.01) al ser més grans que el p-valor.

De fet, en obtenir un p-valor tan petit podem afirmar que estem segurs que la mitjana de mida dels pisos de Barcelona és menor que la mitjana nacional.

6. Interval de confiança i prova d’hipotesis per la diferència de mitjanes entre dues variables

Proposta

En aquest apartat comprovarem si el preu total del lloguer es igual (de mitjana) per els homes i per les dones.

  • Hipòtesi nul·la : Les dues mitjanes són iguals

  • Hipòtesi alternativa : Les dues mitjanes són diferents

Cálculs

  1. Primer hem de separar la variable llogeur depenent de la variable sexe
Lloguer<-split(DADES$`Lloguer Total`,DADES$Sexe)
  1. Anomenem les mitjanes amb mitj.sexe per recordar aquesta
mitj.dona<-mean(Lloguer[["F"]])
mitj.home<-mean(Lloguer[["M"]])
  1. Calculem la variancia ponderada de la variable lloguer total
S2<-c((519-1)*var(Lloguer[["M"]])+(492-1)*var(Lloguer[["F"]]))/(519+492-2)
  1. Calculem l’estadistic de contrast
ECobs<-c((mitj.home-mitj.dona)/sqrt(S2*(1/519+1/492)))
  1. Comprobem si la hipòtesi nul·la es rebutja amb un nivell de significació del 10%
VC0.1<-qt(0.95,(492+519-2))
VC0.1<ECobs
## [1] FALSE
-VC0.1>ECobs
## [1] FALSE
  1. Comprobem si la hipòtesi nul·la es rebutja amb un nivell de significació del 5%
VC0.05<-qt(0.975,(492+519-2))
VC0.05<ECobs
## [1] FALSE
-VC0.05>ECobs
## [1] FALSE
  1. Comprobem si la hipòtesi nul·la es rebutja amb un nivell de significació del 1%
VC0.01<-qt(0.995,(492+519-2))
VC0.01<ECobs
## [1] FALSE
-VC0.01>ECobs
## [1] FALSE

Conclusions

La hipòtesi nul·la es rebutja si es compleix EC<-VC o EC>VC, per fer aquestes comprovacions escrivim aquestes fórmules a R: VC0.05<ECobs, -VC0.05>ECobs, VC0.1<ECobs, -VC0.1>ECobs, VC0.01<ECobs, -VC0.01>ECobs.

Al posar aquestes fórmules al R tots els resultats ens donen FALSE, aleshores no es compleix en cap moment EC<-VC o EC>VC. Amb això podem dir que la hipotesi nul·la no es rebutja amb un 99% de confiança.

De menaera que en mitjana, els homes i les dones, paguen el mateix de lloguer total.

7. Prova d’independència de les dues variables

Proposta

En aquest apartat volem comprobar si l’any del contracte de lloguer està relacionat amb el preu total del lloguer. Per això farem una prova d’independència i el plantejament és el següent:

  • Hipòtesi nul·la : Les variables son independents

  • Hipòtesi alternativa : Les variables no són indepentents

Cálculs

  1. En primer lloc separem les dues variables a comparar:

“a” correspon a la variable dels anys, mentrestant “f” correspondrà al “Lloguer total”

a<-c(DADES$'Any')
f<-c(DADES$`Lloguer Total`)
  1. Procedim a crear una taula dels valors
T<-table(a,f)
  1. Introduim la comanda i l’apliquem a la taula per obtenir el seu estadístic de contrast, els graus de llibertat i el p-valor
chisq.test(T, correct=TRUE)
## Warning in chisq.test(T, correct = TRUE): Chi-squared approximation may be
## incorrect
## 
##  Pearson's Chi-squared test
## 
## data:  T
## X-squared = 2858.7, df = 2853, p-value = 0.4663
  1. Seguidament escollim el p-valor i observem que, al comparar amb els nivells de significació, és més gran No rebutgem la hipòtesi nul·la, però per assegurar-nos obtindrem els valor crítics que corresponen als diferents nivells de significació?
qchisq(p=0.9, 2853)
## [1] 2950.224
qchisq(p=0.95, 2853)
## [1] 2978.376
qchisq(p=0.99, 2853)
## [1] 3031.663

Resultats importants :

  • Estadísitic de contrast = 2858.7

  • p-valor = 0.4663

  1. Comparem el resultat amb l’estadístic de contrast i, al ser més petit aquest, veiem que amdos resultats son coherents

Conclusions

Observem que independentment de les opcions de nivell de significació estàndard que fem servir (𝛂=0’1, 𝛂=0,05 o 𝛂=0,01) el p-valor (0’4663) és més gran, per la qual cosa no podem rebutjar la hipòtesi nul·la, de forma hi ha indicacions que ens fan pensar que el lloguer pagat és independent de l’any en que es va llogar.

Per assegurar-nos, fem una comparació entre l’estadístic (2858’7) i el valor crític, observant que aquest sempre és més gran que el primer, amb la qual cosa podem confirmar amb un 99% de seguretat que les variables no estan relacionades.

8. Prova de bondat d’ajust

Proposta

En aquest cas, utilitzarem una proba de bondat dajust per demostrar que tots els districtes han tingut la mateixa presència dins la mostra i que per tant el nostre estudi es representatiu de tots els districtes.

Encara que veurem com no és així.

  • Hipòtesi nul·la : La distribució del districte segueix una proporció uniform per totes les opcions p=0’1

  • Hipòtesi alternativa : La distribució d’una o més de les opcions és distinta a p=0’1

Cálculs

  1. Comprovem si la distribució d’una variable categòrica és uniform. Creem una taula per determinar el nombre de de vegades que apareix cada districte
table(DADES$Nom_Districte)
## 
##         Ciutat Vella             Eixample              Grà cia 
##                   60                   90                   75 
##      Horta-Guinardó            Les Corts           Nou Barris 
##                  150                   45                  150 
##          Sant Andreu          Sant Martí      Sants-Montjuïc 
##                   93                  150                  108 
## Sarrià -Sant Gervasi 
##                   90
  1. Introduim cada valor dintre d’un vector
b<-c(60,75,45,93,108,90,150,150,150,90)
  1. Realitzem el test corresponent, i obtenim estad?stic de contrast, graus de llibertat i p-valor
chisq.test(b)
## 
##  Chi-squared test for given probabilities
## 
## data:  b
## X-squared = 129.09, df = 9, p-value < 2.2e-16
  1. Observem que el p-valor és tan extremadament petit que haurem de rebutjar la hipòtesi nul·la. Calculem diferents valors cr?tics per confirmar, comparant-los amb l’estadístic de contrast
qchisq(p=0.9, 9)
## [1] 14.68366
qchisq(p=0.95, 9)
## [1] 16.91898
qchisq(p=0.99, 9)
## [1] 21.66599
  1. Finalment, tots els resultats es troben en sintonia amb la prova del p-valor

Conclusions

Notem que el p-valor (2’2*e-16) és un valor molt petit i extrem, de manera que rebutgem la hipòtesi nul·la i ens decantem perquè la distribució entre districtes és no uniform.

A més a més, ens hem volgut assegurar amb el valor crític i hem vist que amb qualsevol dels nivells de confiança estàndars s’obté que l’estadístic (129’09) és molt més gran que el valor crític, per tant rebutgem.

9. Conclusions

  1. En priemr lloc podem observar que el lloguer mitjà de la ciutat de Barcelona és força superior al de la mitjana nacional (674) i podriem afirmar que Barcelona és una ciutat cara per viure dins d’Espanya.

  2. També podem afirmar que estem segurs que la mitjana de la mida dels pisos de Barcelona és menor que la mitjana nacional.

  3. Entre els homes i les dones, no hi ha cap diferencia de mitjana, per al preu del lloguer total.

  4. Hem vist que per a la nostr abase de deades, el pas del anys no ha influit en els preus del lloguer a Barcelona.

  5. Finalment hem vist que no tots els districtes han participat en la mateixa mesura en la nostra mostra.