Este es el codigo en python

import pandas as pd
import matplotlib.pyplot as plt

# Leer archivo de datos
data = pd.read_stata("C:/Users/monee/OneDrive/Escritorio/Casen_en_Pandemia_2020_STATA_revisada2022_09.dta")


# Imprimir los primeros 5 registros

print(data.head())


# Leer el archivo DTA
df = pd.read_stata("C:/Users/monee/OneDrive/Escritorio/Casen_en_Pandemia_2020_STATA_revisada2022_09.dta")

# Cambiar el nombre de la columna "antiguo_nombre" a "nuevo_nombre"
df.rename(columns={'y1': 'Salarios'}, inplace=True)

# Guardar el archivo DTA con el nombre de columna actualizado
df.to_stata('datoscasen_nuevo.dta', version=117)

# Leer el archivo dta
df = pd.read_stata("datoscasen_nuevo.dta")

# Mostrar solo la columna deseada
df2 = df[df['Salarios'].notna()]
df3 = df2['Salarios'].to_frame()
print(df3)

!pip install numpy

import numpy as np

df3["log_Salarios"] = np.log(df3['Salarios'])
print(df3)


# Calcular la media, la mediana y la moda de una columna de datos
media = df3['log_Salarios'].mean()
mediana = df3['log_Salarios'].median()
moda = df3['log_Salarios'].mode()

print('Media:', media)
print('Mediana:', mediana)
print('Moda:', moda)

# Crear un histograma para visualizar la distribución de los datos
plt.hist(df3['log_Salarios'], bins=10)
plt.xlabel('Valor de la columna')
plt.ylabel('Frecuencia')
plt.title('Histograma de la columna de datos')
plt.show()

## invalid syntax (<string>, line 31)

Python

Monserrat Abdala

2023-03-31

Este es el codigo en python