summary(iris)
## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
## 1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
## Median :5.800 Median :3.000 Median :4.350 Median :1.300
## Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
## 3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
## Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
## Species
## setosa :50
## versicolor:50
## virginica :50
##
##
##
# Dataset iris já vem no R, então não precisa carregar pacotes
dados <- iris
# 1️⃣ Criar uma nova variável — razão entre comprimento e largura da sépala
dados$Sepal.Ratio <- dados$Sepal.Length / dados$Sepal.Width
# 2️⃣ Criar uma variável categórica simples com base no comprimento da pétala
dados$Categoria.Petala <- ifelse(dados$Petal.Length < 2, "Curta",
ifelse(dados$Petal.Length < 5, "Média", "Longa"))
# 3️⃣ Filtrar apenas flores com pétalas longas
dados_filtrados <- subset(dados, Categoria.Petala == "Longa")
# 4️⃣ Ordenar os dados pelo comprimento da pétala (decrescente)
dados_ordenados <- dados_filtrados[order(-dados_filtrados$Petal.Length), ]
# 5️⃣ Mostrar estatísticas e amostra dos dados processados
summary(dados_ordenados)
## Sepal.Length Sepal.Width Petal.Length Petal.Width
## Min. :5.700 Min. :2.200 Min. :5.000 Min. :1.400
## 1st Qu.:6.300 1st Qu.:2.800 1st Qu.:5.125 1st Qu.:1.800
## Median :6.600 Median :3.000 Median :5.600 Median :2.050
## Mean :6.674 Mean :2.991 Mean :5.628 Mean :2.037
## 3rd Qu.:7.050 3rd Qu.:3.200 3rd Qu.:5.900 3rd Qu.:2.300
## Max. :7.900 Max. :3.800 Max. :6.900 Max. :2.500
## Species Sepal.Ratio Categoria.Petala
## setosa : 0 Min. :1.824 Length:46
## versicolor: 2 1st Qu.:2.073 Class :character
## virginica :44 Median :2.224 Mode :character
## Mean :2.249
## 3rd Qu.:2.362
## Max. :2.962
head(dados_ordenados, 10)
## Sepal.Length Sepal.Width Petal.Length Petal.Width Species Sepal.Ratio
## 119 7.7 2.6 6.9 2.3 virginica 2.961538
## 118 7.7 3.8 6.7 2.2 virginica 2.026316
## 123 7.7 2.8 6.7 2.0 virginica 2.750000
## 106 7.6 3.0 6.6 2.1 virginica 2.533333
## 132 7.9 3.8 6.4 2.0 virginica 2.078947
## 108 7.3 2.9 6.3 1.8 virginica 2.517241
## 110 7.2 3.6 6.1 2.5 virginica 2.000000
## 131 7.4 2.8 6.1 1.9 virginica 2.642857
## 136 7.7 3.0 6.1 2.3 virginica 2.566667
## 101 6.3 3.3 6.0 2.5 virginica 1.909091
## Categoria.Petala
## 119 Longa
## 118 Longa
## 123 Longa
## 106 Longa
## 132 Longa
## 108 Longa
## 110 Longa
## 131 Longa
## 136 Longa
## 101 Longa
Não consegui desenvolver
\(\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i\)
\(s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2\)
\(y_i = \beta_0 + \beta_1 x_i + \varepsilon_i\)
onde \(\beta_0\) é o intercepto, \(\beta_1\) é o coeficiente angular e \(\varepsilon_i\) é o erro aleatório.
\(\theta^{(t+1)} = \theta^{(t)} - \eta \, \nabla J(\theta^{(t)})\)
utilizando uma taxa de aprendizado \(\eta\).
\(\mathcal{L}(y, \hat{y}) = -\big[ y \log(\hat{y}) + (1 - y) \log(1 - \hat{y}) \big]\)
que penaliza previsões incorretas e mede a diferença entre as distribuições reais e previstas.
Descrição:
A imagem ilustra o fluxo básico de um modelo de aprendizado de
máquina:
entrada de dados, pré-processamento, treinamento do modelo, avaliação e
uso para previsão (inferência).
Descrição:
O diagrama mostra as seis fases principais da análise de dados:
1. Coleta de dados;
2. Preparação e limpeza;
3. Exploração e análise;
4. Modelagem com algoritmos;
5. Avaliação dos resultados;
6. Implantação e comunicação do
conhecimento gerado.