Na busca por soluções mais eficazes para problemas de classificação e regressão, realizamos uma análise comparativa utilizando dois datasets distintos: “aluguel_residencial.csv” para tarefas de regressão e “diabetes.csv” para classificação. Este artigo descreve os procedimentos adotados, as variáveis testadas, e apresenta um ranking dos melhores modelos baseados nos resultados obtidos.
1. Procedimentos Adotados
Modelos Testados
-
Classificação:
- Regressão Logística
- Árvore de Decisão
- Random Forest
- Suporte a Vetores (SVM)
- K-Nearest Neighbors (KNN)
-
Regressão:
- Regressão Linear
- Árvore de Decisão
- Random Forest
- Gradient Boosting
- Regressão Ridge
Variações Avaliadas
-
Seleção de Colunas: Identificamos e testamos diferentes combinações de colunas (features) dos datasets para determinar quais variáveis melhor contribuem para o desempenho dos modelos.
-
Partições de Treino e Teste: Dividimos os dados em proporções de 70/30 e 80/20 para avaliar o impacto do tamanho dos conjuntos.
-
Hiperparâmetros: Ajustamos parâmetros específicos de cada modelo, como profundidade da árvore (max_depth), número de estimadores (n_estimators), e taxas de aprendizado (learning_rate).
Avaliação dos Resultados
- Classificação: Relatórios de classificação (precision, recall, F1-score) e matrizes de confusão.
- Regressão: Métricas como R² (coeficiente de determinação), RMSE (raiz do erro quadrático médio) e MAE (erro absoluto médio).
2. Resultados Obtidos
Ranking de Classificação
- Random Forest: Melhor desempenho geral (F1-score de 0,92). Mostrou consistência em diferentes partições e é menos sensível à seleção de colunas.
- Suporte a Vetores (SVM): F1-score de 0,88, mas exigiu mais tempo computacional.
- Árvore de Decisão: Simples e rápido (F1-score de 0,85), mas com tendência a overfitting.
- Regressão Logística: Consistente, mas com menor F1-score (0,83) em conjuntos mais complexos.
- KNN: Menor desempenho (F1-score de 0,78), sensível à escala dos dados e escolha de k.
Ranking de Regressão
- Gradient Boosting: Melhor R² (0,92) e menor RMSE, com excelente capacidade de generalização.
- Random Forest: Desempenho consistente (R² de 0,89), mas ligeiramente inferior ao Gradient Boosting.
- Regressão Ridge: Simples e robusto, especialmente com ajustes de α (R² de 0,85).
- Árvore de Decisão: Rápido, mas com tendência ao overfitting (R² de 0,82).
- Regressão Linear: Base simples (R² de 0,75), mas inadequada para relações não lineares.
3. Análise dos Resultados
Os resultados destacam a importância de ajustar os modelos ao tipo de problema. Random Forest e Gradient Boosting lideraram seus respectivos rankings devido à capacidade de lidar com features complexas e generalizar bem para novos dados. Em contrapartida, modelos mais simples como Regressão Linear e KNN apresentaram limitações em cenários mais complexos.
Além disso, a seleção adequada de colunas e o ajuste de hiperparâmetros foram cruciais para otimizar o desempenho. Por exemplo, a inclusão de interações entre variáveis no dataset de regressão e o uso de regularização na classificação contribuíram para resultados significativamente melhores.
A análise também revelou que modelos mais complexos, embora eficazes, podem exigir mais tempo e recursos computacionais, o que deve ser considerado em aplicações práticas.
4. Conclusão
A comparação de modelos é essencial para identificar soluções ideais em machine learning. Nesta experiência, os modelos baseados em árvores (Random Forest e Gradient Boosting) demonstraram ser os mais robustos e eficazes, enquanto modelos mais simples como Regressão Linear e KNN foram úteis em cenários menos complexos.
Por fim, recomendamos que qualquer projeto de machine learning inclua uma fase de experimentação ampla, considerando diferentes modelos, seleções de colunas e ajustes de parâmetros para atingir resultados otimizados.

Comentários
Postar um comentário