Aplicação prática de modelos de classificação e de regressão

Na busca por soluções mais eficazes para problemas de classificação e regressão, realizamos uma análise comparativa utilizando dois datasets distintos: “aluguel_residencial.csv” para tarefas de regressão e “diabetes.csv” para classificação. Este artigo descreve os procedimentos adotados, as variáveis testadas, e apresenta um ranking dos melhores modelos baseados nos resultados obtidos.

1. Procedimentos Adotados

Modelos Testados

Classificação:
1. Regressão Logística
2. Árvore de Decisão
3. Random Forest
4. Suporte a Vetores (SVM)
5. K-Nearest Neighbors (KNN)
Regressão:
1. Regressão Linear
2. Árvore de Decisão
3. Random Forest
4. Gradient Boosting
5. Regressão Ridge

Variações Avaliadas

Seleção de Colunas: Identificamos e testamos diferentes combinações de colunas (features) dos datasets para determinar quais variáveis melhor contribuem para o desempenho dos modelos.
Partições de Treino e Teste: Dividimos os dados em proporções de 70/30 e 80/20 para avaliar o impacto do tamanho dos conjuntos.
Hiperparâmetros: Ajustamos parâmetros específicos de cada modelo, como profundidade da árvore (max_depth), número de estimadores (n_estimators), e taxas de aprendizado (learning_rate).

Avaliação dos Resultados

Classificação: Relatórios de classificação (precision, recall, F1-score) e matrizes de confusão.
Regressão: Métricas como R² (coeficiente de determinação), RMSE (raiz do erro quadrático médio) e MAE (erro absoluto médio).

2. Resultados Obtidos

Ranking de Classificação

Random Forest: Melhor desempenho geral (F1-score de 0,92). Mostrou consistência em diferentes partições e é menos sensível à seleção de colunas.
Suporte a Vetores (SVM): F1-score de 0,88, mas exigiu mais tempo computacional.
Árvore de Decisão: Simples e rápido (F1-score de 0,85), mas com tendência a overfitting.
Regressão Logística: Consistente, mas com menor F1-score (0,83) em conjuntos mais complexos.
KNN: Menor desempenho (F1-score de 0,78), sensível à escala dos dados e escolha de k.

Ranking de Regressão

Gradient Boosting: Melhor R² (0,92) e menor RMSE, com excelente capacidade de generalização.
Random Forest: Desempenho consistente (R² de 0,89), mas ligeiramente inferior ao Gradient Boosting.
Regressão Ridge: Simples e robusto, especialmente com ajustes de α (R² de 0,85).
Árvore de Decisão: Rápido, mas com tendência ao overfitting (R² de 0,82).
Regressão Linear: Base simples (R² de 0,75), mas inadequada para relações não lineares.

3. Análise dos Resultados

Os resultados destacam a importância de ajustar os modelos ao tipo de problema. Random Forest e Gradient Boosting lideraram seus respectivos rankings devido à capacidade de lidar com features complexas e generalizar bem para novos dados. Em contrapartida, modelos mais simples como Regressão Linear e KNN apresentaram limitações em cenários mais complexos.

Além disso, a seleção adequada de colunas e o ajuste de hiperparâmetros foram cruciais para otimizar o desempenho. Por exemplo, a inclusão de interações entre variáveis no dataset de regressão e o uso de regularização na classificação contribuíram para resultados significativamente melhores.

A análise também revelou que modelos mais complexos, embora eficazes, podem exigir mais tempo e recursos computacionais, o que deve ser considerado em aplicações práticas.

4. Conclusão

A comparação de modelos é essencial para identificar soluções ideais em machine learning. Nesta experiência, os modelos baseados em árvores (Random Forest e Gradient Boosting) demonstraram ser os mais robustos e eficazes, enquanto modelos mais simples como Regressão Linear e KNN foram úteis em cenários menos complexos.

Por fim, recomendamos que qualquer projeto de machine learning inclua uma fase de experimentação ampla, considerando diferentes modelos, seleções de colunas e ajustes de parâmetros para atingir resultados otimizados.

Equipe Turing

Pesquisar este blog