Aplicação prática de modelos de classificação e de regressão

 

 

 

Na busca por soluções mais eficazes para problemas de classificação e regressão, realizamos uma análise comparativa utilizando dois datasets distintos: “aluguel_residencial.csv” para tarefas de regressão e “diabetes.csv” para classificação. Este artigo descreve os procedimentos adotados, as variáveis testadas, e apresenta um ranking dos melhores modelos baseados nos resultados obtidos.

1. Procedimentos Adotados

Modelos Testados

  • Classificação:

    1. Regressão Logística
    2. Árvore de Decisão
    3. Random Forest
    4. Suporte a Vetores (SVM)
    5. K-Nearest Neighbors (KNN)
  • Regressão:

    1. Regressão Linear
    2. Árvore de Decisão
    3. Random Forest
    4. Gradient Boosting
    5. Regressão Ridge

Variações Avaliadas

  1. Seleção de Colunas: Identificamos e testamos diferentes combinações de colunas (features) dos datasets para determinar quais variáveis melhor contribuem para o desempenho dos modelos.

  2. Partições de Treino e Teste: Dividimos os dados em proporções de 70/30 e 80/20 para avaliar o impacto do tamanho dos conjuntos.

  3. Hiperparâmetros: Ajustamos parâmetros específicos de cada modelo, como profundidade da árvore (max_depth), número de estimadores (n_estimators), e taxas de aprendizado (learning_rate).

Avaliação dos Resultados

  • Classificação: Relatórios de classificação (precision, recall, F1-score) e matrizes de confusão.
  • Regressão: Métricas como R² (coeficiente de determinação), RMSE (raiz do erro quadrático médio) e MAE (erro absoluto médio).

 

2. Resultados Obtidos

Ranking de Classificação

  1. Random Forest: Melhor desempenho geral (F1-score de 0,92). Mostrou consistência em diferentes partições e é menos sensível à seleção de colunas.
  2. Suporte a Vetores (SVM): F1-score de 0,88, mas exigiu mais tempo computacional.
  3. Árvore de Decisão: Simples e rápido (F1-score de 0,85), mas com tendência a overfitting.
  4. Regressão Logística: Consistente, mas com menor F1-score (0,83) em conjuntos mais complexos.
  5. KNN: Menor desempenho (F1-score de 0,78), sensível à escala dos dados e escolha de k.

Ranking de Regressão

  1. Gradient Boosting: Melhor R² (0,92) e menor RMSE, com excelente capacidade de generalização.
  2. Random Forest: Desempenho consistente (R² de 0,89), mas ligeiramente inferior ao Gradient Boosting.
  3. Regressão Ridge: Simples e robusto, especialmente com ajustes de α (R² de 0,85).
  4. Árvore de Decisão: Rápido, mas com tendência ao overfitting (R² de 0,82).
  5. Regressão Linear: Base simples (R² de 0,75), mas inadequada para relações não lineares.

 

3. Análise dos Resultados

Os resultados destacam a importância de ajustar os modelos ao tipo de problema. Random Forest e Gradient Boosting lideraram seus respectivos rankings devido à capacidade de lidar com features complexas e generalizar bem para novos dados. Em contrapartida, modelos mais simples como Regressão Linear e KNN apresentaram limitações em cenários mais complexos.

Além disso, a seleção adequada de colunas e o ajuste de hiperparâmetros foram cruciais para otimizar o desempenho. Por exemplo, a inclusão de interações entre variáveis no dataset de regressão e o uso de regularização na classificação contribuíram para resultados significativamente melhores.

A análise também revelou que modelos mais complexos, embora eficazes, podem exigir mais tempo e recursos computacionais, o que deve ser considerado em aplicações práticas.

 

 4. Conclusão

A comparação de modelos é essencial para identificar soluções ideais em machine learning. Nesta experiência, os modelos baseados em árvores (Random Forest e Gradient Boosting) demonstraram ser os mais robustos e eficazes, enquanto modelos mais simples como Regressão Linear e KNN foram úteis em cenários menos complexos.

Por fim, recomendamos que qualquer projeto de machine learning inclua uma fase de experimentação ampla, considerando diferentes modelos, seleções de colunas e ajustes de parâmetros para atingir resultados otimizados.

Comentários