Prédiction du coût d'un logement

On dispose d'un dataset de 13320 lignes contenant des informations concernant des biens immobiliers en vente (1 ligne = 1 bien). Les informations sont les suivantes :

  • area_type : La façon de calculer la surface

  • availability : La date de disponibilité

  • location : le nom du quartier

  • size : une information au sujet du nombre de chambres / pièces

  • society : une variable catégorielle (qu'on pourra laisser de côté au cours du projet)

  • total_sqft : la surface

  • bath : le nombre de salles de bains

  • balcony : le nombre de balcons

  • prix : le prix

Statistiques descriptives et prédictions

Pour ce projet, j'ai d'abord analysé les données immobilières à l'aide de statistiques descriptives et de visualisations. Après avoir divisé les données en ensemble d'entrainement et ensemble de test, j'ai créé trois modèles de régression linéaire: le premier basé sur la surface, le second sur le délai de disponibilité et le dernier en intégrant plusieurs variables et une catégorie. J'ai évalué la performance de chaque modèle à l'aide de divers outils de diagnostic.

Préparation des données

  1. Variable availability : Transformée en format datetime, en interprétant 'Immediate Possession' et 'Ready To Move' comme le 01/01/2023.

  2. Variable size : Convertie en numérique après interprétation des chaînes de caractères, gestion des valeurs manquantes incluse.

  3. Variable total_sqft : Convertie de string à numérique, avec attribution de NaN pour les valeurs non gérées (environ 10-20% des cas).