Prédiction du coût d'un logement
On dispose d'un dataset de 13320 lignes contenant des informations concernant des biens immobiliers en vente (1 ligne = 1 bien). Les informations sont les suivantes :
area_type : La façon de calculer la surface
availability : La date de disponibilité
location : le nom du quartier
size : une information au sujet du nombre de chambres / pièces
society : une variable catégorielle (qu'on pourra laisser de côté au cours du projet)
total_sqft : la surface
bath : le nombre de salles de bains
balcony : le nombre de balcons
prix : le prix
Statistiques descriptives et prédictions
Pour ce projet, j'ai d'abord analysé les données immobilières à l'aide de statistiques descriptives et de visualisations. Après avoir divisé les données en ensemble d'entrainement et ensemble de test, j'ai créé trois modèles de régression linéaire: le premier basé sur la surface, le second sur le délai de disponibilité et le dernier en intégrant plusieurs variables et une catégorie. J'ai évalué la performance de chaque modèle à l'aide de divers outils de diagnostic.
Préparation des données
Variable availability : Transformée en format datetime, en interprétant 'Immediate Possession' et 'Ready To Move' comme le 01/01/2023.
Variable size : Convertie en numérique après interprétation des chaînes de caractères, gestion des valeurs manquantes incluse.
Variable total_sqft : Convertie de string à numérique, avec attribution de NaN pour les valeurs non gérées (environ 10-20% des cas).