Skip to content

Remarques

Compréhension des données

Lors de la pré-analyse des variables catégorielles et numériques, il a été remarqué que certaines colonnes de type object était en fait des listes (list).
Les listes empêchent d'utiliser les fonctions "nunique" et "unique" sur ces dernières.
La solution a été de créer une fonction qui détecte et transforme les colonnes de type list en colonnes de type string (chaîne de charactères).

Il n'y a pas d'analyse sur la corrélation catégorielle car le dataset contient 29 variables catégorielles.
Or les tests de khi-deux et le V de Cramer ne sont utilisables que sur 2 variables à la fois (une seule corrélation étudiable à chaque fois).
Le fait de devoir refaire un test entre chaque variable coûte trop de ressources donc il a été décidé de ne voir/faire aucune corrélation catégorielle.

Il n'y a pas d'analyse temporelle pour la même raison qu'il n'y en a pas pour l'analyse catégorielle.
Les test de Dickey-Fuller et ARIMA ne sont utilisables que sur une seule série temporelle à chaque fois (1 variable temporelle + 1 variable) donc les ressources consommées sont beaucoup trop élevées par rapport aux gains.

Il n'y a pas d'analyse géographique car représenter visuellement (notamment avec Folium et GeoPy) des lieux consomment beaucoup trop de ressources.

Préparation des données

Les colonnes location_website_url et location_source ont été supprimées car elles ne contenaient que des valeurs nulles (manquantes).

Aucun remplacement de valeurs n'a été prévu car même les valeurs nulles apportent des informations.

Les colonnes avec une majorité (pas une entièreté) de nulles doivent être gardées car le peut d'information contenue peut être essentielle pour comprendre un enregistrement (une ligne).

La colonne origins_tags est un doublon en terme d'information de la colonne location_osm_address_country en moins complet (plus de valeurs nulles).

Les colonnes proof_source et source contiennent les mêmes informations (même nombre de lignes) donc une des deux a été supprimée (proof_source) pour éviter la redondance.

Les colonnes proof_created, proof_updated, location_id, proof_file_path, proof_mimetype, location_created et location_updated ont été supprimées car elles ne sont pas utilisées.

Les lignes qui avaient les colonnes product_name et category_tag vides ont été supprimées.

Les valeurs nulles de la colonne price_per ont été reclassées en "UNIT" (valeur déjà existante) car elles correspondent à un prix unitaire et non au kilo (deuxième valeur déjà existante).

Les chaines de caractères contenues dans la colonne product_name ont été minusculisées pour éviter les potentiels doublons dans les noms des produits.

La regex [a-z]{2}: a été utilisée sur la colonne category_tag pour enlever la partie en: présente au début de chaque valeur non nulle.
Exemple :
valeur initiale = en:broccoli valeur après changement = broccoli

La regex ^\[\'\w{2}:(\w+)\']$ a été utilisée sur la colonne labels_tag pour enlever la partie ['en:{...}'] en isolant l'information qui avait de l'importance ici représentée par {...}.
Exemple :
valeur initiale = ['en:organic']
valeur après changement = organic

Un split a été appliquée sur la colonne location_osm_display_name pour créer une nouvelle colonne nommée store_name qui contient le nom des magasins.
La colonne location_osm_display_name a été supprimée par la suite car toutes les informations importantes ont été extraites.