# Quelques outils de visualisation

Aujourd'hui, deux modules pour la visualisation de données 

* [matplotlib](https://matplotlib.org/)
* [seaborn](https://seaborn.pydata.org/)


## 1. Matplotlib

Matplotlib est une bibliothèque de visualisation générale qui offre une grande liberté en matière d'édition de tracés.

Dans cette section, nous nous concentrerons sur certains aspects qu'il est intéressant de connaître lorsque l'on souhaite personnaliser ses tracés. Dans tous les cas, n'hésitez pas à vous référer à la [gallerie matplotlib] (https://matplotlib.org/gallery/index.html) qui contient de nombreux exemples pouvant servir de base à vos tracés.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

### 1.1 Tracé sur un axe

Un exemple simple, le tracé de la fonction $f(x) = cos(x)$

In [None]:
x = np.arange(-10, 10, 0.2)
fx = np.cos(x)

In [None]:
plt.plot(x, fx)

Il est facile de placer plusieurs lignes sur le même tracé :

In [None]:
gx = np.cos(2 * x)

In [None]:
plt.plot(x, gx)
plt.plot(x, fx)

Le paramètre `label` permet d'associer un tracé à une étiquette spécifique. Pour afficher la légende, vous devez appeler la fonction `plt.legend()`. 

Référez-vous au tutoriel de matplotlib [ici](https://matplotlib.org/users/legend_guide.html) pour plus de détails.

In [None]:
plt.plot(x, gx, label="g(x) = cos(2x)")
plt.plot(x, fx, label="f(x) = cos(x)")
plt.legend(loc=3)

Le style de tracé des lignes peut être facilement changé avec les paramètres : `color`, `linewidth`, `linestyle`, `marker`, et `markersize`.

In [None]:
plt.plot(x, gx, label="g(x) = cos(2x)", linewidth=4, linestyle='--', color='red')
plt.plot(x, fx, label="f(x) = cos(x)", marker='o', markersize=11, color='blue')
plt.legend(loc=3)

Et on n'oublie le titre et les axes !

In [None]:
plt.plot(x, gx, label="g(x) = cos(2x)", linewidth=4, linestyle='--', color='red')
plt.plot(x, fx, label="f(x) = cos(x)", marker='o', markersize=11, color='blue')
plt.legend(loc=3)
plt.title('Title of the plot')
plt.xlabel('x')
plt.ylabel('y')

Quelques autres fonctions utiles (mais pas les seules) : `axis`, `xticks`, ou `yticks`.

In [None]:
plt.plot(x, gx, label="g(x) = cos(2x)", linewidth=4, linestyle='--', color='red')
plt.plot(x, fx, label="f(x) = cos(x)", marker='o', markersize=11, color='blue')
plt.legend(loc=3)
plt.title('Title of the plot')
plt.xlabel('x')
plt.ylabel('y')
plt.axis([-5, 5, -1, 1])
plt.xticks(np.arange(-5, 5, 2.5))
plt.yticks([-1, 0, 1])

### 1.2 Tracés avec plusieurs axes

Il est très pratique de pouvoir tracer un graphique sur plusieurs axes à la fois. Vous pouvez utiliser la fonction `plt.subplots` pour le faire.

In [None]:
fig, axs = plt.subplots(nrows=2, ncols=3)

In [None]:
print(axs)

Nous pouvons voir que `subplots` créera le nombre d'axes désirés et retournera une liste de ces axes qui peuvent être utilisés pour tracer les données.

In [None]:
fig, axs = plt.subplots(nrows=2, ncols=3)
for ax, alpha in zip(axs.ravel(), range(1, 7)):
    ax.plot(x, np.cos(alpha * x))

Vous pouvez définir l'étiquette en utilisant `ax` au lieu de `plt` et habituellement la fonction `set_`. En cas de problème de chevauchement des étiquettes, vous pouvez utiliser la fonction `plt.tight_layout()` à la fin de votre tracé.

In [None]:
fig, axs = plt.subplots(nrows=2, ncols=3)
for ax, alpha in zip(axs.ravel(), range(1, 7)):
    ax.plot(x, np.cos(alpha * x))
    ax.set_xlabel('x')
    ax.set_ylabel('y')
plt.tight_layout()

## 2. Seaborn

`seaborn` propose des fonctions de tracés avancés pour l'exploration des données qui seraient plus difficiles à écrire uniquement dans `matplotlib`. `seaborn` utilise à la fois `matplotlib` et `pandas` pour fournir ces extensions de tracé.

Référez-vous à la [gallerie searborn] (https://seaborn.pydata.org/examples/index.html) pour voir tous les tracés additionnels fournis par `seaborn`.

### 2.1  `Seaborn` pour les tracés et l'analyse statistique

Nous avons déjà utilisé `matplotlib` pour visualiser quelques informations. `seaborn` offre de belles possibilités de tracé pour réaliser des analyses statistiques avec un minimum de prétraitement.

In [None]:
import seaborn as sns
df = sns.load_dataset("titanic")

In [None]:
df.head() # Ceci est un pandas DataFrame. On jouera avec plus tard :)

Consultez la documentation de `seaborn.catplot` et tracez le taux de survie en fonction de la classe et du sexe.

In [None]:
sns.catplot(data=df, x='pclass', y='survived', hue='sex', kind='bar')

Parfois, il est intéressant de voir les différences de distribution de certaines variables. 

La fonction `seaborn.boxplot` permet de tracer de telles interactions. Vous pouvez utiliser cette fonction pour tracer la distribution `Fare` en divisant les données à l'aide des variables `Survived` et `Sex`.

In [None]:
sns.boxplot(data=df, y='fare', x='survived', hue='sex', whis=1000)

Le boxplot donne des informations sur les différents quantiles. On peut utiliser `seaborn.violinplot` pour obtenir les informations sur la distribution au lieu des quantiles. Consultez la documentation de `seaborn.violinplot` et tracez les mêmes informations que précédemment.

In [None]:
sns.violinplot(data=df, y='fare', x='survived', hue='sex', split=True)

Un autre outil de traçage utile est la fonction `seaborn.paiplot` qui permet de tracer l'interaction entre les différentes caractéristiques.

In [None]:
sns.pairplot(df, hue='survived')

Cependant, cette méthode de tracé est mieux adaptée à la visualisation de l'interaction pour des caractéristiques continues et avec un nombre limité de caractéristiques. Voyons un exemple avec le jeu de données `iris`.

In [None]:
import seaborn as sns
sns.set(style="ticks")

df = sns.load_dataset("iris")
sns.pairplot(df, hue="species")

### 2.2 Utilisation de Seaborn pour rendre les tracés plus lisibles

Ici, nous allons présenter quelques fonctions qui sont vraiment utiles même si vous n'utilisez que les graphiques normaux de `matplotlib`.

Lorsque vous utilisez `matplotlib`, une erreur typique est de conserver le style original dans lequel la taille de la police et des lignes peut être trop petite en fonction du média dans lequel vous voulez montrer vos graphiques (i.e. présentation, article, rapport, etc.).

In [None]:
plt.plot(x, gx, label="g(x) = cos(2x)")
plt.plot(x, fx, label="f(x) = cos(x)")
plt.legend(loc=3)

`seaborn` offre un gestionnaire de contexte, `plotting_context()` qui changera automatiquement le style de tracé en fonction de votre média.

In [None]:
import seaborn as sns

In [None]:
# Point Python : le with est un mot-clé très utile avec les gestionnaires de contexte (évite de gérer la destruction/fuite mémoire)
with sns.plotting_context("poster"):  # peut aussi être {paper, notebook, talk, poster}
    plt.plot(x, gx, label="g(x) = cos(2x)")
    plt.plot(x, fx, label="f(x) = cos(x)")
    plt.legend(loc=3)

Dans le cas où la figure est difficile à lire, nous devrions probablement supprimer les informations qui ne sont pas nécessaires :

* Supprimer les coches qui ne sont pas nécessaires en utilisant les fonctions `xticks()` et `yticks()`.
* Enlever les "ergots" en utilisant la fonction `sns.despine()`.
* Limiter la plage de valeurs avec la fonction `axis()`.
* Déplacer éventuellement la légende.

In [None]:
with sns.plotting_context("poster"):  # could be also one of {paper, notebook, talk, poster}
    plt.plot(x, gx, label="g(x) = cos(2x)", linestyle='--')
    plt.plot(x, fx, label="f(x) = cos(x)", linestyle=':')
    plt.xticks(np.arange(-10, 11, 5))
    plt.yticks([-1, 0, 1])
    sns.despine(offset=10)
    plt.axis([-10, 10, -1, 1])
    plt.legend(bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0.)
    plt.xlabel('x')
    plt.ylabel('y')
    plt.title('Title of this plot')