lundi 7 avril 2014

La classe moyenne n'existe pas

UPDATE : Un commentateur me fait remarquer que je parle parfois de personnes, et parfois de ménages. Ce n'est effectivement pas clair. Un ménage gagnant 5000€ brut par personne est constitué de deux individus gagnant en moyenne 5000€ brut, et donc gagne au total 10000€. Avec le système des parts fiscales, un ménage de deux personnes gagnant au total 5000€ paiera deux fois moins d'impôt qu'un ménage constitué d'une seule personne gagnant 5000€. 


En tout cas au sens statistique, ou alors elle ne ressemble pas à ce que vous pensez. 

Une question revient souvent, elle consiste à se demander ce qu'est la classe moyenne, à partir de quel revenu est-on "riche", en dessous de quel revenu est-on "pauvre". D'après Hollande en 2007, les contribuables gagnant plus de 5000 euros bruts par mois (60 000 euros annuels) sont riches. Cette sortie avait fait un tollé, beaucoup des gens de ce niveau de revenu se considérant comme membres de la classe moyenne. Supérieure peut-être, mais moyenne tout de même. En tout cas loin des riches PDG du CAC 40. 

Tout d'abord, voici la distribution des revenus en France (source : déclarations fiscales de 2010 traitées par Piketty & Saez, lien). 


Ce graphique signifie que 50% des Français ont des revenus totaux (salaire, capital, retraites, allocations chômage) inférieurs à 19891 euros bruts. Ou que 95% des Français gagnent moins que 61179 euros bruts. En déclarant que les ménages individus gagnant plus de 5000 euros bruts par mois étaient riches, Hollande parlait donc de 5% des contribuables. 

Mais est-il pertinent de mettre la limite à 60 000 euros annuels? Pourquoi pas 45 000 (90% des Français gagnant moins), ou 120 000 (99% des Français gagnant moins). 

Qu'en est-il réellement et que peut nous apprendre la statistique? 

Un domaine très particulier de la statistique, l'analyse de données, peut nous fournir un élément de réponse. Le grand principe de la classification statistique est de regrouper les individus en un certain nombre de classes fixé à l'avance, de manière à maximiser ce qu'on appelle le ratio de dispersion : on assimile chaque classe à un individu moyen ayant les caractéristiques moyennes de sa classe, et on calcule la variance entre ces individus moyen. Le ratio de dispersion est le rapport entre cette variance, dite "inter-classes", et la variance totale.

Exemple : Prenez un monde où 5 personnes gagnent 100 euros, et 5 personnes gagnent 200 euros. L'écart-type est 50. Si vous créez deux classes, l'une avec les 5 personnes gagnant 100 euros, l'autre avec les 5 personnes gagnant 200 euros, vous créez ainsi deux individus représentatifs de leur classe, l'un gagnant 100 euros, et l'autre gagnant 200 euros. L'écart-type est toujours 50, et votre classification explique 100% de la variance totale, c'est gagné. 

Si vous vous trompez, et que vous intégrez par erreur un individu gagnant 100 euros à la classe des riches, vos deux individus moyens gagnent respectivement 100 euros (les 4 pauvres) et 180 euros (les 5 riches et le pauvre inclus par erreur), et l'écart type n'est plus que de 40, et votre classification n'explique plus que les 2/3 de la variance (variance = carré de l'écart-type) totale. 


On en déduit deux résultats : 
1) Il faut déterminer a priori un nombre de classes qu'on va se fixer, sinon la meilleure classification sera toujours celle où chaque individu constitue sa propre classe de une personne, ce qui n'est pas très intéressant. 
2) A nombre de classes fixé, il existe une ou plusieurs classifications maximisant le ratio de dispersion. 

Prenons donc notre distribution des revenus en France. Si on cherche à se fixer trois classes (les pauvres, les moyens, les riches), voici ce à quoi la statistique aboutit : 

Une première classe, contenant 99.97% de la population, ayant des revenus compris entre 0 et 671 958 €, constitue la classe des pauvres. 
Une deuxième, contenant 0.029% de la population, ayant des revenus compris entre 671 958€ et 5 855 208€ constitue la classe moyenne. 
Une troisième, contenant 0.001% de la population, ayant des revenus supérieurs à 5 855 208€, constitue la classe des riches. 

Ce que la classification nous apprend, c'est que la personne gagnant 671 957 euros est plus proche de 23 797 (la moyenne de la classe 1) que de 1 326 123 (la moyenne de la classe 2). Et que si on cherchait à définir les classes autrement, on expliquerait moins les inégalités. Par exemple, en forçant à définir les riches comme les personnes gagnant plus de 60000 euros bruts :  



La classe moyenne devient les personnes gagnant entre 20900€ et 61179€ bruts, mais on n'explique plus que 20.6% des différences de revenus. 

Bien entendu, en augmentant le nombre de classes, on améliore la variance expliquée. En revanche, on peut perdre en clarté d'analyse. Je fournirai un dernier exemple, avec 6 classes : 


On parvient à expliquer 88.5% des différences de revenus. La classe 2, qui s'apparente le plus à la classe moyenne telle qu'on peut l'imaginer, comprend donc tous les individus gagnant entre 36 074€ et 155 837€. Elle monte tout de même assez haut, et elle exclut beaucoup de professions intellectuelles supérieures, comme les professeurs des écoles. Les classes 3 à 6 ne servent qu'à faire la différence entre les riches, les un peu plus riches, les encore plus riches, et les très très riches. 

Étonnant non? 

NB : ici, on a fait une classification univariée, c'est-à-dire en ne s'attachant qu'à un seul critère, le revenu. En vrai, il est possible de faire des classifications multivariées, suivant le revenu, le niveau d'éducation, l'âge, etc... qui seraient beaucoup plus pertinentes, mais qui nécessitent des bases de données individuelles assez difficiles à obtenir. 



4 commentaires:

  1. Bonjour

    Je me demande si on n'aurait pas un resultat plus significatif en s'intéressant au logarithme du revenu. Cela aurait une pertinence :100 euros de plus par mois n'a pas la même pertinence que l'on gagne 1000 euros ou 100 000

    RépondreSupprimer
    Réponses
    1. Bien sûr, mais dans ce cas vous n'étudiez pas les inégalités de revenus mais les inégalités de log de revenus. Si 100 euros n'a pas la même signification quand on gagne 1000 ou 100 000 c'est parce que quand on gagne 1000 les 100 de plus seront dépensés.

      Ce n'est pas le log du revenu qui vous intéresse, mais bien le revenu. Tout comme ce n'est pas le log de la conso, ou encore moins le log du bonheur (si tant est qu'on puisse le mesurer) qui sont pertinents.

      Supprimer
  2. "Ce graphique signifie que 50% des Français ont des revenus totaux (salaire, capital, retraites, allocations chômage) inférieurs à 19891 euros bruts. Ou que 95% des Français gagnent moins que 61179 euros bruts. En déclarant que les ménages gagnant plus de 5000 euros bruts par mois étaient riches, Hollande parlait donc de 5% des contribuables. "
    Français / menage / contribuable, tout dans la même phrase, au final moi j'y comprends rien. On parle d'individu ou de ménage ? parce que ça change tout. Mon ménage atteint 5000 € par mois avant impots, mais moi j'en suis bien loin.

    RépondreSupprimer
    Réponses
    1. Effectivement, c'est ambigu. Le graphique parle bien des individus. Si votre ménage gagne 5000€, avec deux personnes gagnant 2500 euros, vous n'êtes pas dans les 5% en question, bien évidemment.

      D'ailleurs, vous devez probablement déclarer 5000 mais avec deux parts (voire plus si vous avez des enfants), ce qui fait que le total de votre impôt est égal à celui de deux personnes différentes gagnant 2500 (impôt = deux fois 2500 donc 5000 environ), et non pas à celui d'une personne quand 5000 (impôt = 10600)

      Je rectifie le post pour clarifier. Merci

      Supprimer