Pages

12 March 2013

Problem sa Gini koeficijentom

Gini koeficijent (čita se Džini, ili čak Đini, jer se radi o Italijanu) je mera jednakosti raspodele dohotka. Da ne bih sada prepričavao nešto što već postoji na netu, koga detaljnije zanima šta je to i kako se meri, može da pogleda recimo ovde.

Na sledećem grafikonu su prikazane dve populacije, 1 i 2, kao i "idealna" raspodela dohotka, u kojoj svaki decil stanovništva po dohotku (što je prikazano na x-osi) ima tačno jednu desetinu dohotka (što je prikazano na y-osi). Dakle, raspodela je znatno "pravednija" u populaciji 2 (Gini koeficijent oko 40%)  nego u populaciji 1, gde je Gini oko 60% i gde prvih pet decila (polovina populacije) nema apsolutno nikakav dohodak.



Sada dolatimo do zanimljivog dela - odakle mi ovi podaci, o kojim populacijama se uopšte radi?
Populacije su potpuno izmišljene, generisane u Excelu, ali tako da, sada dobro pazite, svaki građanin ima apsolutno istu radnu istoriju!

U obe populacije mesečni dohodak zavisi isključivo od godina starosti, u skladu sa sledećom tabelom:


godine dohodak
0 0
10 0
20 0
30 1000
40 2000
50 3000
60 2500
70 1000
80 1000
90 1000

Dakle, SVAKI stanovnik u obe zemlje ne zarađuje ništa dok ne napuni 30 godina, zatim zarađuje 1000 dok ne napuni 40, kada počinje da zarađuje 2000 i tako dalje, dok se u 70. godini ne penzioniše od kada opet zarađuje samo po 1000 - dakle postoji apsolutna JEDNAKOST svih građana u obe zemlje tokom životnog ciklusa, prosto ne može pravednije od ovoga.

Zašto sam onda dobio tako različite distribucije dohotka? Pa, samo zato što sam pretpostavio različitu starosnu strukturu. Dok je u populaciji 2 prosečna starost 40 godina, a standardna devijacija 20 godina, u populaciji 1 je prosečna starost 30 godina, a standardna devijacija je 15 godina.  Evo kako izgledaju starosne strukture u obe populacije (nakon što sam izbacio po nekoliko građana u obe zemlje koji su imali negativan broj godina) :




Razmislite o tome - pošao sam od toga da su svi građani apsolutno jednaki po dohotku tokom životnog ciklusa, odnosno da svi građani imaju apsolutno istu radnu istoriju (da apsolutno svi rade isti posao za istu platu), a došao sam do bitno različitih Gini koeficijenata za dve zemlje samo na osnovu različitih demografskih pretpostavki.

Još bitnije, populacija 1, gde je Gini koeficijent neverovatnih 0.6 (što je, mislim, nezabeleženo nejednaka raspodela dohotka u savremenom svetu) se sastoji od potpuno identičnih individua koji se razlikuju jedino po sadašnjoj starosti. To dosta govori o Gini koeficijentu kao meri.

Prosto, treba imati na umu da Gini meri jednakost raspodele dohotka samo tokom jedne godine, a jedna te ista osoba kroz svoj život prolazi kroz mnoge dohodovne decile - nekada ne zarađuje ništa, nekada zarađuje dosta dobro. Gini te varijacije ne može da "uhvati". Ja ne kažem da je Gini kao mera potpuno besmislen, nije besmislen, ali po samoj svojoj suštini on prenaglašava nejednakosti jer ne uzima u obzir životni ciklus ljudi. Gini koeficijent koji ne bi merio godišnji, već ukupni životni dohodak bi bio mnogo bolja mera, ali kako znati koliki životni dohodak će imati neko ko sada ima 30 godina?

Takođe, treba imati na umu da poređenje Gini koeficijenta u različitim zemljama, bez uzimanja u obzir demografskih karakteristika (ne samo starost, već i broj imigranata na primer) dovodi do velikih razlika koje nemaju mnogo veze sa jednakošću raspodele dohotka.

PS. Ako nekoga baš, baš zanima kako sam u Excelu generisao populacije, izračunao Gini i nacrtao grafike, mogu da objasnim u komentarima.

8 comments:

Lazar Antonić said...

Hvala Marko, sjajno.

Da li mozes da pojasnis kako si sa standardnom devijacijom od 15 godina dobio razliciti broj gradjana od 20 i 40 godina u grupi gde je 30 prosek? Pretpostavljam da je u pitanju normalna distribucija?

Pavle Mihajlović said...

fascinantno je koliko Marko ume da napiše dobar post

Jovan said...

Mozda je to stvar neke konvencije, ali ne razumem zasto se ukljucuju ljudi koji ne rade, posebno deca. Naravno da ce u tom slucaju biti drasticna razlika u zavisnosti od demografije.

Marko Paunović said...

Lazare,

Pa, slucajno je generisana populacija, ne mora sredina da bude bas na 30. Takodje, izbrisao sam ove ispod 0 godina (sto je samo dve standardne devijacije od sredine).

Veci problem je sto sam uopste uzeo normalnu distribuciju kad je vise nego ocigledno da starosna struktura u realnosti NEMA normalnu distribuciju. :)

Ali, trebalo mi je nesto na brzinu, cisto kao ilustracija.

Pavle, hvala,

Jovane, u "stvarnosti" ne bi bila ukljucena deca, ali bi svakako bila ukljucena lica koja iz drugih razloga ne rade (ne mogu da nadju posao, ili prosto ne zele da rade). Cilj je da se vidi neravnomernost u raspodeli dohotka, a oni koji nemaju dohodak prosto ulaze u uzorak. I treba da udju u uzorak.

Kao sto malo pre rekoh, nije meni cilj bio da napravim populaciju koja ima veze sa realnoscu (da sam to hteo, ne bih pretpostavio normalnu raspodelu), vec da prosto ukazem na to da je Gini koeficijent daleko od idealne mere.

Pavle Mihajlović said...

Takođe analiza se drastično komplikuje onog momenta kada se uključi u priču heterogenost pojedinaca koji imaju različite dohodovne mogućnosti u različitim sistemima koji su više ili manej nejednaki. Dakle, ja bih ipak rekao da Gini koeficijent nema baš mnogo koristi i smisla. To je samo fotografija u trenutku koja ne govori ništa posebno o procesu, gde je zapravo i ključ posmatranja nejednakosti

Srđan Mladenović said...

Jako dobar tekst!

Srđan Mladenović said...
This comment has been removed by the author.
Željka Buturović said...

Ovo je vrlo cest motiv u knigama Thomasa Sowella - ne toliko sam gini nego merenje nejednakosti kroz presek prihoda u jednom trenutku a ignorisanje (pre svega jer je takve podatke mnogo teze sakupiti) dinamike promene prihoda pojedinca tokom vremena.