Коэффициент Джини

Коэффициент Джини (в%) распределения доходов (Всемирный банк, 2018)
  • ≤ 30
  • 30-34,9
  • 35-39,9
  • 40-44,9
  • 45-49,9
  • 50-54,9
  • 55-59,9
  • 60-64,9
  • нет данных
  • Кривая Лоренца (красная) реального распределения для расчета коэффициента Джини и идеального равномерного распределения (черная)

    Коэффициент Джини или индекс Джини - это статистическая мера, разработанная итальянским статистиком Коррадо Джини для представления неравенства . Он отображает доли доходов различных групп населения и, таким образом, предназначен для измерения неравенства в обществе. Коэффициенты неравенства распределения можно рассчитать для любого распределения. Например, коэффициент Джини используется в экономике, но также и в географии, как критерий для распределения доходов и богатства в отдельных странах и, таким образом, как помощь в классификации стран и связанных с ними уровней развития.

    Коэффициент Джини выводится из кривой Лоренца и имеет значение от 0 (при равномерном распределении) до 1 (когда только один человек получает весь доход, т. Е. При максимальном неравномерном распределении). С равномерное распределение не является равномерным распределением понимается в вероятностном смысле, но распределение с дисперсией 0. В наиболее общем случае использования, то распределение доходов в стране, то это означает , что доход каждого взрослого то же самое, а не то, что разные доходы (классы) встречаются одинаково часто.

    Приложения

    Экономика

    Коэффициент Джини используется, в частности, в экономике благосостояния для описания, например, степени равенства или неравенства в распределении богатства или дохода. Этот коэффициент является альтернативой соотношению квинтилей доходов S80 / S20, которое используется в статистике ЕС.

    Теория информации

    В теории информации он используется как мера «чистоты» или «нечистоты» информации.

    Машинное обучение

    В области машинного обучения при создании дерева решений индекс Джини или, точнее, изменение индекса Джини, также называемое «усиление Джини», можно использовать в качестве критерия для выбора правила принятия решения, в котором дочерние узлы являются максимально «чистыми». Идея состоит в том, что при «чистом» решении дерево готово, поэтому изменение индекса Джини подходит в качестве меры.

    Банковское дело

    В банковском деле коэффициент Джини используется как мера того, насколько хорошо рейтинговая система может отделять хороших клиентов от плохих ( избирательность ).

    Нормализация

    В зависимости от приложения шкала возможных значений варьируется от 0 до 1, от 0 до 100, от 0 до 10000. В зависимости от приложения наименьшее или наибольшее значение соответствует равномерному распределению. Значение абсолютного неравенства обычно может быть достигнуто только асимптотически. Этого можно избежать путем перенормировки.

    определение

    Общий случай

    Для отсортированной по возрастанию, дискретно распределенной величины (пример: доход домохозяйства) кривая Лоренца имеет вид

    Таким образом, для положения в распределении доходов кривая Лоренца указывает совокупную долю общего дохода. обозначает среднее арифметическое. При равномерном распределении площадь между линией 45 градусов и кривой Лоренца будет соответствовать значению 0 и увеличиваться для более неравномерного распределения. Исходя из этого соображения и цели получения меры, нормированной на интервал , коэффициент неравенства Джини получается следующим образом: Путем геометрического разложения площади получаем:

    Для реального распределения можно вычислить коэффициент Джини напрямую следующим образом (используя ):

    Альтернативная формулировка, которая не требует сортировки данных, основана на так называемой относительной средней абсолютной разнице . Средняя абсолютная разница означает среднюю разницу всех пар наблюдений, присутствующих в популяции. Это связано со средним доходом. Чтобы коэффициент Джини принял желаемый диапазон значений, разница делится на 2:

    Расчет на основе квантилей

    Определенная часть набора A назначается части другого набора B. Это может, например, B. Деньги (A) на людей (B) или потребление электроэнергии (A) в городах (B). Существенно, что A представляет собой однородное, легко делимое множество. Например, владение автомобилем было бы неприемлемым, потому что автомобили не являются однородными - отдельные типы значительно различаются - и их нельзя разделить на небольшие единицы.

    Коэффициент Джини - это площадь, нормированная на равномерное распределение между кривыми Лоренца для равномерного распределения и наблюдаемого распределения.

    с GUK в качестве коэффициента неравенства Джини, площадь под кривой Лоренца для равномерного распределения и площадь под кривой Лоренца для наблюдаемого распределения.

    пример

    A распределяется между B, например, богатство (A) распределяется среди населения (B).

    50 Prozent von B (b1) wird  2,5 Prozent von A zugeordnet (v1).
    40 Prozent von B (b2) wird 47,5 Prozent von A zugeordnet (v2).
     9 Prozent von B (b3) wird 27,0 Prozent von A zugeordnet (v3).
     1 Prozent von B (b4) wird 23,0 Prozent von A zugeordnet (v4).
    

    На первом этапе данные отображаются «нормализованными»:

    b1 = 0,50     v1 = 0,025          v1/b1 =  0,05
    b2 = 0,40     v2 = 0,475          v2/b2 =  1,188
    b3 = 0,09     v3 = 0,270          v3/b3 =  3
    b4 = 0,01     v4 = 0,230          v4/b4 = 23
    

    На втором этапе рассчитывается коэффициент Джини.

    Коэффициент неравномерного распределения Джини (GUK) получается путем оценки кривой Лоренца .

    Чтобы на самом деле построить кривую Лоренца, возможно, придется изменить приведенные выше значения. Все пары значений должны быть предварительно отсортированы таким образом, чтобы:

    В приведенном выше примере сортировка правильная, поэтому повторная сортировка не требуется.

    Кривая Лоренца, которую вы ищете, возникает, когда вы вводите пары (x i , y i ) как точки в декартовой системе координат, а затем соединяете соседние точки прямой линией. В -пар результате от -паров согласно следующему правилу расчета:

    На втором этапе следующие данные определяются из данных первого этапа путем суммирования (с добавлением (0, 0) в качестве фиксированного значения в начале):

    x0 = 0,00     y0 = 0
    x1 = 0,50     y1 = 0,025
    x2 = 0,90     y2 = 0,5    (da 0,5 + 0,4 = 0,9 und 0,025 + 0,475 = 0,5 ist)
    x3 = 0,99     y3 = 0,77
    x4 = 1,00     y4 = 1
    

    При тотальном равном распределении богатства кривая Лоренца представляет собой прямую линию от точки (0 | 0) до точки (1 | 1).

    Для определения коэффициента Джини сначала определяются две величины, которые представляют собой графически просматриваемые области. После того, как площадь под линией равномерного распределения, назовем это количество, например A. Вторая область - это площадь под кривой фактического распределения , назовем это количество, например B. С этими двумя величинами вычисляется коэффициент неравенства Джини. следующим образом:

    B - темно-серая область; A состоит из светлых и темно-серых областей.

    Расчет y-значений кривой Лоренца фактического распределения:

    y0 = 0,000
    y1 = v1 = 0,025
    y2 = v1 + v2 = 0,500
    y3 = v1 + v2 + v3 = 0,770
    y4 = v1 + v2 + v3 + v4 = 1,000
    

    Расчет площади B под кривой Лоренца фактического распределения (см. Ниже):

    (y1 - 0,5 · v1) · b1 = 0,00625
    (y2 - 0,5 · v2) · b2 = 0,105
    (y3 - 0,5 · v3) · b3 = 0,05715
    (y4 - 0,5 · v4) · b4 = 0,00885
    
    B = 0,17725
    

    Поскольку используется стандартизованное представление, кривая общего равномерного распределения соединяет угловые точки (0 | 0) и (1 | 1) друг с другом. Следовательно, треугольник с площадью A равен 0,5. Поэтому к коэффициенту неравенства Джини применимо следующее:

    При графическом рассмотрении коэффициент Джини представляет собой отношение площади между линией равномерного распределения и кривой Лоренца (AB) к площади ниже линии равномерного распределения (A).

    Пояснение к расчету

    Вся область Джини представляет собой прямоугольник со сторонами раза . Площадь Джини равномерного распределения составляет половину общей площади Джини. Для вычисления площади под кривой складываются все отдельные области. Взять, к примеру . Полностью учитывается прямоугольник с высотой и шириной (т.е. от до ). Принимается только половина прямоугольника, идущего от высоты к высоте , так как другая половина над линией Джини не принадлежит области Джини. Так это

    или также

    Альтернативный вид вычисления площади: индивидуальная площадь - это разница между прямоугольной площадью, которая определяется точками (x 1 , y 0 = 0), (x 2 , y 0 = 0), (x 2 , y 2 ), (x 1 , y 1 ) ограничено (content :) , за вычетом площади прямоугольного треугольника, ограниченного точками (x 1 , y 1 ), (x 2 , y 1 ), (x 1 , y 2 ) (content:) с тем же результатом.

    Сжатие данных

    Коэффициент Джини - это статистический показатель, используемый для расчета распределения неравенства. Такие меры в основном сокращают более или менее сложный набор данных до простого показателя. Эта метрика может привести к неправильной интерпретации, если она используется неправильно.

    Рисунок 1: Различные кривые Лоренца - одинаковый коэффициент Джини

    В случае коэффициента Джини, например, существует по крайней мере еще одна кривая Лоренца с точно таким же значением Джини почти для каждой кривой Лоренца . Это достигается путем отражения исходной кривой Лоренца на прямой, проходящей через точки (0 | 1) и (1 | 0). Если количества 10% / 90% должны быть распределены по 50% / 50%, это приводит к той же кривой Лоренца, что и распределение количеств от 50% / 50% до 90% / 10% носителей признаков. Эти две кривые Лоренца показаны на рисунке 1. Единственным исключением являются кривые Лоренца, которые с самого начала симметричны этой линии.

    Для двух разных кривых получается общий коэффициент Джини 0,4. Фактически, существует даже бесконечное количество возможных кривых Лоренца для коэффициента Джини (за исключением абсолютно равного или абсолютно неравного распределения). На этом этапе коэффициент Джини такой же, как и любой другой показатель, полученный при накоплении большого количества данных. Показатели неравномерного распределения, такие как коэффициент Джини, возникают в результате агрегирования данных с целью уменьшения сложности. Следовательно, связанная с этим потеря информации не является непреднамеренным побочным эффектом. Когда дело доходит до уменьшения сложности, обычно верно, что они становятся недостатком только в том случае, если забывают об их создании и их функции отображения.

    Источник ошибки при сравнении

    Утверждения, в которых коэффициенты неравенства сравниваются друг с другом, требуют особенно критического пересмотра расчета отдельных коэффициентов. Для корректного сравнения необходимо, чтобы эти коэффициенты были рассчитаны единообразно во всех случаях. Например, разная степень детализации входных данных приводит к разным результатам при вычислении неравномерного распределения. Коэффициент Джини, рассчитанный с несколькими квантилями, обычно показывает несколько меньшее неравномерное распределение, чем коэффициент, рассчитанный с большим количеством квантилей, потому что в последнем случае, благодаря более высокому разрешению измерения, неравномерное распределение можно учесть в пределах диапазонов (т. Е. между квантилями) в первом случае остается неоцененным из-за более грубого разрешения измерения.

    Проще говоря: более высокое разрешение данных (почти всегда) обеспечивает более низкое равномерное распределение.

    Смотри тоже

    веб ссылки

    Индивидуальные доказательства

    1. Веб-сайт Евростата ( памятная записка с оригинала от 4 декабря 2016 г. в Интернет-архиве ) Информация: ссылка на архив вставлена ​​автоматически и еще не проверена. Проверьте исходную и архивную ссылку в соответствии с инструкциями, а затем удалите это уведомление. @ 1@ 2Шаблон: Webachiv / IABot / ec.europa.eu
    2. Брейман, Л. и Фридман, Дж. Х. и Олшен, Р. А. и Стоун, К. Дж.: Деревья классификации и регрессии . Чепмен и Холл, Нью-Йорк, 1984.
    3. ↑ Серия руководящих принципов по кредитному риску: Рейтинговые модели и проверка, Австрийский национальный банк и Управление финансового рынка, 2004 г. Ссылка на архив ( памятная записка от 4 декабря 2011 г. в Интернет-архиве )
    4. ^ П. Дж. Ламберт (2001): Распределение и перераспределение доходов. Издательство Манчестерского университета, стр. 31 и далее.
    5. ^ Ochmann, R. и A. Peichl (2006): Измерение распределительных эффектов фискальных реформ. Финансовые научные дискуссии № 06-9 , Финансовый научно-исследовательский институт Кельнского университета.
    6. Онлайн-калькулятор: неравномерное распределение
    7. Сравнение: www.umversorgung.de/rechner/?quantiles=50,10|50.90 (синяя кривая) и www.umversorgung.de/rechner/?quantiles=90.50|10.50 (красная кривая)