воскресенье, 30 июня 2019 г.

Закон Бенфорда

Закон Бенфорда

Есть вещи вокруг, которые очень контринтуитивны. Самый известный пример, это, наверное, парадокс Монти Холла (не буду про него рассказывать, каждая книжка о статистике его упоминает, вот статья в Википедии). Если не слышали — поищите, очень поражает. Я до сих пор, понимая что к чему, не могу этот парадокс полностью осознать.

Ещё одна похожая штука: закон Бе́нфорда.

Допустим, вы взяли толстый глянцевый журнал. Вот если в этом журнале взять все-все числа, которые встречались во всех статьях, какова будет вероятность, что первая цифра у этих чисел это, например, «1» или «2»?





Первое, что приходит в голову: так как цифр 10 и первая не может быть нулём, то вероятность ⅑. Это не так. Вероятность единицы — ~30%, двойки — ~17.6%, тройки — ~12.5% и вероятности потом постепенно убывают для каждой цифры. Минимальное значение у девятки — 4.6%. Это очень неожиданный результат.

Это правило справедливо для массивов чисел, основанных на данных из реальной жизни. Длина рек (причём, не важно, в чём измеряемая), цены на акции, ваши расходы, смертность и так далее — для всего этого закон будет работать.

Эта штука работает для очень многих данных (особенно, если темп роста величины пропорционален её текущему значению), но не для всех. Не сработает, если:

— У данных есть ограничения «сверху» или «снизу»;
— Данных мало или же они покрывают только один-два порядка (например, IQ);
— Числа назначаются искусственно: например, индексы, номера заказов или маркетинговые цены в магазине ($9.99);
— В данных нет нормального распределения.

Но если перемешать много таких, «разных» данных, то результат уже будет подчиняться этому закону.

Интересно то, что эту штуку используют для нахождения мошенничества с финансами.

Числа в финансовых отчётах, как правило, соответствуют закону Бенфорда. Поэтому, если не соответствуют — скорее всего, их подгоняли вручную с мыслью «надо сделать их похожими на случайные числа», что как раз приводит к обратной ситуации.

Распределение Бенфорда

Распределение Бенфорда. По горизонтали — первые значащие цифры, по вертикали — вероятность их появления.

Автор: Qetzal-1UP channel.

Интересное...




Другие посты по этой теме:



0 коммент.:

Отправить комментарий

Ваш комментарий появится в блоге после проверки администратором