Оманливий графік

У статистиці оманливий графік, також відомий як спотворений графік, — це графік, який спотворює дані, що є неправильним використанням статистичних даних і в результаті може привести до неправильного висновку.

Приклад усіченого (ліворуч) і повномасштабного графіка (праворуч) із використанням тих самих даних

Графіки можуть вводити в оману через те, що вони надто складні або погано побудовані. Навіть якщо графіки побудовані для точного відображення характеристик своїх даних, вони можуть бути піддані різним інтерпретаціям, або ненавмисно можуть бути отримані дані, які зрештою є помилковими.[1]

Оманливі графіки можуть бути створені навмисно, щоб перешкодити належній інтерпретації даних, або випадково через незнайомство з програмним забезпеченням для побудови графіків[en], неправильне тлумачення даних або тому, що дані не можуть бути точно передані. У неправдивій рекламі[en] часто використовуються оманливі графіки. Одним із перших авторів, які написали про оманливі графіки, був Даррел Хафф[en], автор книги 1954 року "Як брехати за допомогою статистики ".

Галузь візуалізації даних описує способи представлення інформації, які дозволяють уникнути створення оманливих графіків.

Методи введення в оману

Однак він [оманливий графік] набагато ефективніший, оскільки він не містить прикметників чи прислівників, які б псували ілюзію об’єктивності, ніхто нічого не міг би вам прив’язати.
— Даррел Хафф, How to Lie with Statistics (1954)[2]

Є багато способів, якими можна побудувати оманливий графік.[3]

Надмірне використання

Використання графіків там, де вони не потрібні, може призвести до непотрібної плутанини/інтерпретації.[4] Як правило, чим більше пояснень потребує графік, тим менше потрібен сам графік.[4] Графіки не завжди передають інформацію краще, ніж таблиці.[5]

Упереджене маркування

Використання упереджених або навантажених слів у заголовку графіка, мітках осей або підписі може неналежним чином привернути увагу[en] читача.[4][6]

Сфабриковані тренди

Подібним чином спроба провести лінії тренду через некорельовані дані може змусити читача ввести в оману думкою, що тренд існує там, де його немає. Це може бути як результатом навмисної спроби ввести читача в оману, так і результатом явища ілюзорної кореляції.

Кругова діаграма

  • Порівняння кругових діаграм різних розмірів може ввести в оману, оскільки люди не можуть точно прочитати порівняльну площу кіл.[7]
  • Використання тонких шматочків, які важко розрізнити, може бути важким для інтерпретації.[7]
  • Використання відсотків як міток на круговій діаграмі може ввести в оману, якщо розмір вибірки невеликий.[8]
  • Створення тривимірної кругової діаграми або додавання нахилу ускладнить інтерпретацію через ефект викривлення перспективи.[9] Смугові діаграми, у яких різна висота сегментів, можуть заплутати читача.[9]

Порівняння кругових діаграм

Порівнювати дані на стовпчастих діаграмах зазвичай набагато простіше. На зображенні нижче дуже важко визначити, де синій сектор більший за зелений сектор на кругових діаграмах.

Три набори відсотків, нанесених у вигляді кругових і стовпчастих діаграм. Порівнювати дані на стовпчастих діаграмах зазвичай набагато простіше.

Секторна 3D діаграма з перспективою

(3D) кругова діаграма з перспективою використовується для надання діаграмі тривимірного вигляду. Третій вимір, який часто використовують з естетичних міркувань, не покращує читання даних; навпаки, ці сюжети важко інтерпретувати через ефект викривлення перспективи, пов'язаної з третім виміром. Використання зайвих розмірів, які не використовуються для відображення цікавих даних, не рекомендується для діаграм взагалі, а не лише для кругових діаграм.[10] На тривимірній круговій діаграмі сегменти, які розташовані ближче до читача, здаються більшими за ті, що знаходяться позаду, через кут, під яким вони представлені.[11] Цей ефект робить читачів менш продуктивними в оцінці відносної величини кожного зрізу при використанні 3D, ніж при використанні 2D[12]

Елемент C виглядає принаймні таким же великим, як елемент A на оманливій круговій діаграмі, тоді як насправді він вдвічі менший. Предмет D виглядає набагато більшим за предмет B, але вони однакового розміру.

Едвард Тафті, видатний американський статистик, зазначив, чому таблицям можна надати перевагу секторним діаграмам у Візуальному відображенні кількісної інформації :[5]

Таблиці є кращими, ніж графіки для багатьох невеликих наборів даних. Таблиця майже завжди краща, ніж тупа кругова діаграма; Єдине, що гірше за кругову діаграму, — це декілька кругових діаграм, оскільки тоді глядачеві пропонується порівняти величини, розташовані в просторовому безладді як усередині секторів, так і між ними. Враховуючи їх низьку щільність даних і нездатність упорядкувати числа за візуальним виміром, секторні діаграми ніколи не слід використовувати.

Неправильне масштабування

Використання піктограм у гістограмах не повинно бути однаково масштабованим, оскільки це створює оманливе порівняння.[13] Інтерпретується площа піктограми, а не лише її висота чи ширина.[14] Це призводить до того, що масштабування різниці здається зведеним в квадрат.[14]

Неправильне масштабування 2D-піктограм на стовпчиковому графіку
Неправильне масштабуванняЗвичайнеПорівняння

На стовпчиковій діаграмі піктограми з неправильним масштабом зображення для B насправді в 9 разів більше, ніж A.

Порівняння масштабування двовимірних фігур
КвадратКолоТрикутник


Розмір, що сприймається, збільшується при масштабуванні.

Ефект неправильного масштабування піктограм додатково проявляється, коли піктограма має 3 виміри, у цьому випадку ефект є кубічним.[15]

Графік продажів будинків (ліворуч) вводить в оману. Здається, у 2001 році продажі будинків зросли у вісім разів порівняно з попереднім роком, тоді як насправді вони зросли вдвічі. Крім того, кількість продажів не уточнюється.

Піктограма неправильного масштабу також може свідчити про те, що сам предмет змінився в розмірі.[16]

ОманливийЗвичайний

Якщо припустити, що зображення представляють еквівалентні кількості, оманливий графік показує, що бананів більше, тому що банани займають найбільшу площу і розташовані найдальше праворуч.

Логарифмічна шкала

Логарифмічні шкали є дійсним засобом представлення даних. Але якщо вони використовуються без чіткого позначення як логарифмічні ваги або показані читачеві, який з ними не знайомий, вони можуть ввести в оману. Логарифмічна шкала подає значення даних як певний ступінь від вибраного числа (основа логарифму). Основою часто є число e (2,71828…) або 10. Наприклад, логарифмічні шкали можуть давати висоту 1 для значення 10 у даних і висоту 6 для значення 1 000 000 (106) у даних. Логарифмічні шкали та варіанти зазвичай використовуються, наприклад, для індексу вулканічної вибуховості, шкали Ріхтера для землетрусів, величини зірок і рН кислих і лужних розчинів. Навіть у цих випадках логарифмічна шкала може зробити дані менш очевидними для ока. Часто причиною використання логарифмічних шкал є те, що автор графіка бажає відобразити на одній осі дуже різні масштаби. Без логарифмічних ваг порівняння таких величин, як 103 проти 109, стає візуально непрактичним. Графік із логарифмічною шкалою, яка не була чітко позначена як така, або графік із логарифмічною шкалою, представлений глядачеві, який не знав логарифмічної шкали, загалом призведе до представлення, у якому значення даних виглядатимуть однакового розміру, насправді, будучи дуже різними величинами. Неправильне використання логарифмічної шкали може призвести до того, що дуже різні значення (наприклад, 10 і 10 000) виглядатимуть близько одне до одного (у логарифмічній шкалі з базою 10 вони будуть лише 1 і 4). Або малі значення можуть здаватися від'ємними через те, як логарифмічні шкали представляють числа, менші за основу.

Неправильне використання логарифмічних шкал також може призвести до того, що зв'язки між величинами виглядатимуть лінійними, тоді як ці співвідношення є експоненціальними або степеневими законами, які дуже швидко зростають до вищих значень. Було заявлено, хоча в основному в жартівливій формі, що «будь-що виглядає лінійним на логарифмічному графіку з товстим маркером».[17]

Порівняння лінійної та логарифмічної шкал для ідентичних даних
Лінійна шкалаЛогарифмічна шкала

Обидва графіки показують однакову експоненційну функцію f(x) = 2x. На графіку ліворуч використовується лінійна шкала, що чітко демонструє експоненційний тренд. Однак на графіку праворуч використовується логарифмічний масштаб, який створює пряму лінію. Якщо б читач графіків не знав про це, графік виглядав би як лінійний тренд.

Усічений графік

Усічений графік (також відомий як розірваний) має вісь Y, яка не починається з 0. Ці графіки можуть створити враження важливих змін там, де змін відносно мало.

Хоча скорочені графіки можна використовувати для перекреслення відмінностей або для економії місця, їх використання часто не рекомендується. Комерційне програмне забезпечення, таке як MS Excel, за замовчуванням буде скорочувати графіки, якщо всі значення знаходяться у вузькому діапазоні, як у цьому прикладі. Щоб показати відносні відмінності значень з часом, можна використати індексну діаграму. Усічені діаграми завжди візуально спотворюють базові числа. Декілька досліджень виявили, що навіть якщо люди були правильно поінформовані про те, що вісь ординат обрізана, вони все одно переоцінюють фактичні відмінності, часто суттєво.[18]

Truncated bar graph
Обрізана гістограмаЗвичайна гістограма

Ці графіки відображають ідентичні дані ; однак на скороченій гістограмі ліворуч дані показують значні відмінності, тоді як на звичайній гістограмі праворуч ці відмінності майже не помітні.


Є кілька способів позначити розриви осі y :

Позначення розрива осі y

Зміни осі

Зміна максимуму осі y
Оригінальний графікМенший максимумБільший максимум

Зміна максимуму осі y впливає на вигляд графіка. Вищий максимум призведе до того, що графік матиме меншу волатильність, менший ріст і менш круту лінію, ніж нижчий максимум.

Зміна співвідношення розмірів графіка
Original graphHalf-width, twice the heightTwice width, half-height

Зміна співвідношення розмірів графіка вплине на вигляд графіка.

Без шкали

Масштаби графіка часто використовуються, щоб перебільшити або мінімізувати відмінності.[19][20]

Оманлива гістограма без шкали
Менша різницяБільша різниця

Відсутність початкового значення для осі y робить незрозумілим, чи графік усічено. Крім того, відсутність позначок не дозволяє читачеві визначити, чи правильно масштабовано стовпчики графіка. Без шкали можна легко маніпулювати візуальною різницею між стовпчиками.

Оманливий лінійний графік без шкали
ВолатильністьШвидке зростанняПовільне зростання

Хоча всі три графіки мають однакові дані, а отже, фактичний нахил даних (x, y) однаковий, спосіб побудови даних може змінити візуальний вигляд кута, утвореного лінією на графіку. Це пояснюється тим, що кожен графік має інший масштаб на своїй вертикальній осі. Оскільки масштаб не показано, ці графіки можуть ввести в оману.

Неправильні інтервали або одиниці

Інтервали та одиниці, що використовуються на графіку, можна маніпулювати для створення або пом'якшення виразу зміни.[11]

Пропуск даних

Графіки, створені з пропущеними даними, видаляють інформацію, на основі якої можна зробити висновок.

Точковий графік з пропущеними категоріями
Точковий графік з пропущеними категоріямиЗвичайний точковий графік

На діаграмі розсіювання з відсутніми категоріями ліворуч зростання виглядає більш лінійним із меншою варіацією.

У фінансових звітах негативні прибутки або дані, які не співвідносяться з позитивним прогнозом, можуть бути виключені, щоб створити більш сприятливе візуальне враження. 

3D

Настійно не рекомендується використовувати зайвий третій вимір, який не містить інформації, оскільки це може заплутати читача.[9]

Складність

Графіки створені для полегшення інтерпретації статистичних даних. Однак графіки з надмірною складністю можуть заплутати дані та ускладнити інтерпретацію.

Погана конструкція

Погано побудовані графіки можуть ускладнити розпізнавання та інтерпретацію даних.

Екстраполяція

Докладніше: Екстраполяція

Оманливі графіки можуть бути використані, у свою чергу, для екстраполяції оманливих тенденцій.[21]

Вимірювання спотворень

Було розроблено кілька методів, щоб визначити, чи спотворені графіки, і кількісно визначити це спотворення.[22][23]

Коефіцієнт брехні

де

Графік із високим коефіцієнтом брехні (>1) перебільшував би зміни в даних, які він представляє, тоді як графік із малим коефіцієнтом брехні (>0, <1) приховував би зміни в даних.[24] Абсолютно точний графік демонстрував би коефіцієнт брехні 1.

Індекс невідповідності графіка

де

Індекс невідповідності графіка, також відомий як індекс викривлення графіка (ІВГ), спочатку був запропонований Полом Джоном Стейнбартом у 1998 році. ІВГ розраховується як відсоток у діапазоні від −100 % до позитивної нескінченності, при цьому нульовий відсоток вказує на те, що графік було правильно побудовано, а все, що виходить за межі ±5 % поля, вважається спотвореним.[22] Дослідження використання ІВГ як міри викривлення графіки показали, що він є непослідовним та непостійним, що ускладнює використання ІВГ як вимірювання для порівняння.[22]

Співвідношення даних і чорнил

Співвідношення даних і чорнила має бути відносно високим. Інакше на діаграмі можуть бути непотрібні графічні елементи.[24]

Щільність даних

Щільність даних має бути відносно високою, інакше таблиця може краще підходити для відображення даних.[24]

Використання у фінансових та корпоративних звітах

Графіки корисні для зведення та інтерпретації фінансових даних.[25] Графіки дозволяють бачити тенденції у великих наборах даних, а також дозволяють інтерпретувати дані неспеціалістам.[25][26]

Графіки часто використовуються в корпоративних річних звітах у якості форми управління враженнями.[27] У Сполучених Штатах графіки не потребують аудиту, оскільки вони підпадають під дію розділу 550 AU «Інша інформація в документах, що містять перевірені фінансові звіти».[27]

Кілька опублікованих досліджень розглядали використання графіків у корпоративних звітах для різних корпорацій у різних країнах і виявили часте використання неналежного дизайну, вибірковості та спотворення вимірювань у цих звітах.[27][28][29][30][31][32][33] Наявність оманливих графіків у річних звітах призвела до запитів щодо встановлення стандартів.[34][35][36]

Дослідження виявили, що хоча читачі з низьким рівнем фінансового розуміння мають більше шансів бути дезінформованими оманливими графіками[37], навіть ті, хто має фінансове розуміння, наприклад кредитні спеціалісти, можуть бути введені в оману.[34]

Академічне середовище

Сприйняття графів вивчається в психофізиці, когнітивній психології та комп'ютерному баченні.[38]

Див. також

Примітки

Книги

Подальше читання

 

Посилання