Що таке коефіцієнт детермінації?
Коефіцієнт детермінації - це міра, що використовується в статистичному аналізі, що оцінює, наскільки добре модель пояснює та прогнозує майбутні результати. Це вказує на рівень поясненої мінливості в наборі даних. Коефіцієнт визначення, також відомий як "R-квадрат", використовується як орієнтир для вимірювання точності моделі.
Один із способів інтерпретації цієї фігури - сказати, що змінні, що входять до даної моделі, пояснюють приблизно x% спостережуваної зміни. Отже, якщо R 2 = 0, 50, то приблизно половину спостережуваної зміни можна пояснити моделлю.
R-квадрат
Ключові вивезення
- Коефіцієнт детермінації - це складна ідея, орієнтована на статистичний аналіз майбутньої моделі даних. Коефіцієнт детермінації використовується для пояснення того, наскільки мінливість одного фактора може бути викликана його відношенням до іншого чинника.
Розуміння коефіцієнта детермінації
Коефіцієнт детермінації використовується для пояснення того, наскільки мінливість одного фактора може бути викликана його співвідношенням з іншим фактором. Він в значній мірі покладається в аналізі трендів і представляється як значення між 0 і 1.
Чим ближче значення до 1, тим краща відповідність або співвідношення між двома чинниками. Коефіцієнт визначення - квадрат коефіцієнта кореляції, також відомий як "R", що дозволяє йому відображати ступінь лінійної кореляції між двома змінними.
Це співвідношення відоме як «доброта придатності». Значення 1, 0 вказує на ідеальну відповідність, і, таким чином, це дуже надійна модель для майбутніх прогнозів, що вказує на те, що модель пояснює всі спостерігаються зміни. Значення 0, з іншого боку, вказувало б на те, що модель взагалі не може точно моделювати дані. Для моделі з декількома змінними, такими як модель множинної регресії, скоригований R 2 є кращим коефіцієнтом визначення. В економіці значення R 2 вище 0, 60 вважається доцільним.
Переваги аналізу коефіцієнта детермінації
Коефіцієнт визначення - це квадрат кореляції між передбачуваними балами в наборі даних проти фактичного набору балів. Він також може бути виражений як квадрат кореляції між балами X і Y, причому X є незалежною змінною, а Y - залежною змінною.
Незалежно від представлення, R-квадрат, рівний 0, означає, що залежну змінну неможливо передбачити, використовуючи незалежну змінну. І навпаки, якщо вона дорівнює 1, це означає, що залежність змінної завжди прогнозується незалежною змінною.
Коефіцієнт визначення, що потрапляє в цей діапазон, вимірює ступінь, коли залежна змінна прогнозується незалежною змінною. Наприклад, R-квадрат 0, 20 означає, що 20% залежної змінної прогнозується незалежною змінною.
Добрість прилягання або ступінь лінійної кореляції вимірює відстань між приталеною лінією на графіку та всіма точками даних, які розкидані навколо графіка. Об'ємний набір даних матиме лінію регресії, яка дуже близька до точок і має високий рівень прилягання, що означає, що відстань між лінією та даними дуже мала. Гарне пристосування має R-квадрат, близький до 1.
Однак R-квадрат не в змозі визначити, чи є упереджені точки даних або прогнози. Він також не повідомляє аналітику чи користувачеві, чи є коефіцієнт визначення значення хорошим чи ні. Наприклад, низький R-квадрат непоганий, і людина повинна приймати рішення на основі числа R-квадрата.
Коефіцієнт детермінації не слід тлумачити наївно. Наприклад, якщо R-квадрат моделі відображається на рівні 75%, дисперсія його помилок на 75% менше, ніж дисперсія залежної змінної, а стандартне відхилення її помилок на 50% менше, ніж стандартне відхилення залежної змінна. Стандартне відхилення помилок моделі становить приблизно третину розміру стандартного відхилення помилок, які ви отримаєте при моделі, що підтримує лише постійні.
Нарешті, навіть якщо значення R-квадрата велике, може бути відсутнім статистична значимість пояснювальних змінних в моделі, або ефективний розмір цих змінних може бути дуже малим на практиці.
