Що таке гомоскедастика?
Гомоскедастичний (також написано "гомоскедастичний") означає стан, коли дисперсія залишкової або помилкового терміна в регресійній моделі є постійною. Тобто, термін помилки не сильно змінюється, оскільки змінюється значення змінної предиктора. Однак, відсутність гомоскедастичності може підказати, що регресийна модель може потребувати включення додаткових змінних предиктора для пояснення ефективності залежної змінної.
Ключові вивезення
- Гомоскедастичність виникає тоді, коли дисперсія терміна помилки в регресійній моделі є постійною. Якщо дисперсія терміна помилки гомоскедастична, модель була чітко визначена. Якщо занадто багато дисперсій, модель може бути визначена не так добре. Додавання додаткових змінних предиктора може допомогти пояснити ефективність залежної змінної. Окрім того, гетерокедастичність виникає, коли дисперсія терміна помилки не є постійною.
Як працює гомоскедастика
Гомоскедастичність - це одне припущення лінійного моделювання регресії. Якщо дисперсія помилок навколо регресійної лінії сильно різниться, модель регресії може бути погано визначеною. Протилежністю гомоскедастичності є гетерокедастичність так само, як протилежність "гомогенній" є "гетерогенною". Гетероскедастичність (також написана "гетероседастичність") означає стан, коли дисперсія терміна помилки в рівнянні регресії не є постійною.
Враховуючи, що дисперсія - це виміряна різниця між прогнозованим результатом і реальним результатом даної ситуації, визначення гомоскедастичності може допомогти визначити, які фактори необхідно скорегувати для точності.
Спеціальні міркування
Проста модель регресії, або рівняння, складається з чотирьох доданків. Зліва - залежна змінна. Він являє собою явище, яке модель прагне «пояснити». Права сторона - константа, змінна предиктора та залишковий або помилковий термін. Термін помилки показує величину змінності залежної змінної, яка не пояснюється змінною предиктора.
Приклад гомоскедастичного
Наприклад, припустимо, що ви хотіли пояснити результати тестів студентам, використовуючи кількість часу, який кожен студент витратив на навчання. У цьому випадку тестові бали були б залежною змінною, а час, витрачений на вивчення, буде змінною прогнозника.
Термін помилки буде показувати кількість дисперсії в тестових балах, яка не була пояснена кількістю вивченого часу. Якщо ця дисперсія є рівномірною або гомоскедастичною, то це може припустити, що модель може бути адекватним поясненням для тестової продуктивності - пояснення її з точки зору витраченого часу на вивчення.
Але дисперсія може бути гетероскедастичною. Діаграма даних про термін помилки може показувати, що велика кількість часу дослідження дуже відповідала високим тестовим балам, але, що низькі бали часу тестування в навчальному періоді значно відрізнялися і навіть включали деякі дуже високі бали. Таким чином, дисперсія балів не була б добре пояснена просто однією змінною предиктора - кількістю вивченого часу. У цьому випадку певний фактор, ймовірно, працює, і модель, можливо, потребує вдосконалення для того, щоб визначити його чи їх. Подальше розслідування може виявити, що деякі студенти бачили відповіді на тест достроково або що вони раніше проходили подібний тест, і тому не потрібно було вивчати саме цей тест.
Для вдосконалення моделі регресії дослідник, таким чином, додав би ще одну пояснювальну змінну, яка вказує, чи бачив студент відповіді до тесту. Тоді модель регресії мала б дві пояснювальні змінні - час вивчення та чи студент попередньо знав відповіді. За допомогою цих двох змінних пояснюватиметься більшість дисперсійності тестових балів, і дисперсія терміна помилки може бути потім гомоскедастичною, що дозволяє припустити, що модель була чітко визначена.
