Що таке лінійна регресія?
Лінійна регресія - це графік даних, який графікує лінійну залежність між незалежною та залежною змінною. Зазвичай він використовується для візуального показу міцності взаємозв'язку та розповсюдження результатів - все з метою пояснення поведінки залежної змінної.
Скажімо, ми хотіли перевірити міцність зв’язку між кількістю з'їденого морозива та ожирінням. Ми взяли б незалежну змінну, кількість морозива, і відносимо її до залежної змінної, ожиріння, щоб побачити, чи існували стосунки. З огляду на те, що регресія є графічним відображенням цього співвідношення, чим менша мінливість даних, тим сильніша взаємозв'язок і тісніше прилягання до лінії регресії.
Ключові вивезення
- Лінійна регресія моделює взаємозв'язок між залежною та незалежною змінною (іми). Аналіз регресії може бути досягнутий, якщо змінні незалежні, немає гетероседастичності, а умови помилок змінних не співвідносяться. Моделювання лінійної регресії в Excel простіше з Пакет інструментів аналізу даних.
Важливі міркування
Існує кілька критичних припущень щодо вашого набору даних, які повинні бути правдивими, щоб продовжити аналіз регресії:
- Змінні повинні бути справді незалежними (за допомогою тесту Chi-квадрата). Дані не повинні мати різних відхилень помилок (це називається гетерокедастичністю (також написана гетероскедастичність)). Якщо ні, це означає, що змінні послідовно співвідносяться.
Якщо ці три речі звучать складно, вони є. Але ефект одного з цих міркувань не відповідає дійсності - це упереджена оцінка. По суті, ви б неправильно оцінювали відносини, які ви вимірюєте.
Виведення регресії в Excel
Перший крок для запуску регресійного аналізу в Excel - це повторна перевірка встановлення безкоштовного додатка для аналізу плагінів Excel ToolPak. Цей плагін робить обчислення діапазону статистики дуже простим. Не потрібно графікувати лінійну лінію регресії, але це робить спрощення створення таблиць статистики. Щоб перевірити, чи встановлено, виберіть "Дані" на панелі інструментів. Якщо "Аналіз даних" є опцією, функція встановлена та готова до використання. Якщо її не встановлено, ви можете запросити цю опцію, натиснувши кнопку Office та вибравши "Параметри Excel".
Використовуючи ToolPak аналізу даних, створення регресійного виходу - це лише кілька кліків.
Незалежна змінна переходить у діапазон X.
Враховуючи прибутки S&P 500, скажімо, ми хочемо знати, чи можемо ми оцінити силу та взаємозв’язок фондової віддачі Visa (V). Дані про повернення запасів Visa (V) заповнюють дані стовпця 1 як залежну змінну. S&P 500, що повертає дані, заповнює стовпчик 2 як незалежну змінну.
- Виберіть "Дані" на панелі інструментів. Відобразиться меню "Дані". Виберіть "Аналіз даних". Відобразиться діалогове вікно Аналіз даних - Інструменти аналізу. З меню виберіть "Регресія" та натисніть "ОК". У діалоговому вікні "Регресія" натисніть поле "Вхідний діапазон Y" та виберіть залежну змінну даних (Visa (V)) повертається). Клацніть поле "Вхідний діапазон X" і виберіть незалежні дані змінної (S&P 500 повертається). Клацніть "OK", щоб запустити результати.
Інтерпретувати результати
Використовуючи ці дані (ті ж самі, що в нашій статті R-квадрата), ми отримуємо таку таблицю:
Значення R 2, також відоме як коефіцієнт визначення, вимірює частку варіації залежної змінної, пояснену незалежною змінною, або наскільки добре регресійна модель відповідає даних. Значення R 2 коливається від 0 до 1, а більш високе значення вказує на кращу відповідність. Значення р або значення ймовірності також коливається від 0 до 1 і вказує, чи є тест значущим. На відміну від значення R 2, менше значення p є сприятливим, оскільки вказує на кореляцію між залежною та незалежною змінними.
Відображення регресії в Excel
Ми можемо намітити регресію в Excel, виділивши дані та побудувавши їх як графік розсіяння. Щоб додати лінію регресії, виберіть "Макет" у меню "Інструменти діаграми". У діалоговому вікні виберіть "Модний рядок", а потім "Лінійний тренд". Щоб додати значення R 2, виберіть "Інші параметри тенденції" у меню "Трендлайн". Нарешті, виберіть "Відобразити значення R-квадрата на графіку". Візуальний результат підсумовує міцність взаємозв'язку, хоча і за рахунок не надання стільки деталей, скільки в таблиці вище.
