Що таке сума квадратів?
Сума квадратів - це статистична методика, що використовується в регресійному аналізі для визначення дисперсії точок даних. При регресійному аналізі мета полягає в тому, щоб визначити, наскільки набір даних може бути пристосований до функції, яка може допомогти пояснити, як створювались дані серії. Сума квадратів використовується як математичний спосіб пошуку функції, яка найкраще відповідає (меншою мірою) від даних.
Формула для суми квадратів є
Сігналы абмеркавання Для множини X з n елементів: Сума квадратів = i = 0∑n (Xi −X) 2де: Xi = i-й елемент у множиніX = Середнє значення всіх елементів у множині (Xi −X) = Відхилення кожного елемента від середнього значення
Сума квадратів також відома як варіація.
Що говорить вам сума квадратів?
Сума квадратів - це міра відхилення від середнього. У статистиці середнє значення є середнім набором чисел і є найбільш часто використовуваним показником центральної тенденції. Середнє арифметичне просто обчислюється шляхом підсумовування значень у наборі даних та ділення на кількість значень.
Скажімо, ціни закриття Microsoft (MSFT) за останні п’ять днів склали 74, 01, 74, 77, 73, 94, 73, 61 та 73, 40 у доларах США. Сума загальних цін становить 369, 73 дол. США, і середня або середня ціна підручника, таким чином, становитиме 369, 73 дол. США / 5 = 73, 95 дол.
Але знання середнього набору вимірювань не завжди достатньо. Іноді, корисно знати, скільки варіацій у наборі вимірювань. Наскільки відстані окремих значень від середнього значення можуть дати деяке уявлення про те, наскільки спостереження чи значення підходять до створеної моделі регресії.
Наприклад, якщо аналітик хотів дізнатися, чи рухається ціна акцій MSFT в тандемі з ціною Apple (AAPL), він може перерахувати набір спостережень за процесом обох акцій за певний період, скажімо, 1, 2 або 10 років і створити лінійну модель з кожним із зафіксованих спостережень чи вимірювань. Якщо взаємозв'язок між обома змінними (тобто ціна AAPL та ціна MSFT) не є прямою лінією, то в наборі даних є різні зміни, які необхідно перевірити.
Якщо говорити в статистиці, якщо рядок у створеній лінійній моделі не проходить через усі вимірювання вартості, то деяка змінність, яка спостерігалася в цінах акцій, є незрозумілою. Сума квадратів використовується для обчислення того, чи існує лінійна залежність між двома змінними, а будь-яка незрозуміла мінливість називається залишковою сумою квадратів.
Сума квадратів - це сума квадрату варіації, де варіація визначається як спред між кожним окремим значенням і середнім. Для визначення суми квадратів відстань між кожною точкою даних та лінією найкращого розміру розміщується в квадраті, а потім підсумовується. Найкраще підходить лінія мінімізує це значення.
Як обчислити суму квадратів
Тепер ви можете зрозуміти, чому вимірювання називається сумою відхилень у квадраті, або сумою квадратів для коротких. Використовуючи наш вище приклад MSFT, суму квадратів можна обчислити так:
- SS = (74, 01 - 73, 95) 2 + (74, 77 - 73, 95) 2 + (73, 94 - 73, 95) 2 + (73, 61 - 73, 95) 2 + (73, 40 - 73, 95) 2 SS = (0, 06) 2 + (0, 82) 2 + (- 0, 01) 2 + (-0, 34) 2 + (-0, 55) 2 СС = 1, 04242
Додавання суми відхилень самостійно без квадратування призведе до числа, рівного або близькому до нуля, оскільки негативні відхилення майже ідеально компенсують позитивні відхилення. Щоб отримати більш реалістичне число, сума відхилень повинна бути у квадраті. Сума квадратів завжди буде додатним числом, оскільки квадрат будь-якого числа, будь то позитивний чи негативний, завжди є додатним.
Приклад способу використання суми квадратів
На основі результатів обчислення MSFT, велика сума квадратів вказує на те, що більшість значень знаходяться далі від середнього значення, а значить, є велика мінливість даних. Низька сума квадратів відноситься до низької мінливості в наборі спостережень.
У наведеному вище прикладі 1.0942 показує, що мінливість ціни акцій MSFT за останні п’ять днів дуже низька, і інвестори, які прагнуть інвестувати в акції, що характеризуються стабільністю цін і низькою волатильністю, можуть обрати для MSFT.
Ключові вивезення
- Сума квадратів вимірює відхилення точок даних від середнього значення. Більш високий результат суми квадратів вказує на велику мінливість всередині набору даних, тоді як нижчий результат означає, що дані значно відрізняються від середнього значення.
Обмеження використання суми квадратів
Для прийняття інвестиційного рішення про те, який запас придбати, потрібно набагато більше спостережень, ніж перелічені тут. Аналітику, можливо, доведеться працювати з даними років, щоб з більшою впевненістю знати, наскільки висока чи низька мінливість активу. Оскільки в набір додається більше точок даних, сума квадратів стає більшою, оскільки значення будуть більше розкинуті.
Найбільш широко використовувані вимірювання варіації - це стандартне відхилення та дисперсія. Однак, щоб обчислити будь-яку з двох метрик, спочатку слід обчислити суму квадратів. Дисперсія - це середня сума квадратів (тобто сума квадратів, поділена на кількість спостережень). Стандартне відхилення - квадратний корінь дисперсії.
Існує два методи регресійного аналізу, які використовують суму квадратів: метод лінійних найменших квадратів та метод нелінійних найменших квадратів. Метод найменших квадратів відноситься до того, що функція регресії мінімізує суму квадратів дисперсії від фактичних точок даних. Таким чином, можна намалювати функцію, яка статистично забезпечує найкраще відповідність даним. Зауважте, що функція регресії може бути як лінійною (пряма), так і нелінійною (крива лінія).
