Що таке статистика Chi-Square?
Чі-квадрат ( χ 2) статистика - це тест, який вимірює порівняння очікувань із фактично спостережуваними даними (або результатами моделі). Дані, що використовуються при обчисленні статистики хі-квадрата, повинні бути випадковими, необробленими, взаємовиключними, виведеними з незалежних змінних та отриманими з достатньо великої вибірки. Наприклад, результати кидання монети в 100 разів відповідають цим критеріям.
Хі-квадратні тести часто використовуються при тестуванні гіпотез.
Формула для Chi-Square Is
χc2 = ∑ (Oi − Ei) 2Всюди: c = ступінь свободиO = спостережуване значення (s) E = очікуване значення (s) початок {вирівняне} & \ chi ^ 2_c = \ сума \ frac {(O_i - E_i) ^ 2} {E_i} \ & \ textbf {де:} \ & c = \ текст {ступені свободи} \ & O = \ текст {спостережувані значення} \ & E = \ текст {очікуване значення (и) } \ \ кінець {вирівняно} χc2 = ∑Ei (Oi −Ei) 2, де: c = ступені свободиO = спостережуване значення (s) E = очікуване значення (s)
Що говорить вам статистика Chi-Square?
Існує два основних види тестування на квадратні чі: квадратний тест на незалежність, який задає питання про взаємозв'язок, наприклад, "Чи існує взаємозв'язок між гендерними та показниками SAT?"; і тест на придатність, який запитує щось на кшталт "Якщо монета буде кинута 100 разів, чи підійдуть голови 50 разів, а хвости - 50 разів?"
Для цих тестів ступеня свободи використовується, щоб визначити, чи можна відкинути певну нульову гіпотезу на основі загальної кількості змінних та зразків в рамках експерименту.
Наприклад, якщо враховувати вибір студентів та вибір курсу, розмір вибірки 30 або 40 студентів, ймовірно, недостатньо великий, щоб генерувати значні дані. Отримання однакових або подібних результатів дослідження з використанням вибірки розміром 400 або 500 учнів є більш достовірним.
В іншому прикладі розглянемо метання монети 100 разів. Очікуваний результат відкидання справедливої монети в 100 разів - це те, що голови підійдуть 50 разів, а хвости підійдуть в 50 разів. Фактичним результатом може бути те, що голови піднімаються в 45 разів, а хвости - в 55 разів. Статистика хі-квадратів показує будь-які розбіжності між очікуваними результатами та фактичними результатами.
Приклад тесту Chi-Squared
Уявіть, що було проведено випадкове опитування серед 2000 різних виборців, як чоловіків, так і жінок. Люди, які відповіли, були класифіковані за їхньою статтю та чи були вони республіканськими, демократськими чи незалежними. Уявіть сітку із стовпцями, що позначаються республіканською, демократською та незалежною, та двома рядами, що позначаються чоловіком та жінкою. Припустимо, дані 2000 респондентів наступні:
Перший крок для обчислення статистичної статистики чі - це пошук очікуваних частот. Вони обчислюються для кожної "комірки" в сітці. Оскільки є дві категорії гендерних і три категорії політичних поглядів, існує шість загальних очікуваних частот. Формула очікуваної частоти:
E (r, c) = n (r) × c (r) ніде: r = рядок у questionc = стовпець у questionn = відповідний загальний \ початок {вирівняний} & E (r, c) = \ frac {n (r) раз c (r)} {n} \ & \ textbf {де:} \ & r = \ текст {рядок, про який йдеться} \ & c = \ текст {стовпець, про який йдеться} \ & n = \ текст {відповідний загальний} \ \ кінець {вирівняний} E (r, c) = nn (r) × c (r) де: r = рядок у questionc = стовпець у questionn = відповідний загальний
У цьому прикладі очікувані частоти:
- E (1, 1) = (900 x 800) / 2000 = 360E (1, 2) = (900 x 800) / 2 000 = 360E (1, 3) = (200 x 800) / 2 000 = 80E (2, 1) = (900 х 1200) / 2 000 = 540 Е (2, 2) = (900 х 1200) / 2 000 = 540 Е (2, 3) = (200 х 1200) / 2 000 = 120
Далі ці значення використовуються для обчислення статистичної статистики чи, використовуючи наступну формулу:
Chi-квадрат = ∑2E (r, c) де: O (r, c) = спостережувані дані для даного рядка та стовпця \ початок {вирівняний} & \ текст {Chi-квадрат} = \ сума \ frac {^ 2} {E (r, c)} \ & \ textbf {де:} \ & O (r, c) = \ текст {спостережувані дані для даного рядка та стовпця} \ \ кінець {вирівняні} Chi-квадрат = ∑E (r, c) 2, де: O (r, c) = спостережувані дані для даного рядка та стовпця
У цьому прикладі вираз для кожного спостережуваного значення:
- O (1, 1) = (400 - 360) 2/360 = 4, 44O (1, 2) = (300 - 360) 2/360 = 10O (1, 3) = (100 - 80) 2/80 = 5O (2, 1) = (500 - 540) 2/540 = 2, 96 О (2, 2) = (600 - 540) 2/540 = 6, 67 О (2, 3) = (100 - 120) 2/120 = 3, 33
Статистика хі-квадратів тоді дорівнює сумі цих значень або 32, 41. Потім ми можемо подивитися на таблицю статистичних даних у квадратних точках, щоб побачити, враховуючи ступінь свободи в нашій програмі, чи результат є статистично значущим чи ні.
