Схильність до приватності: факторний аналіз

Перелік запитань, з якими будемо працювати і назви відповідних їм змінних, що фігуруватимуть у факторному аналізі:

Назва змінної Запитання
Блок 1. Загальне ставлення до приватності
V1
  1. Чи з легкістю Ви згідні до оприлюднення даних про Ваші статки (майно, гроші) на вимогу
V2
  1. Чи вважаєте Ви, що оприлюднення інформації про статки покращує роботу публічних сервісів
V3
  1. Чи вважаєте Ви, що оприлюднення інформації про статки покращує роботу приватних сервісів
V4
  1. Чи віддаєте Ви перевагу зустрічатися з друзями у Вас вдома
V5
  1. Чи вважаєте, що дітям не обов’язково мати окрему кімнату
V6
  1. Проживаючи в гуртожитку, чи віддали би Ви перевагу більшій кількості сусідів
V7
  1. Чи готові Ви поділитися предметами особистої гігієни
V8
  1. Чи часто Ви розповідаєте про обставини Вашого життя під час довгої подорожі
V9
  1. Чи прийнятним для Вас є обговорювати гострі політичні чи соціальні теми з мало знайомими Вам людьми
V10
  1. Чи прийнятним для Вас є ділитися емоціями та переживаннями зі свого особистого життя з колегами чи приятелями
Блок 2. Cтавлення до приватності в цифровому середовищі
V11
  1. Чи активні Ви у соціальних мережах
V12
  1. Чи вважаєте Ви, що краще, коли профіль в соціальних мережах є відкритий
V13
  1. Чи Ви ділитеся в соціальних мережах інформацією про особисті переживання та моменти Вашого особистого життя (подорожі, відвідування цікавих подій та місць, зустрічі з друзями тощо)
V14
  1. Ви намагаєтесь якомога повніше заповнити Ваш профіль в соціальних мережах і вчасно вносите в нього зміни
V15
  1. Чи з легкістю заповнюєте відповідні графи в онлайн-опитуваннях, он-лайн реєстраціях
V16
  1. Чи надаєте інформацію про себе в онлайн-опитуваннях, он-лайн реєстраціях, якщо є можливість цього не робити
V17
  1. Чи погоджуєтесь Ви з думкою, що відстеження персональних даних відвідувачів інтернет-сайтів без їх відома є прийнятним
V18
  1. Чи дозволяєте Ви відстежувати Ваші персональні дані при відвідуванні інтернет-сайтів
V19
  1. Чи вважаєте Ви, що регуляції діяльності цифрових сервісів є надійною гарантією від застосування Ваших персональних даних з комерційною метою
V20
  1. Чи прийнятним для Вас є факт, що Ваші персональні дані використовуються з комерційною метою без Вашого відома навіть тоді, коли це покращує послуги, споживачем яких Ви можете бути
Блок 3. Cтавлення до приватності щодо грошей в цифровому середовищі в інституціональному контексті
V21
  1. Чи віддаєте Ви перевагу цифровим (дистанційним) формам грошових трансакцій навіть якщо Вони передбачають початкову клієнтську ідентифікацію
V22
  1. Чи вважаєте Ви, що цифрові трансакції гарантують рівень анонімності, співставний з паперовими грішми
V23
  1. Чи з легкістю Ви готові проходити процедури ідентифікації клієнта фінансової установи
V24
  1. Чи вважаєте Ви, що інформація про Вас як клієнта краще захищена в державних фінансових установах, ніж приватних
V25
  1. Чи допускаєте Ви, що фінансові установи повинні поширювати інформацію про Вас на вимогу відповідних органів влади
V26
  1. Чи допускаєте Ви, що фінансові установи інвестують значні зусилля (кошти) в захист Ваших персональних даних
V27
  1. Чи погоджуєтесь Ви з думкою, що державні фінансові регулятори гарантують збереження інформації про Вас задля уникнення зловживання владою інших державних органів
V28
  1. Чи вважаєте Ви, що державні фінансові регулятори нагромаджують і обробляють інформацію про фінансові трансакції громадян виключно з метою покращення регулювання
V29
  1. Чи погоджуєтесь Ви з думкою, що розкриття інформації про себе є більш ризиковим в разі, якщо є підстави вважати, що її затребує фінансова установа з монопольною владою
V30
  1. Чи прийнятним для Вас є факт, що відстежуваність фінансових трансакцій може стати нормою в суспільстві
Примітка: Запитання вимірюються у 5-бальній шкалі: 1 - За будь-яких обставин, 2 - Швидше так, 3 - Не знаю, 4 - Швидше ні, 5 - В жодному випадку

Для того, щоб зрозуміти, чи вимірюють всі запитання/блоки запитань схильність до приватності та її різні аспекти, застосуємо конфірматорний факторний аналіз (КФА). З його допомогою побудуємо по 4 моделі для кожної: перша стосуватиметься 1-го блоку запитань, друга модель – другого, третя – третього, а четверта – всіх 30 запитань. На рисунках нижче зображено ці моделі та наведено показники якості для них. Значення CFI та TLI > 0.9 та RMSEA < 0.08 вказують на прийнятну відповідність моделі даним. Всі показники усіх наведених моделей виходять за вказані межі й не демонструють прийнятної відповідності даним. Це може вказувати на те, що, імовірно, деякі із запитань доведеться видалити, оскільки вони не вимірюють схильність до приватності та/або певні її аспекти. Також це наводить на думку про те, що самі по собі блоки запитань є неоднорідними, тобто кожен з них може стосуються кількох різних аспектів схильності до приватності, а, отже, складатися з кількох факторів. Тож розглянемо два сценарії. Перший передбачає, що кожен блок запитань стосується одного аспекту схильності до приватності. В цьому випадку кожен блок запитань відповідає одному фактору. Другий сценарій розглядає те, що кожен блок запитань може стосуватися декількох аспектів схильності до приватності. Тобто кожен блок запитань може включати декілька факторів.

Сценарій 1: кожен блок запитань окреслює один аспект схильності до приватності

Автори опитувальника орієнтувалися на 3 блоки запитань, тож спробуємо з’ясувати, які запитання в кожному блоці є проблемними. Для цього застосуємо КФА.

Блок 1

Для початку ми побудуємо кореляційну матрицю Спірмана для блоку 1 (Україна).

Бачимо, що запитання 4-8 слабо корелюють із загальною сумою балів за блоком (SUM1), а також не корелють між собою. Статистично значущу кореляцію знаходимо між змінними V1, V2. Ці дві змінні корелюють з V3 та V9, Однак V3 та V9 між собою не корелюють.

Перевіримо якість моделі для блоку 1 за умови видалення запитань 4-8.

Показники відповідності даним є непоганими, однак RMSEA зависокий. З розрахованих факторних навантажень бачимо, що змінна V3 (“Чи вважаєте Ви, що оприлюднення інформації про статки покращує роботу приватних сервісів”) дуже сильно корелює, фактично ототожнюється з латентною змінною. Однак фактор має розраховувати загальне ставлення до приватності, а не про ставлення до оприлюднення інформації про статки, тому спробуємо видалити запитання V3.

В даній моделі факторні навантаження розподілені практично рівномірно, що дає аргументи на користь використання адитивного індексу. Отримана модель дуже добре відповідає даним.

Блок 2

Будуємо матрицю кореляцій Спірмана для запитань другого блоку (Україна).

Бачимо, що запитання V11, V15, V16 та V19 загалом гірше корелюють з сумарним балом в блоці (SUM2) у порівнянні з іншими змінними. З матриці також бачимо два окремих набори взаємокорелюючих змінних: V17-V20 та V11, V13, V14. Ці патерни можуть вказувати на те, що блок 2 стосується мінімум 2 різних аспектів схильності до приватності і, відповідно, складається із щонайменше двох факторів (це в подальшому підтвердив EFA, див. сценарій 2).

Перевіримо якість моделі для блоку 2, якщо видалити запитання 11, 15, 16 та 19. Модель не демострує прийнятної відповідності даним.

Запитання 17-20 корелюють між собою і змістовно є ближчими до того, що має міряти блок 2. Перевіримо, чи міряють вони один фактор.

Така модель ідеально відповідає даним. Латентний фактор найбільше корелює з запитанням 18 (“Чи дозволяєте Ви відстежувати Ваші персональні дані при відвідуванні інтернет-сайтів”).

Блок 3

Будуємо матрицю кореляцій для третього блоку запитань (Україна).

Змінні V21, V24, V25, V29, V30 гірше корелюють з сумарним балом по блоку (SUM3). Разом з тим, змінні в блоці здебільшого не корелюють між собою. Винятком є змінні V26-V28.

Перевіримо якість моделі для запитань блоку 3, якщо видалити змінні V21, V24, V25, V29, V30. Бачимо, що модель відповідає даним.

Щодо інших країн, для них аналіз не здійснювався з ряду причин. По-перше, вибірка представників різних країн є досить малою (57 респондентів) і до неї входять респонденти з 8 різних країн. А в різних культурах ставлення до приватності може відрізнятися, причому суттєво. По-друге, запитання респондентам з інших країн ставилися англійською мовою. І ми не маємо впевненості у тому, що запитання українською та англійською сприймалися респондентами однаково. Крім того, ми не знаємо, наскільки гарний рівень володіння цією мовою мали респонденти, адже не для всіх вона могла бути рідною (наприклад, для респондентів з Польщі чи Узбекистану).


Сценарій 2: кожен блок запитань може стосуватися кількох аспектів схильності до приватності

Для того, щоб зрозуміти, яких і скількох аспектів приватності стосується кожен блок запитань, застосуємо експлораторний факторний аналіз (ЕФА). Більше того, саме він дозволить зрозуміти, які запитання має сенс видалити і не включати до подальшого аналізу. Видалення запитань відбуватиметься покроково, за один крок будемо видаляти не більш, ніж одне запитання з блоку. Орієнтуватися при цього будемо на показник загальності: на кожному кроці видалятиметься запитання з найменшим значенням загальності. Видалення припиняється тоді, коли факторні навантаження кожного із запитань для хоча б одного з факторів будуть більшими за 0.3.

Слід також відзначити, що перед виконанням ЕФА ми будемо перевіряти придатність даних для факторного аналізу. Якщо КМО більший за 0.5, а рівень значущості для критерію Бартлета <= 0.05, ми, загалом, можемо використовувати ЕФА для наших змінних; в іншому разі ми не можемо цього робити.

Розпочнемо з першого блоку запитань (для України). Значення КМО для нього становить 0.603, а рівень значущості для критерію Бартлета не перевищує 0.05. Тож для цих даних ми можемо застосовувати факторний аналіз. Також для визначення кількості факторів було застосовано ряд тестів (серед них критерій Кайзера, паралельний аналіз), більшість з яких пропонують дво- або трифакторне рішення. Якщо тести надають декілька варіантів, ми будемо обирати серед запропонованих найменшу кількість факторів. Тож в даному випадку обираємо двофакторне рішення. Метод обертання (у всіх випадках, коли буде обрано кількість факторів більшу, ніж 1) – облімін.

Виявилось, що для першого блоку потрібно видалити запитання 4, 7 та 8. В результаті маємо 7 запитань, об’єднаних у два фактори, котрі пояснюють 35.2% дисперсії. Перший фактор (F1) характеризує схильність до приватності під час оприлюднення даних щодо власних статків. А другий фактор (F2) стосується питання особистого простору (фізичного і так званого “внутрішнього”).

F1 F2
V1 0.550 -0.012
V2 0.701 0.033
V3 0.824 -0.206
V5 -0.111 0.370
V6 -0.129 0.434
V9 0.312 0.350
V10 0.258 0.556

Для другого блоку (Україна) значення КМО для нього становить 0.609, а рівень значущості для критерію Бартлета не перевищує 0.05. Для цих даних ми також можемо застосовувати ЕФА. Найчастіше тести вказують на прийнятність двохфакторного рішення, тож було обрано саме його. В результаті з блоку 2 видалено запитання 15 та 16, тож маємо 8 запитань, об’єднаних у два фактори, що пояснюють 38.7% дисперсії. Перший фактор (F1) стосується ставлення до відстеження персональних даних в Інтернеті (зокрема з комерційною метою). Другий фактор (F2) характеризує схильність до приватності у соціальних мережах (а саме активності та публікації особистих даних).

F1 F2
V11 -0.150 0.333
V12 0.224 0.403
V13 -0.015 0.463
V14 0.075 0.993
V17 0.674 -0.025
V18 0.807 0.064
V19 0.397 -0.138
V20 0.481 0.126

Щодо третього блоку (Україна), для нього значення КМО становить 0.581, а рівень значущості для критерію Бартлета не перевищує 0.05. Тобто для цих даних ми можемо застосовувати ЕФА. Найчастіше тести вказують на прийнятність одно- або трифакторного рішення. Ми обрали однофакторне рішення. Всього довелось видалити 6 запитань (21, 23-25, 29, 30). Фактор (F1) пояснює 23.2% дисперсії і стосується анонімності, захищеності цифрових грошових трансакцій. Слід відзначити, що для цього фактора було відібрано майже ті ж змінні, що й у першому сценарії.

F1
V22 0.348
V26 0.535
V27 0.564
V28 0.451

Отже, ми видалили загалом 11 змінних і отримали по два фактори для перших двох блоків та 1 фактор для третього блоку. В цілому, на цьому б можна завершити. Але спробуємо побудувати загальну модель, яка включає 5 факторів, застосувавши для цього КФА.

Однак виявилось, що показники якості такої моделі не дотягують до вказаних вище порогових значень (CFI = 0.848, TLI = 0.817, RMSEA = 0.091). Тож варто спробувати її покращити; покращення моделі відбувається доти, доки ми не досягнемо прийнятних показників CFI, TLI та RMSEA. В нашому випадку воно відбулося за три кроки:

  1. було видалено запитання 5 і 6, адже вони мали факторні навантаження, менші за 0.3
  2. до фактора 2 (F2) додано запитання 11 (оскільки це не дуже добре, коли фактор навантажений лише двома змінними; краще, щоб він був навантажений принаймні трьома змінними)
  3. до фактора 5 (F5) додано запитання 191

Таким чином, фінальна модель має наступні показники якості: CFI = 0.957, TLI = 0.945, RMSEA = 0.054. Це цілком прийнятні показники якості моделі, вона відповідає даним. Виглядає фінальна модель схильності до приватності наступним чином:

Фактори фінальної моделі можна проінтерпретувати наступним чином:

  1. F1 – схильність до приватності під час оприлюднення даних щодо власних статків
  2. F2 – схильність до приватності в особистому спілкуванні (на противагу соціальним мережам)
  3. F3 – схильність до приватності у соціальних мережах
  4. F4 – ставлення до відстеження персональних даних в Інтернеті
  5. F5 – оцінка безпечності та анонімності цифрових грошових трансакцій, ставлення до використання даних з комерційною метою

Слід відзначити, що проробити ЕФА, а потім КФА для інших країн так само, як це було зроблено для України, не вдалося. КМО для кожного із трьох блоків запитань був менший за 0.5 (0.458 для 1-го блоку, 0.477 для 2-го і 0.497 для третього), що вказує на непридатність цих даних для проведення ЕФА.

Рекомендації

Вищенаведений аналіз дозволив нам сформулювати наступні рекомендації:

  1. Отримані моделі варто перевірити на інших вибірках, більших за розміром.

  2. Слід пересвідчитись, що формулювання запитань є зрозумілими для респондентів.

  3. Краще за все при конструюванні вибірки для інших країн не “змішувати” респондентів з різних країн, адже вони можуть мати дуже різну схильність до приватності. Має сенс формувати вибірки для кожної з них окремо, що дозволить порівняти представників різних країн між собою та з Україною.

  4. Має сенс особливу увагу приділяти перекладу запитань, якщо анкети пропонуються різними мовами. Це дозволить упевнитися, що запитання будуть розумітися всіма респондентами якщо не однаково, то принаймні дуже схожим чином.


  1. КФА пропонує варіанти покращення моделі і дозволяє обрати найкращі з них. Таке покращення відбувається або шляхом додавання змінних до того чи іншого фактора, або через додавання коваріацій між похибками змінних.↩︎