Показано с 1 по 13 из 13
  1. #1
    Член сообщества
    Регистрация
    06.12.2005
    Сообщений
    236

    Question Оценить погрешность

    Уважаемые господа, добрый день!

    Подскажите, пожалуйста, какими стат. тестами мне подтвердить валидность выборки, по которой я провожу свое исследования (по социологической тематике). Скажем, я провожу опрос некоторого количества людей (в интернете), получаю результаты. И потом мне хочется эти результаты экстраполировать на все население России. У меня есть количество людей в выборке и все население России. На основании только этого соотношения можно как-нибудь оценить погрешность? Поделитесь опытом и формулами, пожалуйста.

    И второй вопрос. Кто-то встречал исследования, посвященные русскоязычной аудитории интернета с точки зрения "соответствия" интернетовской аудитории параметрам "всего русскоязычного населения России"?

    Большое спасибо

  2. #2
    Член сообщества
    Регистрация
    06.12.2005
    Сообщений
    236

    По умолчанию

    Господа, еще такой вопрос. Попадались ли Вам исследования, в которых содержался бы ответ на вопрос - является ли язык Интернета языком масс? Я провожу исследование на базе текстов, размещенных в Интернете - расчитываю некую функцию. Теперь по-хорошему, мне нужно проверить соответствие выборки (русскоязычных текстов Интернета) всем русскоязычным текстам. На первый взгляд, это нереально, но может быть кто-то уже что-нибудь подобное, похожее проводил?

  3. #3

    По умолчанию

    Цитата Сообщение от yaBB
    Уважаемые господа, добрый день!

    Подскажите, пожалуйста, какими стат. тестами мне подтвердить валидность выборки, по которой я провожу свое исследования (по социологической тематике). Скажем, я провожу опрос некоторого количества людей (в интернете), получаю результаты. И потом мне хочется эти результаты экстраполировать на все население России. У меня есть количество людей в выборке и все население России. На основании только этого соотношения можно как-нибудь оценить погрешность? Поделитесь опытом и формулами, пожалуйста.

    И второй вопрос. Кто-то встречал исследования, посвященные русскоязычной аудитории интернета с точки зрения "соответствия" интернетовской аудитории параметрам "всего русскоязычного населения России"?

    Большое спасибо
    Если выборка репрезентативная, то ее точность вы можете определить обычными стат методами - ошибка средней величины по выборке равна s*tn-1/n^0.5, где tn-1 - распределение Стьюдента с n-1 степенью свободы, s - выборочное стандартное отклонение.

  4. #4

    По умолчанию

    Цитата Сообщение от yaBB
    Господа, еще такой вопрос. Попадались ли Вам исследования, в которых содержался бы ответ на вопрос - является ли язык Интернета языком масс? Я провожу исследование на базе текстов, размещенных в Интернете - расчитываю некую функцию. Теперь по-хорошему, мне нужно проверить соответствие выборки (русскоязычных текстов Интернета) всем русскоязычным текстам. На первый взгляд, это нереально, но может быть кто-то уже что-нибудь подобное, похожее проводил?
    Почитайте про тесты на различие средних. А в принципе можно и не читать - в экселе в надстройке "анализ данных" встроены двухвыборочные тесты.

  5. #5
    Член сообщества
    Регистрация
    06.12.2005
    Сообщений
    236

    По умолчанию

    Цитата Сообщение от WLMike
    Почитайте про тесты на различие средних. А в принципе можно и не читать - в экселе в надстройке "анализ данных" встроены двухвыборочные тесты.
    WLMike, а можете проинтерпретировать t-статистику? Нет под рукой сейчас книжки по мат. статистике, забыл, что с чем сравнивать..

    Спасибо за идею.


  6. #6

    По умолчанию

    Средние статистически неразличимы при разумных уровнях значимости. У вас большая дисперсия, несущественное различие и очень мало данных. Навскидку я прикинул, что вам нужно около 10000 испытаний для того, чтобы доказать различие, если оно конечно есть.

  7. #7

    По умолчанию

    Ваша задача неразрешима, т.к. выборка не является случайной. У Вас - выборка доступных случаев.

  8. #8
    Член сообщества
    Регистрация
    06.12.2005
    Сообщений
    236

    По умолчанию

    Цитата Сообщение от WLMike
    Средние статистически неразличимы при разумных уровнях значимости.
    Майк, я не понимаю все равно откуда такой вывод.. Я запустил этот тест, но результаты его (ниже t-статистики) я не понимаю и справка мне мало что объясняет.. Что такое t критическое одностороннее, двусторонее? С чем их нужно сравнивать, чтобы сделать выводы? Какие выводы?

    У вас большая дисперсия, несущественное различие и очень мало данных. Навскидку я прикинул, что вам нужно около 10000 испытаний для того, чтобы доказать различие, если оно конечно есть.
    А как Вы прикинули, что мне нужно сделать 10 тыс. испытаний? Я видел в некоторых исследованиях (схожих с моими), где вывод о различии делался на основании 15-20 испытаний..

  9. #9
    Член сообщества
    Регистрация
    12.12.2005
    Сообщений
    605

    По умолчанию

    Цитата Сообщение от yaBB
    Подскажите, пожалуйста, какими стат. тестами мне подтвердить валидность выборки, по которой я провожу свое исследования (по социологической тематике).
    Для начала, правильный термин в этом случае не "валидность", а "репрезентативность". И оценить ее не так просто. Самый "надежный" способ -- повторить исследование на выборке, полученной другим способом. Если оба исследования приведут к близким результатам, можно заключить, что обе выборки репрезентативны (но все равно остается вопрос, представляют ли они все население или только какой-то его сегмент). Если результаты сильно разные, по крайней мере одна из выборок (а, возможно, и обе) нерепрезентативна.

    Скажем, я провожу опрос некоторого количества людей (в интернете), получаю результаты. И потом мне хочется эти результаты экстраполировать на все население России.
    Не стоит. Выборка, полученная таким образом, будет сильно сдвинута в сторону относительно молодых людей из семей с достатком выше среднего, проживающих в крупных городах.

    И второй вопрос. Кто-то встречал исследования, посвященные русскоязычной аудитории интернета с точки зрения "соответствия" интернетовской аудитории параметрам "всего русскоязычного населения России"?
    Мне лично не попадалось. Навскидку, такого соответствия нет и на сегодня быть не может. О причинах см. выше.

  10. #10

    По умолчанию

    Цитата Сообщение от yaBB
    Майк, я не понимаю все равно откуда такой вывод.. Я запустил этот тест, но результаты его (ниже t-статистики) я не понимаю и справка мне мало что объясняет.. Что такое t критическое одностороннее, двусторонее? С чем их нужно сравнивать, чтобы сделать выводы? Какие выводы?
    Сравнивать надо ваше t с критическим. Двустороннее используется, когда надо проверить отличие, но не важно какая средняя больше. Одностороннее используется, когда вы хотите проверить, что конкретная средняя больше.

    Цитата Сообщение от yaBB
    А как Вы прикинули, что мне нужно сделать 10 тыс. испытаний?
    У вас t=0.0885, нужно 2.0422, то есть в 23 раза больше. Точность оценок большинства стат. показателей растет пропорционально корню из числа испытаний, то есть вам надо увеличить количество испытаний в 23*23=529 раз, или 16*529~8500 штук.

    Цитата Сообщение от yaBB
    Я видел в некоторых исследованиях (схожих с моими), где вывод о различии делался на основании 15-20 испытаний.
    Мне слабо в это верится. Вообще считается, что 15-20 испытаний — это не очень хорошо, особенно если не точные, а асимптотические методы используются. Но даже если на это забить, то дисперсии средних будут слишком высоки, а поэтому удастся доказать что-то только в случае наличия достаточно сильных отклонений по двум выборкам. Если отличия минимальны – например как у вас — средние отличаются на 0,3, а дисперсии исчисляются сотнями, то есть квадратичные отклонения около 10, то испытаний надо грубо столько чтобы квадратичное отклонение деленное на корень из количества испытаний стало сопоставимо с отклонением средних, а обычно в 3 и более раза меньше. То есть в вашем случае 0,3/3~10/n^0.5, или n~10000. То есть то же самое, что я вам выше писал и другим способом получил.

  11. #11
    Член сообщества
    Регистрация
    06.12.2005
    Сообщений
    236

    По умолчанию

    Цитата Сообщение от WLMike
    Мне слабо в это верится. Вообще считается, что 15-20 испытаний — это не очень хорошо, особенно если не точные, а асимптотические методы используются. Но даже если на это забить, то дисперсии средних будут слишком высоки, а поэтому удастся доказать что-то только в случае наличия достаточно сильных отклонений по двум выборкам.
    Сильных отклонений в чем конкретно? В средних?

    Спасибо большое за ответы, Wlmike!

    Цитата Сообщение от nchuvakhin
    Не стоит. Выборка, полученная таким образом, будет сильно сдвинута в сторону относительно молодых людей из семей с достатком выше среднего, проживающих в крупных городах.
    Это я уже понял.. Еще у меня исследование строится на анализе текстров , представленных в интернете.. Так мало того, что средний пользователь интернета - это не средний житель России, так еще тексты, представленные в Интернете - это, возможно, не тексты, которые производит средний пользователь Интернета в общей массе производимых текстов.. И куда смещена эта выборка, мне, к сожалению, не понятно.. Интуитивно, вроде как тексты Интернета - это тексты общества, пускай того же среднего класса (вся периодика, научные статьи, форумы на все случаи жизни, все книжки практически уже оцифрованы и входят в базу данных текстов Интернета..). Но доказать это - как? Не верю я, что тексты, которые "производит" в интернете средний пользователь среднего класса - это общение на форумах на темы, связанные, например, с сексом.. И только.. Ну не верю. А доказать не могу..

  12. #12

    По умолчанию

    Цитата Сообщение от yaBB
    Сильных отклонений в чем конкретно? В средних?
    Ну мы же только про средние говорим

  13. #13

    По умолчанию

    yaBB

    «Подскажите, пожалуйста, какими стат. тестами мне подтвердить валидность выборки, по которой я провожу свое исследования (по социологической тематике). Скажем, я провожу опрос некоторого количества людей (в интернете), получаю результаты. И потом мне хочется эти результаты экстраполировать на все население России. У меня есть количество людей в выборке и все население России. На основании только этого соотношения можно как-нибудь оценить погрешность? Поделитесь опытом и формулами, пожалуйста.»

    Вы задали интересные вопросы.

    1.С одной стороны ст.методы для этих целей активно используются и литературы для это есть достаточно много.
    Впрочем социология для меня неблизкая тема, но одну близкую книгу укажу – Сидоренко Е. Методы математической обработки в психологии, С.Петербург, Речь, 2000 г.
    Там есть ссылки на некоторые другие книги.

    2.Но это хорошо для общества, относительно СТАБИЛЬНОГО, где мнения и настроения НЕ ПОДАВЛЕНЫ (или придавлены) и интересы групп населения как-то относительно объективно представлены. А групп населения разных - МНОГО. И интернетовская (рунетовская) группа СОВСЕМ НЕ ПРЕДСТАВЛЯЕТ ОБЩЕРОССИЙСКУЮ, а лишь один из сегментов.

    Кроме того, сама интернетовская группа весьма разнородна. Например, в ней присутствует как минимум несколько групп (государственных или приближенных к нему), которые оказывают очень сильное воздействие на Рунет. Подавляют отдельные сайты, форумы, отдельных участников и это делается масштабно по всей стране. Сам наблюдал, как активно подавляли в 2003-2004 гг. форум общероссийской общественной организации малого бизнеса «Опора», -оскорбляли, клеветали, угрожали, срывали обсуждения и т.п.
    И в конце концов – открытый форум тогда подавили, а организация постепенно превратилась в союзника действующей власти. Естественно все это отражается и очень существенно на все опросы и голосования, которые происходят в российском рунете.

    3.Для анализа в этой ситуации без методов технологий DataMining не обойтись. Обычная статистика, даже с базированием на западные источники методов, - Вас все равно приведет к ложным (или сильно искаженным) результатам. Это если Вас действительно интересует существо результатов.

    4.Есть еще интересная сторона темы. В России, явно одной из немногих стран мира, существует малоизвестная широкой публике масштабная (с подключением если не всех, то многих регионов страны) автоматизированная система оценки общественного мнения, как по регионам, так и по стране в целом, в т.ч. по совершенно разным темам, интересующих органы власти. Источники информации -совершенно разные, например, печатные и Рунет. Но есть конечно и специфические – потоки писем в органы власти, оперативная – спецслужб и т.п. На мой взгляд, это одна из причин, почему некоторые средства СМИ, явно оппозиционные власти, – не закрываются. – эта автоматизированная система лишится важных источников информации, уже на них настроенная.

    Кое-кого может и удивит существование такой мощной системы, но я бы и сам не поверил. Если бы сам не присутствовал на открытой всероссийской конференции (где-то в 2000 или 2001 г.), которое устраивалось коммерческой организацией, где было около 1000 участников. Тогда выступал один из руководителей ФАПСИ (тогда она еще в ФСБ не входила), доктор наук. Рассказывал все вполне подробно и структуру системы и основные методы работы с хорошей компьютерной презентацией. Мне все понравилось, вполне хороший и проработанный научный уровень. Явно, что эта масштабная работа велась давно, начиная с советских времен, но в 90-е годы была активизирована и доведена до неплохого уровня.
    Больше об этой системе я не слыхал, кроме разве что отдельных намеков отдельных политиков, – весьма изредка.
    В ней конечно уже есть ответы на некоторые Ваши вопросы.
    Но вряд ли Вы доберетесь до тех закрытых исследований в этой области, которые были применены в этой системе.

    «Я провожу исследование на базе текстов, размещенных в Интернете - расчитываю некую функцию. Теперь по-хорошему, мне нужно проверить соответствие выборки (русскоязычных текстов Интернета) всем русскоязычным текстам. На первый взгляд, это нереально, но может быть кто-то уже что-нибудь подобное, похожее проводил?»

    В принципе, рунетовский язык конечно отличается от русского. Для этого Вам просто надо иметь исследования по этому самому языку. В принципе такие источники, даже книги есть, сам в руках держал – но у меня нет, а авторов не помню, посклльку они мне не нужны. Но тут уже исследования мало отличаются, например, от исследования влияния фразеологизмов.

Ваши права

  • Вы не можете создавать новые темы
  • Вы не можете отвечать в темах
  • Вы не можете прикреплять вложения
  • Вы не можете редактировать свои сообщения
  •