версия от 14.04.2017

Здесь представлены скорее популярные определения терминов. Вместе с тем, каждый интересующийся может узнать много нового, прочитав оригинальные работы (и все те, что с ними связаны, например, цитированием), которые доступны по гиперссылке.

Scientific misconduct — недобросовестная научная практика (?)

HARKing — формулирование гипотезы после получения результатов.

P-hacking (data dredging, data fishing) — принятие решения, основанного на анализе данных, выполненном без предварительной гипотезы.

Publication bias — ошибка в оценке опубликованных данных, связанная прежде всего с неопубликованием (равно как и публикацией в трудно доступных для поиска источниках) «неудобных» результатов научных исследований,  а также с множественной публикацией предпочтительных результатов научных исследований.

Продолжение следует …

Глоссарий: «кривые» практики в науке: 9 комментариев

  1. Определение для Р-hacking кажется неудачным — это не принятие решения, а собственно сам анализ данных с целью выдвижения гипотез (в т.ч. любой т.н. вторичный анализ данных), сопровождающийся расчетом Р. Data mining=data dredging=data fishing имеют право на жизнь, поэтому не надо априори придавать им негативный оттенок. Весь вопрос в том, правильно ли интерпретируются результаты такого анализа, который направлен именно не на проверку, а на выдвижение гипотез.

    1. 1. Здесь скорее популярные определения специальных терминов. Проводить каждый раз терминологические исследования или давать определения (как правило, замороченные) из словарей, не планировалось
      2. По поводу Р-hacking не соглашусь. Никто не проводит анализ ради анализа. Только с целью принятия решения о том или ином. Но не исключаю, что в узком смысле этот термин можно трактовать именно как процесс, а в широком — как результат. Можно выбирать понравившийся вариант 🙂
      3. О праве на жизнь мне сложно судить. Но, мне кажется, это уже всеми принятый тезис: без гипотезы никаких фишингов. И как раз тезис «правильно интерпретировать» является ошибочным. «правильно», как оказалось, понятие растяжимое.

      1. 1. Как бы не были популярны определения, они д.б. правильными.
        2. И я не соглашусь) Анализ проводится в т.ч. с целью выдвижения гипотез, а не только проверки.
        3. В 20 веке так было, а в 21 веке data mining — магистральное направление развития ИТ. Да, правильно интерпретировать — сложно, это требует квалификации)

      2. 1. Кто бы спорил. Но я не вижу «неправильности» в данных мною определениях
        2. Даже выдвижение гипотез требует предварительной теоретической проработки (по сути, той же гипотезы). В противном случае, никакой страховки
        3. про data mining негативно я ничего не писал (хотя теоретическая проработка нужна и при использовании этих инструментов). Но я бы не ставил знак равенства между data mining и data fishing.

    1. да, я это знал 🙂 но, опять же, представленное здесь определение (как я уже отмечал) скорее передает суть, чем является строго (в научном смысле) выверенным. Про популярность определений укажу в посте. Спасибо!

    2. Только сейчас обратил внимание, что у Ласта определение publication bias не точное. Он пишет (в переводе Власова), что публикационное смещение (ошибка) это «ошибка, возникающая вследствие тенденции редакторов (и авторов) публиковать статьи, содержащие положительные данные». Но в действительности, эта ошибка в результате того, что редакторы и/или авторы НЕ публикуют условно «отрицательные» результаты. Согласитесь, это не одно и то же. Кроме того, есть свидетельства того, что даже отрицательные результаты публикуются, но «не там». Вот так вот, все не просто 🙂

  2. Да, у Ласта не идеальное, как я сразу и написала. Во-первых, не данные, а результаты. Во-вторых, не вполне понятно, что есть положительные.
    И, важно, что публ. смещение возникает также вследствие и непубликации нейтральных результатов (которых подавляющее большинство), а не только отрицательных (хотя их можно рассматривать и как отрицательные в контексте целей авторов). Да, все сложно.
    Про популярность — напишите, кто целевая аудитория, тогда многое станет понятней.

    1. Оно не просто «неидеальное», оно неточное, причем не учитывает основную причину publication bias, а именно непубликуемые данные. Я изменил формулировку с учетом этого. Так что, Ласт не подходит.
      Целевая аудитория — редакторы научных журналов. Но обращение к ним мы подчеркиваем целевой рассылкой (журналы издательства Медиа Сфера). Так что дополнительные акценты не требуются..

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *