"Плавать по морю необходимо".
Гней Помпеи, римский полководец
"Мы имеем по крайней мере одно
Весьма серьезное преимущество -
Владеем вероятностным мышлением"
А.Н.Колмогоров
Три "Почему ..." и пять принципов описания статистики в биомедицинских публикациях
Почему появилась эта статья
За время существования сайта БИОМЕТРИКА его автору пришло довольно много писем, в которых читатели консультировались относительно различных нюансов использования и описания методов статистики в статьях и диссертациях. Этот поток писем периодически возрастал после публикаций статей автора на сопутствующие темы в "Бюллетене ВАК РФ", "Международном журнале медицинской практики", "Медицинской газете", "Сибирском медицинском журнале", а также непосредственно на сайте БИОМЕТРИКА. С каждым годом таких писем становится все больше, и в конце 2002 г. ежемесячно приходит уже свыше 50 таких писем. Это говорит о том, что интерес к этому аспекту возрастает. Данная статья является одной из попыток удовлетворить этот интерес.
В настоящее время в ряде биомедицинских журналов можно найти так называемые "Единые требования к рукописям, представляемым в биомедицинские журналы" подготовленные Международным комитетом редакторов медицинских журналов - ICMJE (International committee of medical journal editors. Uniform requirements for manuscripts submitted to biomedical journals. Ann Intern Med 1997;126:36 N47)." (По состоянию на 19.11.03 на этом сайте размещена обновленная версия требований от ноября 2003 г., которая в части описания статистики не отличается от версии 1997 г.). Потребность в унификации требований к таким публикациям ощущалась уже давно. И вот в 1978 г. редакторы нескольких ведущих медицинских журналов неофициально собрались в Ванкувере (Канада), где и сделали первую попытку выработать единые технические требования к биомедицинским рукописям, представляемым в редактируемые ими журналы. Впоследствии эта группа редакторов стала известна как Ванкуверская группа. Ее рекомендации были впервые опубликованы в 1979 г. Позднее Ванкуверская группа была преобразована в Международный комитет редакторов медицинских журналов. Совещания этого комитета проходят ежегодно.
Учитывая, что тон в работе этого комитета задают редакторы биомедицинских журналов Англии и США, именно в журналах этих стран и заметны наибольшие изменения с момента первой встречи этой группы. Тогда как на редакционную политику российских журналов эти рекомендации не оказывают практически никакого влияния. В отдельных журналах опубликовали перевод некоторых версий этих требований, и этим ограничились. Даже в наиболее прогрессивных российских издательствах, декларирующих свою приверженность доказательной медицине и издающих литературу этого направления, дальше "протокола о намерениях" дело не продвинулось. Такой вывод я делаю как на основе собственного общения с некоторыми издателями гг. Москвы и Томска, так и в результате изучения публикаций многих российских журналов по биологии и медицине. В частных беседах работники издательств откровенно говорят о том, что предлагаемые ими новшества отвергаются главными редакторами, возраст которых под стать возрасту "геронтологического Политбюро" времен "развитаго социализма". Мотивы такой позиции редакторского корпуса очевидны и прозрачны. Следует отметить, что такое положение дополняется и отсутствием достаточно объективных и подробных рекомендаций, которыми авторы могли бы руководствоваться при оформлении своих публикаций.
Помимо чисто технических требований, таких как оформление иллюстраций, ссылок на бумажные и электронные публикации и прочие моменты, основная направленность в деятельности Ванкуверской группы заключается в стремлении повысить доказательность и надежность публикуемых сообщений. Весьма важным элементом обеспечения доказательности публикации является корректное описание этапа статистического анализа наблюдений, что создает условия читателю для оценки надежности авторских выводов. В статье "ПРИМЕНЕНИЕ СТАТИСТИКИ В СТАТЬЯХ И ДИССЕРТАЦИЯХ ПО МЕДИЦИНЕ И БИОЛОГИИ. ЧАСТЬ III. ПРОБЛЕМЫ ВЗАИМОДЕЙСТВИЯ "АВТОР - РЕДАКЦИЯ - ЧИТАТЕЛЬ" опубликованной в МЕЖДУНАРОДНОМ ЖУРНАЛЕ МЕДИЦИНСКОЙ ПРАКТИКИ (1999, вып. 12, стр.7-13) мы уже писали, что "Статья должна убеждать читателя, причем интенсивность убеждения, в отсутствии у читателя непосредственной возможности проверить выводы автора, должна быть такой, чтобы степень сомнения читателя была минимальна. Для достижения этой цели публикация по результатам экспериментальных исследований должна содержать биометрическое описание, включающее мотивационную и инструктирующую компоненты". Именно эти две компоненты описания и вызывают наибольше количество вопросов у наших читателей.
Помимо переводов требований Ванкуверской группы в ряде журналов публиковались и собственные рекомендации по этому вопросу. В данной статье мы попытаемся критически проанализировать те фрагменты подобных рекомендаций, которые относятся к описанию методов статистики, и представить собственную точку зрения на этот непростой аспект публикаций. При этом постараемся выйти за рамки общих фраз и рассуждений, дав более конкретные рекомендации для разнообразных статистических критериев и методов анализа. Понимая, что дать рекомендации "на все случаи жизни" невозможно, ограничимся только наиболее популярными и известными методами и критериями, число которых, тем не менее, оказалось более 50. Кроме того, сформулируем некоторые принципы конструирования такого описания.
Почему авторы используют статистику
В книге "Курс общей и экспериментальной патологии" (СПб., 1885, т.1, стр. 581) ее автор, известный в то время ученый В.В.Пашутин, писал: "Обобщающие полеты ума в сфере патологических явлений совершенно необходимы, так как запас детальных фактов в настоящее время очень велик и получает характер, за недостатком обобщений, тяготеющего ума балласта, с которым едва может справляться наша память". Как видим, еще более 100 лет назад ведущие российские ученые понимали, что возрастание массы необобщенных фактов приводит к тому, что они постепенно превращаются в балласт. Можно полагать, что в наше время актуальность этого тезиса стала еще сильнее.
Одним из инструментов такого обобщения и являются статистические методы. Те из авторов, которые разделяют этот тезис, пытаются осознанно применять статистические методы, чтобы на основе результатов анализа выборочных наблюдений сделать заключение относительно всей исследуемой популяции. Другие используют статистический анализ потому, что так делает большинство их коллег, либо же считая, что наличие статистических выводов поднимает престижность публикации, вызывает большее доверие к ней. Третьи - удовлетворяя требованиям одного из соавторов, как правило, научного или номинального руководителя основного автора. Обычно такой руководитель, еще на заре своей научной карьеры, удачно применил тот или иной метод анализа, и с тех пор старается воспроизводить его и в последующих работах.
Следующей причиной использования некоторого конкретного метода является подражание авторам одной или нескольких статей, плодотворно использовавших его в аналогичных исследованиях. Нередко наблюдается и то, что можно назвать модой на определенные методы анализа. Наконец желание использовать тот или иной метод статистического анализа может быть и следствием того, что автор установил на своем компьютере статистический пакет и, овладевая им, пытается к месту, а подчас и не вполне, применять эти методы. Таковы наиболее часто встречающиеся мотивы применения статистических методов в публикациях. В зависимости от того, каковы истинные цели публикации и применения статистических методов, описание последних может быть как весьма обстоятельным и достаточным, так и полностью отсутствующим. В последнем случае авторы обычно приводят ничего не значащие выражения, в которых просто упоминают о факте статистического анализа.
Оценивая мотивы использования статистики в биомедицине в целом, можно полагать, что большинство авторов публикаций искренне надеются, что применение статистических методов должно дать им, и читателям их работ, некоторое новое знание. Однако можно "... как блестящие идеи, так и научные нелепости одинаковым образом облечь во впечатляющий мундир формул и теорем [151]. ... Наряду с математизацией знаний происходит и математизация глупостей; язык математики, как ни странно, оказывается пригодным для выполнении любой из этих задач" [В.В.Налимов. Вероятностная модель языка. М.: Наука, 1979. стр.176.].
Почему плохи имеющиеся рекомендации
Действительно, почему имеющиеся рекомендации оставляют желать лучшего? Причин этого несколько, однако главная из них, на наш взгляд, заключается в том, что пишутся они не профессионалами в области анализа данных, а редакционными работниками, имеющими самое общее представление о специфике этой области деятельности. Поэтому в результате рекомендации содержат много общих фраз и пожеланий, нежели конкретных примеров и описаний, подобных тем, которые приводятся в стандартах разного уровня, от государственных и отраслевых, до стандартов отдельных предприятий и организаций. Если сравнить тексты требований, разрабатываемых ICMJE начиная с 1978 г. по октябрь 2001 г.(датировка последней, обновленной версии требований), то можно заметить, что раздел "Статистика" в этих требованиях практически не изменился. Требования отдельных журналов также ориентированы в основном на вариант требований ICMJE .
Для иллюстрации этих утверждений проанализируем отдельные фрагменты рекомендаций Ванкуверской группы, приведенные непосредственно в разделе "Статистика". Отметим, что в зависимости от того, в каком из российских журналов печатался перевод этих рекомендаций, контекст содержания этого раздела оставался в целом одним и тем же, изменялись же только некоторые нюансы, обусловленные предпочтениями переводчиков. Насколько силен может быть этот фактор, мы проиллюстрировали в статье "ПРИМЕНЕНИЕ СТАТИСТИКИ В СТАТЬЯХ И ДИССЕРТАЦИЯХ ПО МЕДИЦИНЕ И БИОЛОГИИ. ЧАСТЬ III. ПРОБЛЕМЫ ВЗАИМОДЕЙСТВИЯ "АВТОР - РЕДАКЦИЯ - ЧИТАТЕЛЬ", приведя перевод одного и того же текста двумя разными переводчиками.
Рассмотрим две версии одного и того же фрагмента, заимствованные из публикаций разных российских журналов. "Описывайте статистические методы настолько детально, чтобы грамотный читатель, имеющий доступ к исходным данным, мог проверить полученные Вами результаты." В другом журнале (Кардиология, вып. 6, 1994, стр. 158) этот фрагмент выглядел так: "Статистика (статистические методы) - описывайте статистические методы настолько детально, чтобы квалифицированный читатель, имеющий доступ к оригинальным данным, смог проверить полученные Вами результаты". Прочитав первый раз эти фрагменты я вспомнил свою любимую фразу из повести "Чук и Гек" Аркадия Гайдара: "Что такое счастье - это каждый понимал по-своему...". Действительно, что такое "квалифицированный" или "грамотный" читатель? Тот, который знает азбуку и умеет читать? Или же тот, который имеет диплом о высшем образовании, или диплом кандидата или доктора наук? Но это ведь тоже не гарантия того, что такой читатель поймет ваше описание. Как видим, такая рекомендация больше порождает вопросов и уводит в сторону от сути дела.
Предъявите Ваши данные!
Идем далее: "...имеющий доступ к исходным данным, мог проверить полученные Вами результаты". Прочитав этот фрагмент, задайтесь вопросом: ЧЬИ "исходные данные" подразумевали авторы этих рекомендаций?"Исходные данные" авторов статьи, или же "исходные данные" читателя? Предположим первое, речь идет об "исходных данных" авторов статьи. Интересно, многие ли из авторов согласятся поделиться собственными "исходными данными"? Вот Вы, уважаемый читатель, готовы предоставить по "первому требованию" Ваши "кровные", добытые долгим и упорным трудом, еще до конца не проанализированные "исходные данные", какому-то неизвестному Вам читателю из города Урюпинска? Вы еще строите далеко идущие планы по "эксплуатации" этих данных, и вдруг кто-то их просит (требует?) у Вас... Тем более, если читатель сообщит, что они ему нужны для того, чтобы "проверить полученные Вами результаты". Как видим и здесь ценность подобной рекомендации весьма сомнительна...
Помимо чисто морально-этической стороны этой проблемы возникает и другие аспекты, в частности правовые. Поскольку уважаемый автор публикации, как правило, добывал-создавал эти самые "исходные данные" в процессе работы, то его горячо любимый работодатель, в лице НИИ, вуза и т.п. может "погрозить пальчиком" и сказать "Ни-ни, не моги, а то уволю с работы!". И будет прав, поскольку все базы данных (а эти "исходные данные" и есть ни что иное, как базы данных!), созданные работником в процессе исполнения своих рабочих обязанностей, согласно действующему законодательству, принадлежат этому работодателю. Конечно, мы утрируем эту ситуацию, поскольку на сегодня этому работодателю, в лице НИИ или вуза, глубоко безразлично, что автор публикации с этими "исходными данными" будет делать. Он, работодатель, как и государство в целом, еще не научилось воспринимать эту информацию как материализованный ресурс, который должен находиться в обращении, и в процессе своей амортизации возвращать затраты, понесенные государством на его создание (созданные, между прочим на деньги налогоплательщиков, т.е. на наши деньги :-). Это за рубежом строят специальные "хранилища данных" (Data Warehouse), чтобы используя к этим данным методы извлечения знания (Data Mining), возвращать понесенные затраты в виде нового Знания. У нас же подобные меры еще даже и не обсуждаются... Для НИИ и вуза важнее и престижнее чтобы его работники написали побольше статей, защитили побольше диссертаций и т.п. Ибо по этим показателям раз в пять лет и будет проходить переаттестация организации и продление лицензии на ее деятельность. А такой показатель, как объем накопленных информационных ресурсов, в том числе и "исходных данных", такие комиссии не интересует. Полагаю, что Вы, уважаемый читатель, знаете это не хуже меня ...
Тем не менее, особой радости от подобной просьбы поделиться этим ресурсом автор публикации не испытает. И мотивы здесь могут быть самые разные. Начиная от тех, о которых сказано выше, до других. Например, Вы еще действительно не закончили полный анализ этих данных и по этой причине не желаете их легализовать, делать общедоступными. Другая причина, не менее важная, заключается в том, что автор публикации может быть не полностью уверен в корректности выводов, полученных (и уж опубликованных!). Боязнь того, что более квалифицированный исследователь, проведя корректно анализ авторских данных, докажет ошибочность, или же некорректность продекларированных автором выводов, также вызовет отрицательную реакцию на такую просьбу читателя. В том, что вероятность такого мотива может быть достаточно весома, говорит большое количество экспонатов в "Кунсткамере", где дан анализ именно таких некорректных, "сырых" заключений из статей, монографий и диссертаций по биомедицине. Не исключено также, что этот "проверяльщик" извлечет из авторских данных такую информацию, о которой создатель этих "исходных данных" и не подозревал! И отправит уже свою собственную статью с этими результатами в журнал, забыв (или не забыв) поблагодарить за представленные "исходные данные".
А сможет ли читатель "проверить полученные ... результаты" имея собственные "исходные данные"? Тоже маловероятно.... Во-первых, такие данные не будут идентичны тем, которые имеет автор статьи. Во-вторых, он может не располагать тем вычислительным ресурсом, которым располагал автор статьи. Но главное даже не в этом! Сам контекст рекомендации "чтобы ... читатель ... мог проверить полученные Вами результаты" изначально ориентирует читателя на недоверие авторским выводам. Что это, максимализм редакторов биомедицинских журналов, или же констатация реального положения? Полагаю что второе, ибо в первом случае нам была бы предложена совершенно иная рекомендация. Какие же мотивы движут теми, кто рекомендует читателям статей "проверить полученные ... результаты"?
Среди этих мотивов нельзя полностью исключать и такое явление, как научное мошенничество, отдельные примеры которого приведены в статье "Мошенничество в науке". Не случайно еще в 1942 году Р.Мертоном была предложена идея "организованного скептицизма", ставшей общепринятой нормой в науке. Суть ее в том, что любой опыт должен быть доступен другим ученым. Воспроизводимость и есть критерий честности экспериментов. Сам Мертон считал, что научные исследования подчиняются строгому контролю, который, по-видимому, недостижим в иных областях человеческой деятельности. Учитывая изменение ситуации в науке, такой фактор тоже нельзя полностью исключать и в России. В том, что это существующие реалии, автору этих строк пришлось убедиться самому, когда несколько лет назад один из аспирантов СГМУ фактически предложил ему сделать "научный подлог", подтасовав результаты статистического анализа его данных. Было и еще несколько таких же попыток.
Типичным примером такого мошенничества является случай с биохимиком Галлисом, который в начале 70-х годов работал над проблемой внутримозговых морфинов. "На Западе давным-давно перестали верить в идеальный портрет ученого-подвижника, живущего интересами науки, для которого истина превыше всего. Реальность современного мира - ученый, которому не чуждо все человеческое, включая и пороки и достоинства. Он подвержен и честолюбию, и стремлению к материальному достатку, и прочим стимулам, способным склонить его к обману. Действительно, если итогом долгих размышлений и экспериментов являются отрицательные результаты; если журналы не принимают публикации с такими результатами, а карьера зависит от этого, искушение подправить данные может быть трудно преодолимым. Так, из 32 авторов, опубликовавших статьи в одном из научных журналов США, 21 под разными предлогами отказались представить редакции исходные материалы" [Сент-Джеймс-Роберт Ай. Заслуживают ли доверия ученые? //Этический кодекс ученого. Реферативный сборник. М.: ИНИОН, 1980. - 227с.]
Поэтому не случайно в ведущих журналах США и Англии появились требования о предоставлении исходных данных. Так, согласно требованиям журнала JAMA - "Журнал Американской Медицинской Ассоциации" ( Vol. 290 No. 1, July 2, 2003 ) (18 отдельных международных изданий, распространяется более чем в 150 странах на 12 языках), автор публикуемой статьи принимает на себя следующее обязательство: "Я удостоверяю, что по требованию редактора я предоставлю данные или буду содействовать в полной мере предоставлению тех данных, на которых базируется данная статья ДЛЯ ИХ ПРОВЕРКИ редактором или его представителями". Такой уровень требований вполне объясним, поскольку ежегодно журнал получает порядка 4000 рукописей, однако публикуются из них порядка 10%. Пожалуй, данная формулировка требований журнала JAMA наиболее адекватна и разумна, поскольку здесь речь идет не о каком-то абстрактном читателе, желающем произвести проверку авторских результатов, а о редакторе журнала, или его представителе. Иными словами, сомнительность или неточность описания должна устраняться на самом первом этапе - этапе работы с рукописью, которая еще не стала статьей, т.е. не опубликована. Очевидно, что для этого в составе журнальных редакционных коллегий должны быть специалисты, способные такую работу выполнять достаточно качественно.
"А воз и ныне там?"
Следуя примеру зарубежных журналов, в частности таких как JAMA и BMJ, аналогичные пункты требований стали вводить и отечественные журналы. К примеру, еще в 1995 г. журнал "Кардиология" прямо говорил о необходимости статистической цензуры, что за рубежом уже давно стало нормой. Так, в вып. 6 за 1995 г. (стр. 93) в "Правилах подготовки рукописей ...", редакция написала следующее: "Все статьи, принятые к публикации, при необходимости будут проверяться на адекватность применения статистических методов и интерпретации данных". В это же время автор данной статьи направил в "Кардиологию" статью с анализом публикаций этого журнала за несколько лет, где приводил наиболее типичные статистические ошибки и заблуждения. И хотя статья не была опубликована, а сама редакция даже не ответила автору этих строк, тем не менее, эта симптоматичная фраза в "Правилах ..." появилась. Однако, несмотря на то, что прошло уже 7 лет с того момента, как было продекларировано такое требование, уровень статистического анализа в статьях этого журнала остался прежним. В общем, все получается как в известной поговорке: "Куда конь с копытом, туда и рак с клешней"...
Объективности ради, следует сказать, что таким же осталось положение и во многих других журналах. Тем не менее, отдельные позитивные сдвиги в решении этой проблемы все же есть. Ведутся переговоры по введению статистического рецензирования в издательстве Медиа-Сфера, реально уже введено такое рецензирование в "Сибирском медицинском журнале", (главный редактор Р.С. Карпов, академик РАМН, председатель ТНЦ СО РАМН). С полной версией новой редакции ЕДИНЫХ ТРЕБОВАНИЙ К РУКОПИСЯМ, ПРЕДСТАВЛЯЕМЫМ В "СИБИРСКИЙ МЕДИЦИНСКИЙ ЖУРНАЛ" можно познакомиться на сайте Межрегионального Сибирского медицинского Фонд им. Д.Д. Яблокова. Для иллюстрации того, что такое рецензирование действительно необходимо, приведем несколько цитат из 4-х таких рецензий, направленных авторам рукописей, присланных в редакцию "Сибирского Медицинского Журнала".
1. В рукописи сообщается: "... (коэффициент корреляции Пирсона r=0,71, достигнутый уровень значимости р< 10-3)". Однако нигде не сообщается, как проверялись (и проверялись ли вообще!) условия применимости данного вида корреляции. Далее, в этом фрагменте, а также далее в тексте статьи используются выражения р< 10-3 . Необходимо в таких случаях приводить конкретные значения достигнутого уровня значимости, например, р=0,0001. Объяснение гипотезы об отрицательной корреляции показателей заболеваемости КЭ с вирусоформностью клещей более корректно проверить с помощью парциальных коэффициентов корреляции.
В рукописи сообщается: "Поведение линий регрессии полностью согласуется с результатами и выводами корреляционного анализа". Это утверждение довольно спорно, поскольку приведены результаты линейного корреляционного анализа, тогда как графики, в ряде случаев, явно указывают на наличие нелинейной регрессии. Отсюда возникает несколько вопросов: почему не была проверена правомочность использования именно линейной аппроксимации зависимости, вместо нелинейной; почему использовалась корреляция Пирсона в тех случаях, где графическое изображение показывает сомнительность применения данной корреляции?
2. В разделе "Материал и методы" и далее в тексте рукописи приводятся выражения вида "5,6 ± 1,4". Нигде в рукописи не сказано, какие именно величины авторы соединяют знаком ± . В этом же разделе сообщается об использовании критерия Стьюдента, но ничего не говорится о методах проверки ограничений использования данного метода. Кроме того, авторы использовали критерий Стьюдента для показателей, оцениваемых в баллах, что является недопустимым. Нет уточнения, какой именно корреляционный анализ был выполнен авторами, как нет и самого обсуждения результатов корреляционного анализа. В тексте рукописи используются некорректные выражения "достоверные различия (р < 0,05)". Следует использовать выражение "статистически значимые различия", а также вместо выражения р < 0,05 приводить фактические значения достигнутого уровня значимости, например, p=0,002. В описании к табл. 4 (над самой таблицей) пропущено число пациентов в выражении "Группа ИМ 2 (n= ), М ± м".
Весьма важным моментом, о котором авторы вообще ничего не говорят, является проблема однородности исходного состояния сравниваемых подгрупп. Вполне возможно, что уже до начала тренировок разной интенсивности, данные группы отличались по некоторым, а возможно и по всем, контролируемым в динамике показателям. В этом случае отдаленный результат наблюдений может быть следствием не тренировок разной интенсивности, а значимым различием контролируемых показателей в исходном состоянии сравниваемых групп. Отсутствие такой проверки однородности начального состояния резко снижает надежность формулируемых авторами выводов.
Учитывая большую важность исследуемых авторами аспектов постинфарктной реабилитации пациентов, рекомендую использовать более глубокие методы статистического анализа, например такие, как непараметрический дисперсионный анализ, построение дихотомических решающих правил и логистическую регрессию. Это значительно повысит результативность и надежность полученных результатов.
3. В разделе "Материал и методы" сообщается, что "Данные были получены при использовании непараметрических методов (Kruskall-Wallis Anova, Median test) и анализа таблиц сопряженности". Однако ничего не сказано о том, чем диктовался выбор именно этих методов анализа и какие гипотезы проверялись этими методами. Вопрос об этом тем более уместен, что в следующем предложении говорится: "При сравнении величин двух групп с нормальным распределением применялся Shapiro Wilk's test". Т.е. часть количественных признаков, видимо, подчинялась нормальному распределению. Однако в такой формулировке данное утверждение лишено всяческого смысла, поскольку указанный статистический критерий Shapiro Wilk's не применяется "При сравнении величин двух групп с нормальным распределением". Данный критерий проверяет совершенно иные статистические гипотезы.
Непонятен и смысл следующего утверждения: "Во всех процедурах
статистического анализа уровень значимости "р" принимался менее 0,05".
Если речь идет о критическом уровне значимости для данного исследования,
то следует использовать формулировку, приведенную в действующих "Единых
требованиях к рукописям, представляемым в "Сибирский Медицинский
Журнал".
В тексте рукописи используются некорректные выражения вида "Эта подгруппа
достоверно отличалась ...", "Генотипы DD и ID достоверно чаще
регистрировались...", "достоверная взаимосвязь...". Следует использовать
обороты "статистически значимо" или "статистически не значимо".
4. В разделе "МАТЕРИАЛ И МЕТОДЫ ИССЛЕДОВАНИЯ" говорится: "Для каждого показателя оценивали значимость различий функций распределения на группах выживших и умерших больных". Однако ничего не сказано о том, зачем, с какой целью это делалось, и с помощью каких конкретно методов (критериев) производилась эта оценка. Далее, в этом же разделе говорится: "Для количественных показателей, таких как уровень холестерина, стаж стенокардии, частота сердечных сокращений при велоэргомерии и т.д. оценивали достоверность различий средних". Авторы используют некорректный оборот "достоверность различий средних". Следует использовать корректное выражение "статистически значимое различие средних". Ничего не сказано и о том, для чего, с какой целью производилась эта оценка, а также какими конкретно методами (критериями).
Далее авторы сообщают в этом же разделе о том, что по результатам использования дисперсионного и факторного анализов "Все эти показатели были перекодированы, исходя из максимального различия распределений на сравниваемых группах". Данное утверждение совершенно непонятно. Неясно, с какой целью и как производилось это "перекодирование". В этом же разделе сообщается: "Алгоритм разработки прогноза был одинаков во всех случаях, а различные варианты прогноза различались только составом используемой информации [10]." Из данного утверждения читателю статьи будет неясно, каков же был этот алгоритм. Отсылка к зарубежному источнику [10] мало что даст читателю, поскольку, во-первых, в данном источнике описано довольно много алгоритмов, а во-вторых, большинству читателей данный источник недоступен. Необходимо достаточно ясно описать данный алгоритм, с тем, чтобы читателю было понятно, как можно такой алгоритм воспроизвести (название статистического пакета и процедуры, ссылка на более подробное описание алгоритма в документации статистического пакета и т.д.). В таком же виде использованный авторами алгоритм остается для читателей совершенно неизвестным.
В разделе "РЕЗУЛЬТАТЫ И ИХ ОБСУЖДЕНИЕ" говорится: "При проведении многофакторного дисперсионного анализа, из общеклинических показателей наиболее значимыми были признаны следующие показатели: стаж артериальной гипертензии (АГ), ИМ в анамнезе, ФК, наличие АГ у ближайших родственников". Из данного описания неясно, какие именно факторы, и их комбинации, использовались в этом случае. В этом фрагменте текста приведено описание ошибочного, некорректного применения дисперсионного анализа для качественных признаков. Далее: "Из инструментального обследования значимыми показателями оказались все гемодинамические характеристики ВЭМ, а также показатели Эхо-КГ: КСР, КДР и ФВ (табл. 1)". Неясно, какие признаки выступали в данном случае в роли факторов.
В таблице 1. наблюдается терминологическая путаница: термин "фактор" используется в двух несовместимых смыслах, как фактор в дисперсионном анализе, и фактор - как зависимый, количественный показатель. Такая путаница вводит в заблуждение. В таблице 1 приводятся выражения вида "р < 0,05" и "р < 0,01". Согласно действующим требованиям необходимо приводить фактические значения достигнутого уровня значимости. В примечание к табл. 1 говорится: "Примечание: в таблице отражены только "фиксированные" значения для данной популяции". Неясно, что это за "фиксированные значения". В этом же Примечании допущена опечатка в предпоследнем слове.
В разделе "РЕЗУЛЬТАТЫ И ИХ ОБСУЖДЕНИЕ" говорится: "Для того, чтобы понять структуру взаимосвязи параметров .... был проведен факторный анализ". Однако далее ничего не сказано о том, как проверялись (и проверялись ли вообще!) существующие для данного метода предпосылки и ограничения. В описании результатов факторного анализа делается ссылка на рис.1. Однако к данному рисунку отсутствуют описания осей. Не совсем ясен смысл и рис.1. Аналогичные замечания и по рис. 2-3.
О результатах логистической регрессии. Как уже говорилось выше, ничего не сказано об алгоритме оценки показателей этого уравнения. Нет оценок уровней значимости, как отдельных коэффициентов уравнения, так и всего уравнения в целом. Все общепринятые в мировой печати параметры оценок имеются в цитируемой авторами книге [10], куда и рекомендую обратиться по данному вопросу.
При оценке диагностической ценности авторы, кроме принятых в литературе терминов "специфичность и чувствительность", используют термин "значимость", что также может привести к путанице, поскольку в статье используется и термин "значимость" и в статистическом смысле. Современная терминология доказательной медицины использует иные термины для этих целей, например термин "прогностичность ..." (см. соответствующую литературу по доказательной медицине).
И если раньше многие из перечисленных выше замечаний рисковали стать после своей публикации экспонатами "КУНСТКАМЕРЫ", то после соответствующей авторской доработки, эти фрагменты публикации только усилят доверие читателей к результатам исследования.
Продолжим критический анализ имеющихся рекомендаций. "По возможности, подвергайте полученные данные количественной оценке и представляйте их с соответствующими показателями ошибок измерения и неопределенности (такими как доверительные интервалы)." Как видим, здесь решение о необходимости количественной оценки остается за автором. Однако и в этом случае непонятно, о каких конкретно "количественных оценках" и "соответствующих показателях" идет речь, поскольку таких оценок и показателей может быть достаточно много. Такой же критически настроенный читатель может резонно возразить, что же, надо перечислять все эти оценки? Но ведь на каждый случай все нельзя предвидеть. Конечно, для каждой рукописи нельзя предусмотреть все возможные варианты и случаи. Да этого и не требуется. Более разумно дать некоторый рекомендуемый перечень таких оценок, а также сформулировать принципы построения такого описания. Кроме того, если все рукописи, содержащие статистические оценки, будут рецензироваться специалистом по анализу данных, то все оставшиеся проблемы будут разрешаться в процессе общения автора и рецензента.
"Не следует полагаться исключительно на статистическую проверку гипотез, например, на использование значений р, которые не отражают всей полноты информации." Такое пожелание было бы вполне уместно, если бы во всех журналах авторы полагались бы в своих выводах исключительно только на уровень значимости "р". Но ведь этого нет, скорее наоборот.
"Доверяй, но проверяй", или "Не доверяй, и потому проверяй"
Изначальная редакционная ориентация читателя на недоверие к опубликованным в статьях выводам, можно трактовать как признание того, что публикуемые статьи могут содержать сомнительные выводы. Другими словами, это можно рассматривать как самопризнание участия в "игре в научный фокус": ".. в надежность результатов исследования изначально никто не верит, свидетельством его научности становится сам факт публикации, а важнейшим условием публикации - упоминание о статистических "гитиках". (Цитата из статьи президента издательства Медиа-Сфера С.Е. Бащинского "СТАТИСТИКА УМЕЕТ МНОГО ГИТИК", Международный журнал медицинской практики, 1998; N4, с.13-15. ") С момента публикации этих строк прошло 4 года, но реально все осталось по-прежнему: никакой проверки статистических аспектов в поступающих статьях не производится. Об этом говорит все тот же крайне низкий уровень статистической культуры статей, публикуемых в российских биомедицинских журналах. Можно ли себе представить, чтобы такие рекомендации были высказаны редакторами физико-математических журналов? Действительно, почему в этих журналах мы не встречаем таких рекомендаций? Ответ настолько очевиден, что даже не требует формулировки.
"Укажите, какие компьютерные программы, доступные для широкого пользователя, применялись в Вашей работе". Эту рекомендацию надо понимать так, что если вы использовали, по вашему мнению, не доступные для широкого пользователя программы, то упоминать о них не следует? Мало того, помимо того, что вы, как автор, считаете себя специалистом в своей предметной области, вы должны быть еще и специалистом по маркетингу статистических программ. Иначе как вы узнаете, доступна или нет использованная вами программа "широкому" или "узкому" пользователю?
В одной из рекомендаций читаем следующее. "Применение собственных разработок не рекомендуется. Это связано с тем, что при использовании разных алгоритмов в процессе программирования одних и тех же статистических методов возможны несколько различные результаты, коммерческие же пакеты программ надежны, и их качество общеизвестно." На первый взгляд рекомендация выглядит достаточно убедительной. Действительно, зачем "изобретать велосипед", писать собственные программы и процедуры, если есть достаточно много коммерческих пакетов программ? Однако далеко не всегда эти пакеты могут удовлетворить запросы искушенного исследователя. Кроме того, как признает сам автор этой рекомендации, "при использовании разных алгоритмов в процессе программирования одних и тех же статистических методов возможны несколько различные результаты". Но разве это же утверждение не применимо к коммерческим пакетам программ? Правда для того, чтобы в этом убедиться, требуется провести сравнительное тестирование этих процедур в разных пакетах с использованием одних и тех же исходных данных.
Чтобы показать, что надежность и качество коммерческих пакетов также требует такой же доказательности, как и описание в статьях статистических результатов, приведем небольшой пример. В книге Г.Хан, С.Шапиро "Статистические модели в инженерных задачах", М., Мир, 1969 г. описан достаточно мощный статистический критерий Шапиро-Уилка для проверки нормальности распределения с тестовым примером, содержащим 10 чисел. Требуется на основе этой выборки проверить статистическую гипотезу о том, что данная выборка извлечена из генеральной совокупности с нормальным законом распределения. Авторы приводят в книге значение W-статистики Шапиро-Уилка равное 0,943 , и значение достигнутого уровня значимости р=0,557. Проведем проверку статистической гипотезы о нормальности распределения для этих 10 чисел с помощью критерия Шапиро-Уилка, а также d-критерия Колмогорова-Смирнова, используя популярные статистические пакеты SAS 8, SAS 6.12, SPSS-11, SPSS-10, STATISTICA 5.5, STATISTICA 99, STATISTICA 6, STATGRAPHICS PLUS 5.0, S-PLUS 2000 и NCSS 2001. Результаты такой проверки приведены в отдельной таблице. Как видим, эти результаты наводят на определенные размышления...
Конечно же, каждый из производителей данных статистических пакетов считает что именно их результат корректный и правильный. К сожалению, придирчивому и скрупулезному пользователю трудно, а порой и невозможно, самостоятельно разрешить эту дилемму, поскольку далеко не каждый из этих производителей открывает свободный доступ к алгоритмам, реализованным в их пакетах. Очень мало информации о нюансах использованных методах и в самом пакете, и руководстве пользователя. Чаще всего это небольшое упоминание о названии того или иного критерия и ссылка на публикацию с его описанием. Учитывая, что большинство используемых в России статистических пакетов разработаны зарубежными фирмами, ссылки в этих случаях даны на источники, практически недоступные для отечественного читателя. Пожалуй, лишь только в случае с пакетом SPSS можно обратиться к таким алгоритмам, опубликованным на сайте производителя этого пакета. Значительное различие в величине d-статистики Колмогорова-Смирнова в пакете NCSS 2001 по сравнению с результатами, полученными в других пакетах, объясняется спецификой вычисления этого критерия, на которой мы не будем останавливаться.
Итак, какую же позицию должен занять читатель, знакомясь с той или иной статьей: "Доверяй, но проверяй", или же "Не доверяй, и потому проверяй"? Очевидно, что выбор будет определяться в основном тем, насколько полно, доказательно и понятно авторы публикации смогут донести до читателя детали использованных методов анализа. При этом важно не скатиться в другую крайность, когда забывается примат объекта и цели исследования и подчиненная им роль статистического анализа. В этом случае подробное описание методов анализа становится самодовлеющей целью, за которой теряется и сама цель исследования.
В нашей практике встретился однажды случай, когда присланная на рецензию диссертация на соискание ученой степени кандидата медицинских наук примерно на 75% состояла из подробного описания всевозможных деталей статистического анализа, включая копии упомянутых выше алгоритмов всех (NB!) использованных методов анализа, один к одному заимствованных с сайта пакета SPSS. В результате диссертация превратилась в мини-пособие по алгоритмам наиболее популярных методов статистического анализа. Известно, что во всем необходимо соблюдение меры и гармонии. Не является исключением и обсуждаемая нами задача. Чем же руководствоваться для достижения такой соразмерности описания? Полагаю, читатели согласятся со мной, что для этого имеет смысл руководствоваться некоторыми принципами. Как говорил известный философ Гельвеций, "Знание некоторых принципов нередко возмещает незнание некоторых фактов".
Некоторые принципы описания статистики
Вряд кто сегодня рискнет оспаривать тезис о необходимости и целесообразности использования статистики в биомедицинских исследованиях. Однако, и не оспаривая его, можно произвести то, что в логике называется "подменой понятия", т.е. жонглируя статистическими терминами по сути дела выхолостить из работы основные принципы разумного применения статистики. Использование любого математического аппарата имеет своей целью создание математической модели набора эмпирических фактов, наблюдений, полученных исследователем.
В тех случаях, когда установлено постоянное и удовлетворительно точное согласие между такой моделью и опытом, такая модель приобретает практическую ценность. Эта ценность может быть достаточно велика вне зависимости от того, представляет ли она чисто математический интерес. Такая модель может быть использована уже для практических целей. Условно такие цели можно подразделить на три основных группы: 1) описание наблюдений; 2) анализ наблюдений; 3) предсказание на основе наблюдений. Выберем наиболее часто используемые для этих целей методы прикладной статистики и попытаемся дать краткие рекомендации по их описанию в публикациях, поскольку в противном случае вместо статьи пришлось бы писать отдельную монографию.
Итак, методы статистики могут использоваться для описания наблюдений. Пожалуй, здесь следует уточнить, что когда мы говорим "описание наблюдений", подразумевается все же "описание генеральной совокупности, популяции". Поскольку обычно мы имеем дело со случайной выборкой наблюдений, и выводы только о ней гораздо меньше интересуют авторов и читателей этих статей. Нас больше интересует сама генеральная совокупность, популяция, из которой были извлечены наблюдения. Именно поэтому в процессе статистического анализа выборочных данных мы проверяем те или иные статистические гипотезы, далее получаем некоторое значение выбранного нами критерия вместе с достигнутым уровнем значимости, и, сравнивая это значение с критическим уровнем, принимаем или отвергаем эту гипотезу. Однако ВСЕГДА эти гипотезы мы формулируем относительно параметров генеральной совокупности, популяции.
Нередко бывает так, что один и тот же метод можно воспринимать сразу в трех "ипостасях", т.е используя его и для описания, и для анализа, и для предсказания. К примеру, логистической регрессией мы ОПИСЫВАЕМ параметры генеральной совокупности, но одновременно мы и АНАЛИЗИРУЕМ взаимосвязи в этой совокупности, результат же логистической регрессии мы применяем для ПРЕДСКАЗАНИЯ. Поэтому, конструируя описание использованных методов биостатистики в своей публикации, необходимо всегда помнить, КАКУЮ ЦЕЛЬ вы преследуете, давая будущему читателю это описание. Итак, сформулируем первый принцип описания статистики в публикациях: описание должно иметь цель. Например, приводя результаты АНАЛИЗА, мы можем использовать эти результаты для целей ОПИСАНИЯ.
В частности, одно из направлений описания изучаемых совокупностей заключается в том, чтобы произвести так называемую редукцию, уменьшение размерности признакового пространства. С помощью таких теоретических построений возможно данные, описываемые большим количеством признаков, описать очень компактно, при этом интересующие нас специфические особенности этих популяций могут быть также обобщены и сведены к нескольким интегральным показателям.
В опубликованных ранее требованиях говорится: "Дайте определение статистическим терминам, сокращениям и большинству символов". Трудно не согласиться с таким требованием, и следовать ему, конечно же, необходимо. Однако давайте задумаемся, почему редакторы сочли необходимым включить эту фразу в свои рекомендации? Разве это не является само собой разумеющимся требованием применительно к любой научной терминологии? Полагаю, что этот факт говорит об отсутствии в журналах устоявшихся, единых требований к используемым в статьях статистическим терминам, сокращениям и символам. Мы можем встретить в журнальных требованиях к статьям упоминание о размерах рисунков и подписях к ним и т.п., но не найдем там указания о том, какими буквами (латинскими или греческими) обозначать выборочные и генеральные параметры исследуемых популяций, как правильно записывать уровень значимости для статистического критерия и т.д. Стало быть до того времени, пока появятся отраслевые или внутренние стандарты НИИ и вузов, ориентированные на единообразную терминологию, необходимо следовать этим требованиям и не забывать приводить такие определения.
Пожалуй наиболее часто об этом требовании забывают те, кто не долго думая, пишут в статье выражения вида 5,6±1,4 , при этом нигде не уточняя, какие именно величины соединены знаком ± . Вот и ломает голову потом бедный читатель, вспоминая нехорошими словами авторов: что такое 1,4 - или это стандартное отклонение, или же это ошибка среднего. Поскольку относительно 5,6 вариантов меньше, видимо это среднее.
Во всяком языке немало слов имеющих несколько смыслов. Например, согласно англо-русского словаря В.К.Мюллера от 1963 г. английское слово "point" имеет 39 значений. Немало таких многозначных слов и в русском языке. К примеру, слово "фактор" также имеет довольно много смыслов. Выше, в одном из примеров статистической рецензии авторы как раз допустили смешение разных смыслов этого термина. Проблема стандартизации научной терминологии особенно остро стоит в тех областях знания, которые осваивают "смежные территории", работая на "стыке наук", как в нашем случае. Довольно подробно многочисленные аспекты этой проблемы рассмотрел в своей книге "Вероятностная модель языка" В.В. Налимов, с которой мы настоятельно рекомендуем познакомиться всем нашим читателям.
Почему важно помнить об этом, формулируя описание статистических методов в статье или диссертации? Когда вы создаете такое описание нужно помнить, что оно относится не непосредственно к изучаемому вами объекту или явлению, а к МОДЕЛИ этого объекта или явления. Как известно, всякая модель имеет и свой собственный язык. Свой собственный язык имеет и статистическое моделирование. Например, для непосвященного слова "си-ми-ля-ре-соль-до-фа" или "фа-до-соль-ре-ля-ми-си" будут просто названиями нот. Тогда как для тех, кто знает теорию музыки, это будут последовательности знаков альтерации. Живший более двух тысяч лет назад философ Сократ говорил: "Точное логическое определения понятий - главнейшее условия истинного знания". Этому утверждению нужно следовать и в нашем случае. Сформулируем второй принцип описания статистики в публикациях: описание должно соответствовать контексту. Согласно этому же принципу необходимо тщательно согласовывать между собой всю терминологию присущую именно той модели, о которой идет речь.
Задачи АНАЛИЗА чаще всего относятся к статистическому анализу причинности, установлению наличия или отсутствия причинно-следственных связей. В силу того, что такие связи обычно имеют вероятностную природу, оценки параметров таких связей всегда имеют различные ошибки. Непосредственную связь с величинами таких ошибок имеют уровень значимости и мощность статистического критерия. В свою очередь задачи предсказания невозможны без предшествующего этапа АНАЛИЗА, поскольку именно он дает практический инструментарий для такого предсказания. Отсюда следует третий принцип ("принцип трех ножек табуретки"): описания разных этапов должны взаимно дополнять друг друга. Если в списке использованных методов не упомянут некий конкретный метод и цель и его использования, то нет смысла и обсуждать полученный с его помощью результат, и наоборот.
Если вы уверены в том, что все процедуры статистического анализа проведены корректно и полученные выводы адекватны действительности и важны, то смело описывайте проведенные статистические исследования настолько подробно, насколько хватит вашей эрудиции. Цель такой подробности единственная - убедить будущего читателя в том, что вашим результатам можно доверять, что их не стоит ПРОВЕРЯТЬ, а нужно ИДТИ ДАЛЬШЕ, т.е. либо использовать эти результаты в своей конкретной практике, либо же продолжить эти исследования, опираясь, отталкиваясь от ваших результатов. Как известно, "хорошего много не бывает" :-) Так и здесь, подробное описание не только будет способствовать обретению веры у читателя в ваши результаты, но и поможет ему воспроизвести ПОДОБНЫЕ исследования с новыми, собственными данными. И цель такого исследования будет не проверка подлинности ваших результатов, а их развитие, углубление. Из этих утверждений можно сформулировать четвертый принцип: степень детализации и объем описания статистики в публикации должны быть адекватны той роли, которую использованные методы сыграли в получении обсуждаемых в работе выводов.
К примеру, в связи с интенсивным развитием исследований в области геномики, увеличилось и количество работ по статистической генетике. В публикациях по этим работам нередко большую часть занимает обсуждение и исследование самих статистических процедур и критериев, и гораздо меньшую часть первые результаты их применения.
Если же вы хотите скрыть недостаточно высокое качество собственных результатов статистического анализа, т.е. когда вы сами весьма сомневаетесь в том, что ваши выводы действительно адекватны действительности, то самое лучшее что вы можете сделать, это просто промолчать о том, что вы делали какой-то статистический анализ. Поскольку в этом случае велика вероятность, что вы что-то напутаете, и читатель обнаружит вашу фальшь. Более того, вы можете оказаться в ситуации, когда одним из читателей окажется профессионал и, обнаружив эту фальшь, он обнародует результаты своей находки. Как это случилось, к примеру с мошенником Дж. Дарси в Национальном институте крови, сердца и легких, когда в мае 1981 года его коллеги испытали шок, узнав, что он занимается фальсификацией результатов исследования. Так, в его таблицах, содержащихся в публикациях, было указано, что согласно анамнезу, 17-летний юноша, страдающий необычным сердечным недугом, имел четырех детей: 4, 5, 7 и 8 лет. Пятый принцип описания: помните, что читателей во много раз больше, чем авторов публикаций. Из этого следует, что рано или поздно найдется опытный читатель, который обнаружит ваши ошибки или неточности описания.
Описание использованных методов статистики (общая часть)
Следует различать собственно описание использованных методов от описания результатов их применения. Обычно краткое описание использованных методов статистики состоит из перечисления этих методов в традиционном разделе (главе) "Материалы и методы". Здесь же приводятся данные о размере (объеме) выборки, а также соответствующих групп и подгрупп, название статистических методов и критериев и значение критического уровня значимости. Уместно дать и обозначение наиболее часто встречающихся значений параметров, как выборочных, так и генеральных. Поскольку до сих пор биомедицинская отрасль не имеет каких-либо стандартов в обозначении таких параметров, в отличие от физико-математических и технических отраслей, где такие стандарты де-юре и де-факто имеются, следует привести названия и обозначения таких параметров. В частности, в большинстве отраслей знания принято генеральные параметры в популяции обозначать буквами греческого алфавита, тогда как выборочные параметры соответствующими буквами латинского алфавита.
Приводим ниже пример такого описания, отражающего личную точку зрения
автора, и никоим образом не претендующего на "истину в последней
инстанции".
"В работе анализировалась выборка объемом 360 наблюдений. Каждое
наблюдение содержало 56 переменных, из которых 26 признаков являлись
дискретными, качественными, и 30 признаков - непрерывными,
количественными. Доля пропущенных значений составила менее 1% .
Использовались следующие методы статистического анализа: проверка
нормальности распределения количественных признаков с использованием
критерия Колмогорова-Смирнова с поправкой Лиллиефорса и критерия
Шапиро-Уилка; проверка равенства генеральных дисперсий с помощью
критериев Фишера и Кохрэна; анализ таблиц сопряженности; ранговый
корреляционный анализ; непараметрический дисперсионный анализ
Краскела-Уоллиса и Фридмана; лог-линейный анализ; логистическая
регрессия для мультиномиальных откликов. Выборочные параметры,
приводимые далее в таблицах, имеют следующие обозначения: М - среднее, s
- стандартное (среднеквадратичное) отклонение, m - ошибка среднего, n -
объем анализируемой подгруппы, р - достигнутый уровень значимости.
Критическое значение уровня значимости принималось равным 5% . Анализ
данных производился с помощью пакетов программ SAS 8 и SPSS 11. "
Обратите внимание, что в приведенном выше примере нет перечисления всех остальных параметров и показателей, которые могут быть получены в отдельных конкретных видах анализа. Это вызвано тем, что более уместно о них сказать именно в контексте обсуждения результатов этого анализа. Например, приводя результаты рангового корреляционного анализа можно сказать: "Наблюдалась положительная корреляционная связь между признаками .... . Коэффициент корреляции Спирмена rs=0,79 (р=0,002)."
При описании качественных признаков следует указать их природу - ранговые, порядковые это признаки, или же номинальные, классификационные. Привести значения каждой градации, уровня такого признака. Очевидно, что если в массиве данных много признаков, то такое описание может занять довольно много места. Весьма желательно показать соотношения отдельных подгрупп наблюдений по группирующим признакам, например по полу. Обычно это отражают в таблицах, давая значения доли в процентах для наблюдений по каждой подгруппе.
При описании количественных признаков для характеристики исследуемых популяций приводят выборочные оценки соответствующих генеральных параметров, в частности мер положения (центральной тенденции), мер рассеяния и мер формы распределения. Чаще всего это выборочные средние М, медиана Ме, мода Мо, стандартное отклонение s, ошибка среднего m, и межквартильный (интерквартильный) размах. Говоря о законе распределения, и в частности о результатах проверки гипотезы о нормальности распределения, можно пойти двумя путями. В первом случае ограничиться только тем, что привести значения использованных критериев проверки нормальности и значений "р=..." с соответствующим комментарием. Во втором же случае помимо этой информации привести еще и графики. Это может быть либо гистограмма с линией ожидаемой нормальной функции плотности или функции распределения, либо же так называемый график распределения на "вероятностной бумаге".
Автор рекомендует остановиться на последнем графике, поскольку помимо соответствия (несоответствия) нормальному распределению здесь можно наблюдать также возможные группировки наблюдений, аномальные выбросы, наличие симметрии и другие нюансы, заслуживающие дальнейшего обсуждения. Предположим, что по результатам проверки нормальности нулевая гипотеза была отвергнута. График, о котором идет речь выше, позволяет предположить, что мы имеем дело с лог-нормальным распределением. После проведения соответствующего преобразования можно вновь привести аналогичный график как свидетельство правильности такого предположения.
Нередко автор публикации стоит перед выбором: использовать ли для описания выборочных параметров обозначение (M ± m) или же (M ± s), где m - ошибка среднего, s - средне-квадратичное отклонение. В некоторых рекомендациях отдается предпочтение первому варианту, в других - второму. Учитывая, что "m" и "s" связаны между собой соотношением m=s/sqrt(n), (sqrt(n) - корень квадратный из объема выборки "n"), спор об этом представляется достаточно схоластическим. Выбор того или иного варианта должен в большей степени определяться контекстом. Например, если речь идет о сравнении групповых средних, то логичнее использовать первый вариант. Если же просто приводятся выборочные характеристики отдельных групп, то разумнее использовать второй вариант. Важно, чтобы как для первого, так и для второго случая всегда приводилось значение объема выборки "n". Тогда зная, например, "m" всегда можно вычислить и "s", и наоборот.
В последнее время часть авторов использует доверительные интервалы для описания точности оценок, например среднего. Такие оценки обычно представляют собой обычно двусторонние 95%-ные интервалы, задаваемые выражением M±1,96m. Однако авторы при этом забывают, что при этом необходимо указать величину доверительной вероятности. В ряде случае доверительный интервал представляет самостоятельный интерес, в частности, при анализе частотных соотношений. В этом случае достаточно информативен такой признак, как ЧБНЛ - "Число Больных, которых Необходимо Лечить определенным методом в течение определенного времени, чтобы достичь определенного эффекта или предотвратить неблагоприятный исход". Данный показатель находится как обратная величина для одной из границ доверительного интервала для доли, пропорции.
Описание использованных методов статистики (специальная часть)
Помните, что содержание описания выводов о применении любого статистического метода помимо собственно информации о полученных результатах, всегда дает читателю информацию и об уровне вашего владения этим методом. Поэтому старайтесь описывать только то, что сами хорошо понимаете. Иначе автор рискует оказаться в положении незадачливого семинариста из повести Николая Помяловского "Очерки бурсы" . Когда такого семинариста отец попросил сказать по-латыни "лошадь свалилась с моста", он сказал: "Лошадендус свалендус с мостендус". Обычно такой "телефон Хоттабыча" (выглядит как настоящий, но - не работает!) легко узнаваем: автор публикации просто говорит о том, что использовался такой-то метод (нередко даже ошибаясь в написании его названия) и далее на всем протяжении работы вообще не вспоминает о результатах и особенностях применения этого метода. Многочисленные примеры таких публикаций приведены в нашей статье "Долгое прощание с лысенковщиной" и в разделе КУНСТКАМЕРА. Чтобы такого не было, организуйте свое исследование так, чтобы анализ данных проводил профессионал в данной области, который и даст вам описание этого этапа. Если же вы сомневаетесь в правильности или корректности собственных формулировок, то обратитесь за консультацией к специалисту в этой области.
В отдельной таблице приведены рекомендации по описанию более 50 методов и критериев, наиболее часто используемых в статистическом анализе биомедицинских данных.
"Плавать по морю необходимо..."
Работая над данной статьей, автор периодически обращался к книгам отечественных патриархов прикладной статистики. Чаще других открывались книги Василия Васильевича Налимова - человека удивительной судьбы, разносторонних интересов. "Леонардо да Винчи 20 века" - так его назвал известный американский ученый Юджин Гарфильд, основавший в 1958 году Институт научной информации США. Со временем на БИОМЕТРИКЕ будут открыты специальные разделы, посвященные А.Н. Колмогорову и В.В. Налимову. Многое из того, что написано в этой статье, есть результат переосмысления их взглядов и идей применительно к реалиям нынешней действительности.
На последней странице книги "Теория эксперимента" (М.: Наука, 1971. - 208 с.) В.В. Налимов пишет: "... Почему так часто язык статистики используется столь вульгарно?... Все дело в том, что язык математической статистики еще не стал родным языком экспериментатора. Экспериментатору пользоваться им так же трудно, как каждому из нас пользоваться малознакомым иностранным языком. ... Мы конечно далеки от мысли о том, что каждый экспериментатор может стать и специалистом по математической статистике. В будущем, по-видимому, нужно стремиться к созданию двухступенчатой системы организации исследований. Экспериментатор, понимающий идейную сторону теории эксперимента, должен получить возможность постоянно взаимодействовать с консультантом. Возникает необходимость в появлении специалистов нового профиля - статистиков-консультантов." Именно такой междисциплинарный союз в дальнейшем и позволит читателю статьи не только видеть текст, но и адекватно понимать его. А как сказал великий Альберт Эйнштейн "Радость видеть и понимать, есть самый прекрасный дар природы". Так не будем же лишать этого дара будущих читателей наших статей, и поэтому будем давать в этих статьях ясное, полное и разумное описание выполненного статистического анализа наблюдений.
© Василий Леонов 09.10.02
Опубликовано на сайте Биометрика.
Постоянный адрес статьи: http://www.biometrica.tomsk.ru/principals.htm
Размещено с разрешения автора.