Критерий Стьюдента статистической значимости разности средних двух выборок, предложенный Р. Фишером в1925 г., до сих пор является одним из самых востребованных методов статистического анализа. За почти столетие его использования сложилась устойчивая система рекомендаций и условий его применения, которая изложена в учебниках и руководствах по статистической обработке данных. Как правило, настоятельно требуется предварительная проверка нормальности распределения исходных выборок и равенства их дисперсий. В случае ненормальности рекомендуется использовать непараметрические методы, например критерий Манна-Уитни. В работе представлена более современная точка зрения на эту проблему, обусловленная несколькими взаимосвязанными причинами. Во-первых, за прошедшее столетие накоплен значительный практический опыт применения t -критерия Стьюдента, который заставляет сильно сомневаться в обязательности проверки нормальности и равенства дисперсий, а также применения ранговых критериев в случае отсутствия нормальности. Во-вторых, теория тоже не стояла на месте. Появились расчет критерия Стьюдента через точечно-бисериальный коэффициент корреляции и альтернативы методам «нормальной теории» в виде свободных от распределения процедур. В-третьих, кардинально выросли вычислительные возможности, позволяющие без дополнительных предположений моделировать в компьютере генеральные распределения исходных выборок и по ним оценивать требуемые p -value.
Идентификаторы и классификаторы
Критериев Стьюдента много. Cамым востребованным является критерий Стьюдента статистической значимости разности средних двух выборок (далее t-критерий Стьюдента для двух средних), и именно его мы будем рассматривать. Задача заключается в следующем. Даны две совокупности объектов, у которых измерен некоторый количественный признак. Для каждой совокупности вычислены средние значения этого признака. Как правило, они несколько отличаются друг от друга. Требуется принять решение: считаем ли мы разницу между этими средними случайной или нет. Алгоритм должен быть пригодным для использования на практике, т. е. простым и надежным. В рамках статистической науки проблема формулируется так: имеется нулевая гипотеза (H0) (обычно отсутствия различий), а наблюдаемые отклонения от нее возникли по случайным причинам. Необходимо принять или отклонить нулевую гипотезу. Для этого надо оценить суммарную вероятность (p-value) наблюдаемых и всех менее вероятных отклонений от H0. Если p-value меньше некоторого заранее установленного порога – уровня значимости (α), то нулевая гипотеза отвергается (Fisher, 1925b). На сегодняшний день приняты и повсеместно используются три стандартных уровня статистической значимости: 0.05, 0.01, 0.001.
Список литературы
1. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1983.
Bolshev L.N., Smirnov N.V. Tables of Mathematical Statistics. Moscow: Nauka Publ., 1983 (in Russian).
2. Кендалл М., Стюарт А. Статистические выводы и связи. Т. 2. М.: Наука, 1973.
Kendall M., Stewart A. The Advanced Theory of Statistics. Vol. 2. Moscow: Nauka Publ., 1973 (in Russian).
3. Крамер Г. Математические методы статистики. М.: Мир, 1975.
Cramer H. Mathematical Methods of Statistics. Moscow: Mir Publ., 1975 (in Russian).
4. Лемешко Б.Ю., Лемешко С.Б. Об устойчивости и мощности критериев проверки однородности средних. Измерительная техника. 2008;9:23-28. EDN: MVJZQL
Lemeshko B.Y., Lemeshko S.B. Power and robustness of criteria used to verify the homogeneity of means. Meas Tech. 2008;51(9):950-959. DOI: 10.1007/s11018-008-9157-3
5. Лойко В.И., Луценко Е.В., Орлов А.И. Высокие статистические технологии и системно-когнитивное моделирование в экологии. Краснодар: КубГАУ, 2019. EDN: PJGBXC
Loiko V.I., Lutsenko E.V., Orlov A.I. High Statistical Technologies and System-cognitive Modeling in Ecology. Krasnodar: KubSAU Publ., 2019 (in Russian). EDN: PJGBXC
6. Орлов А.И. О методах проверки однородности двух независимых выборок. Заводская лаборатория. Диагностика материалов. 2020;86(3):67-76. DOI: 10.26896/1028-6861-2020-86-3-67-76 EDN: WUYGII
Orlov A.I. On methods of testing the homogeneity of two independent samples. Zavodskaya Laboratoriya. Diagnostika Materialov = Industrial Laboratory. Diagnostics of Materials. 2020;86(3):67-76. 10.26896/1028-6861-2020-86-3-67-76 (in Russian). DOI: 10.26896/1028-6861-2020-86-3-67-76(inRussian)
7. Фишер Р.А. Статистические методы для исследователей. М.: Госстатиздат, 1958.
Fisher R.A. Statistical Methods for Research Workers. Moscow: Gosstatizdat Publ.,1958 (in Russian).
8. Benjamin D.J., Berger J.O., Johannesson M., Nosek B., Wagenmakers E.J., Berk R., Bollen K.A., … Wolpert R., Xie Y., Young C., Zinman J., Johnson V.E. Redefine statistical significance. Nat Hum Behav. 2018;2(1):6-10. DOI: 10.1038/s41562-017-0189-z
9. Boukerche A., Zheng L., Alfandi O. Outlier detection: methods, models, and classification. ACM Computing Surveys (CSUR). 2020;53(3):1-37. DOI: 10.1145/3381028
10. Conover W.J. The rank transformation - an easy and intuitive way to connect many nonparametric methods to their parametric counter-parts for seamless teaching introductory statistics courses. Wiley Interdiscip Rev Comput Stat. 2012;4(5):432-438. DOI: 10.1002/wics.1216
11. Davenport J.M., Webster J.T. The Behrens-Fisher problem, an old solution revisited. Metrika. 1975;22(1):47-54.
12. Efron B. Computers and the theory of statistics: thinking the unthinkable. SIAM Rev. 1979;21(4):460-480. DOI: 10.1137/1021092
13. Fisher R.A. Frequency distribution of the values of the correlation coefficient in samples from an indefinitely large population. Biometrika. 1915;10(4):507-521. EDN: ILMXPP
14. Fisher R.A. Applications of “Student’s” distribution. Metron. 1925a;5:90-104.
15. Fisher R.A. Statistical Methods for Research Workers. Edinburgh: Oliver and Boyd, 1925b.
16. Hammer Ø. Harper D.A.T., Ryan P.D. PAST: PAleontological STatistics software package for education and data analysis. Palaeontol Electronica. 2001;4(1):9.
17. Hazel L.N. The genetic basis for constructing selection indexes. Genetics. 1943;28(6):476-490.
18. Hesterberg T.C. What teachers should know about the bootstrap: resampling in the undergraduate statistics curriculum. Am Stat. 2015;69(4):371-386. DOI: 10.1080/00031305.2015.1089789
19. Kennedy-Shaffer L. Before p < 0.05 to beyond p < 0.05: using history to contextualize p-values and significance testing. Am Stat. 2019;73(sup1):82-90. DOI: 10.1080/00031305.2018.1537891
20. Lehmann E.L. “Student” and small-sample theory. Stat Sci. 1999;14(4):418-426.
21. Lumley T., Diehr P., Emerson S., Chen L. The importance of the normality assumption in large public health data sets. Annu Rev Public Health. 2002;23(1):151-169. DOI: 10.1146/annurev.publhealth.23.100901.140546
22. Rochowicz J.A., Jr. Bootstrapping analysis, inferential statistics and EXCEL. Spreadsheets in Education ( SiE). 2010;4(3). http://epublications.bond.edu.au/ejsie/vol4/iss3/4.
23. Rousselet G., Pernet C.R., Wilcox R.R. An introduction to the bootstrap: a versatile method to make inferences by using data-driven simulations. Meta-Psychology. 2023;7:2058. DOI: 10.15626/MP.2019.2058 EDN: SWXLAM
24. Smith H.F. The problem of comparing the results of two experiments with unequal errors. J Council Sci Industrial Res. 1936a;9:211-212.
25. Smith H.F. A discriminant function for plant selection. Annals of Eugenics. 1936b;7(3):240-250.
26. Student. The probable error of a mean. Biometrika. 1908;6:1-25. DOI: 10.2307/2331554
27. Student. Tables for estimating the probability that the mean of a unique sample of observations lies between -∞ and any given distance of the mean of the population from which the sample is drawn. Biometrika. 1917;XV:414-417.
28. Student. Statistics in biological research. Nature. 1929;124:93. DOI: 10.1038/124093b0
29. Student’s t-test (t-критерий Стьюдента) https://en.wikipedia.org/wiki/Student%27s_t-test [обновлено 10 января 2023; процитировано 30 июня 2024. доступно: https://wwwи.рф].
30. Wang H., Bah M.J., Hammad M. Progress in outlier detection techniques: a survey. IEEE Access. 2019;7;107964-108000. DOI: 10.1109/ACCESS.2019.2932769
31. Wasserstein R.L., Schirm A.L., Lazar N.A. Moving to a world beyond “p<0.05”. The American Statistician. 2019;73(sup.1):1-19. https://www.jstor.org/stable/48783683.
32. Welch B.L. The significance of the difference between two means when the population variances are unequal. Biometrika. 1938;29(3/4):350-362. EDN: ILOWTF
Выпуск
Другие статьи выпуска
Для инициации транскрипции РНК-полимеразой II с ТАТА-содержащих промоторов необходима сборка транскрипционного комплекса, начинающаяся со взаимодействия ТВР (TATA binding protein) или TFIID, в состав которого он входит, с ТАТА-боксом, и присоединения к ним других базальных факторов транскрипции. Изучению взаимодействия ТВР с ТАТА-боксами и ТАТА-подобными элементами млекопитающих посвящено большое количество работ, увеличивающееся с обнаружением влияния однонуклеотидных замен (SNP) в ТАТА-последовательностях на фенотипические проявления, в том числе на связь с различными заболеваниями человека. Взаимодействие ТВР с ТАТА-боксами растений, в частности Аrabidopsis thaliana, практически не изучалось, за исключением единичных ранних работ. Широкомасштабное предсказание промоторных последовательностей и входящих в них сайтов связывания транскрипционных факторов с помощью различных инструментов in silico успешно используется благодаря достижениям в транскриптомных технологиях и секвенировании геномов довольно многих видов растений ( A. thaliana, рис, томат, свекла, картофель, пшеница, хлопчатник и др.). Однако предсказанные регуляторные последовательности могут быть функциональными (а могут и не быть), и необходима экспериментальная верификация вклада потенциального сайта связывания фактора транскрипции в активность промотора для подтверждения его функциональности. В данной работе применяется количественный метод задержки ДНК в геле для определения сродства ТВР к ТАТА-боксам промоторов генов A. thaliana и его сравнения с предсказанным с помощью веб-сервиса Plant_SNP_TATA_Z-tester значением. Для изучения мы использовали гены A. thaliana PUR7, TFL1, MLH1, FT, AOP2, транскрибируемые в разных органах растения. Выявлено, что олигодезоксирибонуклеотиды, идентичные последовательностям ТАТА-боксов с фланкирующими их нуклеотидами генов А. thaliana, имеют сродство к ТВР, различающееся до 66 раз. Фланкирующие последовательности ТАТА-боксов промоторов рассмотренных генов А. thaliana имеют более низкое содержание GC-нуклеотидов во фланках (на 23 %) по сравнению с генами человека. Эксперименты показали, что для предсказанных с помощью Plant_SNP_TATA_Z-tester равновесных констант диссоциации K D и их экспериментальных значений, выраженных в нМ, коэффициент линейной корреляции ( r ) = 0.97 при p < 0.05. Полученные результаты указывают на надежность in silico оценки сродства ТВР Arabidopsis к промоторам генов этого растения с помощью сервиса Plant_SNP_TATA_Z-tester.
Исследован половой полиморфизм Geranium sylvaticum L. в двух популяциях в луговом и лесном фитоценозах подтаежного правобережья Оби (окрестности г. Новосибирска). В зависимости от комбинации обоеполых, пестичных и частично андростерильных цветков обнаружены три половых фенотипа: гермафродитный, женский и гиномоноэцичный. У ряда гермафродитных фенотипов формируются частично андростерильные цветки, среди которых преобладают цветки с 5 стаминодиями и 5 нормальными тычинками. Частично андростерильные цветки малочисленны и образуются в верхней и/или нижней части соцветия в начале и/или конце цветения растений. Гиномоноэцичные фенотипы представлены в двух вариантах: женский фенотип с единичными частично андростерильными цветками и гермафродитный фенотип с несколькими пестичными цветками. Женские фенотипы образуют приблизительно в 2 раза меньше цветков и в 1.6 раза меньше плодов, чем гермафродитные (различия статистически значимы), однако образование плодов в расчете на цветок у женских фенотипов в 1.4 раза выше, чем у гермафродитных. В условиях низкой освещенности гермафродитные фенотипы с частично андростерильными цветками встречаются в 2.2 раза чаще, чем при высоком уровне освещения. Соотношение двух форм гермафродитных фенотипов (с частично андростерильными цветками и без них) в луговом и лесном фитоценозах различается статистически значимо ( p = 0.0247 < 0.05). При высоком уровне освещения гермафродитные фенотипы продуцируют в 1.6 раза больше плодов, чем при низком; различия статистически значимы ( p < 0.05). В исследуемых популяциях G. sylvaticum выявлена низкая доля женских фенотипов как в луговом, так и в лесном фитоценозах: 7.1 и 4.7 % соответственно. Гиномоноэцичные фенотипы в популяциях отмечаются единично -0.8-1.6 %. Для G. sylvaticum характерна сравнительно низкая встречаемость женских и гиномоноэцичных фенотипов и заметная доля гермафродитных с частично андростерильными цветками в европейской и азиатской частях ареала вида.
Полувековая жизнь в науке Л. П. Осиповой была тесно связана со становлением, организацией и развитием комплексных и широкомасштабных исследований генетической структуры популяций человека Северной Евразии. Были инициированы и проводились исследования в различных направлениях популяционной и эволюционной генетики человека, молекулярной генетики и иммуногенетики, демографии и биомедицины коренных народов; изучались механизмы адаптации человека к факторам окружающей среды, а также влияние техногенных факторов на окружающую среду и на здоровье человека. Совокупность результатов масштабных геномных исследований международных консорциумов с участием коллектива Л. П. Осиповой позволила реконструировать предковые геномы и воссоздать пути миграции человека в историческом прошлом.
Целью данной работы была идентификация полиморфных локусов в геномах Daphnia с помощью анализа последовательности генома и экспериментального анализа реальных образцов, собранных в естественных условиях. Мы использовали праймеры, предсказанные алгоритмом амплификации ДНК из образцов дафний, и капиллярный электрофорез для выявления полиморфных локусов. Это сделано для детекции полиморфных локусов в результате единственного эксперимента, когда наличие полиморфизмов с частотой, достаточной для генетических исследований, детектируется как появление множественных пиков на электрофореграмме. Таким образом, мы оценивали эффективность метода капиллярного электрофореза и уточняли параметры популяции, включая долю полового размножения и эффективную численность популяции. Изучение полиморфных локусов становится особенно актуальным в контексте изменения климата и усиления антропогенного воздействия на экосистемы, поскольку эти факторы могут существенно влиять на генетическое разнообразие и адаптацию популяций. Полиморфные локусы, содержащие микросателлитные повторы, могут служить индикаторами генетической стабильности и способности видов адаптироваться к изменяющимся условиям окружающей среды. В условиях глобального изменения климата и усиливающегося антропогенного воздействия, такого как загрязнение окружающей среды, урбанизация и изменения ландшафта, гидробионты сталкиваются с новыми вызовами, требующими быстрой адаптации. Полиморфные локусы, благодаря своей высокой изменчивости, могут предоставить ценную информацию о генетической структуре популяций и их потенциале к адаптации. В контексте наших исследований изучение полиморфных локусов у Daphnia приобретает особую важность, учитывая их экологическую роль и чувствительность к изменениям окружающей среды. Представители рода Daphnia как ключевые компоненты пресноводных экосистем могут служить модельными организмами для изучения генетической адаптации к изменению климата и антропогенным воздействиям. Понимание полиморфных локусов у Daphnia может дать ценные данные для оценки генетической стабильности и адаптивного потенциала этих популяций, что особенно важно в условиях быстро меняющихся условий окружающей среды.
Признаки, связанные с весом тела в разном возрасте, хорошо коррелируют с продуктивностью, здоровьем и продолжительностью хозяйственного использования крупного рогатого скота. В то же время у крупного рогатого скота вес тела - признак с высокой наследуемостью. Полногеномный анализ ассоциаций позволяет найти генетические варианты и потенциальные гены-кандидаты, контролирующие интересующий признак. Однако обзоры работ по изучению веса тела с помощью полногеномного анализа ассоциаций у животных молочных пород крупного рогатого скота практически отсутствуют. Целью этой работы было выявление потенциальных генов-кандидатов, ассоциированных с признаками веса тела, у животных молочных пород крупного рогатого скота на основании исследований по полногеномному анализу ассоциаций. Поиск литературы проведен с использованием поискового запроса “Cattle AND Dairy AND Weight AND Genome-wide AND Association AND Study”. Критерием для включения публикации в нашу работу служила идентификация хотя бы одного гена-кандидата, достоверно ассоциированного с признаком, связанным с весом тела у животных молочной породы крупного рогатого скота. Количество пересечений между списками генов-кандидатов подсчитывали с помощью программы Venn. Анализ взаимодействий между генами/белками проводили с использованием веб-ресурса GeneMANIA; перепредставленные термины генной онтологии были найдены с помощью веб-инструмента DAVID. Было обнаружено 20 генов, ассоциированных в одной публикации с разными признаками веса либо с одинаковым признаком, но в нескольких публикациях. Среди них наибольшее количество пересечений имели гены TNNT3, DYRK4, AKAP3, GALNT8, NDUFA9 и KCNA1. Общие биохимические пути и белок-белковые взаимодействия были найдены для пар генов TNNT3-TNNI2 и FGF6-FGF23. Общие белковые домены были обнаружены у пар TNNT3 - TNNI2, FGF6 - FGF2 3 и KCNA1 - KCNA6. При функциональной аннотации вышеупомянутого списка из 20 генов были выявлены перепредставленные термины генной онтологии, указывающие на обогащение списка генами, кодирующими белки комплекса тропонина ( TNNT3 и TNNI2 ), белки калиевых каналов внутреннего выпрямления ( KCNA1 и KCNA6 ), а также белки-рецепторы фактора роста фибробластов ( FGF6 и FGF23 ).
Издательство
- Издательство
- НИИТПМ
- Регион
- Россия, Новосибирск
- Почтовый адрес
- 630089, г. Новосибирск, ул. Б. Богаткова, 175/1, Метро "Золотая нива", Автобус "Молодежная, Кошурникова"
- Юр. адрес
- 630090, г. Новосибирск, пр-т Академика Лаврентьева, 10
- ФИО
- Рагино Юлия Игоревна (Руководитель)
- Контактный телефон
- +7 (383) 3730981
- Сайт
- https://iimed.ru/