Генетики рассказали, как Microsoft Excel вносит погрешности в исследования
28.08.2021 в 20:48
509
0
Такие ошибки, как отмечают авторы, вызывают «обеспокоенность по поводу научной строгости» исследований.
Ученые из Австралии показали, что ошибки автокоррекции, особенно в таблицах Excel, могут привести к путанице в названиях генов в генетических исследованиях.Такие ошибки, как отмечают авторы, вызывают «обеспокоенность по поводу научной строгости» исследований.
Автокоррекция, или прогнозируемый текст, является общей чертой многих современных технических инструментов, от поиска в Интернете до приложений для обмена сообщениями и текстовых процессоров. Автокоррекция может быть благом, но когда алгоритм допускает ошибки, он может кардинально изменить сообщение.
В электронных таблицах используется интеллектуальный текст, чтобы угадать, какие данные нужны пользователю. Если вы введете номер телефона, начинающийся с нуля, он распознает его как числовое значение и удалит начальный ноль. Если вы введете «= 8/2», результат будет отображаться как «4», но если вы введете «8/2», он будет распознан как дата.«Мы изучили более 10 000 статей со списками генов Excel, опубликованными в период с 2014 по 2020 годы, и обнаружили, что более 30% содержат хотя бы одно имя гена, искаженное автокоррекцией», — рассказали авторы исследования из Университета Дикина в Австралии.
Для научных данных простое открытие файла в Excel с настройками по умолчанию может привести к повреждению данных из-за автокоррекции. Можно избежать нежелательной автокоррекции, если ячейки предварительно отформатированы перед вставкой или импортом данных, но этот и другие советы по гигиене данных широко не применяются.
В генетике еще в 2004 году было признано, что Excel может преобразовать около 30 названий человеческих генов и белков в даты. Это были такие имена, как MARCH1, SEPT1, Oct-4, jun и так далее.
«Несколько лет назад мы обнаружили эту ошибку в дополнительных файлах данных, прикрепленных к важной журнальной статье, и заинтересовались, насколько широко распространены эти ошибки. В нашей статье 2016 года указано, что проблема затрагивает журналы со средним и высоким рейтингом примерно одинаково. Это подсказало нам, что исследователи и журналы в основном не знали о проблеме автокоррекции и о том, как ее избежать», — рассказали авторы работы Марк Циманн и Мандхри Абейсоория.
В 2021 году авторы повторили свой анализ, но расширили его, чтобы охватить более широкий выбор журналов.
Часть авторов утверждала, что эти ошибки на самом деле не имеют значения, потому что 30 или около того генов — это лишь небольшая часть примерно 44 000 генов всего человеческого генома, и эти ошибки вряд ли опровергают выводы какого-либо конкретного геномного исследования.«Мы были шокированы, обнаружив, что в период с 2014 по 2020 год 3436 статей, около 31% нашей выборки, содержали ошибки в названиях генов», — подчеркнули авторы.
В ответ Марк Циманн упомянул случай, когда в биомедицинских исследованиях ошибка при составлении таблицы образцов привела к тому, что весь набор этикеток образцов был сдвинут на одну позицию и полностью изменил результаты геномного анализа. Эти результаты были значительными, потому что они использовались для обоснования лекарств, которые пациенты должны были получить в последующих клинических испытаниях.
Сейчас читают
Комментарии (0) |
Войдите, чтобы оставить комментарий.