Генетики рассказали, как Microsoft Excel вносит погрешности в исследования

28.08.2021 в 20:48 509 0
Генетики рассказали, как Microsoft Excel вносит погрешности в исследования
Фото: из открытых источников
Такие ошибки, как отмечают авторы, вызывают «обеспокоенность по поводу научной строгости» исследований.
Ученые из Австралии показали, что ошибки автокоррекции, особенно в таблицах Excel, могут привести к путанице в названиях генов в генетических исследованиях.

Такие ошибки, как отмечают авторы, вызывают «обеспокоенность по поводу научной строгости» исследований.

Автокоррекция, или прогнозируемый текст, является общей чертой многих современных технических инструментов, от поиска в Интернете до приложений для обмена сообщениями и текстовых процессоров. Автокоррекция может быть благом, но когда алгоритм допускает ошибки, он может кардинально изменить сообщение.

«Мы изучили более 10 000 статей со списками генов Excel, опубликованными в период с 2014 по 2020 годы, и обнаружили, что более 30% содержат хотя бы одно имя гена, искаженное автокоррекцией», — рассказали авторы исследования из Университета Дикина в Австралии.

В электронных таблицах используется интеллектуальный текст, чтобы угадать, какие данные нужны пользователю. Если вы введете номер телефона, начинающийся с нуля, он распознает его как числовое значение и удалит начальный ноль. Если вы введете «= 8/2», результат будет отображаться как «4», но если вы введете «8/2», он будет распознан как дата.

Для научных данных простое открытие файла в Excel с настройками по умолчанию может привести к повреждению данных из-за автокоррекции. Можно избежать нежелательной автокоррекции, если ячейки предварительно отформатированы перед вставкой или импортом данных, но этот и другие советы по гигиене данных широко не применяются.

В генетике еще в 2004 году было признано, что Excel может преобразовать около 30 названий человеческих генов и белков в даты. Это были такие имена, как MARCH1, SEPT1, Oct-4, jun и так далее.

«Несколько лет назад мы обнаружили эту ошибку в дополнительных файлах данных, прикрепленных к важной журнальной статье, и заинтересовались, насколько широко распространены эти ошибки. В нашей статье 2016 года указано, что проблема затрагивает журналы со средним и высоким рейтингом примерно одинаково. Это подсказало нам, что исследователи и журналы в основном не знали о проблеме автокоррекции и о том, как ее избежать», — рассказали авторы работы Марк Циманн и Мандхри Абейсоория.

В 2021 году авторы повторили свой анализ, но расширили его, чтобы охватить более широкий выбор журналов.

«Мы были шокированы, обнаружив, что в период с 2014 по 2020 год 3436 статей, около 31% нашей выборки, содержали ошибки в названиях генов», — подчеркнули авторы.

Часть авторов утверждала, что эти ошибки на самом деле не имеют значения, потому что 30 или около того генов — это лишь небольшая часть примерно 44 000 генов всего человеческого генома, и эти ошибки вряд ли опровергают выводы какого-либо конкретного геномного исследования.

В ответ Марк Циманн упомянул случай, когда в биомедицинских исследованиях ошибка при составлении таблицы образцов привела к тому, что весь набор этикеток образцов был сдвинут на одну позицию и полностью изменил результаты геномного анализа. Эти результаты были значительными, потому что они использовались для обоснования лекарств, которые пациенты должны были получить в последующих клинических испытаниях.
Теги:Microsoft Excel, исследования, генетики

Комментарии (0)
Войдите, чтобы оставить комментарий.