03 апреля 2015

Метод "случайный лес" помогает понять факторы, определяющие расселение чужеродного вида



Двустворчатый моллюск дрейссена речная (Dreissena polymorpha) является одним из наиболее агрессивных пресноводных видов-вселенцев. Выходец из Понто-Каспийского региона, этот вид сегодня встречается практически на всей территории Европы, а также во многих водоемах Северной Америки. Вселение дрейссены вызывает значительные экосистемные изменения в водоемах и часто приводит к существенному экономическому урону (см., например, список публикаций здесь). В связи с этим важно иметь возможность заблаговременно предсказывать вероятность появления дрейссены в конкретном водоеме и формирования устойчивой популяции моллюска.




Выявление факторов, определяющих расселение дрейссены, было основной целью недавно опубликованной статьи в журнале Ecological Applications, где мне довелось поучаствовать в качестве одного из соавторов. Эта работа была основана на достаточно уникальном для экологических исследований наборе данных (с точки зрения большого объема наблюдений): для 553 из 1040 имеющихся в Беларуси озер ледникового происхождения была собрана информация по целому ряду морфологических и гидрохимических показателей, а также учтено наличие устойчивой популяции дрейссены.

Часть из обследованных водоемов оказались уже заселенными дрейссеной, а другая часть - нет. Незаселенные озера представляли особый интерес, поскольку отсутствие в них моллюска могло быть обусловлено какими-то особыми, неизвестными нам природными факторами. Однако выявление таких факторов затруднялось тем, что сам факт отсутствия дрейссены в том или ином водоеме еще не значит, что этот водоем не подходит для существования вида: в большинстве случаев отсутствие моллюска, скорее всего, было связано просто с тем, что он еще не успел туда "добраться". Поэтому в своей работе мы попытались сравнить те озера, которые уже заселены дрейссеной, с теми незаселенными озерами, которые по химическим параметрам воды все же потенциально подходят для существования вида. Незаселенные водоемы были обозначены как потенциально подходящие для дрейссены на основе информации, полученной в предыдущих исследованиях: моллюск никем раньше не был найден в озерах с уровнем кислотности воды рН < 7.2 и уровнем концентрации ионов кальция < 20 мг/л. Если эти два параметра превышали указанные пороговые значения, водоем считался потенциально подходящим для дрейссены.

Для сравнения заселенных и потенциально пригодных незаселенных озер по 16 показателям мы использовали метод машинного обучения "случайный лес" (Random Forest; отличное введение в этот алгоритм на русском языке можно найти здесь). Мы выбрали этот метод классификации по ряду причин, включая точность получаемых с его помощью предсказаний, его способность учесть сложные нелинейные взаимодействия между предикторами, а также встроенный механизм перекрестной проверки. В результате выполненного анализа было установлено, что наиболее важными факторами, отличающими заселенные и потенциально пригодные водоемы, являются расстояние до ближайшего заселенного дрейссеной озера, площадь поверхности озера, цветность его воды, а также концентрация ионов хлора, магния и углекислоты. В частности, вероятность обнаружить устойчивую популяцию моллюска оказалась гораздо выше в крупных озерах, расположенных недалеко от других, уже заселенных озер. Связь этой вероятности с концентрацией перечисленных ионов имела нелинейный характер. Ошибка построенного классификатора составила около 19%, что для обычно сильно "зашумленных" экологических данных довольно неплохо. С подробной интерпретацией полученных результатов и обсуждением их практического значения можно ознакомиться в самой статье.

Весь статистический анализ в этом исследовании был выполнен при помощи R. Исходные данные и R код можно найти на сайте издательства.


Комментариев нет :

Отправить комментарий