Представляем Геомодель iNaturalist

Сегодня (22.09.2023) мы изменили пометку «Seen Nearby» («Увиденные поблизости») в подсказках на «Expected Nearby» («Ожидаемые поблизости»). Эта пометка основана на прогнозах Геомодели iNaturalist, которую мы представляем впервые.

Что такое Геомодель?

Большинство из вас знакомы с моделью компьютерного зрения iNaturalist, которая в качестве входных данных берёт фотографию и предлагает наиболее вероятные виды на основе визуального сходства в качестве выходных данных. Мы обучаем эту модель на наборе из примерно 80 тыс. видов с достаточным объёмом данных и обновляем её ежемесячно (сегодня мы выпустили версию 2.7).

Геомодель iNaturalist в качестве входных данных берёт местоположение съёмки и предлагает наиболее вероятные виды в этом месте в качестве выходных данных. Как и модель компьютерного зрения, это модель основана на глубоком обучении, проведённом на том же наборе таксонов, мы обновляем её по тому же ежемесячному графику. Мы разработали и опубликовали Геомодель в сотрудничестве с той же командой «Visipedia», которая помогала создавать модель компьютерного зрения iNaturalist. На карте ниже показана наша прогнозная карта для американской пищухи. Геомодель обучается только на основе наблюдений iNaturalist и карты высот.

От сеточных данных к прогнозам Геомодели

iNaturalist уже использует Геомодель для взвешивания подсказок компьютерного зрения с июня этого [2023] года. С сегодняшнего дня [22.09.2023] использование Геомодели отображается пометкой «Expected Nearby» («Ожидаемые поблизости»).

Ранее мы использовали сеточную карту первичных наблюдений для взвешивания подсказок компьютерного зрения и ставили пометку «Seen Nearby» («Увиденные поблизости»). Мы считали относительное число наблюдений для каждого вида по сетке с шагом 1 градус. Если были какие-либо наблюдения таксона в этой и 8 окружающих ячейках сетки, мы добавляли к подсказкам пометку «Seen Nearby» («Увиденные поблизости»). Итак, мы использовали относительное число наблюдений в ячейках сетки для взвешивания подсказок компьютерного зрения. Обратите внимание на находку Membracis mexicana в ячейке сетки на юге Бразилии, которая, вероятно, возникла из-за ошибочного определения.

Теперь мы используем карту ожидаемых находок, предсказанных Геомоделью, для добавления пометки «Expected Nearby» («Ожидаемые поблизости»). Вы можете представить такую карту как простую оценку того, присутствует ли тот или иной вид вблизи данного местоположения [есть/нет].

Изменение названия пометки с «Seen Nearby» («Увиденные поблизости») на «Expected Nearby» («Ожидаемые поблизости») призвано пояснить, что она основана на прогнозной модели, а не на сеточных данных наблюдений. Заметьте, эти прогнозы далеки от идеала. Например, Membracis mexicana, вероятно, не встречается на Галапагосских островах или Кубе, несмотря на прогноз. Для некоторых видов Геомодель работает исключительно хорошо, в то время как для других прогнозы имеют очень высокую степень ошибки. Работа по их лучшему пониманию и экспериментированию с улучшениями продолжается. Но, как мы покажем ниже, в среднем Геомодель превосходит сеточный подход с шагом в 1 градус, который она заменяет. Мы ожидаем дальнейших улучшений в будущих версиях Геомодели.

Мы используем беспороговую версию карты ожидаемых находок для взвешивания подсказок компьютерного зрения. Вы можете представить такую беспороговую карту как относительную вероятность того встречается ли вид в определенном месте.

[Прогнозные карты лежат в свободном доступе.] Вы можете изучать как карту ожидаемых находок вида, так и беспороговую карту, которую мы используем для взвешивания подсказок компьютерного зрения, по появившейся ссылке прогнозов Геомодели, которую мы разместили на страницах таксонов у примерно 80 000 видов.

Зачем нужна Геомодель и будущие возможности

Мы перешли от сеточных данных с шагом в 1 градус к Геомодели по четырем основным причинам.

1. Улучшение в подсказках компьютерного зрения

Как подробно описано в разделе «Оценка Геомодели» ниже, Геомодель повышает точность подсказок компьютерного зрения по сравнению с сеточным подходом с шагом в 1 градус. Версия [компьютерного зрения] 2.7, выпущенная сегодня [22.09.2023], примерно на 4% лучше по сравнению с сеточным подходом по точности первой подсказки (так называемый «Топ-1»), и мы ожидаем ещё большего повышения точности в будущих версиях Геомодели по мере совершенствования алгоритмов моделирования и загрузки большего числа наблюдений.

2. Будущие возможности: быстрая/оффлайновая геоинформация

Объём параметров Геомодели составляет всего 2% от объёма сеточных данных с шагом в 1 градус. Это означает, что Геомодель небольшая и достаточно быстрая, чтобы работать на мобильных устройствах, как это делает модель компьютерного зрения в Seek. Это открывает возможности для включения геоданных в такие функции, как подсказки в режиме реального времени (встроены в камеру Seek) и отображение карт таксонов на мобильных устройствах в офлайн-режиме. Мы еще не создали эти функции, но Геомодель делает их возможными.

3. Будущие возможности: обнаружение необычных наблюдений

По мере роста iNaturalist сообществу нужны более совершенные инструменты для выявления «необычных» наблюдений, которые могут быть основаны на ошибочных определениях или, напротив, содержать важные открытия: например, расширение ареала вида или первую находку инвазивных видов.

На рисунке ниже показаны 2,1 млн наблюдений стрекоз, отсортированных по их географической «необычности», согласно предсказаниям Геомодели. В правой части гистограммы показаны самые «необычные» 0,01% наблюдений. Мы отправили эти 223 «необычных» наблюдения эксперту по стрекозам @dennispaulson для проверки: из них 197 наблюдений (88%) были ошибочно определены (красные столбики), например, эта Lestes forficula, ошибочно названная Lestes rectangularis. Остальные 26 наблюдений представляли собой некоторые действительно необычные находки (белые столбики), такие как расширение ареала Libellula incesta в штате Колорадо.

Некоторые наблюдения из белых столбиков были «необычны» для нашей модели, но не для @dennispaulson, например, эта Sympetrum gilvum с Гаити, находку которой Геомодель считает необычной. Благодаря большему числу наблюдений и определений из регионов с недостаточной выборкой точность Геомодели со временем улучшится.

Эксперт по мухам @zdanko помог провести аналогичный эксперимент с 500 000 наблюдений за журчалками. Как и в случае со стрекозами, из 365 самых «необычных» наблюдений 267 наблюдений (73%) были действительно ошибочно определены.

Мы воодушевлены возможностью создания инструментов на основе Геомодели, которые помогут быстрее выявить такие «необычные» наблюдения и привлечь больше внимания экспертов, чтобы можно было как исправить ошибки в определениях, так и не пропустить важные открытия, такие как расширение ареалов видов.

4. Будущие возможности: контекст площади ареала

Одной из наиболее важных характеристик вида с природоохранной точки зрения является площадь его ареала. При прочих равных условиях виды, имеющие небольшие ареалы, подвергаются гораздо большему риску исчезновения, чем широко распространенные виды. Для выстраивания приоритетов при скудных природоохранных ресурсах и перераспределения внимания, ответственным землепользователям необходимы инструменты, позволяющие определять, какие виды являются узколокальными эндемиками (т.е. виды, которые больше нигде в мире не встречаются) от других, более широко распространенных видов.

Как указано ниже в разделе «Оценка Геомодели», модельные прогнозы ареалов хорошо коррелируют собственно с картами ареалов, которые есть на страницах некоторых таксонов, полученных из внешних источников.

На рисунке ниже показаны прогнозы Геомодели по ареалам 10 узкоареальных птиц со всего мира. Мы надеемся создать инструменты на основе Геомодели, чтобы упростить понимание того, какие наблюдения относятся к узкоэндемичным видам для помощи сообществу ответственных землепользователей в выстраивании приоритетов в природоохранных целях.

На страницах прогнозов Геомодели карты ожидаемых находок отображаются по участкам с разрешением около 1,8 тыс. кв. км и, следовательно, открыто не показывают точную информацию о чувствительных видах. Мы продолжаем совершенствовать как каналы iNaturalist для безопасного сбора данных по чувствительным видам, так и точные прогнозы для природоохранных целей.

Оценка Геомодели

Мы оценивали Геомодель, измеряя:

  • улучшение точности подсказок;
  • сохранение правильных подсказок в подмножестве «Expected Nearby» («Ожидаемые поблизости»);
  • перекрытие между картами ожидаемых находок и картами ареалов таксонов.

1. Улучшение точности подсказок

В среднем точность первой подсказки («Топ-1») повышалась с 75% до 83% (+8%) за счет взвешивания необработанных результатов компьютерного зрения с помощью сеточных данных с шагом в 1 градус. Вместо этого взвешивание этих результатов с помощью Геомодели улучшило точность первой подсказки («Топ-1») до 87% (+12%). Мы повторили этот анализ по географическим и таксономическим группам, и во всех случаях Геомодель превосходила результаты сеточных данных.

2. Сохранение правильных подсказок в подмножестве «Expected Nearby» («Ожидаемые поблизости»)

По умолчанию мы показываем пользователям только подсказки с пометкой «Nearby» («Поблизости»). Преимущество этого подхода заключается в скрытии подсказок, которые географически маловероятны, но всё же при этом есть риск сокрытия правильной подсказки. Мы рассчитали статистику выдачи результатов, измеряющую, как часто правильная подсказка оказывалась в подмножестве «Nearby», полученных на основе Геомодели и на основе сетки с шагом в 1 градус. В среднем оба подхода дали одинаковое значение выдачи (0,94) – это означает, что на каждые 100 наблюдений верная подсказка включалась в подмножество «Nearby» («Поблизости») 94 раза.

3. Перекрытие между картами ожидаемых находок и картами ареалов видов

Чтобы измерить, насколько хороши карты ожидаемых находок по сравнению с картами ареалов видов, которые отображаются в iNaturalist на страницах таксонов, мы сравнили их, рассчитав статистику точности и полноты (Precision and Recall). Карты ареалов таксонов также не являются абсолютно точными, поэтому для целей оценки мы использовали подмножество из примерно 5000 ареалов видов, каждый из которых содержал не менее 90% наблюдений таксона.

Мы повторили этот анализ, сравнивая сеточные данные с шагом в 1 градус и данные Геомодели с картами ареалов видов: прогнозы Геомодели по средним показателям точности и полноты выросли. Статистика F1 (среднее гармоническое точности и полноты) лучше у Геомодели на 9% по сравнению с сеткой шагом в 1 градус.

При расчёте среднелогарифмической квадратичной ошибки (MLSE) Геомодель также лучше справляется с сопоставлением площади ареала таксона, чем сетка шагом в 1 градус.

Благодарности

Мы хотим выразить особую благодарность соавторам нашего исследования, в том числе Oisin Mac Aodha (Эдинбургский университет), Elijah Cole (Калифорнийский технологический институт), Grant Van Horn (Массачусетский университет в Амхерсте), Christian Lange (Эдинбургский университет), Pietro Perona (Калифорнийский технологический институт) и @tbrooks (МСОП), а также за щедрую поддержку в виде «Climate Change AI 2021–2022 Innovation Grant», который сделал эту работу возможной.

Мы воодушевлены повышением точности подсказок, которые Геомодель демонстрирует сегодня, и потенциалом будущих возможностей, которые она открывает для нас в ближайшие месяцы. Спасибо всему сообществу iNaturalist за наблюдения и определения, которые делают возможным обучение таких мощных моделей как наша Геомодель!


Оригинальный текст / Original English text: https://www.inaturalist.org/blog/84677, автор Скот Лори (@loarie).

Перевод / Russian translation: А.П. Серегин (@apseregin).

הועלה ב-ספטמבר 24, 2023 01:05 אחה"צ על ידי apseregin apseregin

תגובות

Карты оно рисует несколько странные, например — https://www.inaturalist.org/geo_model/198886/explain — я имею в виду Новую Землю и прочий крайний север. При том, что наблюдений там нет, ни ошибочных, ни культурных, ни еще каких (что и неудивительно). И так не только с иргой, а со множеством видов.

Хотя в целом начинание, конечно, правильное и ожидаемое.

פורסם על-ידי shikhalev לפני 9 חודשים

@shikhalev, Иван, спасибо за комментарий. Вот какие мысли: гляньте на той же страничке закладку с беспороговой картой ("Unthreshholded map"). (1) Если бы пороги выставлялись вручную (это едва ли не ключевой этап в современном SDM-моделировании), то можно было бы подобрать более адекватную картинку. (2) Сейчас в качестве пространственных слоев для SINR-моделирования на iNaturalist используется только карта высот, что постоянно даёт завышенные ожидания в приморских местностях.

В оригинальной статье (https://arxiv.org/abs/2306.02564 , раздел E.4, табл. A2) авторы экспериментировали аж с 9 пространственными слоями, что явно давало бы более адекватные картинки. Но здесь уже заметную роль начинает играть нехватка мощностей для расчёта моделей по 80 тыс. видам, поэтому в этом (первом) релизе пришлось явно пойти на упрощения. В SDM довольно легко подсчитывается статистика, какие переменные дают больший вклад в модель - думаю, здесь сделали то же самое и оставили пока только высоту н.у.м.

פורסם על-ידי apseregin לפני 9 חודשים

Беспороговая тоже дает довольно яркие точки по побережью Новой Земли.

Спасибо за ссылку на arXiv, попробую поразбираться на досуге.

Вообще, по самой сути как таких моделей, так и iNaturalist, я полагаю, со временем всё доработают и отладят. Первая версия на то и первая... что ей доверять пока нельзя. Еще у меня возникло подозрение, что наибольшее внимание при тестировании досталось Северной Америке, что, на мой личный взгляд, тоже дает надежду, что в следующих релизах дела с остальными территориями улучшатся.

פורסם על-ידי shikhalev לפני 9 חודשים

А еще непонятно, почему они использовали для тренировки все наблюдения, а не только дикие (в комментариях к оригинальному посту обсуждается).

פורסם על-ידי shikhalev לפני 9 חודשים

הוספת תגובה

כניסה או הרשמה להוספת הערות