Новости

Нейросеть для орнитологов Perch 2.0 помогла распознать морских животных. И сделала это лучше специализированных моделей

Google Deepmind выпустила обновленную версию нейросети для биоакустики Perch 2.0. В отличие от предыдущей версии, Perch 2.0 может распознавать не только птиц, но и других животных. Представленная модель обходит все биоакустические модели на бенчмарках BirdSet и BEANS, а при трансферном обучении превосходит даже специализированные модели для классификации звуков подводных жителей, хотя обучалась почти исключительно на наземных животных. Модель опубликована в открытом доступе, препринт статьи доступен на arXiv.org.

Для оценки здоровья экосистем ученые нередко отслеживают численность популяций индикаторных видов. Часто в качестве индикаторов выбирают птиц — не только потому, что они выделяются на фоне других животных яркой вокализацией, но и потому что обитают почти везде. Особенно удобно стало отслеживать популяции птиц сегодня — когда на помощь орнитологам пришли системы пассивного акустического мониторинга и биоакустические классификаторы на основе нейросетей.

К примеру, ученые из Корнелльского университета разработали мобильные приложения BirdNet и Merlin Bird Id, с помощью которых любой человек может распознавать птиц в округе и делиться информацией о местоположении видов с орнитологами. Помимо этого появилось модели, предназначенные для специалистов — например, Perch от Google Deepmind, которая уже помогла обнаружить новую популяцию австралийских странников неподалеку от Мельбурна. С помощью нее же орнитологи отслеживают популяции гавайских цветочниц, находящиеся под угрозой исчезновения.

Теперь группа исследователей из Google Deepmind под руководством Тома Дентона (Tom Denton) представила улучшенную версию своей биоакустической модели — Perch 2.0. В отличие от предыдущей версии, которая обучалась на данных 10932 различных видов птиц (датасет Xeno-Canto), Perch 2.0 обучалась на данных 14795 классов птиц, млекопитающих, рептилий, насекомых и прочих животных, а также антропогенных шумов (датасеты Xeno-Canto, iNaturalist, Tierstimmenarchiv и FSD50K).

Иной стала и архитектура модели. В первой версии Perch для классификации видов пятисекундный фрагмент аудиозаписи сначала преобразовывался в лог-мел-спектрограмму, которая затем подавалась на вход сверточной нейросети EfficientNet-B1 на 7,8 миллиона параметров. Модель ставила в соответствие спектрограмме векторное представление (эмбеддинг), которое затем встроенный линейный классификатор использовал для определения вероятностей принадлежности к каждому из классов (видов). В новой версии для создания эмбеддингов использовалась сверточная нейросеть EfficientNet-B3 на 12 миллионов параметров, а помимо линейного классификатора модель обзавелась на выходе двумя дополнительными модулями.

Первый модуль — прототипный классификатор, который для каждого из 14795 классов выбирает 4 вектора-прототипа, отражающих характерные звуковые паттерны вида. Затем на основе сходства с прототипами модуль вычисляет вероятности элементов обучающей выборки принадлежать к каждому из классов и передает их обычному линейному классификатору для обучения. В результате более простой линейный модуль, предназначенный для использования на практике, учится анализировать данные подобно более сложной модели. Второй модуль — линейный классификатор, который по пятисекундному фрагменту самостоятельно обучается определять, из какой аудиозаписи он вырезан. Модуль обучается на сильно сжатых данных и параллельно обучает модель для эмбеддингов лучше различать уникальные детали в аудиозаписях. В итоге нововведения помогли Perch 2.0 обойти топовую нейросеть Audio ProtoPNet-5 по метрике ROC-AUC, сохранив при этом небольшие размеры и доступность для широкого круга пользователей.

Авторы отдельно отмечают, что создали Perch 2.0 таким образом, чтобы она могла хорошо работать в специфических случаях: например различать звуки отдельных особей или голоса молодняка. Ученые продемонстрировали это с помощью трансферного обучения (с помощью эмбеддингов от Perch 2.0 обучался другой классификатор) на малом количестве данных морских существ (16 примеров на вид) и сравнили со специализированными моделями. В результате, хотя датасеты для обучения Perch 2.0 практически не содержали данных о морских видах, модель обогнала топовую Surf Perch в тестах.

Подробнее об устройстве нейросетей можете почитать в нашем материале «Зоопарк алгоритмов».

Источник

Нажмите, чтобы оценить статью
[Итого: 0 Среднее значение: 0]

Похожие статьи

Добавить комментарий

Кнопка «Наверх»