Машинне навчання для морфологічної класифікації галактик із огляду SDSS. III. Детальні характеристики за обробкою зображень у згортковій нейронній мережі

Храмцов, В, Вавилова, ІБ, Добричева, ДВ, Василенко, МЮ, Мельник, ОВ, Елиїв, АА, Ахметов, ВС, Дмитренко, АМ
Косм. наука технол. 2022, 28 ;(5):27-55
https://doi.org/10.15407/knit2022.05.027
Мова публікації: Англійська
Анотація: 
Стаття є продовженням наших робіт із застосування різних методів машинного навчання до морфологічної класифікації галактик (Vavilova et al., 2021, 2022). Ми досліджували вибірку ~315 800 SDSS DR9 галактик із абсолютними зоряними величинами −24m < Mr < −19,4m на червоних зміщеннях 0,003 < z < 0,1 як цільову вибірку даних для CNN класифікатора. Оскільки цільова вибірка тісно перетинається із Galaxy Zoo 2 (GZ2), ми використовуємо ці анотовані дані як навчальну вибірку для класифікації галактик за 34 детальними морфологічними характеристиками. За наявності вираженої різниці у яскравості і розмірах між галактиками з навчальної вибірки і галактиками без відомих морфологічних параметрів ми застосували нові методики, які дозволили нам вперше позбутися цієї різниці для менших і слабкіших галактик SDSS із mr < 17,7. У статті детально описано ці методи змагальної перевірки, а також процедури оптимального розподілу галактик із тренувальної вибірки для перевірки CNN моделі на основі DenseNet-201. Ми також знайшли оптимальні трансформації зображень галактик (зміна яскравості, повороти, підгонка розмірів тощо), які допомагають покращити ефективність CNN класифікатора у пошуку подібності зображень.
                Ми вперше демонструємо, що застосування моделі CNN із додатковим розбиттям вибірок галактик на тренувальну/тестову та з функцією зміни розміру, яка симулює зменшення зоряної величини та розміру зображення галактик, значно покращує класифікацію менших і слабкіших галактик SDSS. Це можна розглядати як ще один спосіб покращити біас для тих зображень галактик, які мали статистично низьку класифікацію у проєкті GZ. Такий підхід, подібно до ауто-імунізації, коли CNN класифікатор, навчений на дуже хороших зображеннях, здатний перенавчити погані зображення з тієї самої однорідної вибірки, можна вважати аналогічним іншим методам покращення байєса.
            Найбільш багатообіцяючий результат пов'язаний з ймовірністю прогнозування CNN у класифікації детальних морфологічних характеристик (кільця, бар, балдж, взаємодіючі, іррегулярні тощо): точність становить 83,3–99,4 % відповідно до певної із 32 характеристик (виняток для характеристик «порушена структура» (68,55 %) і «середня закрутка спіральних рукавів» (77,39 %)). У результаті ми вперше визначили детальну морфологічну класифікацію для більш ніж 140 000 галактик на z<0.1, особливо з низькою яскравістю. Візуальна перевірка вибірок галактик з певними морфологічними ознаками дозволила виявити типові проблемні точки CNN класифікації зображень галактик з астрономічної точки зору.
              Морфологічні каталоги галактик SDSS із найцікавішими морфологічними особливостями доступні на веб-сайті УкрВО (http://ukr-vo.org/starcats/galaxies/) та VizieR.
Ключові слова: галактики, згорткова нейронна мережа (CNN), Методи: аналіз даних, морфологічна класифікація, обробка зображень