Место искусственного интеллекта в оценке костного возраста

2020-06-09 / 895

Обзор статьи: Booz C, Yel I, Wichmann JL, et al. Artificial intelligence in bone age assessment: accuracy and efficiency of a novel fully automated algorithm compared to the Greulich-Pyle method. Eur Radiol Exp. 2020;4(1):6. Published 2020 Jan 28. doi:10.1186/s41747-019-0139-9

Вступление

Одним из отличий рентгенограмм ребенка от взрослого является наличие зон роста, ядер окостенения, которые хорошо видны на снимках и могут быть оценены по размерам,  форме и другим параметрам. Ядра окостенения, зоны роста со всеми их характеристиками анализируются врачами-рентгенологами не только с целью диагностики различных патологических состояний, но и для определения костного возраста (КВ). Данный метод имеет достаточно широкое применение в педиатрической рентгенологии. После определения КВ врач сопоставляет реальный возраст пациента и его возраст по рентгенограммам, что позволяет судить об отставании или опережении паспортного возраста по сравнению с костным.

Одной из распространенных методик определения КВ является метод Greulich-Pyle. Суть его состоит в том, что после проведения рентгенографии левой кисти, врач сравнивает готовые снимки с набором рентгенограмм (так называемые референтные изображения), каждая из которых точно соответствует определенному возрасту ребенка в норме. Учитывается не только возраст, но и пол пациента. Таким образом, можно приблизительно понять степень зрелости исследуемого организма. Этот метод применяют для косвенной оценки состояния эндокринной системы ребенка, так как нормальная скорость костеобразования напрямую связана с достаточным уровнем гормонов (особенно половых). Кроме помощи врачу-педиатру в постановке диагноза, определение КВ используют как способ проверить эффективность гормональной терапии (например, при применении гормонов роста). Также метод Greulich-Pyle достаточно прост, доступен и лёгок для освоения новичками. Вместе с тем он субъективен, так как результат зависит от опыта исследователя. Ещё необходимо добавить, что набор стандартизированных рентгенограмм не учитывает специфику популяции и региона. 

Принимая во внимание все вышесказанное, были предприняты попытки разработать новые методики для более корректной оценки КВ. В частности Thodberg с коллегами начал использовать программное обеспечение (ПО), позволяющее сделать определение КВ полностью автоматизированным, лишив его таким образом фактора субъективности, т.е. фактически начали применение искусственного интеллекта (ИИ) в данном разделе лучевой диагностики. 

Авторы статьи обращают внимание на то, что их ретроспективный анализ не является первым и приводят результаты предыдущих исследований на первой версии ПО, показавшие, что общая точность, измеренная посредством среднего абсолютного отклонения (САО) от референтного стандарта, была достаточной для дальнейших исследований. Немецкие коллеги также сообщают нам, что с помощью версии программы 2.1 Zhang et al. продемонстрирована высокая эффективность (98,8%) и значительное улучшение общей точности (САО у мальчиков 0,64 года против 0,71-0,72 в первой версии программы). Исходя из этого, группа ученых из Германии решила провести свое многопрофильное исследование у немецких детей. В этой работе ученые сравнивали результаты денситометрии, полученные с помощью новой версии ПО, с данными при работе по методу Greulich-Pyle. Изучалась точность новой программы и отличия в результатах по половому признаку.

Материалы и методы

Группа обследуемых включала в себя 514 детей в возрасте от 3 до 17 лет, которым было проведено рентгенологическое исследование по клиническим показаниям за период январь 2015 - январь 2016 года. Наиболее частыми причинами для определения КВ были: гигантизм (112 чел.), карликовость (218 чел.), раннее половое созревание (52 чел.). По половому признаку разделение было следующим - 262 девочки и 252 мальчика. Также авторы подробно описывают характеристики рентген-аппарата и рентгеновской трубки. Для автоматического определения КВ было установлено ПО (BoneXpert version 2.1; Visiana, Holte, Denmark), которое позволяет проводить измерение КВ, основываясь на рентгенограммах левой кисти и лучезапястного сустава. В нескольких словах опишем, как происходит анализ рентгенограмм при помощи ИИ. После проведения рентгенографии эти изображения поступают на сервер, затем определяются границы костей, их размеры и плотность костного вещества. Далее программа трансформирует полученные данные в значения согласно методу Greulich-Pyle. После завершения анализа изображение отсылается в цифровой архив. Если значения КВ соседних костей отличаются друг от друга более чем на 2,4 года, такое изображение не обрабатывается программой. Также не анализируются изображения, на которых видны восемь или менее костей, снимки, имеющие низкое качество и рентгенограммы с аномалиями развития. 

В качестве независимых экспертов для проведения анализа снимков КВ были приглашены два рентгенолога с большим опытом работы с рентгенограммами детей. Эти врачи проводили измерение КВ с помощью метода Greulich-Pyle. Кроме них в исследовании принимали участие три рентгенолога с разным уровнем опыта в педиатрической рентгенологии, которые работали независимо друг от друга. Никто из врачей не был уведомлен о клинической картине пациентов, их паспортном возрасте и результатах определения КВ, полученных с помощью ИИ.

Результаты

В этой главе авторы посвящают значительную часть своего исследования предоставлению статистических показателей по трем группам исследователей: ИИ, два опытных рентгенолога (референтная группа) и три рентгенолога с разным уровнем опыта. Также предоставлены данные по среднеквадратичному и абсолютным отклонениям по каждой группе пациентов. Более подробно эти цифры можно просмотреть пройдя по ссылке, расположенной в начале обзора. Мы же с вами перейдем к оценке эффективности ИИ в определении КВ, которую нам предоставляет коллектив авторов. 

Итак, все случаи проанализированы без каких-либо удалений из ряда исследуемых. Была обнаружена существенная разница между временем, потраченным на определение КВ методом Greulich-Pyle и с помощью ИИ. В среднем ИИ справлялся с заданием за 21 секунду, в то время как даже опытным врачам в среднем требовалось 182 секунды. По нашему мнению, данные цифры являются крайне интересными с позиции оптимизации рабочего времени врача. Вроде бы небольшая разница в одном исследовании в абсолютных цифрах (около 160 секунд) в итоге приводит к значительной экономии времени в конце дня. Это может снизить интеллектуальную нагрузку на доктора, что в конечном итоге положительно скажется на качестве работы (особенно в конце смены).

Обсуждение

Авторы начинают эту главу с вывода о том, что новая версия ПО для автоматического определения КВ с помощью ИИ более точна по сравнению с методом Greulich-Pyle. Также они отмечают, что при применении обоих методов показатели точности не имеют полового различия. Интересен и тот факт, что при применении ПО для определения КВ, различия между ИИ и тремя независимыми рентгенологами были выше, чем между ИИ и двумя врачами с большим опытом работы, которые определялись в этом исследовании как референтный стандарт. Если же сравнить среднее квадратичное отклонение всех значений КВ, полученных обоими методами с таким же значением в предыдущих исследованиях на первых версиях ПО, то можно увидеть, что оно стало значительно ниже (в среднем 0,38 лет против 0,71 года). Данные цифры, по мнению немецких коллег, говорят о значительном улучшении качества ПО в версии 2.1 от первичного варианта. Несмотря на такие данные, авторы статьи говорят о том, что все цифры должны быть перепроверены при проведении мультицентрового исследования. Также нелишним будет напомнить, что применение ИИ для получения показателей КВ значительно сокращает время для анализа одного случая, что в свою очередь должно оказывать положительное влияние на качество диагностического процесса вследствие понижения утомляемости врача.

В любом исследовании есть «слабые места». Вышеприведенный анализ также не лишен некоторых недостатков. Со слов авторов можно отметить следующие моменты: небольшое количество исследуемых пациентов, проведение анализа только по рентгенограммам пациентов одной клиники, исключение пациентов младше 3 и старше 17 лет (согласно рекомендациям производителя ПО). Таким образом, осталась неясной точность автоматического метода измерения КВ за пределами определенной возрастной группы.

Тем не менее немецкие коллеги считают, что проведенный анализ свидетельствует о том, что новая версия ИИ, BoneXpert 2.1, имеет высокую точность и объективность измерения КВ по сравнению с методом Greulich-Pyle.

В конце нашего обзора хотелось бы напомнить о сильных и слабых сторонах вышеуказанной методики. Среди достоинств можно отметить её доступность, эффективность при практическом применении, относительную дешевизну. Сложности при применении этого способа измерения КВ заключаются в высокой доле субъективизма, зависимости точности результатов от компетентности врача и относительной длительности процесса. Кроме того, с учетом личного опыта хотелось бы подчеркнуть, что для более точного определения костного возраста и формулировки правильного заключения часто требуется рентгенография не одной, а одновременно двух кистей. Это обусловлено тем, что встречается такое состояние, как асимметрия костного возраста, например, в случаях, когда его отклонения вызваны не эндокринными нарушениями, а воспалительным процессом суставов кисти, какими-либо локальными врожденными нарушениями развития. 

Как бы там ни было, всегда радуют очередные достижения в медицине, которые будут полезны как пациенту, так и врачу, повышающему свой профессионализм и расширяющему кругозор.