Гиперспектральный анализ для выявления дефектов баклажанов
Баклажан, важная сельскохозяйственная культура, богат питательными веществами и полезен для здоровья. Однако, такие дефекты, как пробковая ткань и гниль, снижают урожайность и товарную ценность баклажанов. Причины появления дефектов различны: от неблагоприятных климатических условий, вызывающих дефицит микроэлементов, до поражения вредителями и болезнями. В настоящее время, дефектные плоды отбираются вручную, что является трудоемким, затратным по времени и не всегда эффективным. Поэтому разработка быстрого и точного метода выявления дефектных баклажанов является актуальной задачей.
Технология гиперспектральной визуализации, объединяющая спектральный анализ и цифровую визуализацию, позволяет одновременно получать пространственную и спектральную информацию о большом количестве образцов. Высокая чувствительность, скорость измерений и устойчивость к помехам делают эту технологию перспективной для неразрушающего контроля сельскохозяйственной продукции, выявления заболеваний и других задач.
В рамках данного исследования, гиперспектральная технология использовалась для выявления дефектов (целостность, пробковая ткань, гниль) баклажанов. Спектральные данные были предварительно обработаны различными методами, а для сравнительного анализа создана дискриминантная модель PLS. Лучший метод предварительной обработки был использован для дальнейших исследований. Для выделения ключевых длин волн использовались методы SPA, RC и CARS. На основе этих длин волн были созданы дискриминантные модели PLS и MLR для классификации дефектов. Результаты исследования могут быть использованы для разработки автоматизированного оборудования для сортировки баклажанов.
Материалы и методы
Подготовка экспериментальных образцов
Для обеспечения достоверности результатов в качестве образцов использовали баклажаны, отобранные по следующим критериям: однородный размер (вес плода 450-680 г), близкая к сферической форма и наличие всех типов дефектов (неповрежденные, с пробковой тканью, гнилые). На рисунке 1 представлена классификация образцов. После очистки от загрязнений было отобрано 252 баклажана: 170 без дефектов, 60 с пробковой тканью и 22 гнилых. С каждого образца были получены гиперспектральные данные, что в сумме составило 252 спектра. Для построения и проверки моделей образцы были разделены на калибровочную (189 шт.) и прогностическую (63 шт.) выборки в соотношении 3:1 с использованием алгоритма Kennard-Stone.
Рисунок 1 - три типа образцов баклажана
Качественный дискриминантный анализ внешнего вида баклажанов на основе гиперспектральных данных
Анализ средних спектральных кривых для различных типов образцов
С использованием программного обеспечения ENVI4.7 проводилось выделение областей интереса (ROI) на гиперспектральных изображениях для получения спектральных данных неповрежденных, пораженных пробковой тканью и гнилых участков баклажанов. Далее вычислялись средние спектры для каждого типа (Рисунок 2). Следует отметить, что баклажаны сорта "Пурпурная дыня" имеют гладкую и блестящую поверхность, что приводит к повышенному диффузному отражению и увеличению соотношения сигнал/шум в центральной части изображения. Это может негативно сказаться на точности моделирования, поэтому при определении ROI центральную область, подверженную сильным отражениям, следует избегать.
Рисунок 2 - Среднее спектральное изображение для здоровых, опробковевших и разложившихся областей
Сравнение средних спектральных кривых (Рисунок 2) показывает существенные различия между неповрежденными баклажанами, участками с пробковой тканью и гнилыми плодами. В диапазоне 900-1300 нм наблюдается наибольшая отражательная способность у неповрежденных образцов, что, вероятно, обусловлено их гладкой поверхностью. Вблизи 1200 нм на всех кривых наблюдаются провалы, связанные с поглощением вторичной частоты C-H группами хлорофилла в эпидермисе. В диапазоне выше 1350 нм отражательная способность неповрежденных участков ниже, чем у образцов с пробковой тканью и гнилью.
Выделение характеристических длин волн
Выделение характеристических длин волн из полного спектра позволяет получить наиболее важную информацию для дискриминации объектов. Это необходимо для устранения линейной корреляции, сингулярности и нестабильности исходных данных, снижения размерности и уменьшения количества переменных, а также удаления избыточной информации. Выделение характеристических полос напрямую влияет на эффективность построения моделей и точность прогнозирования.
Метод последовательной проекции (SPA)
Метод последовательной проекции (SPA) – это алгоритм прямого выбора переменных, который минимизирует коллинеарность в векторном пространстве. Он эффективно устраняет влияние коллинеарности между длинами волн и выделяет наиболее важные из них. Применение SPA к нормализованным спектральным данным (Рисунок 3) показало, что минимальное значение среднеквадратической ошибки (RMSE) 0.3274 достигается при использовании 14 характеристических длин волн: 931.02, 924.64, 1399.29, 1093.68, 950.17, 902.3, 1380.21, 1147.86, 895.91, 1345.23, 1265.68, 1332.5, 1173.34, 982.08 нм, в порядке убывания их значимости.
Рисунок 3 - Карта распределения характеристических длин волн
Метод коэффициентов регрессии (RC)
Рисунок 4 - Результаты отбора ключевых переменных методом RC
Метод коэффициентов регрессии (RC) предполагает построение дискриминантной PLS-модели на основе предварительно обработанных спектральных данных и извлечение коэффициентов регрессии из этой модели. В данном исследовании было выбрано 9 характеристических длин волн: 924, 978, 1103, 1202, 1367, 1402, 1586, 1666 и 1681 нм, соответствующих локальным экстремумам на графике регрессионных коэффициентов (Рисунок 5).
Рисунок 5 - Результаты отбора ключевых переменных методом CARS
Заключение
Гиперспектральная визуализация использовалась для сбора данных о баклажанах. Сравнение PLS-моделей, построенных на основе исходных и предварительно обработанных спектральных данных, показало, что нормализация (Normalize preprocessing) обеспечивает наилучшие результаты. Полученная PLS-модель характеризуется коэффициентом детерминации (R²) 0.74 и среднеквадратической ошибкой (RMSEC) 0.33 для калибровочной выборки, а также коэффициентом детерминации (Rp²) 0.85 и среднеквадратической ошибкой (RMSEP) 0.26 для прогностической выборки.
Методы SPA, RC и CARS применялись для выделения ключевых длин волн из спектральных данных, прошедших предварительную обработку методом Normalize. Дальнейшее построение PLS и MLR моделей и их сравнение выявило превосходство модели CARS-MLR. Эта модель демонстрирует высокие показатели: коэффициент детерминации (R²) 0.94 и среднеквадратическая ошибка (RMSEC) 0.19 для калибровочной выборки, коэффициент детерминации (Rp²) 0.90 и среднеквадратическая ошибка (RMSEP) 0.21 для прогностической выборки. Точность классификации внешних дефектов баклажанов на прогностической выборке составила 96.82%, что подтверждает эффективность предложенного подхода.