Неразрушающий метод оценки содержания сахара в чернике с использованием гиперспектральной визуализации
Черника – ценный фрукт с нежной текстурой и неповторимым вкусом, богатый полезными веществами. Ее называют "Королевой фруктов" благодаря способности поддерживать здоровье мозга, улучшать зрение, бороться с раком и укреплять иммунитет. Это делает ее перспективной культурой для рынка. Важный показатель качества черники – содержание сахара. В отличие от традиционных деструктивных методов, неразрушающее определение сахара является прогрессивным и востребованным подходом.
Сбор данных для анализа
- Получение гиперспектральных изображений образцов черники.
- Извлечение спектральных данных из этих изображений: выбор разных областей интереса (ROI) на поверхности каждого образца для получения исходной кривой отражения спектра.
- Расчет среднего спектрального значения для каждой области интереса, формируя три матрицы спектральных данных размером 48x256.
- Исключение из анализа полос 1-50 из-за высокого уровня шума и низкого качества изображения. Для моделирования используются только полосы 51-250 (диапазон длин волн 1031.11 нм - 1699.11 нм), что составляет 200 полос. Первые 36 спектральных значений используются для обучения модели, а последние 12 – для ее проверки.
Разработка и анализ модели прогнозирования
Основным методом для построения модели прогнозирования содержания сахара является регрессия методом частных наименьших квадратов (PLSR). Различные спектральные данные приводят к созданию разных прогностических моделей.
Возможны разные подходы к моделированию:
- Непосредственное использование 200 полос (после удаления шума).
- Понижение размерности данных методом анализа главных компонент (PCA) с выбором n главных компонент, объясняющих 99,9% дисперсии, с последующим использованием PLSR.
- Выбор характерных полос с использованием алгоритма SPA (Successive Projections Algorithm) для 256 спектральных полос, с последующим использованием PLSR.
- Непосредственное циклическое моделирование на 200 полосах, объединяя полосы попарно или в тройки, с последующим использованием PLSR.
Разработка прогностической модели
Для прогнозирования содержания сахара в чернике была создана PLSR-модель, использующая данные спектральной отражательной способности с отдельных участков передней части ягоды. Модель описывается следующим уравнением:
y = 8.1109 + 0.3989x₁ + 0.2848x₂ + ... + 0.809x₂₀₀
Здесь x₁, x₂, ..., x₂₀₀ представляют средние значения спектральной отражательной способности в диапазоне длин волн, соответствующих полосам 51-250, а y – прогнозируемое содержание сахара.
Для оценки эффективности модели, были использованы спектральные данные 12 ягод черники. Полученные значения содержания сахара были сопоставлены с фактическими значениями, как показано в следующих таблицах:
Таблица 1 - Сравнение прогнозируемых и фактических значений для отдельных участков передней части ягоды
Таблица 2 - Прогнозируемые и фактические значения для всей передней части ягоды
Таблица 3 - Прогнозируемые и фактические значения для всей задней части ягоды
Для визуализации результатов были построены графики, демонстрирующие соответствие между прогнозируемыми и фактическими значениями содержания сахара для каждой из трех групп данных.
Для уменьшения размерности данных и упрощения модели, был применен метод анализа главных компонент (PCA). После PCA полученные главные компоненты, в совокупности объясняющие 99.9% дисперсии исходных данных, были использованы для обучения PLSR-моделей. Количество выбранных главных компонент варьировалось в зависимости от данных: 7 для отдельных участков передней части и всей передней части, и 10 для всей задней части ягоды. С использованием отобранных главных компонент были разработаны PLSR-модели и получены прогнозируемые значения для каждой группы данных.
Дополнительно, был проведен анализ с использованием PCA для предварительного снижения размерности с последующим PLSR-моделированием. На основе полученных моделей были построены графики, иллюстрирующие соответствие между прогнозируемыми и фактическими значениями содержания сахара.
Заключение
Сравнение моделей, построенных на основе различных наборов данных и методов, показало, что наиболее эффективной является модель, использующая комбинацию спектральных полос, отобранных методом циклической комбинации полос. Эта модель продемонстрировала наилучшие показатели: коэффициенты корреляции (R) между прогнозируемыми и фактическими значениями составили 0.54 и 0.61, средняя относительная погрешность была наименьшей (12.6% и 11.9% соответственно), а среднеквадратичная ошибка (RMSE) для тестовой выборки была минимальной. Таким образом, можно заключить, что модель, разработанная с использованием метода циклической комбинации полос, обеспечивает наиболее точное прогнозирование содержания сахара в чернике по сравнению с другими рассмотренными подходами.