Research Article

Journal of Korea TAPPI. 30 October 2023. 13-23
https://doi.org/10.7584/JKTAPPI.2023.10.55.5.13

ABSTRACT


MAIN

  • 1. 서 론

  • 2. 재료 및 방법

  •   2.1 공시재료

  •   2.2 데이터세트

  •   2.3 분류 모델 수립

  •   2.4 변수 중요도 측정

  • 3. 결과 및 고찰

  •   3.1 적외선 분광학적 특성

  •   3.2 카보닐기 함량 예측

  •   3.3 변수 중요도

  •   3.4 변수 선택

  • 4. 결 론

1. 서 론

한지는 문화적으로 중요한 우리나라의 전통 종이로 과거와 현대에 걸쳐 다양한 용도로 광범위하게 활용되어 왔다.1) 한지의 뛰어난 내구성과 보존성은 현대 종이와 비교해도 여전히 유효하며, 이러한 유용성은 국제적인 이목을 끌고 있다.2) 한지를 포함한 종이 재료의 화학적 성분, 특히 카보닐기 함량은 종이의 물리적 특성과 내구성에 직접적인 영향을 미치기 때문에 카보닐기 함량을 정확히 평가하는 것은 종이 재료의 이용과 보존에 있어 상당히 중요하다.3)

전통적인 카보닐기 함량 측정은 노동 집약적인 화학 분석을 통해 수행된다. 분광학적 기법과 다변량 분석의 발전은 수학과 통계를 화학 분석의 도구로 편입시켰으며, 이는 현재 화학계량학(chememetrics)이라는 이름으로 화학 분야의 주요 분석 기법으로 자리 잡았다.4) 다변량 분석은 분광 스펙트럼과 같이 많은 변수로 구성된 데이터세트의 분석에 특화된 기법으로 복잡한 데이터에서 패턴, 상관관계, 숨겨진 구조를 추출하는 데 사용된다. 분광 스펙트럼과 다변량 분석의 결합은 재료의 화학적 특성화를 위한 전통적 화학 분석을 대체할 수 있는 효율적인 도구임이 다수의 연구를 통해 검증되었다.5,6,7,8)

최근 화학계량학은 점차 확장되어 기계학습 알고리즘과 결합하였다. 기계학습은 기존 다변량 분석의 비교적 부족한 설명력, 확장성, 일반화 성능을 보완함과 동시에 높은 예측력을 보여줌으로써 다양한 재료의 분석 및 특성화 연구에서 상당히 주목받고 있다.9,10) 기계학습 기법 중 랜덤 포레스트(random forest, RF)11)는 스펙트럼 데이터와 같이 복잡한 고차원 데이터를 이용한 예측 모델링에 매우 효과적이며, 예측에 대한 설명력이 높은 기법임이 입증되었다.12,13) RF 회귀 모델은 독립적으로 구성된 다수의 의사결정 트리 모델을 결합한 앙상블 모델이며, 모든 트리 모델의 예측을 평균하여 최종 결과를 산출한다. RF는 높은 정확도, 견고성, 비선형성 처리 등 여러 장점을 가지고 있으며, 특히 변수별 예측에 미치는 영향을 산출하는 변수 중요도 측정으로 인해 생물학적 재료의 예측 모델링 기법으로서 선호되었다.14) 변수 중요도는 모델의 의사결정을 해석하기 위한 유용한 정보이다.

본 연구는 기계학습을 이용한 한지의 특성 예측 연구15)의 하나로 IR 스펙트럼으로 학습된 RF 회귀 모델을 사용하여 한지의 카보닐기 함량을 예측하는 방식을 제시하는 것이다. 기존의 다변량 분석 방법과의 비교를 통해 RF 모델의 성능을 평가하고, 변수 선택을 통해 RF가 제공하는 변수 중요도의 유용성을 검증한다. 이러한 RF의 고유 기능을 활용하여 기존 통계 기반 분석 방법의 한계를 극복하고, 카보닐기 함량 예측을 위한 더욱 정확하고 비파괴적인 수단을 확립하고자 한다.

2. 재료 및 방법

2.1 공시재료

닥나무(Broussonetia kazinoki) 인피 섬유를 원료로 사용하여 안동, 가평, 경주, 문경에서 수작업으로 제조된 전통 한지 4종과 전통 방식에 기반하여 연구실에서 직접 제조한 수초 한지 1종으로 구성된 총 5종의 시료가 공시재료로 사용되었다. Table 1에 제시된 지역별 한지 시료의 총 카보닐기 함량은 SEC (size-exclusion chromatography와 MALS (multi-angle light scattering) 기법을 통해 측정되었으며, 한지 시료 및 카보닐기 함량 측정에 대한 상세 정보는 Jeong 등(2014)의 논문16)에서 확인할 수 있다. 한지 시료의 카보닐기 함량은 7.2-29.4 μmol/g 범위로 측정되었는데, 이러한 차이는 증해 및 표백과 같은 제조 방식의 차이에 기인한 시료별 고유 특성이라 판단된다.

Table 1.

Carbonyl content of Hanji samples16)

Characteristics Manufacturing origins
Andong Gyeongju Gapyeong Mungyeong Handsheet
Cooking chemical Sodium
hydroxide
(NaOH)
Sodium
hydroxide
(NaOH)
Buckwheat
ash
(K2CO3)
Buckwheat
ash
(K2CO3)
Barley
ash
(K2CO3)
Dispersant Mucilage of Hibiscus manihot
Basis weight (g/m2) 24.1 60.7 52.7 40.4 42.3
Carbonyl content (μmol/g) 7.2 12.9 12.4 29.4 24.3

2.2 데이터세트

한지 시료로부터 IR 스펙트럼을 획득하기 위해 ATR-IR (attenuated total reflection infrared spectroscopy, Bruker Optics, Germany)을 이용하였다. IR 스펙트럼은 16회 반복 스캔의 평균값이었으며, 파장 범위 4000- 400 cm-1에서 4 cm-1의 분해능으로 획득되었다. 제조 지역별 시료로부터 10개의 IR 스펙트럼이 획득되어 총 50개의 스펙트럼으로 데이터세트가 구성되었다.

IR 스펙트럼은 Savitzky-Golay 필터17)(41 smoothing points, 3rd order function)에 의해 2차 미분 변환되었다. 데이터 전처리는 스펙트럼의 베이스라인을 일정하게 조정하고 피크를 증폭하여 시료 간 분광학적 차이를 강조하기 위한 목적으로 수행되었다. 이러한 과정을 통해 원본 스펙트럼과 2차 미분 스펙트럼으로 각각 구성된 두 개의 데이터세트가 구축되었다. 두 데이터세트는 전체 스펙트럼 영역(4000-400 cm-1)과 종이의 주요 작용기를 나타내는 영역(1800-1200 cm-1)3)으로 다시 구분되어 총 네 개의 스펙트럼 데이터세트가 한지의 카보닐기 함량 예측에 사용되었다. 데이터세트는 층화추출법(stratified random sampling)에 의해 3:1의 비율로 훈련 세트와 테스트 세트로 분리되어 예측 모델 수립 및 평가에 사용되었다.

2.3 분류 모델 수립

2.3.1 랜덤 포레스트(random forest) 회귀 모델

한지의 카보닐기 함량을 예측하기 위해 앙상블 기법(ensemble method)인 RF 회귀 모델11)을 수립하였다. 앙상블 학습은 특정한 단일 모델의 예측 성능을 개선하기 위한 목적으로 해당 모델을 다수 생성하고 모든 모델의 예측 결과를 결합하는 개념이다. 본 연구에서는 RF 모델을 구성하는 기반 모델로서 회귀 의사결정 트리(decision tree for regression, DT)18)를 사용하였다. DT는 평균 제곱 오차(mean squared error, MSE)를 가장 많이 줄이는 입력 변수(스펙트럼 데이터 포인트)를 기준으로 출력 변수(시료의 카보닐기 함량)를 분리하여 결과를 예측하는 단순한 모델이다.

Fig. 1에 제시된 RF의 개략도와 같이 RF 모델은 여러 DT의 조합으로 구성된다. 다중 DT의 예측을 평균하여 단일 DT 모델의 예측 성능을 개선하고 DT의 취약점인 과적합을 제어한다. DT의 무작위성을 높이기 위해 RF 모델은 모든 입력 변수를 사용하지 않고 무작위 샘플링을 사용하여 독립적인 DT를 구축한다. 또한 RF는 복원추출법(random sampling with replacement)을 사용하여 훈련 세트로부터 부트스트랩(bootstrap) 세트를 생성한다. 이 과정에서 훈련 데이터의 약 2/3 (in-bag sample)가 DT 모델의 학습에 사용되고, 나머지 1/3 (out-of-bag sample)은 DT의 검증에 사용된다. 이 과정은 RF를 구성하는 모든 DT에 대해 독립적으로 진행된다. 새로운 데이터에 대한 RF 모델의 최종 예측 결과는 모든 DT 모델의 평균 예측값이다.

https://cdn.apub.kr/journalsite/sites/ktappi/2023-055-05/N0460550502/images/ktappi_55_05_02_F1.jpg
Fig. 1.

Schematic diagram of random forest model for regression. IB, in-bag; OOB, out-of-bag.

본 연구에서 구축된 RF 모델은 CART (classification and regression tree) 알고리즘18)기반의 독립적인 다중 DT로 구성되었다. DT 생성을 위한 매개변수인 입력 변수의 수(n_var)는 모든 입력 변수 수량의 제곱근(‘sqrt’), 이진 로그(‘log2’), 삼분의 일(‘1/3’)로 각각 설정하였다. 또한, RF를 구성하는 DT의 수(n_tree)는 10-500개로 설정하였다. 격자 검색(grid search)을 통해 매개변수 n_var과 n_tree의 모든 경우의 수를 조사하여 최소 OOB 오류를 기반으로 최적 조건을 결정하였다. 한지의 카보닐기 함량 예측에 대한 RF 모델의 성능 평가 지표로는 결정계수(coefficient of determination, R2)와 평균 제곱근 오차(root mean square error, RMSE)를 사용하였다.

2.3.2 최소 부분 제곱 회귀 모델

RF 모델의 예측 성능 평가를 위한 벤치마크로 최소 부분 제곱 회귀(partial least square regression, PLSR) 모델을 구축하여 한지의 카보닐기 함량에 대한 예측 성능을 비교하였다. PLSR은 통계적 다변량 분석 기반의 모델로서 분광 데이터를 이용한 재료 특성화에서 뛰어난 성능이 보고되었다.5,19) PLSR에서 IR 스펙트럼 데이터는 PLS factor로 변환되었고, 예측을 위한 최적의 PLS factor의 수는 3겹 교차 검증(3-fold cross validation) 과정에서 최소 RMSE를 기반으로 결정되었다.

2.4 변수 중요도 측정

RF 모델의 카보닐기 함량 예측에서 각 변수(스펙트럼 데이터 포인트)가 예측에 미치는 영향을 확인하기 위해 순열 중요도(permutation importance)를 측정하였다.11) 순열 중요도 기법은 특정한 단일 변수를 데이터세트 내에서 무작위로 순열한 후 모델의 예측 성능 변화를 기반으로 해당 변수의 중요도를 평가한다. 예를 들어 본 연구에서 사용된 4000-400 cm-1 영역에 해당하는 2,542개의 변수 중 하나를 표본 사이에서 무작위로 섞는다. 그런 다음 순열된 데이터를 구축된 RF 모델에 입력하여 카보닐기 함량에 대한 새로운 예측을 산출한다. 기존 예측과 순열된 데이터로 얻은 예측 간의 차이는 해당 변수가 모델의 예측에 미치는 영향을 나타낸다. 즉, 순열로 인한 성능 저하가 클수록 기존 변수가 더 중요한 것으로 간주한다. 본 연구에서는 각 변수당 10회 반복 순열하여 중요도를 평가하였다.

본 연구에서 수행된 데이터 처리, 예측 모델링, 변수 중요도 산출 등 모든 분석 과정은 Python 3.9와 오픈 소스 라이브러리를 사용하여 수행되었다.

3. 결과 및 고찰

3.1 적외선 분광학적 특성

한지 시료로부터 획득된 원본 IR 스펙트럼(Fig. 2a)에서 특징적인 피크는 3600-3200 cm-1 (OH group)20), 2890-2790 cm-1 (CH group)21), 1200-900 cm-1 (cellulose fingerprint)22) 영역의 흡수대에 형성되어 있지만, 이 영역들은 한지를 비롯한 종이의 특성화에 적합한 정보를 포함하지 않는다. 셀룰로오스와 리그닌과 관련된 주요 흡수대인 1510 cm-1 (aromatic ring)23), 1422 cm-1 (CH2 group)24), 1335 cm-1 (amorphous cellulose)25), 1315 cm-1 (crystalline cellulose)26)에는 상대적으로 작은 피크가 형성되어 있었으며, 1315 cm-1를 제외한 다른 흡수대에서는 시료 간의 차이를 확인하기 어려웠다. 카보닐기에 할당된 흡수대(1708 cm-1, 1554 cm-1, 1396 cm-1)3,27,28)에서는 뚜렷한 피크가 식별되지 않았기 때문에 원본 IR 스펙트럼으로는 카보닐기 함량의 차이를 분석할 수 없었다.

https://cdn.apub.kr/journalsite/sites/ktappi/2023-055-05/N0460550502/images/ktappi_55_05_02_F2.jpg
Fig. 2.

Raw (a) and second derivative IR spectra in the spectral range of 4000-400 cm-1.

2차 미분에 의한 원본 IR 스펙트럼의 전처리는 스펙트럼을 증폭하여 신호가 약했던 흡수대의 피크를 식별할 수 있게 하였다(Fig. 2b). 그러나 스펙트럼의 전처리로 인해 노이즈도 함께 증폭되어 4000-1900 cm-1 영역에는 유효하지 않은 피크가 다수 관찰되었다. 원본 스펙트럼에서는 불명확했던 카보닐기 관련 피크는 전처리 이후 비교적 명확히 식별되었지만, 스펙트럼 분석으로는 카보닐기 함량을 추정할 수 있는 단서를 찾을 수는 없었다.

3.2 카보닐기 함량 예측

3.2.1 랜덤 포레스트 회귀 모델

RF 모델을 이용한 한지의 카보닐기 함량의 예측 결과가 Table 2에 제시되어 있으며, 모델의 예측 성능은 모델 학습에 다. 전체 스펙트럼 영역(4000-400 cm-1)의 데이터세트로 학습된 RF 모델에서 R2값 0.921의 모델 적합도가 확인되었다. 그리고 선택된 스펙트럼 영역(1800-1200 cm-1)의 데이터세트로 학습된 모델에서는 R2값이 0.937로 향상되었다. 이러한 결과는 선택된 영역이 실제로 한지의 특성화에 유용한 정보를 포함하고 있음을 보여준다.

Table 2.

Performance of random forest models for predicting carbonyl content in Hanji

Wavenumber (cm-1) Preprocessing Parameter Training set Test set
max_varn_treeR2RMSER2RMSE
4000-400 Raw sqrt 447 0.991 0.768 0.921 2.288
2nd deriv. sqrt 49 0.979 1.174 0.827 3.377
1800-1200 Raw log2 292 0.991 0.779 0.937 2.040
2nd deriv. 1/3 414 0.990 0.811 0.902 2.541

max_var, maximum variables; n_tree, number of decision trees; R2, coefficient of determination; RMSE, Root-mean-squared error, 2nd deriv., second derivative.

반면, 2차 미분으로 전처리된 스펙트럼 데이터로 학습된 모델의 경우 전체 영역과 선택 영역 데이터세트 모두에 대해 R2는 감소하고 RMSE는 증가하여 모델 적합도가 감소하는 것으로 확인되었다. 전체 영역으로 학습된 모델의 R2은 0.921에서 2차 미분 변환 후 0.827로 감소하였으며, 선택 영역에 대한 모델의 R2는 0.937에서 0.902로 감소하였다. 단, 선택 영역에서 원본 스펙트럼과 2차 미분 스펙트럼으로 각각 학습된 모델 간의 R2 차이가 전체 영역으로 학습된 모델에서의 차이보다 줄어든 것은 스펙트럼 범위 제한을 통해 노이즈가 차지하는 비중이 감소했음을 보여준다.

이러한 결과로부터 한지의 카보닐기 함량 예측을 위한 RF 모델의 유용성이 입증되었으며, 종이의 특성화에 적합한 스펙트럼 영역의 선택적 활용이 카보닐기 함량을 예측하기 위한 효과적인 전략임이 확인되었다.

3.2.2 모델 성능 비교

Table 3은 한지의 카보닐기 함량 예측에 대한 RF와 PLSR 모델의 성능을 보여준다. 모든 데이터세트에 대해 RF 모델이 PLSR 모델보다 높은 R2와 낮은 RMSE를 나타냄으로써 카보닐기 함량 예측에 대한 RF의 모델 적합도가 더욱 높다는 것이 확인되었다.

Table 3.

Comparison of performance between random forest and partial least squares regression models for predicting carbonyl content in Hanji

Wavenumber
(cm-1)
Preprocessing RFPLSR
max_varn_treeR2RMSEn_factorR2RMSE
4000-400 Raw sqrt 447 0.921 2.288 5 0.901 2.593
2nd deriv. sqrt 49 0.827 3.377 4 0.836 3.346
1800-1200 Raw log2 292 0.937 2.040 2 0.865 3.031
2nd deriv. 1/3 414 0.902 2.541 5 0.884 2.813

RF, random forest; PLSR, partial least squares regression; max_var, maximum variables; n_tree, number of decision trees; R2, coefficient of determination; RMSE, Root-mean-squared error, n_factor, number of PLS factors; 2nd deriv., second derivative.

PLSR 모델에서는 스펙트럼 영역 선택에 의한 예측 성능의 향상이 관찰되지 않았다. PLS는 입력 변수와 출력 변수 간의 최대 공분산을 설명하는 잠재 변수를 추출한다. 즉, 원본 스펙트럼을 PLS factor로 변환하는 과정에서 노이즈 및 관련성이 낮은 변수의 영향이 완화된다. 따라서 PLSR 모델에서는 선택 영역보다 전체 영역 데이터에서 더 높은 예측 성능이 나타난 것으로 판단된다. 이러한 결과는 스펙트럼 데이터를 이용한 예측 모델링에서 데이터 선택 전략은 접근 방식에 따라 달리 적용되어야 한다는 것을 암시한다.

3.3 변수 중요도

변수 중요도 측정은 모델의 예측에 대한 개별 변수(입력 변수)의 상대적 중요도 또는 기여도에 대한 정보를 제공한다. Fig. 3에 제시된 원본 IR 스펙트럼과 변수 중요도를 보면 높은 중요도가 1800-1000 cm-1의 영역에 집중되어 있다. 이 영역에서 셀룰로오스의 fingerprint 영역(1200-900 cm-1)22) 및 한지와 관련 없는 흡수대를 제외하면, RF 모델의 카보닐기 함량 예측에 영향을 미치는 중요 스펙트럼 영역을 1650-1350 cm-1로 한정할 수 있다.

https://cdn.apub.kr/journalsite/sites/ktappi/2023-055-05/N0460550502/images/ktappi_55_05_02_F3.jpg
Fig. 3.

Raw IR spectra of Hanji samples and permutation-based variable importance for absorption bands in the spectral range of 4000-400 cm-1.

Table 4와 같이 중요 영역으로 식별된 1650-1350 cm-1 내에는 1647-1635 cm-1 (OH group)29,30), 1554 cm-1 (C=O group)3), 1510 cm-1 (aromatic ring)23), 1442 cm-1 (CH2 group)24), 1396 cm-1 (C=O group)3)의 흡수대에 한지와 관련된 정보적인 피크가 존재한다. 이들 중 1554 cm-1와 1396 cm-1의 흡수대는 직접적으로 카보닐기에 할당되어 있으므로, 한지의 카보닐기 함량 예측에서 중요 변수로 식별되는 것은 자연스러운 결과이다. 그리고 1442 cm-1에 할당된 메틸렌기는 셀룰로오스와 관련된 작용기이다. 셀룰로오스의 산화 패턴 중 6번 탄소에서 수산기가 공격을 받아 알데하이드기가 생성되고 이것이 다시 산화되어 카보닐기가 생성된다.31) 이처럼 1442 cm-1의 흡수대도 카보닐기와 간접적인 관계를 맺고 있다. 이러한 스펙트럼 데이터에 대한 변수 중요도 측정을 통해 카보닐기와 직·간접적으로 연관된 영역들이 한지의 카보닐기 함량 예측을 위한 중요 영역으로 식별된 것을 확인할 수 있었다.

Table 4.

IR spectral regions with high importance and their corresponding functional groups and components

Wavenumber (cm-1) Band assignment Component
1647-1635 -OH bending Water
1554 C=O Carbohydrate
1510 Aromatic C=C skeletal Lignin
1422 -CH2 bending Cellulose
1396 C=O or -COOH Carbohydrate

3.4 변수 선택

순열 중요도 측정에서 중요 변수로 식별된 1650-1350 cm-1 영역이 실제로 한지의 카보닐기 함량 예측에 유용한지를 확인하기 위해 해당 영역의 스펙트럼을 이용하여 RF 모델을 구축하였다. Fig. 4a의 예측 성능 비교에서 볼 수 있듯이 순열 중요도를 통해 식별된 1650-1350 cm-1 영역의 데이터로 학습된 모델은 기존 수립된 모델들을 모두 능가하는 예측 성능을 나타냈다. 이 모델은 원본 스펙트럼 데이터를 학습하여 테스트 데이터에 대해 R2값 0.960과 RMSE 1.621을 달성하였다(Fig. 4b). 또한 2차 미분 스펙트럼 데이터를 학습한 모델은 테스트 데이터에 대해 R2값 0.965와 RMSE 1.515를 달성하였으며(Fig. 4c), R2 0.965는 본 연구에서 수립된 모든 모델 중 가장 높은 성능이다. 다른 영역과는 달리 1650-1350 cm-1에서 원본 스펙트럼 데이터보다 2차 미분 스펙트럼 데이터를 학습한 모델이 높은 성능을 나타낸 것은 한지의 카보닐기 함량 특성화에 적합한 영역으로 스펙트럼의 범위가 더욱 좁게 한정되면서 노이즈가 미치는 영향이 감소된 결과라 판단된다.

https://cdn.apub.kr/journalsite/sites/ktappi/2023-055-05/N0460550502/images/ktappi_55_05_02_F4.jpg
Fig. 4.

Effect of the IR spectral range variation on the performance of random forest models in predicting the carbonyl content of Hanji: (a) Comparison of different spectral range, (b) regression plot of the model trained with raw spectra in the region of 1650-1350 cm-1, and (c) regression plot of the model trained with second derivative spectra in the region of 1650-1350 cm-1.

RF 모델의 학습에 사용된 4000-400 cm-1, 1800-1200 cm-1, 1650-1350 cm-1 영역은 각각 2542개, 425개, 213개의 변수에 해당한다. 순열 중요도 측정으로 선택된 영역은 전체 영역의 8.3%에 불과 규모임에도 불구하고 카보닐기 함량에 대한 모델의 적합도는 개선되었다. 그리고 종이의 특성화에 적합한 것으로 알려진 1800-1200 cm-1 영역의 선택은 IR 스펙트럼 분석을 통해 내려진 결정인 데 반해, 순열 중요도를 통해 선택된 1650-1350 cm-1 영역은 변수가 실제 모델의 예측에 미치는 영향을 기반으로 결정된 것이라는 차이가 있다.

Fig. 5는 가장 높은 예측 성능을 나타낸 1650-1350 cm-1 영역의 2차 미분 스펙트럼과 해당 스펙트럼 데이터로 학습된 RF 모델의 순열 변수 중요도를 보여준다. 높은 변수 중요도는 1396 cm-1 주변의 흡수대에 집중되어 있는데, 이 흡수대는 카보닐기에 할당되어 있다. 다시 말해, RF 모델이 한지의 카보닐기 함량 예측하는 데 있어 가장 영향력이 높은 변수는 1396 cm-1 영역의 카보닐기이며, 순열 변수 중요도는 이러한 실질적 정보를 명시적으로 제공하였다. 단, 예측 모델의 운용에서 매우 좁은 영역의 변수 선택은 데이터 과적합, 노이즈에 대한 민감성, 변수 상호작용 누락 등이 발생할 수 있으며, 이러한 문제의 발생 시 모델의 일반화 성능이 저하될 수 있다는 점을 염두에 두어야 한다.

https://cdn.apub.kr/journalsite/sites/ktappi/2023-055-05/N0460550502/images/ktappi_55_05_02_F5.jpg
Fig. 5.

Second derivative IR spectra of Hanji samples and permutation-based variable importance for absorption bands in the spectral range of 1650-1350 cm-1.

본 연구로부터 RF가 IR 스펙트럼 데이터를 이용하여 한지의 카보닐기 함량을 예측할 수 있는 유용한 도구임이 확인되었다. 또한 순열 변수 정확도 측정을 통해 모델의 예측 결과에 대한 제지 과학적 관점의 해석이 가능하였다. 수립된 예측 모델은 학습 데이터의 출력 변수의 범위(카보닐기 함량 7.2-29.4 μmol/g) 내에서 유효하며, 해당 범위를 벗어나는 경우 모델의 일반화 성능을 보장할 수 없다. RF 모델을 이용한 한지의 카보닐기 함량에 대한 성공적인 예측은 다양한 특성 및 재료의 예측 모델링에 대한 RF 알고리즘의 높은 적용 가능성을 시사한다. 이러한 맥락을 바탕으로 추후 연구에서는 다양한 종이 재료의 특성 예측을 위한 기계학습 기반의 연구가 수행될 예정이다.

4. 결 론

한지의 카보닐기 함량을 예측하기 위해 IR 스펙트럼 데이터로 학습된 RF 모델을 구축하였다. RF 모델은 카보닐기 함량 예측에 대한 높은 모델 적합도를 나타내었으며, IR 스펙트럼을 종이의 특성화에 적합한 1800-1200 cm-1 영역으로 한정함으로써 모델의 R2은 0.921에서 0.937로 개선되었다. 순열 변수 중요도 측정은 1800-1000 cm-1 범위가 한지의 카보닐기 함량 예측에 도움이 되는 중요한 영역이라 제시하였다. 이 영역에서 한지에 유효한 IR 스펙트럼 흡수대를 고려하여 카보닐기 함량 예측에 실질적으로 기여하는 영역으로서 1650-1350 cm-1를 선정하였다. 선정된 스펙트럼 영역의 데이터로 구축된 예측 모델이 원본 스펙트럼과 2차 미분 스펙트럼에서 각각 0.960과 0.965의 개선된 R2값을 산출함으로써 순열 변수 중요도 측정의 실질적 유효성이 검증되었다. 본 연구를 통해 구축된 모델을 이용하여 7.2-29.4 μmol/g 범위 내에서 한지의 카보닐기 함량을 예측할 수 있다.

Acknowledgements

이 연구는 2022년도 정부(교육과학기술부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구(NRF-2022R1F1A1075050)이며, 산림청(한국임업진흥원) ‘산림과학기술연구개발사업(FTIS-2019149C10-2323-0301)’의 지원에 의하여 이루어진 것입니다.

References

1
Jeong, S. H., A study on manufacturing technologies and excellence of Korean traditional paper, Korean Journal of Cultural Heritage Studies 48(1):96-131 (2015).
2
Han, B., Vilmont, L. B., Kim, H. J., Lavédrine, B., Sakamoto, S., and Sablier, M., Characterization of Korean handmade papers collected in a Hanji reference book, Heritage Science 9:1-12 (2021). 10.1186/s40494-021-00570-9
3
Kim, K. J., and Eom, T. J., Study on the aging characteristics of paper with principal component analysis, Journal of Korea TAPPI 48(6):144-149 (2016). 10.7584/JKTAPPI.2016.12.48.6.144
4
Brown, S. D., Blank, T. B., Sum, S. T., and Weyer, L. G., Chemometrics, Analytical Chemistry 66(12):315-359 (1994). 10.1021/ac00084a0148092471
5
Hwang, S. W., Horikawa, Y., Lee, W. H., and Sugiyama, J., Identification of Pinus species related to historic architecture in Korea using NIR chemometric approaches, Journal of Wood Science 62(2):156-167 (2016). 10.1007/s10086-016-1540-0
6
Hwang, S. W., Hwang, U. T., Jo, K., Lee, T., Park, J., Kim, J. C., Kwak, H. W., Choi, I. G., and Yeo, H., NIR-chemometric approaches for evaluating carbonization characteristics of hydrothermally carbonized lignin, Scientific Reports 11(1):16979 (2021). 10.1038/s41598-021-96461-x34417504PMC8379198
7
Kim, K. J., Ahn, E. B., Ryu, J. A., and Eom, T. J., Identification of pulp fibers in the chronological academic journals using spectroscopic method, Journal of Korea TAPPI 50(4):61-70 (2018). 10.7584/JKTAPPI.2018.08.50.4.61
8
Oliveri, P., Malegori, C., and Casale, M., Chemometrics: Multivariate analysis of chemical data. Chemical Analysis of Food, Academic Press (2020). 10.1016/B978-0-12-813266-1.00002-4
9
Meza Ramirez, C. A., Greenop, M., Ashton, L., and Rehman, I. U., Applications of machine learning in spectroscopy, Applied Spectroscopy Reviews 56(8-10): 733-763 (2021). 10.1080/05704928.2020.1859525
10
Fu, W., and Hopkins, W. S., Applying machine learning to vibrational spectroscopy, The Journal of Physical Chemistry A 122(1):167-171 (2018). 10.1021/acs.jpca.7b1030329211476
11
Breiman, L., Random forests, Machine Learning 45:5-32 (2001). 10.1023/A:1010933404324
12
Heo, T. I., Kim, D. H., and Hwang, S. W., Identification of Celtis species using random forest with infrared spectroscopy and analysis of spectral feature importance, The Korean Data & Information Science Society 32(6):1183-1194 (2021). 10.7465/jkdi.2021.32.6.1183
13
Hwang, S. W., Chung, H., Lee, T., Kim, J., Kim, Y., Kim, J. C., Kwak, H. W., Choi, I. G., and Yeo, H., Feature importance measures from random forest regressor using near-infrared spectra for predicting carbonization characteristics of kraft lignin-derived hydrochar, Journal of Wood Science 69:1 (2023). 10.1186/s10086-022-02073-y
14
Cutler, D. R., Edwards Jr, T. C., Beard, K. H., Cutler, A., Hess, K. T., Gibson, J., and Lawler, J. J., Random forests for classification in ecology, Ecology 88(11):2783-2792 (2007). 10.1890/07-0539.118051647
15
Hwang, S. W., Park, G., Kim, J., Jeong, M. J., Predictive modeling of traditional Korean paper characteristics using machine learning approaches (part 1): Discriminating manufacturing origins with artificial neural networks and infrared spectroscopy, Journal of Korea TAPPI 55(4):57-69 (2023). 10.7584/JKTAPPI.2023.8.55.4.57
16
Jeong, M. J., Kang, K. Y., Bacher, M., Kim, H. J., Jo, B. M., and Potthast, A., Deterioration of ancient cellulose paper, Hanji: evaluation of paper permanence, Cellulose 21:4621-4632 (2014). 10.1007/s10570-014-0455-4
17
Savitzky, A., and Golay, M. J., Smoothing and differentiation of data by simplified least squares procedures, Analytical Chemistry 36(8):1627-1639 (1964). 10.1021/ac60214a047
18
Breiman, L., Friedman, J., Stone, C. J., and Olshen, R. A., Classification and regression trees, CRC press, (1984).
19
Hwang, S. W., Chung, H., Lee, T., Kwak, H. W., Choi, I. G., and Yeo, H., Investigation of NIR spectroscopy and electrical resistance-based approaches for moisture determination of logging residues and sweet sorghum, BioResources 18(1):2064-2028 (2023). 10.15376/biores.18.1.2064-2082
20
Maréchal, Y., and Chanzy, H., The hydrogen bond network in Iβ cellulose as observed by infrared spectrometry, Journal of Molecular Structure 523(1-3):183-196 (2000). 10.1016/S0022-2860(99)00389-0
21
Xiao, S., Gao, R., Lu, Y., Li, J., and Sun, Q., Fabrication and characterization of nanofibrillated cellulose and its aerogels from natural pine needles, Carbohydrate Polymers 119:202-209 (2015). 10.1016/j.carbpol.2014.11.04125563961
22
Garside, P., and Wyeth, P., Identification of cellulosic fibres by FTIR spectroscopy-thread and single fibre analysis by attenuated total reflectance, Studies in Conservation 48(4):269-275 (2003). 10.1179/sic.2003.48.4.269
23
Pandey, K. K., A study of chemical structure of soft and hardwood and wood polymers by FTIR spectroscopy, Journal of Applied Polymer Science 71(12):1969-1975 (1999). 10.1002/(SICI)1097-4628(19990321)71:12<1969::AID-APP6>3.0.CO;2-D
24
Ciolacu, D., Kovac, J., and Kokol, V., The effect of the cellulose-binding domain from Clostridium cellulovorans on the supramolecular structure of cellulose fibers, Carbohydrate Research 345(5):621-630 (2010). 10.1016/j.carres.2009.12.02320122684
25
Castro, K., Princi, E., Proietti, N., Manso, M., Capitani, D., Vicini, S., Madarigana, J. M., and De Carvalho, M. L., Assessment of the weathering effects on cellulose based materials through a multianalytical approach, Nuclear Instruments and Methods in Physics Research Section B: Beam Interactions with Materials and Atoms 269(12):1401-1410 (2011). 10.1016/j.nimb.2011.03.027
26
Delmotte, L., Ganne-Chedeville, C., Leban, J. M., Pizzi, A., and Pichelin, F., CP-MAS 13C NMR and FT-IR investigation of the degradation reactions of polymer constituents in wood welding, Polymer Degradation and Stability 93(2):406-412 (2008). 10.1016/j.polymdegradstab.2007.11.020
27
Kim, K. J., Ahn, E. B., Ryu, J. A., and Eom, T. J., Identification of pulp fibers in the chronological academic journals using spectroscopic method, Journal of Korea TAPPI 50(4):61-70 (2018). 10.7584/JKTAPPI.2018.08.50.4.61
28
Lee, J. M., Ahn, E. B., Choi, H. S., Ryu, J. A., and Eom, T. J., Study on improvement of preparation efficiency of lignin rich micro-cellulosic fines, Journal of Korea TAPPI 50(5):114-122 (2018). 10.7584/JKTAPPI.2018.10.50.5.114
29
Polovka, M., Polovková, J., Vizárová, K., Kirschnerová, S., Bieliková, L., and Vrška, M., The application of FTIR spectroscopy on characterization of paper samples, modified by Bookkeeper process, Vibrational Spectroscopy 41(1):112-117 (2006). 10.1016/j.vibspec.2006.01.010
30
Lee, Y., Ryu, J. A., Kim, K. T., and Kim, K. J., Scientific approach to confirm the excellence of Seokgayeoraehaengjeoksong as Korean cultural heritage, Journal of Korea TAPPI 52(6):73-81 (2020). 10.7584/JKTAPPI.2020.12.52.6.73
31
Dupont, A. L., Degradation of cellulose at the wet/dry interface II - An approach to the identification of the oxidation compounds, Restaurator 17:145-164 (1996). 10.1515/rest.1996.17.3.145
페이지 상단으로 이동하기