1. 서 론
2. 재료 및 방법
2.1 공시재료
2.2 실험 방법
2.3 치환도 판별을 위한 기계학습 모델링
3. 결과 및 고찰
3.1 적외선 스펙트럼과 주성분 분석
3.2 IR 치환도 계산 및 유효성 검증
3.3 치환도 분석을 위한 기계학습 모델링
3.4 기계학습 모델의 성능비교
4. 결 론
1. 서 론
최근 기후 위기 극복 및 플라스틱에 의한 환경오염 방지 측면에서 석유화학기반 원료물질의 대체 원료 활용 방안 연구에 대한 중요성이 부각되고 있다. 지구상에 가장 풍부하게 존재하는 천연고분자 셀룰로오스는 친환경 대체 자원으로 각광받고 있으며, 다양한 화학반응을 통해 특성을 제어할 수 있는 장점이 있다. 글루코즈(glucose)가 β(1 → 4) 결합으로 이루어진 셀룰로오스는 많은 수산기를 지니고 있어, 에테르화(etherification), 카르복시메틸화(carboxymethylation), 에틸화(ethylation), 하이드록시프로필화(hydroxypropylation), 아세틸화(Acetylation) 등 유도체화를 통해 다양한 소재의 재료로 활용하고 있다. 그 중 셀룰로오스 아세테이트는 섬유, 필름, 필터, 의공학 소재, 포장재 등에 활용되고 있으며, 생분해도 가능하다. 셀룰로오스 아세테이트를 제조하기 위한 원료는 주로 면 추출한 펄프와 용해용 펄프를 사용하며, 재활용 종이자원1)과 볏짚2), 대나무3) 등 비목재 펄프를 이용한 셀룰로오스 아세테이트 제조 연구도 수행된 바 있다. Peredo 등4)의 연구에 따르면 유칼립투스 표백 크라프트 펄프의 자일란 함량을 제어할 경우 아세틸화 효율을 향상시킬 수 있으며, Popescu 등5)도 산성 조건에서 아세트산과 아세트산 무수화물을 이용하여 표백 크라프트 펄프의 아세틸화가 가능하다고 밝혔다.
셀룰로오스 아세테이트 합성 방법 및 조건에 따라 변화하는 치환도(degree of substitution, DS)는 셀룰로오스 아세테이트의 물성을 결정하는 주요 요인 중 하나이다.6) 셀룰로오스 아세테이트의 치환도는 합성 과정에서 반응 조건을 제어하거나, 셀룰로오스 트리아세테이트를 알칼리 가수분해하여 조절할 수도 있다. 이렇게 조절된 셀룰로오스 아세테이트의 치환도는 적외선 분광분석법, 적정법, 핵자기공명분석법 등으로 평가할 수 있다.7) Ass 등8)은 DMSO/TBAF 용매 조건에서 아세트산 무수물 또는 비닐 아세테이트를 사용한 셀룰로오스의 에스테르 교환(transesterification) 반응을 통해 수율을 향상시킬 수 있었으며, Abbott 등9)은 DMI/LiCl 용매를 활용하여 셀룰로오스 아세테이트 합성이 가능하다고 보고한 바 있다. 또한 Wu 등10)은 이온성 액체를 활용하여 셀룰로오스의 아세틸화를 효율적으로 조절할 수 있다고 보고한 바 있지만, 복잡한 반응 과정과 경제성 등의 이유로 활용이 제한적이다.
현재 통용되어지는 셀룰로오스 아세테이트 치환도 측정법은 Goldenstein 등11)이 제안한 Eberstadt method로서 아세틸화된 시료를 페놀프탈레인과 산을 통해 적정하고 아세틸기 함량을 측정한 뒤 이를 수식에 대입하여 치환도를 산출하는 방법이다. 복잡한 화학적 전처리 과정과 계산식이 사용되는 셀룰로오스 아세테이트의 치환도 분석법을 개선하고자 Samios 등12)은 적외선 스펙트럼의 피크 intensity를 통해 DS 2.5 이하의 셀룰로오스 아세테이트에 대한 치환도 분석법을 소개한 바 있다. Fei 등13) 역시 적외선 스펙트럼 분석을 통하여 아세틸화 유래 피크를 선별하고 이를 기존의 적정 분석법과 검량하여 DS 1.8 이하의 셀룰로오스 트리아세테이트에 대한 분석법을 보고하였다. 스펙트럼 데이터를 통한 셀룰로오스 유도체의 치환도 분석에 관한 연구의 국내 사례로는 Lee 등14)이 주성분 분석(principal component analysis, PCA)과 적외선 분광분석법(infrared spectroscopy)을 활용하여 아세틸화 목분에 대한 주성분 유래 피크를 검출하고 이를 통해 치환도 계산식을 작성하는 법에 대해 소개한 바 있으며, Lee 등15)은 EDS (energy dispersive X-ray spectroscopy)와 ATR-IR (attenuated total reflection infrared spectroscopy)기법을 이용하여 카르복시메틸셀룰로오스의 치환도 분석에 관한 연구를 보고한 바 있다.
기계학습(machine learning)은 주성분 분석, 요인분석, 군집 분석 및 다차원 척도법 등과 같은 일반적인 다변량 분석법이 지닌 한계를 보완할 수 있는 분석 도구로서 기존의 다변량 분석에 비하여 비선형적이고 복잡한 데이터 구조를 파악하는데 있어 보다 효과적인 것으로 알려져 있다. 기계학습은 사전에 제공된 데이터 셋으로부터 학습한 결과를 바탕으로 데이터 속에 내재되어 있는 패턴을 식별하여 미래 상황을 예측하는 분석 기법이다. 최근 데이터 규모와 다양성이 증가하고 저비용의 컴퓨팅 자원이 등장함에 따라 소재의 특성을 예측하기 위한 모델링에 활용되고 있다. Costa 등16)이 NIR (near infrared spectrometer) 스펙트럼 데이터를 이용한 펄프 섬유의 수분 함량 예측에 있어 인공신경망(artificial neural network, ANN) 모델을 적용한 사례와 Hwang 등17)이 크라프트 리그닌으로 제조된 hydrochar의 탄화 특성 예측을 목적으로 NIR 스펙트럼과 랜덤포레스트(random forest, RF) 모델을 적용한 바 있다. 이처럼 다양한 분야에서 재료 특성 및 화학적 구조 예측과 검증을 위한 수단으로 기계학습을 활용하고 있으나 고분자의 치환도 분석을 목적으로 화학계량학(chemometrics)적 적용연구는 미비하다.
이에 본 연구에서는 황산 투입 조건에서 국산 표백 크라프트 펄프의 수산기에 아세트산과 아세트산 무수물을 반응시켜 셀룰로오스 아세테이트를 제조하고 알칼리 가수분해를 통해 조절된 치환도를 검증하는 분석 도구로서 기계학습 모델링의 적용을 시도하였다.
2. 재료 및 방법
2.1 공시재료
셀룰로오스 아세테이트 제조 및 치환도 조절을 위한 원료로 국산 활엽수 크라프트 펄프를 사용하였으며, 셀룰로오스 아세테이트 제조 및 치환도 조절, 적정법을 통한 치환도 분석을 위한 시약을 Table 1에 나타냈다.
Table 1.
2.2 실험 방법
2.2.1 셀룰로오스 트리아세테이트 제조 및 치환도 조절
활엽수 표백 크라프트 펄프를 200메쉬 스크린에서 하이퍼워싱(hyperwashing)하여 미세분을 제거한 후, 전건 펄프 4 g과 아세트산 50 mL를 삼각 플라스크에 투입하고 상온에서 30분 동안 교반하였다. 이후 황산 0.64 mL와 아세트산 36 mL를 첨가하여 25분 동안 교반하여 반응을 진행하였다.18) 추가적으로 아세트산 무수물 128 mL를 넣고 30분 동안 교반한 후 14시간 동안 교반 없이 반응하였다. 반응이 종료된 후 침전물이 생기지 않도록 증류수에 조심스럽게 부어준 후, 중성이 될 때까지 세척을 실시하였다. 제조가 완료된 셀룰로오스 트리아세테이트는 60℃에서 24시간 동안 건조하였다. 셀룰로오스 아세테이트의 치환도를 조절하기 위해 증류수 300 mL에 제조된 셀룰로오스 트리아세테이트를 투입하고 0.5M 수산화 소듐 수용액 315 mL를 추가하여 15-240분 간 반응을 진행하였다. Table 2에 치환도 조절에 따른 셀룰로오스 트리아세테이트의 정보를 도시하였다. 아세틸화 처리가 진행되지 않은 공시 재료인 활엽수 크라프트 펄프를 C0으로, 상기와 같이 제조된 셀룰로오스 트리아세테이트를 CA로 명명하였으며 이후 탈아세틸화 처리 시간에 따른 정보를 시료명으로 기재하였다.
Table 2.
Code | Reaction time, min |
C0 | control |
CA | 0 |
D15 | 15 |
D30 | 30 |
D45 | 45 |
D60 | 60 |
D90 | 90 |
D120 | 120 |
D180 | 180 |
D240 | 240 |
2.2.2 적정법에 의한 치환도 측정
2.2.1의 셀룰로오스 아세테이트의 치환도를 분석하기 위해 탈아세틸화가 완료된 셀룰로오스 아세테이트 0.1g에 0.25M 수산화 소듐 수용액 5 mL, 에탄올 5 mL를 혼합하여 24시간 동안 교반하였다. 이 후 0.25 M 염산 수용액 10 mL를 첨가하여 30분 동안 반응시킨 후, 페놀프탈레인 지시약을 2-3방울 투입하고 셀룰로오스 아세테이트 용액이 무색에서 분홍색으로 변할 때까지 0.25M 수산화 소듐 수용액으로 적정하였다. 이 때 소모된 수산화 소듐 수용액의 부피를 측정하여 아래의 Eq. 1, 2와 같이 치환도를 계산하였다.
2.2.3 적외선 스펙트럼과 주성분 분석을 통한 치환도 측정
셀룰로오스 아세테이트(Table 2)의 적외선 스펙트럼 데이터는 ATR-IR (Alpha-P model, Bruker Optics, Germany)을 이용하여 4000-400 cm-1 파장범위에 대하여 4 cm-1 간격으로 추출하였으며, 32회 반복 스캔 데이터의 평균치를 사용하였다. 시료 별 스펙트럼 데이터는 각 10회 반복 측정하여 총 100개의 IR 스펙트럼 데이터 세트를 구성하였다. 획득한 IR 스펙트럼 데이터를 주성분 분석 및 기계학습 모델링에 앞서 Savitzky-Golay 알고리즘에 의거 5차 다항식을 통해 2차 미분하였다.19) Savitzky-Golay 필터를 통한 스펙트럼 데이터의 전처리는 베이스라인을 조율하고 유효피크의 증폭을 통해 시료간 대별성을 강조할 수 있다.20)
위와 같이 획득된 스펙트럼 데이터에 대하여 R software (R Core Team, ver. 4.3.0, Auckland, New Zealand)를 통해 주성분 분석을 실시하였다. 주성분 분석을 통해 검출된 유효 피크를 Eq. 3에 대입하여 IR 치환도를 계산하였으며 계산된 IR 치환도와 적정법을 통하여 측정한 치환도 결과에 대한 검량선을 작성하여 두 데이터를 상호 비교하였다. Eq. 3에서 A는 아세틸화 유래 피크를 나타내며 아세틸화 유래 피크에 대한 기준 피크로는 메틸렌기(-CH2, 2900 cm-1)를 설정하였다.13)
2.3 치환도 판별을 위한 기계학습 모델링
2.3.1 데이터 분할
셀룰로오스 아세테이트의 치환도 판별을 위한 모델링에 앞서 IR 스펙트럼 데이터 세트에 대하여 모델구축에 사용될 훈련용 셋(training set)과 예측력 평가에 사용될 평가용 셋(test set)의 비율을 7:3으로 분할하였다. 데이터 분할은 계층적 샘플링(stratified random sampling)을 통해 진행하였다.
2.3.2 기계학습 모델링
본 연구에서는 셀룰로오스 아세테이트의 치환도 판별을 위한 기계학습 모델로서 부분최소자승 판별법(partial lease square least-discriminant analysis, PLS-DA), 서포트 벡터 머신(support vector machine, SVM) 및 최근접 이웃 알고리즘(k-nearest neighbor, KNN)의 적용을 시도하였다.
PLS-DA는 X 공간상의 분산을 최대로 설명하는 성분을 추정하는 PCA와 비교하였을 때 X와 Y 공간상의 분산을 설명하는 성분 도출 시 종속변수인 Y와의 상관관계를 고려하여 반복 계산한 가중치가 적용된 잠재변수를 탐색한다는 점에서 차이가 있다. PLS-DA는 일반적으로 고차원 데이터에서 PCA보다 높은 예측력을 나타내며 노이즈 제거와 차원 축소 효과가 우수한 것으로 알려져 있다.21) PLS-DA 구현을 위한 성분 변수는 초기 10개를 설정한 뒤 격자 검색을 통하여 최적의 성분 변수 개수를 결정하였다. Fig. 1(a)는 PLS-DA를 시각화한 것이다.
SVM은 다차원 공간상에서 두 집단을 분리하는 최적의 초평면(hyperplane)을 탐색하는 모델이다. 두 집단 간의 간격을 최대화하는 초평면을 최대마진초평면(maximal margin hyperplane), 관측값 간의 거리를 마진(margin)이라고 한다. 또한 마진의 경계선상에 있는 점들을 서포트 벡터(support vetor)라고 부른다. SVM은 수학적으로 마진이 최대가 되는 서포트 벡터를 선택하여 그 마진을 이등분선을 탐색하는 모델이다22) SVM 구현 시 초평면은 방사 기저 함수(radial basis function, RBF) 커널을 통해 추정하였으며,23) 오분류에 대한 패널티를 나타내는 cost 인수는 2-5-25으로 설정하고, 데이터를 분할하는 초평면의 형태를 결정하는 gamma 인수에는 10-3-103 범위를 지정하였다. 최종적으로 격자 검색을 통하여 매개변수를 최적화하였다. Fig. 1(b)는 SVM을 시각화한 것이다.
KNN은 판별하고 싶은 데이터와 인접한 k개수의 데이터를 탐색하여 해당 데이터 라벨이 다수인 범주로 데이터를 분류하는 모델이다.24) 이때 거리 측정은 유클라디안 거리 계산법을 이용한다. KNN 구현 시 최근접 이웃의 수를 나태내는 매개변수 k는 1, 3, 5, 7로 설정하였으며, 최종적으로 격자 검색을 통하여 최적의 k를 보정하였다. Fig. 1(c)는 KNN을 시각화한 것이다.
2.3.3 기계학습 모델의 검증 및 튜닝
셀룰로오스 아세테이트의 치환도 판별을 위해 사용된 PLS-DA, SVM, KNN 분류기는 LOO 교차타당법(leave- one-out cross validation, LOOCV)과 격자 검색을 통해 구현되었다. 교차검증 시 전 매개변수에 대한 격자 검색을 진행하여 최종 매개변수를 결정하였다. LOOCV는 교차검증 시 한 개의 데이터만을 남기고 모델을 구축하여 남겨진 한 개를 추정하는 과정을 반복하는 방법이다. 이를 통해 상대적으로 적은 양의 데이터 셋 내에서도 우수한 정확도를 갖는 모델을 구현할 수 있다. 그러나 계산량이 다소 광범위하여 모델의 효율성을 저하시킬 수 있다는 단점이 존재한다.
최적화 모델의 선정은 최소 오차를 기준하였으며 테스트 데이터 세트에 대한 모델 평가 척도는 정오분류표(confusion matrix)에 기반한 정확도(accuracy), 민감도(sensitivity) 그리고 특이도(specificity)를 사용하였다.25) 정확도, 민감도 그리고 특이도에 대한 정보를 Fig. 2와 Eqs. 4, 5, 6에 나타냈다. 본 연구에서 시행된 모든 예측 모델링 작업은 R software와 오픈 소스라이브러리를 사용하여 수행되었다.
3. 결과 및 고찰
3.1 적외선 스펙트럼과 주성분 분석
Fig. 3(a)는 치환도 조절에 따른 셀룰로오스 아세테이트의 원본 IR 스펙트럼 데이터를 나타낸 것이며, Fig. 3(b)는 Fig. 3(a)의 스펙트럼 데이터를 2차 미분한 것을 나타낸다. 본래 IR 스펙트럼의 측정영역은 4000-400 cm-1이었으나 본 분석에서는 셀룰로오스, 헤미셀룰로오스, 리그닌 및 수분에 주로 관여하는 1800-800 cm-1 영역을 추출하여 실험을 수행하였다. 다변량 분석 혹은 기계학습을 통한 재료의 예측 모델링 작업 시 입력변수의 축소는 모델 성능과 계산 비용을 개선하는 유용한 방법으로 알려져 있다.26,27) 따라서 스펙트럼 데이터의 특정 파장영역에 대한 선택적 적용은 셀룰로오스 아세테이트의 치환도 분석을 위한 예측 모델링에 있어 효과적인 전략이라 판단된다. Fig. 3(a)에서 활엽수 표백 크라프트 펄프의 아세틸화에 따른 FT-IR 피크는 1750 cm1 (C=O stretching of acetyl group), 1370 cm-1 (C-H bending vibration of CH3 in acetyl group), 1240 cm-1 (C-O stretching of acetyl group) 및 1050 cm-1 (C-O-C of cellulose backbone) 으로 분석되었다.13)Fig. 3(b)의 2차 미분 스펙트럼 상에서는 앞서 언급된 피크 이외에 1592 cm1 (conjugated C=O stretching)28), 1085 cm-1 (C-O deformation in secondary alcohols and aliphatic ethers)29), 1033 cm-1 (aromatic C-H plane deformation)30) 및 897 cm-1 (C-H deformation and ring valence vibration)31)이 추가로 확인되었다.
Fig. 4는 Fig. 3(b)의 2차 미분 스펙트럼 데이터를 통하여 진행한 주성분 분석에 대한 score plot을 나타낸 것이다. 초기 전체 시료에 대한 PCA score plot인 Fig. 4(a)에서 PC1 축을 기준으로 탈아세틸화 처리가 비교적 진행되지 않은 CA, D15가 분류되는 것을 확인할 수 있었다. Fig. 4(b)는 CA, D15 이외의 시료에 대한 relocated PCA score plot을 도시한 것으로 탈아세틸화 진행에 따른 치환도 변화가 데이터의 분포를 PC1을 기준으로 좌측에서 우측으로 이동시키고 있는 것을 확인할 수 있다. 또한 탈아세틸화가 유도됨에 따라 PC2 축을 기준으로 데이터의 분포가 아래에서 위로 진행하는 것은 탈아세틸화가 진행되면서 아세틸화 반응 이전 표백 크라프트 펄프의 화학적 성상으로 회귀됨에 따라 나타난 결과로 해석된다.
Fig. 5는 2차 미분 스펙트럼과 Fig. 4(b)의 score plot 상의 클러스터 형성 특징을 설명하는 PCA loading data를 비교한 것이다. Fig. 5로부터 주로 1800-1350 cm-1 영역의 스펙트럼 데이터가 PC1에 관여하고 있는 것을 확인할 수 있었다. 따라서 1750 cm1 (C=O stretching of acetyl group), 1592 cm1 (conjugated C=O stretching) 그리고 1370 cm-1 (C-H bending vibration of CH3 in acetyl group)의 스펙트럼 데이터를 본 데이터 세트 내 유효 피크라고 판단하였다. 이에 Fig. 5로부터 검출된 유효 피크를 이용하여 IR 치환도를 계산하고 적정법을 활용한 치환도 분석결과를 비교하여 치환도를 검증하는 과정에 대하여 서술하고자 한다.
3.2 IR 치환도 계산 및 유효성 검증
Table 3에 적정법으로 측정한 셀룰로오스 아세테이트의 치환도 변화를 도시하였다. 탈아세틸화 처리시간이 증가함에 따라 치환도가 감소하는 모습을 확인할 수 있다.
Table 3.
Code | Degree of substitution (DS) |
CA | 2.85±0.09 |
D15 | 2.24±0.14 |
D30 | 1.95±0.08 |
D45 | 1.77±0.12 |
D60 | 1.30±0.09 |
D90 | 0.84±0.04 |
D120 | 0.61±0.07 |
D180 | 0.50±0.12 |
D240 | 0.45±0.01 |
Fig. 6은 PCA 분석 결과를 바탕으로 추출한 셀룰로오스 아세테이트의 치환도 별 유효 특성화 피크 intensity로 계산한 IR 치환도와 적정법으로 측정한 치환도의 값을 비교한 것이다. IR 치환도는 1750 cm1 (C=O stretching of acetyl group), 1592 cm1 (conjugated C=O stretching) 그리고 1370 cm-1 (C-H bending vibration of CH3 in acetyl group) 영역의 각 피크 intensity를 Eq. 3에 대입하여 산출하였다. 또한 IR 치환도와 적정법으로 측정한 치환도의 값의 비교에 앞서 측정 인자간 데이터의 스케일을 고려하여 각 항목의 데이터 값을 평균이 0(zero-centered), 표준편차가 1이 되도록 표준화(standardization) 하였다. Fig. 6에 나타난 바와 같이 상기 유효 피크 intensity를 통해 계산되어진 IR 치환도 모두 적정법과 비교하였을 때 DS 2.0 이하의 범위에서는 0.94의 결정계수(R2)를 기록하였으나 이상의 영역에서는 유효성이 감소하는 것으로 분석되었다. 이는 아세틸화 처리 시 반응계의 수산기(-OH)와 무수 아세트산(Ac2O) 비율에 따른 화학 반응 속도에 기인한 결과로 해석된다. 아세틸화 처리 시 반응 초기에는 에스테르화(esterification) 반응이 셀룰로오스의 표면과 팽윤된 비결정질 셀룰로오스 영역에서 주로 발생하며 이에 따라 수산기의 비율이 무수 아세트산 비율에 비하여 상대적으로 적다. 따라서 반응성은 수산기의 비율에 의존되며 이때의 아세틸화 반응을 불균일 아세틸화 반응(heterogeneous acetylation)이라 정의한다.32) 이러한 불균일 아세틸화 반응은 1차 반응식(first-order kinetics)을 통해 설명 가능하다. 반면 아세틸화 과정이 진행됨에 따라 셀룰로오스 아세테이트의 용해도가 증가하여 DS가 2.0 이상이 되면 반응계 내의 수산기와 무수 아세트산 비율이 동등해짐에 따라 1차 반응식에 의거한 반응성의 설명이 불가능하다. 이때 아세틸화 반응계의 반응성은 수산기와 무수 아세트산의 비율을 모두 고려하는 2차 반응식(second-order kinetics)에 의해 설명되며 이를 균일 아세틸화 반응(homogeneous acetylation)이라 정의한다.13,33) 이처럼 화학 반응 속도에 따른 화학적 성상의 이질성과 스펙트럼 데이터의 다중공선성이 복합적으로 작용하여 DS 2.0을 기준으로 선형 회귀식의 설명력이 좌우되었을 것으로 판단된다.
3.3 치환도 분석을 위한 기계학습 모델링
데이터의 분산을 근거하여 잠재된 패턴과 구조를 탐색하는 비지도 학습(unsupervised learning)의 일환인 주성분 분석과 달리 PLS-DA, SVM 그리고 KNN은 데이터 포인트를 사전의 학습된 카테고리로 할당하는 지도 학습(supervised learning) 기법이다.34)Fig. 7은 Fig. 3(b)의 2차 미분 스펙트럼 데이터에 대한 PLS-DA score plot을 나타낸 것이다. PLS-DA는 차원 축소에 있어 독립변수와 종속변수에 대한 공분산을 고려한다는 점에 있어 PCA와 차이를 갖는다. Fig. 7(a)의 PLS-DA 분석에서 앞선 주성분 분석과 마찬가지로 CA, D15 시료의 경우 PC1 축을 기준으로 우선 분류되는 것으로 확인되었으며 이외 시료의 경우 치환도가 변화됨에 따라 PC2 축을 기준으로 상하로 분포되는 것으로 나타났다. Fig. 7(b)의 relocated PLS-DA score plot에서 역시 주성분 분석 결과와 동일한 경향을 나타냈다. PCA 및 PLS-DA의 결과를 종합하였을 때 스펙트럼 데이터의 분산을 고려한 치환도 분석 모델링 시 무수 아세트산과 수산기 농도 비율에 따른 화학 반응 속도 변화가 시료의 특성화에 있어 우선적으로 관여하는 것으로 판단된다. 언급하였듯이 DS 2.0 이상의 균일 아세틸화 반응에서는 IR 스펙트럼을 통한 치환도 분석에 있어 1차 반응식에 의거한 선형 회귀식의 결정계수가 감소한다. 이는 선형 함수들의 결합으로 구성된 선형 모델인 PCA와 PLS-DA가 전범위의 셀룰로오스 아세테이트의 치환도 판별 모델링 시 유용한 학습 전략이 아닐 수 있음을 시사한다.
Table 4는 PLS-DA, SVM 및 KNN 모델을 적용한 셀룰로오스 아세테이트의 치환도 판별 시 train set과 test set에서의 정확도를 나타낸 것이다. PLS-DA 모델의 경우 train set과 test set에 대한 정확도가 각각 0.586과 0.733으로 다른 두 분류 모델에 비하여 성능이 비교적 낮은 것으로 분석되었다. PLS-DA와 SVM은 기본적으로 선형 함수들의 결합으로 구성된 선형 모델이지만 SVM의 경우 커널 트릭의 적용을 통해 gamma 인수를 튜닝함으로써 데이터를 고차원 공간으로 투영하여 비선형 분류를 수행할 수 있다. 이에 기인하여 SVM 모델이 3개의 모델 중 가장 우수한 정확도를 나타냈을 것으로 판단된다.
KNN의 경우 train set과 test set에 대한 정확도가 각각 0.762와 0.900로 분석되었다. KNN은 train set에 대한 데이터를 그저 보유할 뿐 훈련의 과정을 거치지 않고 유클리드 거리를 기반으로 입력된 데이터를 분류하는 비교적 단순한 모델이다. 훈련 세트에 대한 오류가 같다면 더욱 단순한 모델의 일반화 오류가 더 낮을 가능성이 크다는 Occam35)의 면도날 이론을 고려하였을 때 KNN 역시 셀룰로오스 아세테이트의 치환도 판별을 위한 모델링에 있어 효과적인 도구가 될 수 있다고 사료된다.
본 데이터 셋 내에서 셀룰로오스 아세테이트의 치환도 판별 시 유용한 기계학습 모델은 SVM과 KNN이었다. 그러나 SVM과 KNN은 PLS-DA, 의사결정나무(decision tree) 및 랜덤 포레스트 등과는 다르게 분류규칙에 대한 논리적 설명을 제공하지 않는다. 따라서 특정 모델이 각 분석 도구의 효용성을 완전히 대체할 수 있는 것은 아니며 기계학습을 통한 예측 모델링 시 모델의 선택에 있어 데이터의 규모, 계산 비용 및 과적합 (overfitting) 등을 종합적으로 고려한 상호 보완적 검토가 요구된다.36)
3.4 기계학습 모델의 성능비교
Table 5는 민감도와 특이도 척도가 반영된 test set에 대한 각 모델 별 성능평가 지표를 도시한 것이다. 분류모델이 한 방향으로 치우치면 올바를 예측을 할 수 없다. 예측모델의 민감도는 실제 positive 케이스 중 모델에 의해 실제로 positive 케이스로 올바르게 분류한 비율로 측정한다. 반대로 특이도는 negative 케이스 중 모델에 의해 실제로 negative 케이스로 올바르게 분류한 비율을 나타낸다. 민감도와 특이도는 서로 트레이드오프(trade-off) 관계를 갖기에 두 지표간 적절한 균형점을 설정하는 것이 중요하다. Table 4의 민감도, 특이도의 경우 정확도 결과의 경향과 유사하게 기록된 것을 확인할 수 있다.
Table 5.
Code | PLS-DA | SVM | KNN | ||||||
Acc. | Sen. | Spe. | Acc. | Sen. | Spe. | Acc. | Sen. | Spe. | |
C0 | 0.733 | 1.000 | 1.000 | 0.926 | 1.000 | 1.000 | 0.900 | 1.000 | 1.000 |
CA | 1.000 | 1.000 | 1.000 | 1.000 | 1.000 | 1.000 | |||
C15 | 1.000 | 1.000 | 1.000 | 1.000 | 1.000 | 1.000 | |||
C30 | 1.000 | 0.963 | 1.000 | 0.963 | 1.000 | 0.926 | |||
C45 | 0.000 | 1.000 | 0.667 | 1.000 | 0.000 | 1.000 | |||
C60 | 1.000 | 0.889 | 1.000 | 1.000 | 1.000 | 0.963 | |||
C90 | 0.333 | 1.000 | 1.000 | 1.000 | 1.000 | 1.000 | |||
C120 | 1.000 | 0.926 | 1.000 | 1.000 | 1.000 | 1.000 | |||
C180 | 0.000 | 1.000 | 1.000 | 0.963 | 1.000 | 1.000 | |||
C240 | 1.000 | 0.926 | 0.667 | 1.000 | 1.000 | 1.000 |
Fig. 8은 test set에 대한 분류모델의 혼동 행렬(정오분류표)을 나타낸 것으로 실제 범주와 예측 범주 가운데 정분류 및 오분류 케이스에 대한 정보를 나타낸다. Fig. 8로부터 Table 5의 모델 평가지표 산출근거를 확인할 수 있다. PLS-DA의 경우 SVM과 KNN에 비하여 오분류 비율 및 범위가 다소 넓은 것으로 나타났다.
4. 결 론
1.주성분 분석의 시행을 통하여 추정한 아세틸화 유래 IR 스펙트럼 데이터로부터 치환도 2.0 이하의 셀룰로오스 아세테이트에 대한 치환도의 분석이 가능함을 확인하였다.
2.셀룰로오스 아세테이트의 치환도에 따라 IR 치환도의 설명력이 좌우되는 원인은 화학반응속도에 기인한 것으로 판단하였으며 선형 함수의 결합으로 구성된 PLS-DA 모델의 설명력이 비교적 낮은 결과에 근거하여 위의 사실을 검증하였다.
3.SVM의 경우 근본적으로 선형 함수의 결합으로 이루어진 학습 모델이나 커널 트릭의 적용을 통해 데이터를 고차원 공간으로 투영하여 비선형 분류를 시행함으로써 치환도에 관계없이 상대적으로 우수한 성능을 갖는 치환도 판별 모델 생성이 가능하였다.
4.KNN 역시 모델 성능 평가지표를 기반으로 셀룰로오스 아세테이트의 치환도 판별을 위한 유용한 학습 도구임을 확인할 수 있었으나 추후 모델 선택에 있어 데이터의 규모, 계산 비용 및 과적합 등을 종합적으로 고려한 상호 보완적 검토가 요구된다고 판단된다.
기계학습 모델과 IR 스펙트럼 데이터에 입각한 고분자 단위체의 치환도 분석 모델이 제안됨에 따라 기존의 통용되던 분석법을 효율적으로 대체 가능하다고 판단되며, 향후 셀룰로오스 유도체 합성 과정에 작용하는 요인들을 고려한 알고리즘을 수립한다면 치환도 분석뿐만 아니라 품질 예측을 위한 도구로도 사용할 수 있을 것으로 판단된다.