Ⅰ. 서 론
질병관리청 2020년 정책연구용역에 의하면 2019년 기준 국내 총 의료방사선 검사 사용량은 약 3.74억 건으로, 2016 년 사용량인 3.12억 건에 비하여 약 20% 증가하였으며 연평 균 약 6.2%씩 증가한 것으로 나타났다. 이중 일반엑스선검 사 사용량은 2016년 2.25억 건에서 2019년 2.68억 건으로 약 19% 증가하였으며 연평균 약 6.1%씩 증가한 것으로 나타 났다[1]. 이처럼 진단용 방사선 검사 건수는 해마다 증가하 고 있다. 진단용 방사선 검사 건수가 증가하는 추세에 따라 학교에서의 방사선 검사 실습 교육이 중요해지고 있다. 방 사선사 면허 소지자는 꾸준히 증가하고 있으며 2020년 방 사선사 면허시험은 2,810명이 지원하여 2,736명이 응시하 였고 1,897명이 합격하였다[2].
방사선 검사 건수의 증가와 더불어 방사선사 면허 소지자 가 꾸준히 증가하는 추세에서 교내 실습 교육의 필요성이 증가하고 있다[2]. 방사선 교육 전문가 집단은 체계적인 실 습 교육을 통하여 교육의 질을 높일 수 있다고 주장하고 있 으며, 보건계열 방사선학과는 양질의 방사선사를 양성하기 위하여 일반엑스선검사 실습을 정규 교과목으로 편성하여 운영하고 있다[3].
방사선학과 실습 교육은 이론 교육의 확장과 임상 적응을 위하여 중요하게 다루어지고 있지만, 방사선을 이용한 실습 장비는 고가이며 인체 방사선 조사에 대한 법적 문제 등으 로 인하여 일반엑스선검사 실습 교육을 진행하는 데 한계가 있다[4].
진단용 방사선 검사에서 숙련된 의료기술을 갖추기 위한 장치 조작 교육은 매우 중요하다. 그러나 일부 대학의 경우 학생은 수시출입자에 해당하게 되므로 진단용 방사선 발생 장치를 직접 조작할 수 없다. 따라서 교육 현장에서는 원활 한 현장 실습을 위하여 방사선 발생이 없는 교육용 시뮬레 이터의 필요성이 대두되고 있다. 현실적인 한계를 극복한 시뮬레이터 등의 교육 도구가 개발되어 활용된다면 학습자 들의 교육 효과는 커질 것이다[5,6].
기계학습은 학습원리 상 일반엑스선검사 교육용 시뮬레 이터에 적합하다. 일반엑스선검사 교육용 시뮬레이터는 이 미지 촬영 후 기계학습 모델을 통한 분류를 통하여 촬영된 이미지를 예측하고 예측된 이미지에 해당하는 방사선 영상 을 화면에 나타내는 과정으로 작동되는데 타 방사선 검사와 다르게 육안으로 확인 가능한 검사 부위를 투영하는 방식이 기 때문이다.
연구는 일반엑스선검사 교육용 시뮬레이터 개발에서 기 계학습 기법의 적용 가능성을 평가해보고자 한다. 또한, k- 최근접 이웃(k-nearest neighbor; kNN), 서포트 벡터 머신 (Support vector machine; SVM), 신경망(Neural network; NN) 등 다양한 모델을 사용하고 분석하여 가장 적합한 모델 을 제시하고자 한다.
Ⅱ. 대상 및 방법
1. 데이터 세트(Data set)
연구를 진행하기 위하여 경기도 소재 대학교 학생들의 동의를 얻어 Fig. 1과 같이 오른손 후전방향(Posterior anterior; PA) 검사, 후전사방향(Posterior anterior oblique; Obl) 검사, 측방향(Lateral; Lat) 검사, 부채꼴 측방향(Fan lateral; Fan lat) 검사에 해당하는 사진을 각 100장씩 촬영 하여 이미지 데이터를 획득하였다. 실제 엑스선검사와 동일 한 자세를 취한 후 Fig. 2와 같이 50 cm의 촬영거리에서 10 × 12인치 카세트에 맞게 상·하 방향으로 사진을 촬영하였 다. 획득한 400개 이미지 데이터의 70%는 기계학습 모델의 학습을 위한 훈련 세트로 사용하였고, 30%는 평가를 위한 테스트 세트로 사용하였다.
2. 분류모델 및 평가
연구는 오른손 PA, Obl, Lat, Fan lat 이미지의 분류를 위하여 Fig. 3과 같은 예측 모델을 구성하였다. 데이터 세트 를 기준으로 kNN, SVM, NN 모델을 사용하여 분류 모델 구 성 후 오차 행렬을 통하여 각 모델을 비교하였다. 본 연구의 분류 모델 개발을 위하여 사용된 소프트웨어는 Orange3 3.30.2으로 오픈소스 Python 기반의 데이터 과학, 통계, 시 각화, 기계학습 등에 사용되고 있다. Orange3는 탐색적 정 성적 데이터 분석 및 대화형 데이터 시각화를 위한 시각적 프로그래밍 프론트 엔드가 특징이다. 기계학습 모델은 분류 및 판별과 결과값 추정으로 나눌 수 있다[7]. 본 연구는 분 류를 위하여 kNN, SVM, NN모델을 사용하였고, 분류모델 평가를 위하여 정확도(Accuracy), F1 스코어(F1 score), 정 밀도(Precision), 재현율(Recall), AUC(Area under curve) 을 산출하여 비교하였다.
정확도는 모델이 데이터를 얼마나 정확하게 분류했는지 에 대한 평가 지표이며, 평가하는데 사용된 총 데이터 중에 서 올바르게 분류한 데이터의 비율을 나타낸다. F1 스코어 는 정밀도와 재현율의 조화평균으로 정밀도와 재현율을 고 려한 평가 지표이다. 정밀도는 정답으로 예측한 데이터 중 실제 정답 데이터의 비율이며, 재현율은 실제 정답 데이터 중 정답으로 예측한 비율이다. 각 평가 지표는 0과 1 사이의 값을 가지며 1에 가까울수록 좋은 성능을 나타내는 모델이 다. 각 평가 지표는 Eq. (1)∼(4)와 같다.
여기서 정답으로 예측하고 정답인 경우 TP(True positive), 오답으로 예측하고 오답인 경우 TN(True negative), 정답 으로 예측했으나 오답인 경우 FP(False positive), 오답으 로 예측했으나 정답인 경우 FN(False negative)이라 한다.
3. 기계학습 모델
기계학습은 데이터 패턴을 학습하여 결과를 예측하 는 기법으로 지도학습(Supervised learning), 비 지도학습 (Un-supervised learning), 강화학습(Reinforcement learning) 으로 나눌 수 있다[8]. 이 중 지도학습은 명시적인 정답이 있는 데이터가 주어진 상태에서 학습하는 기계학습 방식이 다. 대표적인 유형인 분류는 학습 데이터로 주어진 데이터 를 기계학습 모델로 학습해 모델을 생성하고, 생성된 모델 에 새로운 데이터가 주어졌을 때 미지의 값을 예측하는 것 이다[9]. 본 연구는 분류 지도학습을 위하여 kNN, SVM, NN 모델을 사용하였다.
1) kNN
kNN은 근접 거리를 기준으로 하는 최소 근접(Nearest neighbor) 모델로 사용자가 직접 정의하는 변수인 k에 따 라 데이터 사이의 거리를 기반으로 가까운 k개 데이터의 투표를 통해 분류를 진행한다. 이때 데이터들간의 거리는 Euclidean, Manhattan 등 다양한 거리 계산 방법을 활용 할 수 있다.
2) SVM
SVM은 개별 클래스 간의 최대 분류 마진을 효과적으로 찾아주는 모델로 학습 자료를 두 개의 집단으로 분리시키 는 함수인 초평면(Hyper-plane)을 추정하는 것이다. 이 러한 평면은 무수히 존재할 수 있지만, 두 집단 사이의 유 클리드 거리를 최대화하도록 제한을 두면 하나의 유일한 평면이 해가 된다. 이 평면을 최적의 분류 초평면(Optimal hyper-plane)이라 하며 이를 중심으로 클래스를 이진 분류 하게 된다[10].
3) NN
NN은 기계학습과 인지과학에서 생물학의 신경망에서 영 감을 얻은 통계학적 학습 모델이다. 인공신경망은 시냅스의 결합으로 네트워크를 형성한 인공 뉴런이 학습을 통해 시냅 스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델 전반을 가리킨다. 입력에 대하여 각 뉴런이 독립적으로 동 작하는 처리기의 역할을 하고 출력하기 때문에 병렬성이 뛰 어나고, 연결선에 정보가 분산되어 있기 때문에 일부 뉴런 에 문제가 발생해도 전체 시스템에 큰 영향을 주지 않으며 주어진 환경에 대한 학습능력이 있다.
Ⅲ. 결 과
1. 모델 평가
오른손 이미지의 분류를 위하여 훈련 데이터를 활용하여 kNN, SVM, NN 분류모델을 구축하였다. 생성한 모델에 테 스트데이터를 적용하여 Table 1과 같이 분류 성능평가를 하 였다. kNN의 정확도는 0.967 AUC는 0.993으로 나타났으 며 SVM의 정확도는 0.992 AUC는 1.000으로 나타났다. NN의 정확도는 0.992, AUC는 0.999로 나타났다.
2. kNN 성능평가
오른손 PA, Obl, Lat, Fan lat 이미지 각 30장을 사용한 테스트 세트 데이터 120장을 기반으로 한 kNN의 오차 행렬 은 Table 2와 같다. PA는 30장을 예측하였고, 30장을 PA로 예측하여 100%의 정확도를 나타냈다. Fan lat은 30장을 예 측하였고, 28장은 정확히 예측하였으나 2장을 Obl로 예측 하여 93.333%로 나타났다. Lat은 31장을 예측하였고, 30장 은 정확히 예측하였으나 1장을 Fan lat로 예측하여 96.774% 로 나타났다. Obl은 29장을 예측하였고, 28장은 정확히 예 측하였으나 1장을 Fan lat로 예측하여 96.552%의 정확도를 나타냈다.
3. SVM 성능평가
테스트 세트 데이터 120장을 기반으로 한 SVM의 오차행 렬은 Table 3과 같다. PA는 30장을 예측하였고, 30장을 PA 로 예측하여 100%의 정확도를 나타냈다. Fan lat은 29장을 예측하였고, 29장을 정확히 예측하여 100%로 나타났다. Lat은 30장을 예측하였고, 30장을 정확히 예측하여 100% 로 나타났다. Obl은 31장을 예측하였고, 30장은 정확히 예 측하였으나 1장을 Fan lat로 예측하여 96.774%의 정확도를 나타냈다.
4. NN 성능평가
테스트 세트 데이터 120장을 기반으로 한 NN의 오차 행 렬은 Table 4와 같다. PA는 30장을 예측하였고, 30장을 PA 로 예측하여 100%의 정확도를 나타냈다. Fan lat은 29장을 예측하였고, 29장을 정확히 예측하여 100%로 나타났다. Lat은 30장을 예측하였고, 30장을 정확히 예측하여 100% 로 나타났다. Obl은 31장을 예측하였고, 30장은 정확히 예 측하였으나 1장을 Fan lat로 예측하여 96.774%의 정확도를 나타냈다.
Ⅳ. 고 찰
현행 원자력안전법에 따라 방사선학과 재학생의 경우 일 반엑스선검사 실습을 하기 위한 종사자 분류는 원자력안전 법 시행령 제2조 제8호에 따라 수시출입자로 분류된다. 이 에 따라 실습 교육과정에 있는 방사선학과 학생에 대한 방 사선안전관리체계는 작업종사자 수준으로 강화되었다. 방 사선학과 대학은 양질의 방사선사 양성을 위한 교육기관으 로 교육을 위한 실습을 진행하여야 한다. 그러나 현행 원자 력안전법 및 시행령은 교육을 위한 실습을 진행하는 대학 방사선학과에 설치된 방사선발생장치도 안전확보라는 명분 으로 방사선안전관리 규정을 적용하고 있다[11]. 방사선안 전관리에 대한 지나친 법 적용으로 인하여 일부 대학의 경 우 정상적인 실습이 불가피해지는 등 헌법 제31조 제1항에 명시된 학생의 교육을 받을 권리가 침해받고 있으며 이를 해결하기 위한 노력이 필요하다.
기계학습의 경우 사용자가 설정 가능한 하이퍼 파라미터 의 조절을 통하여 성능 향상이 가능하다. 하이퍼 파라미터 의 설정은 주어진 데이터의 특성에 따라 다르며 최적 설정 을 위하여 시행착오(Trial and error) 방식을 사용하게 된 다. 그러나 본 연구에서는 Orange3 에서 제공하는 기본 세 팅값을 사용하여 kNN의 이웃의 수는 5, Metric은 Euclidean을 사용하였고, SVM의 Cost는 1.00, RBF 커널 을 사용하였다. NN의 경우 Hidden layer는 100, Relu 함수 와 Adam optimizer를 사용하였다.
연구는 방사선발생장치를 대신하여 사용 가능한 시뮬레 이터 개발을 위한 예비 연구로 오른손 AP, Lat, Fan lat, Obl 사진을 엑스선검사 방향으로 촬영하여 이미지 데이터 를 획득하고 다양한 분야의 분류 및 예측에 활용되고 있는 기계학습을 수행한 후 분류 정확도를 평가하여 시뮬레이터 로써 활용 가능성 평가에 목적을 두었다[12-15]. 평가 결과 모델별 정확도는 kNN 0.967, SVM 0.992, NN 0.992였으 며, AUC는 kNN 0.993, SVM 1.000, NN 0.999로 kNN이 약간 낮았지만 세 모델 모두 높은 정확도와 AUC를 기록하 였다.
연구에 적용된 촬영 부위가 간단하게 분류가 가능한 편이 기 때문에 3가지 모델 모두 높은 정확도를 기록하였지만 머 리와 같이 복잡한 이미지에 적용하였을 때의 정확도는 저하 될 수 있다. 또한, 같은 공간에서 정해진 촬영거리 및 자세 로 이미지 데이터를 획득하였기 때문에 조명의 밝기 및 배 경, 촬영 자세에 따른 영향을 받을 수 있다. 이를 해결하기 위하여 더 많은 이미지 확보를 통한 대규모 데이터 세트의 구성이 필요하며 대규모 데이터 세트를 활용한 데이터 증강 (Data augmentation) 기법을 활용한다면 해결 가능할 것 으로 생각된다.
Ⅴ. 결 론
연구에서는 기계학습 분류 모델인 kNN, SVM, NN모델 을 사용하여 오른손 PA, Obl, Lat, Fan lat 이미지를 분류 하고 예측하였다. 예측 결과 정확도는 SVM과 NN가 0.992 로 같았으며, AUC는 1.000, 0.999로 비슷하게 나타나 두 모델 모두 높은 예측력을 보였고, 교육용 시뮬레이터에 적 용 가능함을 알 수 있었다. 이를 통하여 다양한 부위에 대한 적용이 가능해진다면 교육용 시뮬레이터는 일반엑스선검사 실습에 효과적인 학습 도구로 활용될 수 있으며, 학습자의 임상실무역량 강화에 효과적일 것으로 기대된다.