Ⅰ. 서 론
컴퓨터단층촬영(computed tomography, CT)은 광범위 한 가용성과 빠른 속도 및 우수한 진단 성능 덕분에 많은 질 병과 실제 임상에 있어서 독보적인 진단 도구로 발전했다. CT 장비는 노후도 및 조건 설정에 따라 영상의 질이 좌우되 므로 정기적인 정도관리를 통해 CT의 성능을 최적화시키는 것은 중요하다. 결과적으로 정도관리를 위해 다양한 팬텀 (phantom)이 제작되어 여러 가지 검사항목을 수행하고 있 다. 정도관리를 위한 평가항목으로는 노이즈, 대조도분해 능, 공간분해능, 직선성 등이 있다[1].
국내에서 사용되고 있는 미국 의학 물리학자 협회(American Association of Physicists in Medicine, AAPM) 팬텀은 고 대조도 분해능(High Contrast resolution, HC)과 저 대조도 분해능(Low Contrast resolution, LC) 영역에서 정성적으로 평가되고 있다. 그러나 정도관리 시정성적인 평가 외에도 정 량적인 평가가 이루어져야 하고 국내외의 여러 연구에서 정성 적 평가와 정량적 평가를 비교했을 때, 정량적으로 평가한 정도관리의 합격률 결과가 더 우수한 것으로 보고되었다[1]. 이처럼 AAPM 팬텀을 이용한 정도관리 시 정성적 평가를 보 완하고자 하는 여러 연구들이 있었고[1,2], 이러한 연구는 정 도관리를 위한 딥러닝 분류 모델이 95% 이상의 정확률을 지 니며 딥러닝 모델을 통한 정량적인 정도관리가 가능하다는 결과를 보여주었다. 이를 ACR 팬텀에도 적용하여 딥러닝 모 델을 통한 정량적 정도관리가 가능한지 알아보고자 하였다.
딥러닝은 인공신경망을 통해 데이터를 처리하며, 데이터 의 추상적인 표현을 학습함으로써 복잡한 문제를 해결한다. 특히 딥러닝 모델 중 합성곱 신경망(Convolutional Neural Networks, CNN)을 기반으로 하는 모델은 이미지 분류 및 분석에 적합하다는 특징을 가진다[3,4]. CT 정도관리에 사용되는 팬텀 중 미국 방사선학회(American College of Radiology, ACR) 팬텀은 464-Automated CT software (ACTS) 프로그램을 통해 정량적인 평가가 가능하지만, 프 로그램이 상용화되어있지 않아 대중적으로 이용하기에는 제한이 많이 따른다.
따라서 본 연구에서는 ACR 팬텀을 사용한 CT 정도관리 에 최적화된 인공신경망을 이용하여 정량적인 정도관리가 가능한 딥러닝 모델을 개발해보고자 한다.
Ⅱ. 대상 및 방법
1. 실험 대상 및 방법
1) 실험 장치
CT 장치는 64 MDCT(Multi Detector CT) Discovery 750 HD(Revolution Frontier, GE Healthcare, USA)을 사용하였다.
2) CT 팬텀(Phantom)
팬텀은 ACR 464 phantom (1-800-GAMMEX1, Gammex, USA)을 사용하였으며 지름 20 ㎝, 길이 16 ㎝의 원통형 팬 텀이다. 팬텀은 네 개의 모듈로 구성되어 있으며 각 모듈은 4 ㎝이다. 첫 번째 모듈을 통해 슬라이스 두께, 두 번째 모 듈은 저 대조도 분해능, 세 번째 모듈은 CT number의 균일 도, 네 번째 모듈은 고 대조도 분해능을 평가한다(Fig. 1).
3) 소프트웨어 프로그램
팬텀을 스캔하여 얻은 영상을 객관적으로 분류하기 위 해 Gammex 464-Automated CT software (ACTS) v1.2 32-bit를 사용하였다. ACTS 소프트웨어 프로그램은 CT 영 상 시스템의 품질관리를 위해 사용되며 ACR 팬텀의 모듈 별 영상을 분석한다.
4) 딥러닝 하드웨어
딥러닝 학습 및 테스트 과정에서 Intel(R) Core (TM) i5-8250U CPU @1.60 ㎓ 1.80 ㎓, Memory 4 ㎇, 그래픽 카드는 Intel(R) UHD Graphics 620을 사용하였다.
2. 실험 방법
ACR 팬텀을 스캔하여 얻은 영상을 ACTS 프로그램을 통 해 슬라이스 두께는 2-3 mm, 4-5 mm, 6-7 mm의 3개의 클래스로 HC는 0-5 lp/mm, 6-8 lp/mm, 10-12 lp/mm의 3개의 클래스로 LC는 0-3 mm 4-6mm의 2개의 클래스로 분류하였다. 분류한 영상을 기반으로 ResNet18을 사용해 딥러닝 모델을 개발하였고 오차 행렬, 정확도, 손실함수 값 으로 모델을 평가하였다(Fig. 2).
1) 팬텀 스캔 및 영상 분류
CT 스캐너의 정렬 표시등과 팬텀 외부에 그려진 흰색 정 렬선을 맞춰 스캔한다. 정렬선이 맞지 않을 경우 ACR 소프 트웨어 프로그램에 영상이 인식되지 않는다. 본 논문에서는 ACR 팬텀의 모듈 1, 2, 4를 스캔하여 슬라이스 두께, 저 대 조도 분해능, 고 대조도 분해능 영상을 얻고자 하였다. 그중 모듈 1의 슬라이스 두께의 경우 정렬선을 맞추지 않아도 인 식이 가능한 딥러닝 모델을 학습하기 위해 팬텀에 인위적으 로 각도를 적용해 회전하여 스캔했다.
각 모듈의 스캔 조건은 다음과 같이 설정하였다(Table. 1). 일차적으로 스캔한 영상은 ACTS 프로그램에서 분석을 진행 하였다(Fig. 3). 프로그램 분석 후 딥러닝 학습을 위해 각 모듈 별 기준에 따라 슬라이스 두께는 3개의 카테고리로, 저 대조도 분해능은 2개의 카테고리, 고 대조도 분해능은 3 개의 카테고리로 분류하였다(Fig. 4).
(1) 슬라이스 두께 스캔 및 분류
슬라이스 두께 2 ㎜부터 7 ㎜까지의 영상을 얻고 정확한 분류기준 정립을 위한 다양한 조건의 데이터를 얻기 위하여 모듈 1의 슬라이스 두께를 1.25 ㎜, 2.5 ㎜, 5.0 ㎜로 변화하 며 스캔하였다. 획득한 영상을 ACTS 프로그램에 적용해 분 석하고 프로그램의 결과를 기준으로 2-3 ㎜, 4-5 ㎜, 6-7 ㎜의 3개의 카테고리로 분류하였다.
(2) 저 대조도 분해능 스캔 및 분류
저 대조도 분해능은 관전류, 알고리즘, 재구성 방법의 변 화에 영향을 받으며 정확한 분류기준 정립을 위한 다양한 조건의 데이터를 얻기 위하여 각 파라미터를 변화시키며 모 듈 2를 스캔하였다.
관전류의 경우 50 ㎃와 250 ㎃로 나누어 스캔하였고 알고리 즘은 soft, standard, bone, edge, ultra로 변화시키며 영상 을 얻었다. 재구성 기법의 경우 필터 보정 역투영법(Filtered Back Projection, FBP), 적응 통계 반복 재구성법(Adaptive Statistical Iterative Reconstruction, ASIR-V) 30%, 딥러 닝 이미지 재구성법(Deep Learning Image Reconstruction, DLIR) Low, Medium, High를 사용해 스캔하였다.
슬라이스 두께와 마찬가지로 획득한 영상을 ACTS 프로 그램에 적용해 분석하고 프로그램의 결과를 기준으로 0-3 ㎜, 4-6 ㎜의 2개의 카테고리로 분류하였다.
(3) 고 대조도 분해능 스캔 및 분류
고 대조도 분해능은 알고리즘과 재구성 방법에 좌우되 고 정확한 분류기준 정립을 위한 다양한 조건의 데이터를 얻기 위하여 저 대조도 분해능과 마찬가지로 알고리즘을 soft, standard, bone, edge, ultra로, 재구성 기법을 FBP, ASIR-V 30%, DLIR low, medium, high로 나눠 스캔하였 다. 획득한 영상을 ACTS 프로그램에 적용해 분석하고 프로 그램의 결과를 기준으로 0-5 lp/㎜, 6-8 lp/㎜, 10-12 lp/ ㎜ 의 3개의 카테고리로 분류하였다.
2) 정도관리를 위한 딥러닝 모델 개발
딥러닝 모델 학습을 위해 visual studio code, python 3.11.3, 딥러닝 프레임워크 Pytorch stable 2.01을 사용하 였으며 하이퍼 파라미터는 다음과 같다(Table 2).
각 모듈의 데이터 구성은 학습, 검증, 테스트로 구분하여 8 : 1 : 1의 비율로 설정하였다. 모듈별 데이터 개수는 다음 과 같다(Table 3). 본 연구에서는 정해진 중심선에 맞춰 스 캔한 팬텀 영상을 사용했으므로, 각도 및 영상 크기 등에서 다양한 영상이 나올 수 없어 제한된 데이터만을 가지고 연 구에 이용하였다.
이미지 분류 및 학습에 사용된 딥러닝 모델은 깊은 네트 워크를 효과적으로 훈련할 수 있는 CNN 기반의 Residual Netwoks18 (ResNet18)을 사용했다. 전반적인 딥러닝 모델 학습 과정은 다음과 같다(Fig. 5).
딥러닝 알고리즘 모델은 ST, HC, LC 각각의 모델 3개와 위 항목을 통합한 모델로 총 4개이다. ST, HC, LC를 통합 하여 만든 모델의 경우 반복 횟수를 10, 30, 50으로 달리하 여 학습해 최적화 단계를 거쳤다. 또한 모델의 테스트 과정 에서 높은 신뢰성을 위해 학습에 사용하지 않은 54장의 영 상을 적용하였다.
3) 평가 지표
ST, LC, HC, 통합모델의 성능을 평가하기 위해 정확도 (Accuracy)와 손실함수 값(Loss)을 평가 지표로 사용하였 다. ST, LC, HC 모두 한 번에 정도관리 할 수 있어 편리함 을 가지는 통합모델의 경우 반복 횟수를 변화시키며 최적화 단계를 거쳤고, 최적화된 딥러닝 모델을 평가하기 위해 오 차 행렬(Confusion Matrix)을 사용하였다.
정확도(Accuracy)란 전체 중 모델이 바르게 분류한 비율 이며 오차 행렬에서 대각선 부분을 뜻한다. 정확도의 값이 1에 가까울수록 모델 성능이 우수함을 뜻한다. 산출 식은 (1)과 같다.
위 식에서 TP(True Positive)는 1일 것으로 예측했는데 1 인 경우이며 TN(True Negative)은 0일 것이라고 예측했는 데 정답이 0인 경우, FP(Fasle Positive)는 예측이 1인데 정 답이 0인 경우, FN(False Negative)는 예측이 0인데 정답 은 1인 경우를 뜻한다[5].
손실함수(Loss)는 Cross Entropy를 사용했으며 손실함 수 값이 0에 가까울수록 모델의 성능이 우수하다. 산출 식 은 (2)와 같다[6].
오차 행렬이란 학습 과정에서 예측 성능을 측정하기 위해 예측값과 실제값을 비교하기 위한 표이다. 오차 행렬에서 보여주는 대각선의 형태가 뚜렷할수록 성능이 우수함을 뜻 한다(Fig. 6).
Ⅲ. 결 과
1. 모델 학습 결과
ST 2-3 ㎜, 4-5 ㎜, 6-7 ㎜의 학습 데이터 개수는 각각 62개, 47개, 48개이고 검증 데이터 개수는 각각 10개, 9개, 9개이다. LC 0-3 ㎜, 4-6 ㎜의 학습 데이터 개수는 각각 47개, 65개이고 검증 데이터 개수는 각각 6개, 8개이다. HC 0-5 lp/㎜, 6-8 lp/㎜, 10-12 lp/㎜의 학습 데이터 개수는 각각 42개, 42개, 12개이고, 검증 데이터 개수는 각각 5개, 5개, 2개이다. 또한 테스트 데이터는 무작위로 선별하였다. ST, LC, HC의 영상을 각각 학습시켜 만든 모델과 통합시켜 만든 모델의 결과는 다음과 같다(Table 4). ST, LC, HC, 통 합모델의 정확도는 각각 0.9642, 0.9286, 1.0000, 0.9629 이다. 손실함수 값은 각각 0.1723, 0.1837, 0.0081, 0.1857 이다. 학습 시간의 경우 각각 208분, 211분, 106분, 368분 이 소요되었다.
2. 통합 모델의 최적화 결과
모든 항목을 한 번에 정도관리 할 수 있어 편리함을 가지 는 통합모델의 경우, 하이퍼 파라미터 중 반복 횟수를 변화 시켜 최적화 단계를 거쳤다. 반복 횟수에 따른 정확도와 손 실함수는 다음과 같다(Figs. 7, 8).
정확도의 경우, 반복 횟수에 따른 값의 변동이 없었지만, 손실함수의 경우 반복 횟수를 50으로 설정한 모델의 값이 0.1857로 가장 낮았다. 따라서 손실함수 값이 가장 낮은 반 복 횟수 50의 모델이 가장 최적한 것으로 나타났다.
Epoch 50 통합모델의 테스트 결과 및 오차 행렬은 다음 과 같다(Figs. 9, 10).
반복 횟수 50 모델의 오차 행렬은 다음과 같으며 오차 행 렬의 대각선이 뚜렷하게 나타날수록 정확도가 높아 우수한 것을 뜻한다.
Ⅳ. 고 찰
CT 정도관리를 통해 영상의 질 저하를 방지하고 장비의 성능을 최적화하는 것은 매우 중요하다[7]. 정도관리에 사 용되는 팬텀으로는 AAPM 팬텀, ACR 팬텀, Catphan 팬텀 등이 있으며 본 연구에서는 미국 방사선학회에서 사용되는 이미지 품질 평가용 팬텀인 ACR 팬텀을 사용하였다[8]. ACR 팬텀을 정량적으로 평가할 수 있는 ACTS 프로그램은 경제적 제약이 존재해 대중적으로 이용하기 힘들다. 하지만 딥러닝은 비교적 사용이 용이하다. 따라서 본 연구에서는 딥러닝을 ACR 팬텀에 접목하여 정도관리를 객관적으로 평 가할 수 있는지 알아보고자 하였다.
ACR 팬텀에서 CT 감약계수, 균일도, 슬라이스 두께, 고 대조도 분해능, 저 대조도 분해능, 직선성 등을 측정하여 정 도관리에 사용할 수 있다[9,10]. 본 연구에서는 슬라이스 두 께, 고 대조도 분해능, 저 대조도 분해능 영역을 사용하였 다. 슬라이스 두께, 저 대조도 분해능, 고 대조도 분해능의 정의 및 중요성은 다음과 같다[11-14]. 이처럼 의료영상에 서 중요성을 지니는 저 대조도 분해능과 고 대조도 분해능 은, AAPM 팬텀을 통해 정도관리 할 경우 정성적으로 평가 가 진행된다. 따라서 딥러닝 모델을 통해 정량적으로 평가 하기 위한 연구도 진행되었다[2]. 본 연구와 마찬가지로 딥 러닝 모델을 통해 정량적인 정도관리를 시행했다는 점에서 공통점을 가진다. 하지만 본 연구는 ACR 팬텀을 사용했기 때문에 AAPM 팬텀과 다르게 ACTS 프로그램의 정량적 분 석값을 통해 데이터를 분류하고 학습시킬 수 있었다.
연구에 이용되지 않은 모듈 3의 균일도, 노이즈의 경우 별도의 관심 영역을 설정하여 관심 영역별로 CT number 값 을 나타내는 모듈이다. 하지만 하나의 특징으로 라벨링을 해야 하는 딥러닝 데이터 특성상 모듈 3은 딥러닝 모델에 적 용하기에는 한계가 있었다.
따라서 본 연구에서는 ACR 팬텀의 슬라이스 두께, 고 대 조도 분해능, 저 대조도 분해능 스캔 영상을 딥러닝 모델에 학습시켜 정도관리 모델을 개발하였다. 팬텀을 스캔하여 얻 은 영상을 ACTS 프로그램의 분석 결과를 기반으로 분류했 으며 실험 방법에서 제안한 딥러닝 모델에 학습시켰다. 학 습 결과를 오차 행렬, 정확도, 손실함수를 이용해 딥러닝 모 델이 정도관리에 얼마나 적합한지 평가하였다.
본 연구에서 정도관리를 위해 딥러닝 모델로 프레임워크 인 Pytorch stable 2.01 기반의 ResNet18을 사용하였다. 연구 초반에는 객체 탐지를 위한 딥러닝 알고리즘인 YOLO 를 이용하여 이미지 분류를 시도하였으나 학습 시간이 오래 걸린다는 단점이 있었다. 그에 반해 ResNet18의 경우, 깊 은 네트워크의 훈련이 가능하며 학습 시간을 크게 단축할 수 있어 학습에 적용할 모델로 설정하였다[15]. 추가로 ResNet은 깊은 레이어를 사용하면서도 다른 모델에 비해 상대적으로 적은 파라미터를 사용한다. 이는 모델의 복잡성 을 줄이면서도 높은 성능을 얻을 수 있도록 도와준다. 적은 파라미터 수는 메모리 효율성을 증가시키는 데 도움이 되며 이는 저사양 컴퓨터를 이용한 딥러닝 모델 훈련에 적합한 특징이다.
그 결과로 ST, LC, HC으로 나누어 모델링 한 모델은 각 0.9642, 0.9286, 1.0000의 정확도를 나타냈으며, 통합모델 은 0.9629의 정확도를 보였다. 통합모델의 경우 정도관리 시 항목들을 나누어 적용할 필요가 없어 편리하다는 점을 가진다. 이에 따라서 통합모델은 반복 횟수를 10, 30, 50으 로 나누어 학습시켜 최적화 단계를 거쳤다.
각각의 결과 반복 횟수에 따른 정확도는 모두 0.9629로 동일했고, 손실함수 값은 각각 0.2448, 0.2027, 0.1857로 반복 횟수 50의 값이 가장 낮았다. 가장 최적한 것으로 나타 났던 반복 횟수 50의 통합모델은 오차 행렬을 통해 평가하 였다. 대각선이 뚜렷할수록 성능이 높다는 것을 의미하는 오차 행렬에서, HC 0-5 lp/㎜와 LC 4-6 ㎜ 외에는 모두 정 확도 1.00으로 뚜렷한 대각선 형태를 보였다. 이처럼 반복 횟수를 높일수록 손실함수 값이 감소하는 것을 보여주지만, 지나치게 높은 반복 횟수 값은 과적합이 발생할 수 있으므 로 적절한 값을 설정해야 한다[16]. 하지만 본 연구에서는 저사양의 컴퓨터를 사용했기 때문에 50 이상의 반복 횟수 값을 설정하며 어느 수준의 값부터 과적합이 발생하는지 알 아보지 못했다.
AAPM 팬텀 고 대조도 분해능과 저 대조도 분해능의 딥 러닝 정도관리에 대한 연구에 따르면 학습 시간은 10분 내 외였고 Xception 외 5개의 인공지능 분류 모델에서 모두 95% 이상의 정확도를 지녔다[2].
하지만 본 논문은 연구 과정에서 저 사양의 컴퓨터로 진행 되었기 때문에 학습 시간 단축에 한계가 있었고 ResNet18 이외의 다양한 알고리즘 모델을 사용하지 못했다.
추후에 높은 사양의 컴퓨터를 사용해 ResNet18 이외의 다른 모델도 함께 비교평가 한다면 더 유의한 결과를 얻을 수 있을 것이라고 사료된다.
Ⅴ. 결 론
본 연구에서는 ACR 팬텀을 사용한 CT 정도관리에 딥러 닝 모델인 ResNet18을 적용해 딥러닝 모델의 유용성을 알 아보았다. 그 결과 반복 횟수 50으로 설정한 통합모델의 정 확도 0.9629, 손실함수 값 0.1857로 반복 횟수 10, 30으로 설정한 모델의 손실함수 값보다 유의미하게 낮았다.
따라서 본 연구에서 개발한 딥러닝 모델을 통해 ACR 팬 텀을 이용한 CT 장치의 정량적인 정도관리가 가능함을 알 수 있었다.