Ⅰ. 서 론
코로나바이러스감염증19(coronavirus disease 2019; COVID-19)는 2019년 12월 중국 후베이성 우한시에서 발생 한 집단 폐렴 환자들로부터 발견된 신종 코로나 바이러스인 중 증급성호흡기질환코로나바이러스2(severe acute respiratory syndrome coronavirus2; SARS-CoV2)에 의해 발생하는 질 환으로 비말감염을 통한 높은 전파력을 특징으로 한다[1, 2]. 곧이어 발생 한 달 후 2020년 1월에는 중국 전역을 넘어 대 한민국을 포함한 일본, 태국 등 아시아 국가는 물론 미국, 영국 등 범세계적인 감염 사례가 보고되었다. 세계보건기구 에 의하면 2020년 3월에 이르러서는 전 세계 114개국에서 11만 8천 건이 넘는 확진자가 발생하였으며, 이에 COVID-19 에 대해 범세계적인 대유행 상황인 ‘펜데믹(pandemic)’을 선언하였다. 이내 새로운 코로나바이러스가 발생한 지 채 1 년이 되지 않은 2020년 9월 3일 0시 기준으로 전 세계 214 개국에서 누적 확진자는 약 2,600만 명이 보고되었으며, 약 87만 명(3.325%)이 사망하여 2020년 주요 사망 요인으로 떠오를 전망이다.
COVID-19가 이처럼 빠른 전염세를 보이는 것은 비말을 통해 전파되기 때문인데, 감염자의 기침, 재채기, 혹은 대화 할 때 나오는 호흡기 분비물이 사람의 입이나 코에 닿거나, 호흡기를 통해 흡입될 경우 바이러스가 직접 전파된다[3]. 또한, 사물이나 표면에 묻은 호흡기 분비물 내부의 코로나 바이러스는 수 시간 동안 생존할 수 있는데, 이를 만진 손이 코나 입에 닿는 경우 간접적으로 전파가 될 수 있다. 무증상 감염자로부터의 전파도 가능한 것으로 알려져, 의심 환자를 조기에 정확하게 선별하여 격리 조치하는지 하는 것이 중요 하다. 하지만, 일부 연구결과에서 기존에 COVID-19 진단에 사용되는 실시간 중합효소연쇄반응 검사(real time reverse transcription polymerase chain reaction, RT-PCR)에서 양성 환자를 음성으로 진단하는 ‘허위음성’이 일부 보고되었 다. 이러한 오진은 추가 감염을 일으키므로 경계하여야 한 다[4].
RT-PCR은 전 세계에서 가장 일반적으로 사용되고 있는 COVID-19 진단검사이다. 이는 비강 전방에서 호흡기 시료 를 채취하여 유전자 증폭 검사를 하는 것으로, 신종코로나 바이러스만이 가지고 있는 유전자 부위를 증폭시켜 확인하 는 기법이다. 시료는 환자의 인·후두(비강 전방)에서 채취하 는데, 이는 코로나바이러스가 호흡기 바이러스이기 때문에 상부 호흡기인 비강에서 많이 존재하기 때문이다. 하지만, 바이러스 감염자에게서 채취한 시료라 할지라도 시료 내에 바이러스가 집적되어 있지 않다면 음성으로 검사되며, 환자 의 감염 후 시기에 따라 바이러스가 감소하는 과정에서 양 성이나 음성 여부가 명확하지 않은 시점이 존재할 수 있으 며, 시료 내에 적절한 양의 바이러스가 집적되어 있다 하더 라도 RT-PCR 과정상에서의 오류로 인하여 잘못된 검사 결 과를 낼 수 있다. 이 같은 문제로 인하여 RT-PCR에서 양성 으로 진단되는 비율은 60% 정도로 보고되고 있다[5]. 또한, 검사 결과가 나오기까지 약 6시간 이내지만, 시료이송 시간 과 다른 검사 건으로 인해 발생하는 대기시간을 고려하면 시료 채취 후 결과 확인까지 1~2일이 소요된다.
흉부 방사선검사(chest Radiography; CXR)는 신속성과 비용, 그리고 선별 진료소에서 운영이 쉽다는 점에서 앞서 언급한 RT-PCR보다 유리한 측면이 있다[6]. Oh et al은 흉 부 방사선 영상에서 COVID-19 환자의 CT 영상에서와 마찬 가지로 양측성, 말초 격화, 간 유리음영 등의 소견을 발견할 수 있다고 보고하였다. 하지만, CXR은 환자의 흉곽 내부의 해부학적 구조물이 겹쳐서 투영되고, 낮은 감도를 나타낸다 고 보고되고 있다. 그럼에도 RT-PCR 검사에서 음성 판정 을 받은 환자의 9%에 대하여 양성 소견을 발견할 수 있음을 보고하였다[5]. 즉, 감염되었음에도 바이러스가 검출되지 않는 ‘허위 음성(false negative)’를 줄일 수 있는 것인데, 이는 CXR의 중요한 이점으로 생각된다.
따라서, CXR이 진단 보조 기법에 따라서 진단 성능이 개 선된다면 COVID-19 선별 검사에 유용한 도구가 될 것으로 생각하는데, 최근 다수의 연구진은 심층학습 방법을 통해 CXR을 통한 COVID-19 검사의 정확도를 개선하고자 하였 다[7-9]. 심층학습 기법은 최근 의료영상 분석의 많은 분야 에서 영상의학 전문의를 보조하여 판독시간을 줄이고 높은 판독 정확성을 보이는 기법이다 [10-13].
심층 학습(deep learning; DL)은 많은 양의 데이터를 이 용하여 병변의 영상 특징을 학습시키는 과정이다. 여기서 학 습이란 인공신경망의 판정과 사전에 입력된 정답(labeling) 을 비교하여 깊게(deep) 쌓인 인공신경망의 각 층에서의 가 중치를 수정해나가는 과정을 의미한다. 효과적인 학습 모델 을 만들기 위해서는, 학습 과정에서 모델의 목적에 부합하 는 정보만을 추출하여 학습시키고 분류에 사용하도록 데이 터를 가공하는 것이 중요하다. CXR에는 COVID-19 폐렴을 판독하기 위한 폐부 이외의 기타 해부학적 구조물과 심지어 는 진단적 가치가 없는 배경 영역의 letter도 포함되므로, 이러한 정보가 모델 학습의 고려 대상이 되는 것을 방지해 야 한다. 이에 본 연구에서는 픽셀 기반의 폐부 분할 전-처 리를 수행하여 폐부만의 해부학적 정보를 훈련·검증하였고, 전-처리 여부에 따른 분류기 성능을 비교하여 전-처리의 효용성을 평가하고자 하였다. 또한, 다양한 인공신경망 구 조에 따른 COVID-19 분류기의 성능을 비교하여 최적의 신 경망을 제안하고 논의하고자 하였다.
Ⅱ. 대상 및 방법
1. 데이터셋
본 연구에는 공공데이터인 COVID-19 RADIOGRAPHY DATABASE가 사용되었다[12]. 실험에는 흉부 방사선영상 COVID-19 174장, 기타 세균성 폐렴: 1,345장, 정상 소견: 1,341장이 사용되었다. 훈련용 데이터셋과 검증용 데이터셋 은 7:3의 비율로 분류되었다.
2. 인공신경망 적용
본 연구에서는 MATLAB2019a 소프트웨어(MathWorks Inc., Natick, MA, USA)의 Deep Learning ToolboxTM가 사용되었으며, 4종의 사전 학습된 AlexNet, SqueezeNet, ResNet18, DenseNet201이 전이학습에 사용되었다. 본 연 구에서는 20회의 epoch, 0.0003의 학습률을 설정하였다. 원본 영상 데이터셋을 이용하여 학습한 분류기에는 학습에 사용되지 않은 원본 영상 데이터셋을 이용하여 검증을 수행 하였으며, 폐부 분할 데이터셋을 이용하여 학습한 분류기에 는 학습에 사용되지 않은 폐부 분할 데이터셋을 이용하여 검증을 수행하였다. 학습 및 검증에 사용된 PC의 사양은 다 음과 같다; Nvidia GeForce RTX 2070 GPUs, 32.0GB RAM, AMD Ryzen 7 3800X 8-Core Processor (3893 Mhz, 8 core, 16 logic processor).
1) AlexNet
AlexNet은 2012년에 소개된 합성곱 신경망 모델로 2012 년에 개최된 ILSVRC(ImageNet Large Scale Visual Recognition Challenge) 대회에서 우승을 차지하며 큰 주 목을 받았다[14]. 이전의 신경망들은 약 75%의 정확도를 보 이는 정도에 그쳐 신경망의 한계로 생각되었으나, AlexNet 은 2012년 대회에서 약 84%의 정확도를 보이며 괄목할 만 한 성능 향상을 보여주었다. AlexNet은 8개의 계층으로 구 성되어 있으며 5개의 합성곱 계층과 3개의 완전연결계층으 로 구성되어 있다. AlexNet는 Relu 함수의 적용과 겹침 풀 링을 특징으로 하는데, Relu 함수란 합성곱 계층의 출력인 특성 지도에서 음수값을 정류하는 활성화 함수를 의미한다. 이를 통해 출력에서 음수 값이 사라져 그레디언트 소실을 개선할 수 있었고, 기존에 주로 사용되던 활성화 함수인 시 그모이드 함수에 비해 연산이 간단하여 계산 속도를 줄이는 이점을 가진 것으로 생각된다. 겹칩 풀링이란 다운 샘플링 기법인 풀링을 3*3 필터 크기 기준으로 2 stride 간격으로 수행하여 겹치는 영역에 대해 수행하는 것을 의미한다. 이 를 통해 과적합(overfitting)이 개선된 것으로 알려져 있다.
2) SqueezeNet
SqueezeNet은 2016년에 소개된 18개 계층의 합성곱 신 경망 모델로 AlexNet 수준의 정확도를 유지하면서 파라미 터의 수를 50배가량 줄인 경량화 모델이다[15]. 파라미터가 적어질수록 심층학습의 성능도 저하될 수 있으나, 연산량이 줄어들어 경량 기기에도 적용 가능하다는 장점이 있다. SqueezeNet은 성능을 유지하면서 최대한 파라미터를 줄이 기 위해 기존 3*3 합성곱 필터를 일부에서 1*1 합성곱 필터 로 교체한 fire module이라는 특수한 모듈을 적용하였다. fire module이란 아래의 그림에서 확인할 수 있는 것과 같 이 입력 데이터를 1*1 커널로 필터링하는 압축(squeezing) 을 수행한 후, 압축된 데이터에 대하여 다시 1*1 커널과 3*3 커널을 각각 수행하여 확장(expanding)하는 일련의 계층 구조를 의미한다. 이를 통해서 squeezing을 통해 3*3 합성 곱 층에 입력될 유닛의 개수를 줄임으로써, 가중치의 개수 를 획기적으로 줄일 수 있게 되었다.
이렇게 적은 가중치 수에도 성능을 유지하기 위하여 풀링 (pooling)으로 대표되는 다운샘플링 기법을 신경망 후미에 배치하여 신경망의 전반부가 더 많은 샘플을 지닌 영상을 대상으로 특징을 추출할 수 있도록 하였다. SqueezeNet에 사용된 최댓값 풀링은 합성곱, ReLu 계층을 지난 영상의 2*2 윈도우를 2 stride로 이동하며 각 윈도우의 최댓값을 출력하는 기법으로 국소 고활성만을 출력하여 활성화 지도 의 사이즈를 압축하는 기법이다. 하지만, 이 과정을 수행할 경우 최댓값이 아닌 유닛들은 다음 계층으로 전달되지 않 고, 이는 데이터의 본래 정보를 일부 유실한다는 의미이므 로, 특징 추출의 성능을 저하할 수 있을 것으로 여겨진다. 따라서, 풀링을 신경망 후미에 배치하는 것으로 신경망 파 라미터 감소에 따른 특징 추출 능력을 신경망 전반부에서 보상할 수 있는 것으로 알려져 있다.
3) ResNet
ResNet은 2015년 ILSVRC(ImageNet Large Scale Visual Recognition Challenge) 대회에서 우승을 차지한 모델로 전 년도 우승 모델인 GoogLeNet의 약 두 배에 달하는 성능 을 보여주어 주목을 받게 되었다[16]. ResNet은 심층학습 의 고질적인 문제로 여겨지던 신경망이 일정 수준 이상으 로 깊어질 경우 성능이 오히려 저하되는 현상을 Residual learning이라는 전략으로 개선한 것이 특징이다. Residual이 란 ‘잔여값’을 의미하는 용어이며, 아래의 Fig. 2는 Residual learning의 개념을 나타낸다. 입력 데이터 x가 있을 때, 2 개의 계층을 지나서 출력되는 것을 함수 F(x)로 나타내었 다. 즉, Residual learning은 선형적인 F(x)연산을 F(x)+x 로 재구성하여 원본 입력 신호의 정보를 참조(referenced function)하는 기법이다. 이 기법을 통해서 기울기 소실 현 상을 개선할 수 있다고 알려져 있다. 본 연구에서는 18개 계 층으로 구성된 ResNet18이 사용되었다.
4) DenseNet
DenseNet은 2016년에 소개된 합성곱 신경망으로 2017년 CVPR best paper award를 수상하며 주목을 받았다[17]. DenseNet은 그래디언트 소실 현상을 개선하기 위하여 Dense connectivity라는 전략을 사용하였다(Fig. 3). Dense(밀집 된)라는 이름을 가진 이 기법은 Residual learning의 referenced function과 유사한 개념으로, Residual learning이 단일 계층(함수)에서의 입력과 출력이 연결되어있었다면, Dense connectivity의 모든 출력은 모든 계층의 입력으로 연결되 어있다. 이를 통해 신경망이 깊어질수록 입력 신호가 가지 고 있던 특징이 사라지는 현상을 개선하였고, 역 전파 과정 에서 기울기가 소실되는 현상을 개선하였다. 본 연구에서는 201개의 계층으로 구성된 DenseNet201이 사용되었다.
3. 폐부 분할 전-처리
본 연구에서는 심층학습 분류기가 폐부의 해부학적 정보 만을 학습할 수 있도록 폐부 분할 전-처리가 수행되었다. 이는 MATLAB2019a 소프트웨어의 Image Labeler App을 사용하여 수행되었다. 이 어플리케이션을 통하여 원본 영상 에 픽셀 기반의 그래픽스 레이블링을 수행하여 분할 mask 를 추출하였다. 이후 원본 영상과 mask 간의 요소 곱 연산 을 통해 폐부 분할이 이루어지게 된다.
Ⅲ. 결 과
1. 인공신경망의 학습 경과
사전 훈련된 AlexNet, SqueezeNet, ResNet18, DenseNet201 의 COVID-19, 기타 바이러스성 폐렴, 정상 소견 3종에 대 한 학습 경과 아래와 같다(Fig. 5-8). 각 그래프의 정확도 (Accuracy)는 학습 중 학습에 사용되지 않은 검증 데이터에 대한 검증 정확도를 의미한다. 각 그래프의 가로축은 epoch 를 의미하며, 1개의 격자는 1회의 epoch를 나타낸다.
1) AlexNet
(1) 원본 영상 데이터셋
AlexNet은 원본 영상 데이터셋에 대하여 20 epoch를 2 분 4초 동안 수행하였고, 최종 epoch 후에 검증용 데이터에 대하여 94.97%의 정확도를 나타내었다(Fig. 5-1).
(2) 페부 분할 데이터셋
AlexNet은 폐부 분할 데이터셋에 대하여 20 epoch를 1 분 6초 동안 수행하였고, 최종 epoch 후에 검증용 데이터에 대하여 94.15%의 정확도를 나타내었다(Fig. 5-2).
2) SqueezeNet
(1) 원본 영상 데이터셋
SqueezeNet은 원본 영상 데이터셋에 대하여 20 epoch를 2분 4초 동안 수행하였고, 최종 epoch 후에 검증용 데이터 에 대하여 99.74%의 정확도를 나타내었다(Fig. 6-1).
(2) 페부 분할 데이터셋
SqueezeNet은 원본 영상 데이터셋에 대하여 20 epoch를 2분 4초 동안 수행하였고, 최종 epoch 후에 검증용 데이터 에 대하여 88.19%의 정확도를 나타내었다(Fig. 6-2).
3) ResNet18
(1) 원본 영상 데이터셋
ResNet18은 원본 영상 데이터셋에 대하여 20 epoch를 2 분 4초 동안 수행하였고, 최종 epoch 후에 검증용 데이터에 대하여 95.56%의 정확도를 나타내었다(Fig. 7-1).
(2) 페부 분할 데이터셋
ResNet18은 원본 영상 데이터셋에 대하여 20 epoch를 2 분 4초 동안 수행하였고, 최종 epoch 후에 검증용 데이터에 대하여 94.74%의 정확도를 나타내었다(Fig. 7-2).
4) DenseNet201
(1) 원본 영상 데이터셋
DenseNet201은 원본 영상 데이터셋에 대하여 20 epoch 를 2분 4초 동안 수행하였고, 최종 epoch 후에 검증용 데이 터에 대하여 95.57%의 정확도를 나타내었다(Fig. 8-1).
(2) 페부 분할 데이터셋
DenseNet201은 원본 영상 데이터셋에 대하여 20 epoch 를 2분 4초 동안 수행하였고, 최종 epoch 후에 검증용 데이 터에 대하여 94.37%의 정확도를 나타내었다(Fig. 8-2).
아래의 Table 1은 실험에 사용된 각 인공신경망과 분류 기, 전처리 여부에 따른 검증 정확도(%)와 훈련 시간(분), 분류기 용량(MB)을 나타낸다. 아래의 표에 표기된 평균 정 확도, 평균 훈련시간, 평균 분류기 용량은 각 신경망이 사용 된 4가지 조건의 분류기 – 원본 영상 3 클래스, 폐부 분할 영상 3 클래스, 원본 영상 2 클래스, 폐부 분할 영상 2 클래 스의 정확도, 훈련시간, 분류기 용량의 평균값과 표준편차 로 나타내었다. AlexNet은 4가지 분류기에 대하여 평균 정 확도 99.15±2.69%, 평균 훈련시간 1.61±0.56분, 그리고 429.36±0.02MB의 평균 용량을 나타내었다. SqueezeNet 은 4가지 분류기에 대하여 평균 정확도 96.43±5.51%, 평균 훈련시간 2.65±0.94분, 그리고 7.68±0.01MB의 평균 용량 을 나타내었다. ResNet18은 4가지 분류기에 대하여 평균 정확도 96.94±2.14%, 평균 훈련시간 3.06±1.10분, 그리고 83.43±0.31MB의 평균 용량을 나타내었다. DenseNet201 은 4가지 분류기에 대하여 평균 정확도 97.02±2.42%, 평 균 훈련시간 86.39±29.95분, 그리고 143.22±0.01MB의 평 균 용량을 나타내었다.
Ⅳ. 고 찰
본 연구의 결과에 따르면 폐부 분할 전-처리는 AlexNet, SqueezeNet, ResNet18, DenseNet201 모든 신경망에 대하 여 오직 2 클래스 분류기에서만 소폭의 정확도 향상을 나타 내었다. 본래 폐부 분할 전-처리는 COVID-19, 기타 세균 성 폐렴 그리고 정상 소견을 분류해낼 수 있는 정보를 포함 하는 폐부의 의료영상 특징만을 심층학습의 대상이 되도록 돕는 전-처리 기법이다. 하지만, SqueezeNet의 Segmented 3 class 분류기의 경우(Table 1), 오히려 모든 분류기 중 가 장 낮은 검증 정확도를 보여 적용 의도에 반대되는 결과를 나타내었다. 이 의도치 않은 정확도 감소 현상은 아래의 Fig. 9로 설명할 수 있는데, 각각 SqueezeNet의 원본 영상 3 class 분류기와 폐부 분할 3 class 분류기의 평균 클래스 활성화 지도(class activation mapping, CAM) 영상을 나 타낸다. Original CXR의 평균 CAM은 배경 영역의 레터(R) 에서 고활성을 나타낸다. 반면에, segmented CXR의 평균 CAM은 배경 영역의 정보를 제거하였으므로 폐부를 관찰하 여 병을 분류하겠다는 본래의 심층학습 의도에 적합하게 폐 부에서 높은 활성을 나타내고 있다.
즉, 학습 과정에서 분류기의 필터가 배경 영역에 최적화 된 것인데, SqueezeNet만이 배경 제거에 따른 정확도 손실 이 큰 것은 학습에 사용되는 필터의 크기와 관련이 있을 것 으로 생각된다. SqueezeNet은 첫 합성곱 층에서 3*3*3의 필터를 64채널로 적용하는데, 이는 AlexNet의 11*11*3 96 채널, ResNet18의 7*7*3 64채널, DenseNet201의 7*7*3 64채널에 비해 상대적으로 작은 필터 크기이다. 따라서, 훈 련 과정에서 배경 영역의 크기가 작은 글자에 더 민감하게 활성이 된 것으로 추정된다. 많은 양의 가중치와 편향을 조 정하며 필터 최적화를 수행하는 인공신경망의 구조적 특징 상 이와 같은 일부 바이어스만을 수정하는 것은 어려운 것 으로 생각된다. 하지만, 결과적으로 폐부 분할 전-처리는 COVID-19와 기타 바이러스성 폐렴 병변과 직접적인 관련 이 있는 폐부만을 훈련 및 검증의 대상이 되도록 데이터를 가공한다는 점에서 분류기의 본래 의도에 부합하게 학습을 수행하도록 하는 전-처리라고 생각된다. 따라서, 비록 정확 도가 소폭 감소한다 하더라도 반드시 수행되어야 하는 전- 처리이고, 추가적인 기술 개발을 통하여 정확도를 개선해나 가는 것이 옳은 것으로 생각된다. 폐부 분할 전-처리를 수 행함을 감안한다면, 4종의 인공신경망 중에서 AlexNet이 CXR을 통한 COVID-19 분류에 가장 적합한 것으로 생각된 다. AlexNet은 평균 검증 정확도 99.15±2.69%, 20 epoch를 평균 훈련시간 1.61±0.56분으로 수행하여 4종의 인공신경 망 중 가장 우수한 성능을 나타내었다. 하지만, SqueezeNet 의 경우에도 가장 분류가 어려울 것으로 기대된 원본 영상 3 class 분류에서 99.74%의 우수한 정확도를 보여, 본 고찰 에서 상기한 것과 같이 일부 합성곱 층의 매개변수를 수정 하여 폐부 분할 영상 분류의 성능을 개선하는 추가 연구를 수행하는 것이 타당할 것으로 생각된다.
Ⅴ. 결 론
본 연구에서는 코로나바이러스감염증19의 흉부 방사선영 상에 대한 AlexNet, SqueezeNet, ResNet18, DenseNet201 의 성능을 비교하였다. 성능 평가는 각각 폐부 분할 전-처 리 여부에 따른 2 클래스 분류기(COVID-19, 기타 세균성 폐렴), 3 클래스 분류기(COVID-19, 기타 세균성 폐렴, 정 상 소견)에 대해 수행되었다. 실험 결과에 따르면 AlexNet 이 평균 검증 정확도 99.15±2.69%, 20 epoch를 평균 훈련 시간 1.61±0.56분으로 수행하여 4종의 인공신경망 중 가장 우수한 성능을 나타내었다. 또한, 폐부 분할 전-처리는 일 부 조건에서 소폭의 검증 정확도 감소를 나타내었으나, 배 경 영역에 학습이 최적화되는 것을 방지한다는 측면에서는 반드시 수행되어야 하며 본 연구에서는 배경 영역 최적화가 폐부 분할 전-처리를 통해 개선될 수 있음을 클래스 활성화 지도를 통해 제시하였다는데 의의가 있다.