Ⅰ. 서 론
갑상선은 가로 약 5 cm의 후두융기 아래 작은 샘으로 몸의 에너지와 대사를 조절하는 “갑상선 호르몬”을 만들어내는 장기이다. 이는 체온유지, 근육의 긴장과 강도, 정서 상태 조절에 중요한 역할을 하고 있다. 갑상선은 컴퓨터 단층촬영 (Computed Tomography; CT), 갑상선 신티그램(Thyroid Scintigram) 외에도 초음파 검사의 비중이 크며 그 수요 또한 매년 증가하는 추세이다. 초음파 검사는 20,000 Hz이상의 고 주파를 이용한다. 매질에서 음파를 흡수하고 반사하는 정도를 영상화하는 진단 방법으로 비침습적이고 별도의 전처치 없이 실시간으로 영상을 획득할 수 있다. 갑상선 초음파는 갑상선 결 절을 진단하고 갑상선 암의 수술 전후에 병변의 경과나 림프절 전이, 악성 및 양성 결절의 감별에 있어 큰 역할을 하고 있으며, 초음파 소견만으로 악성과 양성을 정확하게 감별하는 데 한계 가 있는 경우에는 초음파 유도 하에 세침 흡입 세포 검사를 진 행한다[1]. 초음파 검사는 실시간 영상에서 즉각적인 판단과 관 찰력을 통해 병변을 분간해야 하므로 검사자의 다양한 경험과 높은 수준의 의학적 지식이 필요하다. 하지만 영상에서의 잡 음, 조직 간의 낮은 감약 차이가 판독 및 진단에 영향을 줄 수 있으며 이는 병변 확인 및 진행 정도 관찰에 어려움을 줄 수 있다[2].
또한 헬스케어 분야에서 인공지능(Artificial Intelligence; AI) 활용에 대한 요구가 급속히 늘어나고 있으며, 이에 따라 영상 의학 분야에서도 실제 적용과 그에 대한 효과에 대해 구체적으로 논의되고 있다[3]. 객체 인식은 컴퓨터 비전 기술 중 하나로 딥러 닝과 머신 러닝 알고리즘을 통해 이미지와 비디오 상의 객체를 식별하는 미래 핵심기술이다. 객체 인식은 분류(Classification), 지역화(Localization), 탐지(Detection), 분할(Segmentation) 기법이 있으며, 이 중 Segmentation은 이미지의 영역을 분할하는 것을 객체 탐지(Object Detection)를 통해 검출한 객체를 Object 형태에 따라 픽셀 별로 분류한다. 일반적으로 Segmentation은 의미론적 영상 분할(Semantic Segmentation) 과 이미지 개체 분할(Instance Segmentation)로 나뉘는데 Semantic Segmentation은 이미지 객체의 범주와 그 객체 의 픽셀을 분류하는 기법이다[4]. 인공지능 중 Semantic Segmentation은 대부분 Encoder-Decoder의 순차적인 구조 를 지닌다. 이는 적은 수의 자료로 영상의 특징을 추출하며, 주요 알고리즘으로는 U-Net, FCN(Fully Convolutional Networks), DeepLabV3 등이 잘 알려져 있다[5]. 특히, U-Net 은 FCN의 구조를 수정한 모델로 Image Segmentation이 적합 하지 않은 FCL(Fully Connected Layer)을 Convolution Layer로 대체한 형태이다. 이를 통해 위치정보를 잃지 않은 상태 로 학습이 진행되며, 데이터 증강을 통해 Segmentation에서 우수한 성능을 보인다. 따라서, 적은 양의 의료영상 데이터를 활용하여 인공지능 학습이 가능하다.
높은 정확도를 보이는 딥러닝은 이미지 픽셀 값으로부터 특징을 찾아내므로 영상의 품질에 많은 영향을 받는다[6]. 자기공명영상(Magnetic Resonance Imaging; MRI) 또한 히스토그램 평활화(Histogram Equalization; HE)와 대비 제한 적응 히스토그램 평활화(Contrast Limited Adaptive Histogram Equalization; CLAHE)를 적용하였을 때 대조 도의 변화가 나타나며 이를 딥러닝에 학습시켰을 때의 성능 차 이로 이어질 수 있다[7]. 영상 처리기법 중 히스토그램 평활화 는 픽셀 값들을 균일하게 분포시켜 영상 내 구조물들의 특징을 뚜렷하게 나타내며 이는 학습 정확도와 성능을 향상시킬 수 있 다[8]. 이에 본 연구는 히스토그램 평활화가 적용된 갑상선 초 음파 영상을 딥러닝 학습시키고 Semantic Segmentation을 만들어 히스토그램 평활화를 하였을 때의 영상 내 계조 대비를 통한 각 모델의 성능을 비교 평가하고자 한다.
Ⅱ. 대상 및 방법
1. 데이터 및 대상
본 연구의 실험장비는 Fig. 1과 같이 GE 사의 Logiq P5(A), P6(B)와 Philips 사의 iE33 장비(C)를 사용하였다. 연구 대상 은 경기도 소재 대학교 방사선학과 1곳의 재학생 17명으로 하 였다. 성별은 남자 6(35.29%)명, 여자 11(64.70%)명이며 연령 은 20-24세 10(58.82%)명, 25-29세 6(35.29%)명, 30-34세 1(5.88%)명으로 평균 연령은 24.47±2.48이다. 데이터 획득은 모든 피실험자에게 서면동의 후 스캔하였으며, 정보는 Table 1 과 같다.
영상획득은 종단 스캔(Longitudinal Scan), 횡단 스캔(Transverse Scan), 사방향 스캔(Oblique Scan) 세 종류의 스캔법을 이용 하여 총 1,727장의 이미지를 획득하였으며, 갑상선이 촬영된 이미지 1,318장, 갑상선이 촬영되지 않은 이미지 409장으로 구 성하였다. 획득된 영상 데이터는 딥러닝 학습을 방해할 수 있는 초음파 영상 정보를 제거하였으며, 영상에 맞춰 가로와 세로 길 이를 측정하여 크롭(Crop)한 뒤 256 × 256으로 크기를 변환 하였다. 학습을 위해 1,727장 중 1,383장은 Training Set으로 사용하였고, 172장은 Validation Set으로 사용하였으며, 172 장은 Test Set으로 사용하였다. 획득 데이터는 목 주변 장기의 초음파 영상 중 목적하는 장기인 갑상선에 관심 영역(Region of Interest; ROI)을 Fig. 2와 같이 설정하였으며, Labelme를 활용하였다. 관심 영역 설정은 연구자를 비롯한 방사선학과 재 학생 5명, 총 6명이 수행하였다.
2. 평활화 알고리즘
크기를 변환한 이미지에 HE를 적용하였으며, CLAHE는 Clip Limit에 따라 CLAHE8-1, CLAHE8-2, CLAHE8-3 으로 나누어 적용한 뒤 비교하였다. HE는 히스토그램의 양성 픽셀값 들이 고루 분포하도록 변환하는 영상처리기법으로 영 상 전체의 명암 대비가 향상되며 픽셀 값들 간의 대조도가 커 진다. 이에 따라 구조물을 쉽게 식별할 수 있으며 HE를 적용 하지 않은 이미지보다 선명한 이미지를 얻게 된다. HE 적용 식은 (1)과 같다[5].
전체적으로 픽셀 값을 균일화하는 HE와 달리 CLAHE는 이 미지를 일정 크기의 정사각형 타일로 구분하고 각 타일 별로 대비를 조절한다. CLAHE는 타일 별로 대비를 향상한다는 점 이 HE와 다르다. 이미지의 각 부분을 세밀하게 조절할 수 있 지만 타일 간 경계에서 Artifact가 발생할 수 있다. CLAHE 적용 식은 (2)와 같다. 본 논문에서는 타일 크기와 Clip Limit 에 따라 CLAHE8-1, CLAHE8-2, CLAHE8-3으로 분류하였 다. CLAHE의 8은 타일 그리드의 크기를 의미하며 1, 2, 3은 Clip Limit을 의미한다. 이는 256 × 256 이미지를 8 × 8의 타일로 나누어 CLAHE를 적용한 것이다. Clip Limit은 대비 제한 정도로 숫자가 높을수록 크며, Clip Limit이 커질수록 대 비 제한이 커져 히스토그램이 넓게 분포된다[9]. 획득된 이미지 의 히스토그램은 Image J를 통해 분석하였다. 영상과 히스토 그램 비교는 Fig. 3, Fig. 4와 같다.
3. 학습 모델
본 연구의 U-Net 학습은 Deep:Phi 플랫폼을 활용하였 다[10]. Deep:Phi는 각각의 모듈화된 파이프라인을 통해 데이 터 전처리, 인공지능 학습 등 모듈화된 블록을 조합하면서 모델 구축 및 앱 서비스를 개발할 수 있다.
Data Set은 HE와 CLAHE를 적용한 뒤 평균은 0, 표준편 차는 1로 Z-점수 정규화하여 학습하였다. 순서는 Fig. 5와 같다. 또한 데이터에 인위적인 변화를 주어 데이터 증강하였 다. 데이터 증강은 부족한 데이터의 양을 늘려 과적합을 방지 한다[11].
1) U-Net
인공지능과 딥러닝의 발전에 따라 이미지 분할에서의 완전 합성곱 신경망 기반 모델들이 등장하고 있으며 높은 정확도를 보인다[12]. U-Net은 의료분야에서 이미지 분할을 목적으로 제안된 FCN 기반 모델이다. 이를 통하여 이미지 학습과 픽셀 을 예측한다[13]. U-Net의 Encoder와 Decoder는 U자 모양 의 좌우 대칭 구조를 이룬다. Encoder는 Convolution 2개와 Pooling 1개가 반복되는 구조이며, 반복되는 Down-Sampling 마다 채널의 수가 2배로 늘어난다. Decoder는 Convolution 2 개, Concatenation 1개로 구성된다. Up-Sampling마다 채널 의 수가 절반으로 줄어들며, Convolution은 두 차례 반복한다. 마지막 Layer에서는 1 × 1 Convolution을 연산한다[14]. CNN은 상위 Layer로 갈수록 정보의 특징을 학습함에 따라 세 부 정보가 손실된다. 이러한 단점은 Lateral Connection과 Concatenation 연산을 사용하여 해결하였다[15,16]. U-Net 의 Parameter의 경우 Batch Size는 30으로 설정하였으며, 최 적화 알고리즘은 Adam Optimizer로 학습률 = 0.0001, Beta 1 = 0.9, Beta 2 = 0.999로 총 100세대를 학습하였다. 데이터 증강은 Horizontal Flip 0.5로 설정하였다. 또한 모델의 예측 값과 실제 값 간의 차이를 측정하는 Loss Function은 Cross-Entropy 함수를 사용하였다. U-Net의 구조는 Fig. 6과 같다.
2) Attention U-Net
Attention U-Net은 기존 U-Net과 달리 Attention Gate 를 이용하는 것이 특징이다. Attention Gate는 U-Net에서 추출된 저차원 영상의 이미지 특징들을 고차원으로 변환하고, 관심 영역 이외의 부분은 가중치를 조정하여 특징을 강조한 다[17]. Encoder 영상은 Decoder에 그대로 반영되지 않고 Attention Gate를 통해 연산된 값을 주입한다[18]. Attention U-Net의 Parameter의 경우 Batch Size는 15로 설정하였으 며 최적화 알고리즘과 데이터 증강, Loss Function은 본 연구 에서 사용된 U-Net과 동일하다. 구조는 Fig. 7과 같다.
3) BSU-Net
BSU-Net은 Bottleneck Supervised U-Net으로 U-Net 의 파생 네트워크이며, 기존 U-Net에서 Dense Module, Inception Module, Dilated Convolution을 Encoding 과정 에 추가하였다. 이는 기존 네트워크에 비해 성능이 전반적으로 개선되었으며, Shape Distortion Control이 감소하는 결과를 얻었다. BSU-Net의 Dense Module은 매개 변수의 수를 감소 시키고 정보의 과부하를 막는다. Bottleneck을 중심으로 위쪽 의 Encoding U-Net은 Segmentation U-Net의 Encoding Path를 수행할 수 있으며 Encoder가 가지고 있는 해부학적 정 보를 훈련하는 데 사용한다. BSU-Net의 Parameter의 경우 Batch Size는 5로 설정하였으며, 최적화 알고리즘은 Adam Optimizer로 학습률 = 0.0001, Beta 1 = 0.9, Beta 2 = 0.999로 총 100세대를 학습하였다. 데이터 증강은 Horizontal Filp 0.5로 설정하였다. 또한 모델의 예측 값과 실제 값 간의 차이를 측정하는 Loss Function은 Euclidean Loss와 Dice Loss를 사용하였다. 구조는 Fig. 8과 같다.
4. 딥러닝 모델 성능평가
본 연구에서 사용된 딥러닝 모델 성능평가지표는 주사위 계 수(Dice Coefficient)와 mIoU이다. 주사위 계수는 영상 분할 에서 쓰이는 가장 대표적인 평가지표이며 실제 영역과 예측 영 역의 일치 비율을 나타낸다. 0부터 1까지의 범위 내에서 1에 가 까울수록 예측이 실제와 같다는 것을 의미한다. 자료의 중복되 는 부분에 2를 곱한 후, 이미지의 총 픽셀 수를 나눈 것으로 수식은 (3)과 같다[19,20]. mIoU는 Segmentation의 정확도 측정을 위한 평가지표이며 수식은 (4)와 같다. mIoU 지표에서 사용된 식에서 갑상선을 일치하게 분류할 경우 진양성(True Positive; TP), Background를 갑상선으로 분류할 경우 위양 성(False Positive; FP), Background를 일치하게 분류할 경 우 위음성(False Negative; FN)으로 정의하였다.
Ⅲ. 결 과
본 연구에서 학습한 모델을 바탕으로 주사위 계수, mIoU 결과값을 Table 2, 3로 나타내었다. Dice Coefficient는 CLAHE8-2에서 0.8355로 Attention U-Net의 성능이 가 장 높았고, CLAHE8-3에서 0.8303, 0.8277으로 U-Net과 BSU-Net의 성능이 가장 높았다. mIoU는 CLAHE8-2에서 Attention U-Net이 0.7175, CLHAE8-3에서 U-Net이 0.7098, BSU-Net이 0.7060으로 가장 높았다. CLAHE를 적 용하였을 때 높은 성능을 보였으며, Clip Limit에 따라 달라지 는 것을 확인할 수 있다. 또한 U-Net과 비교하여 Attention U-Net의 경우 CLAHE8-2에서 높은 성능을 나타내었는데, 이는 Attention Gate를 통해 특징이 강조된 결과로 예상된다. 또한 HE의 경우 Gray보다 성능이 저하되는 결과를 보였다.
모델 검증 과정에서 (A)와 같이 획득된 데이터에 (B)와 같이 ROI를 그려 Mask를 생성하였고 학습을 통해 (C)로 예 측하였다. 생성한 ROI와 예측된 Mask의 비교는 (D)를 통해 나타나며 일치한 부분은 True로, 불일치한 부분은 False로 Fig. 9와 같이 나타난다.
Ⅳ. 고 찰
본 연구는 초음파 영상에서 히스토그램 평활화를 통해 각 모델 간 성능을 비교 분석하였으며 갑상선 ROI와 예측 Mask 를 통해 평가하였다. 평활화 알고리즘을 적용하였을 때 밝기에 따라 히스토그램이 변화되며 갑상선 내부와 근육의 에코가 저 하되었다. 실제로 HE를 적용하였을 때 조직 간의 대조로 인한 경계는 뚜렷하지만 Gray 이미지와 갑상선의 크기가 달라져 이 로 인해 성능 차이가 발생할 것으로 예상된다. Clip Limit이 증 가하며 히스토그램의 분포가 더욱 평활해져 영상이 밝고 거칠 어지는데 이는 평활화 정도에 따라 잡음이 강조되는 것을 볼 수 있다. Clip Limit의 증가로 경계가 뚜렷해져 ROI와 예측 Mask의 일치를 높이는 효과를 기대할 수 있으며 성능 또한 높 게 나타났다. 이는 초음파 영상뿐만 아니라 평활화 알고리즘을 적용한 MRI 이미지에서도 높은 성능을 보였다[7]. 하지만 갑상 선 내부에서의 병변이나 목 주변의 림프 및 타 구조물과의 비교 는 평활화 알고리즘을 적용하였을 때 잡음 및 조직 간의 대조도 저하로 평가가 어려울 수 있다.
본 논문의 Data Set을 구축하기 위해 획득한 영상에 Artifact 가 일부 포함되었다. 이는 병변이나 잡음이 포함된 영상으로 인 하여 일관적인 관심 영역 데이터 생성이 어려웠다. 따라서 해부 학적 구조와 병변이 명확히 구분되지 않아 라벨 데이터와 예측 데이터가 일부 일치하지 않는 모습을 보였으며 Fig. 10과 같다. 스캔 과정에서 영상의 밝기를 조절할 수 있는 Gain이나 감쇠 보정 역할을 하는 TGC 등 계조에 영향을 줄 수 있는 변수가 통일되지 않은 상태에서 스캔이 이루어졌다. 다양한 변수의 Data Set 확보가 이루어진다면 정확도 높은 모델이 될 수 있을 것으로 예상된다.
Ⅴ. 결 론
본 연구는 초음파 영상에서 히스토그램 평활화를 했을 때 U-Net, Attention U-Net, BSU-Net 모델이 미치는 영향을 확인하고자 하였다. 실험 결과, 연구에 사용한 모든 모델이 CLAHE를 적용하였을 때 가장 우수하게 나타났으며 대비 제한 에 따라 달라졌다. 이를 통해 조직 간 경계가 뚜렷해지고 대비 가 명확해지는 결과를 얻었다. 이는 딥러닝 모델 학습에 있어 갑상선 영역의 대조도 개선과 성능 향상에 영향을 미친 것으로 보인다. 추가적인 연구에서 복부초음파와 유방초음파의 미세 병변을 발견하기 위한 장기 분할 또는 병변 영역을 패치 (Patch)로 만들 때의 분할 방법 등에서 유용할 것으로 생각된 다. 이후 CLAHE와 같은 히스토그램 평활화 기법을 적용한 지 속적인 연구가 이루어진다면 병변의 진단 및 검출 성능 향상에 도움이 될 수 있을 것으로 사료된다.