Ⅰ. 서 론
인공지능은 컴퓨터 환경의 발전과 빅데이터(Big data)를 기반으로 딥러닝(Deep learning)이 구현되면서 4차 산업의 핵심적인 요소로 주목 받고 있다. 특히 딥러닝은 의료영상 의 특징을 빠르고 정확하게 인식하고 영상분류에 있어 사람 보다 더 정확하다는 장점으로 많은 연구가 활발하게 진행되 고 있다[1-3]. 데이터 자체에서 중요한 특징을 스스로 학습 하여 사고할 수 있도록 하는 인공신경망 알고리즘인 딥러닝 (Deep learning)의 한 부류인 컨벌루션 신경망(Convolutional neural network; CNN)은 영상분류 및 객체 검출에 우수한 성능을 보인다. 이는 ReLU(Recrified linear unit)라는 활성 화 함수를 도입하여 그래디언트 소실(Gradient vanishing) 문제가 없어지며, 과적합(Overfiting) 문제가 해결 가능한 등 의 이유 때문이다. 이 때문에 CNN은 최근 의료영상 분야에 서 지각 정보를 해석하는데 상당한 진보를 이루고 있는 인 공지능 분야로 자리매김하였다[4-7]. 본 연구에서는 CNN 의 이러한 장점을 활용하여 방사선영상을 획득하고 저장하 는 과정에서 발생할 수 있는 실수 요인을 사전에 차단하기 위한 방어벽 역할로서의 CNN의 신뢰성을 평가하였다.
진단용 방사선발생장치를 이용한 흉부 PA(Postero-anterior) 와 AP(Antero-posterior) 검사는 임상에서 가장 수요가 많 은 검사이다[8]. 하지만 검사 전에 직접 표식으로 자세와 방 향을 구분했던 과거와 달리, 현재 임상에서는 DR(digital radiography) 혹은 CR(computed radiography)이 많이 사 용됨으로써 검사단계에서 PA 혹은 AP 자세에 대한 정보를 반대로 입력하여 잘못된 정보의 영상이 PACS(Picture archiving and communication system)에 저장되는 오류 가 발생한다[9-11]. 흉부 PA 자세로 검사하면 전처리 과정 에서 영상의 좌, 우가 반전되지 않은 상태로 영상에 나타나 야 하는데, 검사 전 단계에서 PA가 아닌 AP 자세로 검사할 것이라는 잘못된 정보를 입력하게 되면 영상의 좌, 우 반전 이 일어나 우심증(Dextrocardia) 환자로 오인하게 되는 문 제가 발생한다. 반대로, AP 자세로 검사한 영상을 시스템에 PA 검사를 실행할 것이라는 잘못된 정보를 입력하게 되면 좌, 우에 반전이 일어나지 않아 동일한 문제가 발생한다. 즉, 두 가지 경우 모두 본래 목적과 다르게 영상이 좌, 우 반전된 것으로 나타나 심장의 음영이 영상에서 왼쪽으로 치 우친 것으로 확인된다.
이러한 문제점을 사전에 방지하는데 CNN의 적합성을 판 단하고자 제시된 규칙을 기반으로 주어진 문제에 대한 결론 을 도출해내는 방식인 ‘규칙기반시스템’(Rule-based system; RS)을 비교하였다. 이는 RS에 적용한 직관적이고 단순한 규칙에 비해 스스로 사고하여 판단을 내리는 CNN이 획득한 영상의 좌, 우가 반전되었는지에 대한 여부 판단에 있어 어 느 정도의 적합성을 나타내는지에 대해 정확도를 지표로써 비교 평가하기 위한 것이다.
Ⅱ. 대상 및 방법
본 연구는 Kaggle 사이트에 미국국립보건원(National institutes of health; NIH)이 제공한 Chest X-ray dataset 의 111,622장의 흉부 영상을 사용하였다. RS와 CNN을 기반 으로 이루어진 영상의 평가는 정상적인 흉부 영상의 좌, 우가 반전되어 나타났는지에 대한 여부를 컴퓨터가 판단하도록 설 계하였다. 본 연구에는 구현 프로그램으로 Python ver. 3.7 과 Tensorflow r1.14을 사용하였다. 1,024×1,024 크기의 모든 영상을 64×64 영상으로 축소하고, 영상은 표준정규분 포를 통해 표준화하여 각 영상 히스토그램(Histogram)의 각 기 다른 농도 값 범주를 동일하게 설정하였다.
1. 규칙기반 시스템
영상 히스토그램의 0부터 250까지의 농도 값 범위 중 10~98%부터 80~98%까지 10% 단위로 범위를 좁혀가며 [Fig. 2] 설정한 범위를 제외한 나머지 농도 값을 픽셀이 가 졌을 때 0의 농도 값을 가지고, 설정한 범위 안에 있는 농 도 값을 지닌 픽셀들은 모두 1의 농도 값을 가지도록 영상 을 재구성하였다[Fig. 1]. 영상의 좌, 우에 설정한 관심영 역(Region of interest; ROI)에서 농도 값 1을 지닌 픽셀 (Pixel)의 개수를 파악하여 만약 그 개수가 ROI 2에 더 많았 다면 이 영상을 좌, 우 반전이 일어나지 않았다고 판단할 것 을 규칙으로 설정하였다. 이는 정상 흉부 PA와 AP 영상에 서 심장의 윤곽이 영상의 우측에 더 많이 포함되어 나타나 는 일반적인 경우를 고려하여 규칙을 적용한 것이다. 즉, 일 반적인 흉부의 AP 또는 PA 영상에서 심장의 윤곽이 ROI 2 에 더 많이 포함되어 있기 때문에, 영상의 좌, 우 반전이 일 어나지 않은 영상이라면 농도 값 1을 가진 픽셀을 ROI 2가 ROI 1 보다 더 많이 수집하게 된다.
ROI 설정에는 인체의 좌우 상단과 좌우 하단이 심장의 윤 곽과 관련이 없을 가능성을 가정하여, 심장의 윤곽을 제외 한 나머지 영역에서의 농도 값 1을 가진 불필요한 픽셀 계수 를 방지할 것을 고려하여 적용하였다. 이러한 ROI는 영상의 세로 중심축을 기준으로 좌측의 세로는 1/4지점에서 3/4지 점까지, 가로는 시작점에서 1/2지점까지이며, 우측의 세로 는 1/4지점에서 3/4지점까지, 가로는 1/2지점에서부터 끝 지점까지를 ROI로 설정하였다[Fig. 1].
2. 컨벌루션 신경망
111,622장의 흉부 PA와 AP 영상 중 70%(78,134장)를 학 습에 이용하였다. 이 영상을 3×3 커널(Kernel)을 이용하 여 컨벌루션(Convolution) 단계를 거친 후 영상의 특징을 도출하게 되면 전체 특징의 수가 크고 복잡하게 되기 때문 에 데이터가 커지게 된다. 따라서 그 특징의 수를 의도적으 로 줄이는 것으로 데이터 크기를 축소시켜 과적합(Over fitting)을 방지하는 맥스풀링(Maxpooling)을 진행하였다. 이후에 1차원 배열로 바꿔주는 플래튼(Flatten) 단계를 거 쳤다. 최종적으로 0과 1의 범위로 결과를 나타낼 수 있게 해 주는 시그모이드 함수(Sigmoid function)를 이용한다. 75 Batch size로 30세대(Epoch)에 걸쳐서 ‘Training’을 진행 하는데, 각 세대의 ‘Training’을 마칠 때마다 진행 중인 경 우, 과적합이 발생되고 있는지에 대한 여부를 전체 영상의 10%(11,164장)의 영상을 이용해 확인하는 ‘Validation’ 과정 을 동시에 실행하였다[Fig. 3]. 이때 ‘Training’에 사용하는 영상의 절반은 좌, 우 반전하여 사용하고, ‘Test’와 ‘Validation’ 에 사용하는 영상들의 절반 또한 좌, 우 반전하여 적용한다 [Fig. 4].
Ⅲ. 결 과
1. 규칙기반 시스템
영상에 좌, 우 반전이 일어나지 않은 정상적인 흉부 방사 선영상은 설정한 ROI의 우측에서 농도 값 1을 가지는 픽셀 개수가 좌측보다 많고, 그렇지 않은 영상은 좌우에 반전이 일어난 영상으로 구분하는 규칙을 설정하였다. 흉부 방사선 영상 111,622장을 히스토그램의 농도값에 대한 범위를 8가 지로 지정하여 영상 재구성을 실시하였고, 이때 사용된 흉 부 방사선영상에 설정한 ROI의 우측과 좌측에 해당하는 농 도값 1을 가진 픽셀 개수를 비교하여 영상의 정상 여부를 판 단하도록 하였다. 결과적으로 히스토그램의 농도 값 범위 중 40~98%에서 영상의 좌, 우 구분에 대한 가장 높은 정확 도 66%를 나타내었다<Table 1>. 이는 다른 설정 범위들에 비해 이 범위를 설정하였을 때 심장의 윤곽에 포함된 농도 값 1을 가진 픽셀을 가장 잘 찾아낸 것을 의미한다. 이 범위 를 더 좁혀 갈수록 정확도가 점진적으로 낮아지는 형상을 나타내었다.
2. 컨벌루션 신경망
111,622장의 영상 중 78,134장의 영상 데이터를 ‘Training’ 에 사용하면서 11,164장의 영상을 ‘Validation’에 사용하였 고, 22,324장의 영상을 ‘Test’에 사용하였다. ‘Training’ 과 정을 진행하면서 동시에 ‘Validation’ 과정을 진행하며 살펴 본 결과로 과적합은 발생하지 않았다. 2 epoch에서 손실이 빠르게 최소화 되었고, 이후 점진적으로 증가하는 경향을 보였으나 그 손실은 극댓값(Global minimum)이 아닌 극솟 값(Local minimum)이라고 판단되었다. 그래서 2 epoch에서 중단하지 않고 ‘Validation’의 정확도가 플래토우(Plateau) 를 이루는 시점인 30epoch까지 실험을 진행하였다. 결과적 으로 ‘Test’ 데이터의 0.135% 손실 지점에서 97.9%의 정확 도를 나타내었다[Fig. 5]. ‘Test’에 사용된 총 22,324장의 영상 중 11,162장의 정상 영상에서 10,886장의 영상을 정확 히 구분하였고 276장의 영상에는 잘못된 판단이 일어났으 며, 11,162장의 좌, 우 반전이 일어난 영상에서는 10,961장 의 영상을 좌, 우 반전이 일어난 영상으로 정확히 구분하였고 201장의 영상들에는 잘못된 판단이 이루어졌다<Table 2>.
Ⅳ. 고 찰
본 연구는 흉부 PA와 AP 영상에 좌, 우 반전이 이루어졌 는지에 대한 여부를 CNN과 RS를 기반으로 각각 평가하여 그에 대한 정확도를 비교 분석하였다.
이전부터 흉부 영상의 좌, 우가 반전된 상태로 PACS에 저장되는 것을 방지하기 위한 선행 연구들이 진행되었다. 1992년에 시행된 연구에서는 딥러닝의 이전 형태인 CNN을 사용했고, 상대적으로 본 연구의 정확도에 비해 낮은 수치 를 나타냈다[11]. 2016년부터 2019년까지 여러 차례 시행된 연구들에서는 템플릿 매칭(Template matching)을 통해 본 연구에서 극복하고자 하는 문제점을 해결하고자 했지만 설 정한 생물학적 지문(Biological fingerprint) 위에 음영이 있는 경우 정확한 구분이 이루어지지 않았다[12-15]. 이 문 제점은 의료장비를 착용한 환자의 영상에서도 명확한 구분 이 가능하지 않는 것을 의미하며, 본 연구에서 CNN을 사용 하였을 때 심박조율기가 있는 영상과 폐에 병변이 있는 영 상 등에서까지 구분해낸 결과와 차이를 보인다.
RS 실험에서는 단 한 가지의 규칙을 설정하여 평가하였 는데, 이때 설정한 ROI가 단순히 좌, 우를 나눈 것이기 때문 에 환자의 심장 위치가 환자들 마다 다르다는 점과 흉부에 질병이 있어 불필요한 계수가 이루어진 영상, 심박조율기 등의 의료장비가 포함된 영상 등 추가적으로 고려되어야 하 는 요소들을 극복해내지 못하였다. 하지만 아무리 ROI를 세 밀하게 설정하더라도 이 문제점은 인공지능을 이용한 자체 적인 판단이 이루어지지 않고서는 극복되기 어려울 것이라 는 점에서 필연적인 한계점이 있다.
반면, CNN은 RS에 비해 매우 높은 정확도를 보여주었 다. 본 연구에서 활용한 RS를 비롯해 생물학적 지문을 활용 했던 이전 연구들에서 극복하지 못한 영상 유형 대부분이 CNN에서 정확한 구분이 이루어졌다. 하지만 일반적인 영상 들에서 보이는 심장의 윤곽이 아닌, 육안으로도 식별이 어 려울 정도로 그 윤곽이 흐릿한 경우나 영상에 팔이 많이 포 함된 경우 등 충분한 학습이 이루어지지 못한 특이한 형태 의 영상들에 대하여는 정확한 식별이 이루어지지 못한 것으 로 보인다[Fig. 6].
Ⅴ. 결 론
본 연구는 RS, CNN을 이용하여 흉부 PA, AP 영상에서 좌, 우 반전이 일어나는 문제를 사전에 방지하고자 실시하 였다. 이에 대한 두 기법의 정확도를 평가하기 위해 규칙기 반 시스템과 CNN에 동일한 111,622장의 영상을 사용하였 다. 결론적으로 RS에서는 66%의 정확도로 상대적으로 낮은 수치를 보였지만, CNN은 정확도 97.9%를 보여 영상의 좌, 우 반전 여부에 대해 거의 확실한 판단이 기대되는 결과를 나타냈다.
앞으로 이를 비롯한 다른 문제들을 사전에 차단하여 더욱 효율적인 업무 흐름을 형성하기 위한 인공지능 기반의 연구 가 적극적으로 이루어진다면, 방사선사의 전문성을 발전시 키는 것과 더불어 환자에게 더욱 질 높은 의료서비스를 제 공하는 기반으로서 기능하게 될 것이라 여겨진다.