일개 국내 의과대학 교육프로그램 질 향상을 위한 평가체계 틀 개발에 관한 연구
Development of a Program Evaluation Framework for Improving the Quality of Undergraduate Medical Education
Article information
Trans Abstract
The development and implementation of a systematic program evaluation framework is critical for improving the quality of the undergraduate medical education. At Yonsei University College of Medicine, we established the following five evaluation domains that encompass various aspects of educational experiences: (1) preclinical curriculum; (2) clinical curriculum; (3) educational environment, resources, and systems; (4) performance of students and graduates and program outcomes; and (5) implementation and outcomes of the curriculum. Specific evaluation indicators were designed within these domains and validated through the Delphi technique, which integrated expert opinions. In total, 98 indicators were identified across five domains. These indicators will function as a comprehensive tool for assessing medical education programs. The proposed evaluation framework addresses both short- and long-term educational changes, facilitating systematic monitoring, continuous quality improvement of curricula, and better outcomes for students. As this framework is grounded in the unique context of the institution, it is appropriate for a comprehensive evaluation of interactions at various educational stages. Furthermore, it may serve as a strategic foundation for identifying areas that require improvement, ensuring that the curriculum aligns with current medical education standards and practices. The framework’s structured approach and continuing evaluation processes may make it possible to obtain essential data for ongoing development, potentially contributing to a robust system for quality improvement in medical education. The findings of this study are expected to serve as a valuable reference for developing similar evaluation frameworks in other medical schools.
서론
의과대학은 미래의 의료인이 사회의 건강수요를 충족시킬 수 있는 의학지식, 임상술기, 전문직업성 등 총체적인 역량을 갖추도록 교육해야 하는 책무성이 있다[1]. 따라서 의학교육은 사회적 필요성에 부응하고 교육의 효과와 효율을 증대하기 위해 지속적인 질적 제고가 필수적인 영역이며, 이러한 맥락에서 교육프로그램 평가의 중요성이 강조되고 있다[2,3].
교육프로그램 평가는 교육 관련 의사 결정을 위해 유용한 정보를 획득, 제공하는 의도적인 개입으로[4], 교육프로그램의 실효성을 평가하고 교육활동 전반의 종합적인 질 관리방안을 모색하는 데 도움이 된다. 평가를 통해 교육프로그램의 목표 성취 여부나 교육의 각 단계에 내재된 가치를 확인할 수 있으며[5,6], 더 나아가서는 교육에 영향을 주는 프로그램 내·외부 요인을 식별할 수 있기 때문에 이해관계자의 요구를 파악하고 프로그램 발전에 효과적인 결정변수를 정하는 데 효과적이다[7]. 교육프로그램의 복잡한 성과를 측정, 분석, 평가하기 위해서는 평가요소들을 총체적으로 포괄하는 체계적인 평가체계의 확립이 선행되어야 하고, 이를 바탕으로 프로그램의 발전방안을 탐색할 수 있다[8]. 실제로 미국 및 캐나다의 의학교육프로그램 인증기준은 의과대학이 단기 또는 장기 교육목표를 계획하고 측정 가능한 성과를 달성해 나감으로써 지속적인 질 향상 활동을 하도록 요구하고 있으며[9], 국내 의학교육 평가인증기준에서도 의과대학 단위에서 자체적인 평가체계를 수립하고 주기적인 교육평가를 통해 교육 개선활동을 하도록 장려하고 있다[10].
보건의료분야에서 교육프로그램 평가의 초기 연구는 체크리스트를 기반으로 한 투입 대비 산출 중심의 총괄평가가 주를 이뤘으며, 교육의 최종적인 성과를 확인하려는 경향이 두드러졌다[11]. 그러나 이는 교육의 과정에 대한 깊이 있는 이해와 분석이 결여된 블랙박스모형적 접근에 해당한다. 즉 교육의 효과성을 평가하는 데 있어 표면적인 결과만 고려하게 되며, 학습환경, 자원, 교육효과성 간의 상호작용에 대한 근거를 제공하지 못한다. 또한 다양한 이해관계자 사이의 역동성을 충분히 반영하지 못하기 때문에 평가의 타당성과 유용성 측면에서 문제가 제기되었다[12,13].
지난 40여 년간 보건의료분야에서는 교육프로그램의 성과를 네 단계의 위계로 구분하는 Kirkpatrick 평가모형이 널리 활용되었다[11]. 이는 프로그램 평가모형에 기반한 체계적인 평가를 시도한 것이라 볼 수 있지만 여전히 교육적 개입으로 인한 최종적인 결과만을 제한적으로 평가한다는 한계가 있다[7,14,15]. 교육프로그램을 결과 중심으로 평가하는 것은 교육의 여러 요소들이 유기적으로 작용하는 복잡한 현상을 제대로 설명할 수 없으므로 진정한 개선을 이끌어내기 어렵다. 최근에는 교육 전반에 대한 종합적인 평가를 시도한 선행연구들이 수행되고 있으나[15-21], 이론에 근거한 평가체계가 부재한 비정형적인 평가를 활용하고 있어[22,23], 교육프로그램의 목표 달성 여부 및 프로그램의 장·단점을 효과적으로 도출하는 데 제한점이 있다[24]. 아울러, 일부 연구는 교육과정에서 이루어지는 단편적인 교육활동의 적절성을 확인하는 데 그치고 있어 의과대학 교육프로그램의 총체적 평가체계로 제시하기에는 한계가 있다[2,25-27].
다양한 교육활동을 통해 발생하는 역동성을 질 향상에 반영하기 위해서는 교육의 실행단계와 구성요소를 통합적으로 고려한 평가체계가 필요하다[8]. 특히 교육의 결과가 의미 있는 변화로 이어지기까지는 상당한 시간이 소요되므로 의과대학 자체의 견고한 개념적 평가체계를 구축하여 주기적인 교육프로그램 평가가 시행되어야 할 것이다. 또한 교육의 효과성을 극대화하기 위해서는 대학 고유의 맥락을 반영하여 교육의 여러 요인 간 유기적 연관성 및 정합성을 제고한 평가체계를 구축해야 한다.
최근 프로그램 평가의 동향은 과정과 결과 측정을 동시에 고려할 수 있는 다양한 접근방식을 채택하는 것으로 이는 프로그램의 최종적인 결과뿐만 아니라, 프로그램 실행 중 발생할 수 있는 다양한 상황적인 요소 및 참여자의 반응을 반영함으로써 프로그램의 점진적 개선을 위한 실질적인 자료를 제공할 수 있다[28]. 이에 따라 본 연구는 대학의 교육환경과 교육과정의 맥락적 특징을 반영한 통합적인 접근을 통해 의과대학 교육프로그램 운영의 전반적인 과정을 포괄할 수 있는 체계적이고 구조화된 평가체계를 구축하는 것을 목표로 하였다.
연구대상 및 방법
1. 연구개요
연세대학교 의과대학 교육프로그램 평가체계 구축은 두 단계로 실행되었다. 첫째, 교육프로그램 평가의 핵심 구성요소를 확인하고 연세대학교 의과대학의 맥락과 평가인증기준에 부합하는 평가지표를 구성하기 위해 현행 교육과정 및 교육 관련 문서, 평가인증기준, 선행연구를 검토하고 분석하였다. 이후 연구진의 논의 및 교육평가센터 교원들의 협의를 바탕으로 교육과정과 교육의 활동 전체를 포괄하여 종합적인 평가를 실행할 수 있는 교육프로그램 평가체계 틀의 초안을 구성하였다. 둘째, 델파이 기법을 적용하여 평가체계 구성요소의 타당성을 검정하고, 최종적인 평가지표 확정을 위한 합의를 도출하였다. 연구절차와 각 단계를 통해 도출된 결과는 Figure 1에 요약하여 제시하였다.
2. 교육프로그램 평가체계 틀 초안 개발
1) 연세대학교 의과대학 교육 맥락 및 미충족 과제 검토
의과대학 교육프로그램의 효과적인 평가와 개선을 위해서는 현재 교육프로그램에 내재된 다양한 물리적, 사회적, 정책적 환경요인들을 면밀히 분석할 필요가 있다. 이러한 맥락적 요인 및 요인 간 상호작용은 교육프로그램의 실행과정과 결과에 중요한 영향을 미친다[29]. 또한 의도한 교육성과와 실제 교육 결과 간의 차이를 파악하고 그 원인을 분석하여 미충족 과제 및 개선이 필요한 부분을 명확히 할 필요가 있다. 본 연구에서는 이를 위해 의과대학 교육과정 개발 및 평가, 교육정책 등과 관련하여 발간된 교내 보고서, 규정, 회의자료와 같은 문서를 포괄적으로 검토하였고, 국내 의학교육 평가인증기준의 세부 항목과 이전 평가인증 결과를 분석하였다.
2) 문헌고찰
의과대학 교육프로그램 평가의 방향성을 설계하고 교육활동 전개에 요구되는 핵심적인 교육성과의 개념을 정의하기 위해 국내외 교육프로그램 평가에 대한 문헌고찰을 시행하였다. 2022년 4월에 2018년 3월부터 2022년 3월 사이에 발간된 문헌을 대상으로 국내외 데이터베이스를 검색하였으며, 국외 문헌은 PubMed (www.ncbi.nlm.nih.gov/pubmed), 국내 문헌은 학술연구정보서비스(https://www.riss.kr)를 활용하였다. 주요 검색어로는 연구대상인 “의학교육(medical education)”과 “의과대학(medical school),” 중재방법인 “프로그램 평가(program evaluation)”와 “질 향상(quality improvement)”을 기본으로 하였고, “평가모형(evaluation model)”과 “질 향상 체계(quality improvement framework)”를 추가적으로 포함하였다. 이를 통해 총 155건의 문헌이 도출되었다. 문헌 선정은 1저자가 2차에 걸쳐 시행하였으며 1차는 제목과 초록을 중심으로, 2차는 원문을 검토하였다. 영어나 한국어 외 다른 언어로 기술된 연구, 원문 이용이 불가능한 경우, 프로그램 개발 또는 교수개발 프로그램 평가 등에 중점을 둔 연구는 제외하였고, 최종적으로 영어논문 26건, 한글논문 9건을 포함한 총 35개의 문헌을 선정하였다. 선별된 문헌은 선행연구에서 적용된 평가모형과 주요 평가요소를 이해하고, 평가체계 설계의 이론적 토대를 마련하기 위한 기초자료로 활용하였다(Appendix 1).
3) 교육프로그램 평가체계 초안 수립
교육프로그램 평가체계 틀의 초안을 구성하기 위하여 연구진 3인은 해당 자료를 심층적으로 검토하고 11차례의 논의를 통해 초안 작성과 수정작업을 시행하였다. 프로그램 평가 설계절차에 따라 평가활동의 정당화 및 근거를 확인하기 위해 평가영역을 분류하고, 각 영역별 평가목적을 도출하였다. 이어서 평가의 주요 목적을 반영하면서 평가영역 및 내용을 다루기에 적절한 이론적 평가모형을 구성하고, 이에 적합한 세부적인 평가질문을 수립하였다. 또한 평가모형의 구성요소를 고려하고 평가질문에 대한 근거 기반의 결과를 제시할 수 있도록 구체적이고 세분화된 평가지표를 개발하였다. 이를 통해 ‘평가목적-평가모형-평가질문-평가지표’의 정합을 이루는 평가체계 틀을 구성하였다. 이는 프로그램의 효과성 및 효율성을 평가하기 위해 평가계획을 구조화하는 일반적인 절차로 초기에 넓은 범위의 목적을 제시한 뒤 이를 이론적 모형을 통해 구체화하여 주요 평가질문과 단계, 필요한 자원을 명확히 정의하는 과정을 포함한다[30,31]. 이러한 접근은 평가의 초점을 정교화하고 각 평가의 목적과 평가지표, 자료수집활동 간의 논리적 연결성과 일관성을 유지하고, 효과적 평가설계와 실행에 도움이 될 수 있다. 이후 교육평가센터에서 활동하는 의과대학 교원 5인의 추가적인 검토와 합의를 거쳐 교육프로그램 평가체계 틀의 최종적인 초안을 수립하였다.
3. 델파이 조사
평가지표 초안의 타당도를 검정하고 합의를 도출하기 위해 본 연구에서는 Murry와 Hammons [32]가 제안한 수정 델파이 기법(modified Delphi technique)을 적용하였다. 수정 델파이 기법은 문헌고찰, 사례연구 등 기초연구를 통해 구성한 체계적이고 구조화된 설문지를 패널에게 제시하므로 조사과정이 견고하다는 특징이 있다[33].
1) 델파이 패널 구성
델파이 패널은 전문성을 기반으로 구성하였으며, 델파이 조사의 타당성 확보를 위해 필요한 참여자 수를 고려하여 총 55명을 대상으로 하였다. 패널 구성의 기준은 연세대학교 의과대학 교육과정 및 맥락에 대한 전문적인 이해와 실증적 경험을 보유한 대상자를 포함하는 데 중점을 두어 평가체계 설계의 실효성을 높이고자 하였다. 주요 패널은 교육전문가인 의과대학 교수, 주요 보직자, 교육 관련 위원회 위원으로 구성하였다. 또한 교육에 대한 다각적인 이해와 관점을 반영하기 위해서 학생 대표, 행정 직원, 타 의과대학 교수, 본교 보직자, 인턴/전공의 대표, 지역사회 의사, 학부모 대표 등 다양한 이해관계자도 포함하였다. 총 55명의 패널은 2차에 걸친 델파이 설문조사에 최소 한 번 이상 참여하였으며, 각 평가영역별로 16–18명의 패널이 배정되었다. 이 중 17명은 전문성의 범위와 평가영역 간 연관성을 고려하여 두 개 이상의 평가영역에 배정하였다. 델파이 패널에 대한 세부적인 정보는 Table 1에 제시하였다.
2) 델파이 조사절차
2022년 5월 2일부터 11일까지 1차 델파이 조사, 2022년 5월 26일부터 6월 6일까지 2차 델파이 조사를 시행하였다. 평가영역별 설문조사지는 온라인 설문조사도구인 구글 폼(Google Forms; Google LLC, Mountain View, CA, USA)을 활용하여 제작하였고, 1, 2차 동일하게 (1) 평가질문의 우선순위 기입, (2) 각 평가지표의 중요도(교육프로그램 평가에서 중요한 정도), 실행 가능성(평가지표에 대한 자료를 수집하고 조사하는 데 실행이 용이한 정도), 변화 필요성(교육의 지속적 질 향상을 위해 현재의 교육에서 변화가 필요한 정도)을 5점 리커트 척도로 평정, (3) 평가지표에 대한 수정, 보완 의견 제시, (4) 추가되어야 할 평가지표 제안 항목을 포함하였다. 델파이 패널들에게 델파이 조사에 대한 상세한 설명문과 함께 구글 폼 링크가 첨부된 이메일을 발송하여 조사를 진행하였다.
1차 조사에서 수집된 피드백을 바탕으로 연구진이 평가지표를 수정 및 보완하고 새로운 지표를 추가하였다. 1차 조사는 평가체계의 틀과 구성요소에 대한 패널들의 이해를 촉진하고, 피드백을 수집하여 평가지표를 정교하게 보완하는 것에 초점을 맞추었기 때문에 1차 조사에서 합의기준에 도달하지 못한 지표라도 제외하지 않고 2차 조사를 통해 재평가될 수 있도록 하였다. 2차 설문조사지에는 1차 응답의 기술통계값(평균, 중앙값, 점수 범위, 리커트 척도 점수별 응답자 비율)과 피드백을 함께 제공하였다.
델파이 조사 이후의 합의(post-group consensus) 단계로 평가영역별 회의를 개최하여 델파이 패널이 자신의 관점을 정당화하는 논의를 통해 최종 평가체계 결정에 도달할 수 있도록 패널 간 상호작용의 기회를 제공하였다. 이는 델파이 기법을 적용할 때 논의 부족으로 인한 의사결정의 불확실성이 초래되는 문제를 보완할 수 있다[34].
4. 통계분석
평가질문 항목의 상대적 중요도를 산출하기 위해 항목별 평균순위에 기초한 역순위 가중치(rank reciprocal weights) 방법을 적용하였다[35]. 이는 다기준 의사결정(multi-criteria decision making) 상황에서 활용되는 순위 기반 가중치로, j개의 항목으로 구성된 평가질문의 우선순위를 결정하기 위해 각 항목에 대해 1부터 j사이의 순위를 중복 없이 부여하는 조건부 평정과정에 의해 우선순위를 결정하는 방식을 의미한다[36]. 본 연구에서는 평가질문의 중요도를 결정하기 위해서 1순위부터 j순위까지를 묻는 응답자료에 각 j에서 1까지의 값을 부여하고, 각 항목별 순위 총합의 비율로 계산하여 가중치를 산출하였다. 평가질문의 가중치 합은 1로 설정하였으며, 가중치 값이 클수록 상대적 중요도가 높은 평가질문으로 간주하여 평가의 우선순위를 결정하였다.
한편, 2차에 걸친 델파이 조사에서 평가지표의 중요도, 실행 가능성, 변화 필요성에 대한 응답을 분석하여 평가지표의 타당성을 검토하였다. 평가지표의 타당성은 평가영역을 구성하고 있는 평가지표의 내용타당도를 검증하기 위한 정량적 방법으로 내용타당도 비율(content validity ratio, CVR)을 비교하였다. CVR은 평가도구 개발에 있어 각 항목, 즉 평가지표가 포함되어야 하는지에 대한 전문가 패널의 합의 비율에 근거한 방법이며, 패널의 수가 작을 경우 우연에 의해 포함되는 항목이 발생할 수 있기 때문에 동원된 패널 수에 따른 CVR 최소값의 기준에 따라 내용타당도를 검증한다[37]. CVR 산출에 있어 1차 델파이 조사에서는 5점 척도로 구성된 검사에서 3점 이상의 평점을 합의의 기준으로 설정하였다. 이는 패널들이 평가지표에 대한 충분한 이해를 바탕으로 의견을 제공할 시간이 부족할 수 있음을 감안하였으며, 상대적으로 낮은 기준을 적용함으로써 초기 단계에서 평가지표에 대한 다양한 패널 의견을 수집하여 평가지표 설계의 방향성을 보완하고자 함이었다. 반면, 2차 델파이 조사에서는 4점 이상의 평점을 합의의 기준으로 설정하였다. 차시를 거듭하면서 참여 패널들이 평가지표의 의미와 중요성에 대해 점진적으로 더 깊이 이해할 수 있었으므로, 보다 엄격한 기준을 적용하여 지표의 정밀성을 높이고, 패널 간의 의견 일치를 강화하기 위함이었다. 본 연구에서 평가영역별 1, 2차 델파이 조사에 응답한 패널의 수는 11–15명이었으며, CVR 값은 0.49–0.59를 기준으로 하였다. 한편, 합의의 일관성을 검증하기 위해 패널 간 의견의 편차를 고려한 합의도(degree of consensus), 수렴도(degree of convergence) 값을 고려하였다. 본 연구에서는 합의도가 0.75 이상, 수렴도가 0.50 이하일 때를 의견 합치의 기준으로 정하였다. 평가지표의 타당성은 내용타당도를 중점으로 평가하였으며, 합의도와 수렴도는 부가적인 참고자료로 활용하였다.
5. 윤리적 고려
본 연구는 연세의료원 기관생명윤리위원회(institutional review board, IRB)의 승인을 받았으며 통상적인 교육의 과정에서 발생한 자료를 활용한 연구로 대상자 동의 면제를 득하였다(IRB no., 4-2022-1620).
결과
1. 교육프로그램 평가체계 틀 초안
1) 평가영역 및 평가목적
연세대학교 의과대학 교육의 목적과 성과, 교육과정, 입학에서 졸업까지의 교육의 과정, 학습환경, 교육 전반의 시스템과 자원이 교육프로그램 평가에서 다루어 질 수 있도록 5개의 평가영역을 구성하였다. 해당 영역은 교과목 단위의 개선을 위한 ‘1. 기본의학교육과정’과 ‘2. 임상실습교육과정’ 영역, 교육프로그램 내 다양한 체계의 적절성 확보와 질 향상을 위한 ‘3. 교육환경, 자원 및 운영체계’ 영역, 재학생 및 졸업생의 성과를 점검하고 지속적 개선을 위한 ‘4. 학생 역량 및 교육프로그램 성과’ 영역, 전체 교육과정의 계획, 운영, 성과를 평가하는 ‘5. 교육과정의 운영 및 성과’ 영역이다. 각 평가영역은 교과목 단위의 개선에서 시작하여 점차 교육과정 전반과 그 성과에 대한 종합적인 평가로 확장되는 구조를 가지며, 교육프로그램의 효과적인 개선 및 성과분석을 위한 점진적인 접근을 위하여 설계되었다. 평가영역의 특성에 따라 평가목적을 수립하였으며 영역별 평가목적은 Table 2에서 확인할 수 있다.
2) 평가모형 및 평가질문
평가목적에 적합한 평가요소를 구체화하고 이에 따른 평가지표를 개발하기 위해 평가모형을 설계하였다. 단계별 교육과정을 대상으로 하는 1, 2영역은 logic 모형과 Kirkpatrick 모형을 통합한 평가모형을 구성하였고, 교육프로그램 전반의 시스템과 자원, 운영과 성과를 다루는 3–5 영역은 context, input, process, and product evaluation model (CIPP 모형)과 Kirkpatrick 모형을 통합한 평가모형을 설계하였다. Logic 모형은 프로그램의 구성요소로 투입(input), 활동(activity), 산출(output), 단기 및 장기 성과(outcome) 간의 논리적 관계를 개념화해주는 모형으로 프로그램의 계획, 실행, 평가에 이르는 선형적 흐름이 강조된다[4]. CIPP 모형은 평가영역을 상황(context), 투입(input), 과정(process), 산출(product)로 제시하며, 평가요소 간 역동적이고 비선형적인 관계를 고려하기 때문에 장기적으로 운영되는 교육프로그램의 전 과정을 평가하고 상황과 맥락을 적극적으로 반영하는 데 유용하다[4]. Logic 모형이나 CIPP 모형과는 달리 Kirkpatrick 모형은 교육프로그램의 성과 평가에 초점을 맞추고 있으며, 교육성과를 반응(reaction), 학습(learning), 행동(behavior), 결과(result)와 같이 4단계 수준으로 구분하여 평가한다. Figure 2에 제시된 것처럼, 본 연구에서는 logic 모형의 성과요소, CIPP 모형의 산출요소에 각각 Kirkpatrick 모형을 결합한 통합적 접근을 통해 교육프로그램의 효과성을 체계적으로 측정할 수 있는 평가모형을 구성하였다. 이는 단일 모형이 지닐 수 있는 평가의 편향성과 한계점을 보완할 수 있으며, 교육의 각 단계를 선형적으로 평가하는 것을 넘어 각 과정에서 요소 간 상호작용을 면밀히 분석하고, 지속적인 조정을 통해 유연한 평가가 가능한 설계이다.
다음으로 영역별 평가목적의 달성 여부를 확인하고 통합 평가모형의 구성요소를 반영할 수 있는 평가질문을 수립하였다. 1, 2영역의 경우 5개의 동일한 평가질문으로 이루어져 있으며, 3영역은 8개, 4영역은 7개, 5영역은 3개의 평가질문으로 이루어져 있다. 1, 2영역의 평가질문을 예시로 들면, ‘1. 각 교과목은 의도한 교육성과를 달성하기에 적합한 계획을 수립하였는가?’, ‘2. 교과목 운영을 위한 자원이 적절한가?’, ‘3. 교과목은 계획한 대로 실행/운영되었는가?’, ‘4. 학생 평가는 타당하고 신뢰롭게 시행되었는가?’, ‘5. 교과목이 의도한 교육성과를 달성하였는가?’와 같다. Table 2에서 5개 평가영역의 평가질문과 함께, 평가영역별 평가목적, 평가질문, 평가모형의 구성요소가 연결된 구조적, 논리적 체계를 확인할 수 있다.
3) 평가지표 초안
연구진은 2021년 10월부터 2022년 4월까지 11회의 반복적인 논의를 통해 총 219개의 평가지표 초안을 개발하였다. 평가영역별 지표의 개수는 1영역 34개, 2영역 39개, 3영역 49개, 4영역 72개, 5영역 25개였다. 평가질문별로는 적게는 2개, 많게는 17개의 평가지표가 개발되었다.
2. 평가지표 타당화 및 최종 선정
1) 1차 델파이 조사결과
1차 델파이 조사는 총 52명의 패널이 참여하였고, 평가영역별로는 13–15명의 패널이 참여하였다. 평가영역별 평가질문 간 상대적 중요도에 대한 복합가중치를 백분율로 산정한 결과는 Table 2에 제시되어 있다. 1차 델파이 조사결과, ‘기본의학교육과정’ 영역에서는 교과목 계획수립의 적절성(0.25)이, ‘임상실습교육과정’ 영역에서는 교과목의 교육성과 달성 정도(0.24)가 가장 중요한 질문으로 나타났다. 또한 ‘교육환경, 자원 및 운영체계’ 영역에서는 교육프로그램의 사명과 성과 수립의 적절성(0.20), ‘학생역량 및 교육프로그램 성과 달성’ 영역은 학생 역량 평가체계의 적절성(0.19), 마지막으로 ‘교육과정의 운영과 성과’ 영역은 교육과정의 계획, 편성 및 실행(0.35)이 중요한 평가질문으로 선정되었다.
평가지표의 타당성을 검증한 결과, 전체 219개의 지표 중 204개의 지표가 중요도, 210개의 지표가 실행 가능성, 195개의 지표가 변화 필요성 측면에서 내용타당도 기준을 통과하였다. 중요도, 실행 가능성, 변화 필요성 중 하나 이상의 내용타당도 기준을 만족한 지표는 전체 219개 중 217개로 나타났다. 또한 중요도, 실행 가능성, 변화 필요성 기준 중 하나 이상의 합의도를 달성하지 못한 지표는 18개, 수렴도를 달성하지 못한 지표는 5개로 나타났다. 그러나 1차 조사에서는 델파이 패널 간 이해 정도가 다른 평가지표가 있을 수 있기 때문에 합의기준을 충족하지 못한 평가지표라도 제외하지 않고 2차 조사에서 재평가 받을 수 있도록 하였다.
1차 델파이 조사에서 평가지표에 대한 패널의 의견을 수집한 결과, 주요 의견으로는 교육과정의 적절성을 정성적으로 평가할 수 있는 지표 추가(가령, 과목운영 사전회의 시 운영계획 및 의사결정 논의의 질을 측정할 수 있는 항목, 학생 및 교육자로부터 수집된 피드백의 질을 평가하는 항목, 졸업 포트폴리오의 주기적 성과를 측정하는 항목 등), 평가지표에 대한 이해를 돕고 구체적인 응답을 유도하기 위해 실제 활동을 포함한 예시 포함(가령, 교육자원의 충분성 정도를 평가하기 위해 과목 운영비, 교과목 운영을 지원하는 행정지원의 인력비율, 지원체계 등의 세부항목을 포함하여 지표를 개선), 평가 관련 용어에 대한 설명을 보완하여 평가지표의 의미를 명료화, 개념 측면이나 교육과정 실행상 연계될 수 있는 평가항목은 통합하여 제시하는 것 등이 있었다. 이와 같은 패널들의 제안을 바탕으로 2차 델파이 조사에서는 일부 평가항목의 추가, 삭제, 통합, 분리가 이루어졌으며, 최종적으로 10개의 평가지표 추가, 35개의 평가지표 수정 및 보완, 6개의 평가지표가 3개의 지표로 통합되었다.
2) 2차 델파이 조사결과
2차 델파이 조사는 총 44명의 패널이 참여하였고, 평가영역별로는 11–14명의 패널이 참여하였다. 2차 조사에서는 1차 조사와 동일하게 평가질문의 상대적 중요도 및 평가지표의 중요도, 실행 가능성, 변화 필요성에 대해 질문하였으며, 개발한 평가지표의 수정이 필요하거나 또는 추가해야 할 사항이 있는 경우 자유롭게 의견을 기입할 수 있도록 하였다. 2차 델파이 조사에는 1차 조사를 통해 수집된 패널의 피드백을 반영하여 총 226개의 평가지표가 포함되었다.
2차 조사에서 평가영역별 평가질문의 상대적 중요도 순서는 1차 조사와 유사하게 나타났으나, ‘교육과정의 운영과 성과’ 영역에서는 1차 조사와 달리 교육과정의 성과(0.37)가 교육과정의 계획, 운영과 비교 시 가장 중요한 평가질문으로 나타났다(Table 2). 평가질문별 산출된 가중치 값은 최종 평가지표 선정에서 활용되었으며, 가중치 값이 높은 평가질문에 최대한 평가지표를 많이 포함할 수 있도록 고려하였다.
평가지표의 타당성을 검증한 결과, 전체 평가지표 중 중요도는 109개, 실행 가능성은 86개, 변화 필요성은 20개가 내용타당도 기준을 충족하였다. 중요도, 실행 가능성, 변화 필요성 측면에서 하나 이상의 내용타당도 기준을 만족한 평가지표는 총 146개로 나타났다. 또한 중요도, 실행 가능성, 변화 필요성 기준 중 하나 이상의 합의도를 달성하지 못한 지표는 7개였으며, 수렴도를 달성하지 못한 지표는 없었다.
3) 최종 평가지표 선정
평가지표의 선정을 위해 2차 델파이 조사결과를 바탕으로 각 평가영역별로 전문가 패널을 대상으로 한 협의회를 개최하였다. ‘기본의학교육과정’ 영역에는 8명, ‘임상실습교육과정’ 영역에는 12명, ‘교육환경, 자원 및 운영체계’ 영역에는 7명, ‘학생 역량 및 교육프로그램 성과 영역’에는 8명, ‘교육과정의 운영 및 성과’ 영역에는 7명이 참여하였다. 평가영역별 전문성을 고려하여 일부 패널은 복수 영역에 해당하는 협의회에 참석하였으며, 평가목적 달성을 위한 지표 설정의 균형 및 연계성을 유지하기 위해 제1저자는 5개 영역 협의회에 모두 참석하여 논의과정을 지원하였다. 또한 제2저자는 4개 영역, 제3저자는 2개 영역에 참석하였다. 협의회에서는 평가지표의 세부사항에 대해 자유롭게 의견을 교환하고, 각 지표 간 중복성, 개선 가능성, 중요도를 심층적으로 다루었다. 특히 특정 평가지표가 실제 교육프로그램에 적용될 때 교육적 영향력에 대해 실질적인 사례를 공유하여 논의를 보다 심화하였다. 협의회 결과를 바탕으로 연세대학교 의과대학 교육프로그램의 목표 성취를 효과적으로 평가할 수 있는 평가지표를 선정하였으며, 이를 평가질문에 맞게 재조정하고, 구체적인 기준 및 예시를 추가하여 수정 및 보완하였다. 도출된 최종 평가지표의 목록은 Table 3과 같다. ‘기본의학교육과정’과 ‘임상실습교육과정’ 영역에서는 각 영역별 총 13개의 평가지표가 선정되었으며, 선정기준은 중요도, 실행 가능성, 변화 필요성 기준 중 하나 이상의 내용타당도가 충족된 평가지표가 포함되었다. ‘교육환경, 자원 및 운영체계’ 영역에서는 총 18개의 평가지표가 선정되었다. ‘36. 의학과 4학년 <특성화선택과정> 교류협정기관 실습 건수’와 ‘39. 학년별 정신건강 실태조사율’ 평가지표는 2차 델파이 조사에서 중요도, 실행 가능성, 변화 필요성에 대한 내용타당도 기준을 통과하지는 못하였으나, 교육의 질 관리를 위해서 꾸준히 추적관찰이 필요한 항목으로 논의되어 최종 평가지표에 포함되었다. ‘학생역량 및 교육프로그램 성과 달성’ 영역에서는 총 34개의 평가지표가 선정되었으며, 수년간에 이르는 교육자료의 수집 및 분석, 장기적 성과의 조사가 필요한 평가영역의 특성상 대부분의 평가지표에서 실행 가능성을 평가하는 내용타당도가 낮게 나타났으며, 중요도 측면에서 내용타당도가 높은 평가지표가 위주로 선정되었다. 다만, ‘45. 교육 관련 교수개발 프로그램에 3시간 참여한 전임교원의 비율’ 평가지표의 경우 내용타당도 기준을 만족하지는 못하였으나, 교육의 질 향상 및 평가인증기준의 강조를 위해 반드시 필요한 항목이라는 합의를 거쳐 최종 평가지표에 포함되었다. 또한 ‘77. 피드백 분석결과에 따른 개선사항을 학생 및 교육자에게 고지한 횟수’ 평가지표도 내용타당도 기준을 만족하지는 못하였으나, 피드백을 바탕으로 개선사항을 고지하는 과정은 교육프로그램 개선절차의 투명성과 신뢰성을 높이는 데 중요한 역할을 하고, ‘76. 교육과정 및 교육의 과정 모니터링을 통해 수집된 교육자와 학생의 피드백을 반영한 개선율’ 평가지표와 함께 사용할 때 유용한 보완적 정보를 제공할 수 있는 평가지표로 협의되어 최종적으로 선정되었다. ‘교육과정의 운영과 성과’ 영역에서는 총 20개의 평가지표가 선정되었다. 이 중 ‘95. 기초의학 전공자의 비율’은 내용타당도를 충족하지 못하였으나, 기초의학교육의 강화를 위한 특정 비율 이상의 전공자 유지 및 증대 필요성으로 본 의과대학의 교육전략 및 목표와 밀접하게 연관되어 최종적으로 선정하게 되었다. ‘97. 학생연구 성과의 양적·질적 평가’와 ‘98. 석산·연세 의과학자 육성사업의 지원자 수 및 경쟁률’은 협의회를 거쳐 새롭게 신설된 평가지표로 학생들의 연구역량을 추적하고 강화하기 위한 필요성을 반영하였으며, 의과학자 육성을 위한 프로그램의 운영성과와 경쟁력을 관리하기 위한 중요 평가지표로 추가되었다.
고찰
본 연구는 의과대학 교육 전반에 걸쳐 교육 여건을 개선하고 교육의 질을 체계적으로 관리할 수 있는 평가체계의 개발을 목표로 하였다. 이를 위해 교육프로그램의 다양한 측면을 포괄할 수 있는 평가영역을 설정하고, 평가모형에 적합한 평가지표를 개발하였으며, 델파이 조사방법을 활용하여 평가지표의 타당성을 검토하고 교육전문가 및 다양한 이해관계자의 의견을 반영하였다. 그 결과, 5개 영역에 걸쳐 총 98개의 평가지표를 도출하였으며, 이는 의과대학의 교육프로그램 전반을 종합적으로 평가할 수 있는 도구로서 중요한 의의를 가진다.
평가영역별 최종 선정된 평가지표의 특징은 다음과 같다. 첫째, ‘기본의학교육과정’과 ‘임상실습교육과정’ 영역에서는 의과대학에서 설정한 교육목표에 도달하기 위한 교육과정 내 전략수립 및 운영을 평가하는 지표로 구성되었다. 이 영역에는 매 학년도 시행되는 교과목 단위에서 교육과정의 계획 및 실행에 대한 자료를 수집하여 교육과정 이행의 적절성을 확인하고, 자원 및 지원의 충분성, 평가기준의 객관성, 피드백 제공 외 행정적 지원과 관련한 측면을 측정할 수 있는 13개의 지표가 포함되었다. 둘째, ‘교육환경, 자원 및 운영체계’ 영역에서는 의료환경 변화, 성과체계 및 인지 정도, 자원 확보와 활용, 교수-학습 환경의 적절성, 평가 및 개선활동의 성과를 분석할 수 있는 18개의 지표가 선정되었다. 셋째, ‘학생 역량 및 교육프로그램 성과’ 영역은 재학생과 졸업생의 역량, 교육프로그램의 효과, 교수 개발, 평가 및 피드백 체계, 피드백 활용 및 개선 내역과 관련하여 총 34개의 평가지표가 선정되었다. 넷째, ‘교육과정의 운영과 성과’ 영역에서는 교육프로그램의 설계와 구성, 교수-학습 방법 및 평가, 자기주도적 활동 및 성과와 관련된 20개의 평가지표가 선정되었으며, 이는 교육과정의 전반적인 실행을 효과적으로 분석하고 개선할 수 있는 근거를 제공하는 데 중점을 두었다.
본 연구의 의의는 기관의 고유한 맥락과 교육과정의 특징을 반영하여, 교육의 각 단계에서 발생하는 복합적인 상호작용을 종합적으로 평가할 수 있는 평가체계를 제공했다는 데 있다. 이를 통해 교육프로그램의 전반적인 질을 평가하고 지속적인 개선을 위한 기초자료를 제공함으로써, 교육과정의 발전을 위해 각 단계에서 발생할 수 있는 다양한 변수를 체계적으로 평가할 수 있을 것이다. 해외 주요 의과대학들도 기관의 교육철학과 교육목표에 맞추어 구조화된 평가체계를 독자적으로 구축하여 교육프로그램의 질을 관리하고 있으며, 본 연구에서 개발된 평가지표도 이와 같은 대학의 사례와 유사점을 가진다. 예를 들어, 미국의 하버드 의과대학(Harvard Medical School)은 자체 교육프로그램의 질 관리를 위해 평가체계를 통해 지속적인 개선을 도모하고 있으며, 정기적으로 교육프로그램의 성과를 분석하고 개선방향을 제시하고 있다. 하버드 의과대학에서 적용하는 평가체계에는 교육과정뿐만 아니라 교수진의 연구 및 교육역량에 대한 평가, 학생들의 교육성과의 추적 등을 포괄하는 다양한 평가항목을 포함하고 있다[38]. 또한 캐나다의 토론토 의과대학(The University of Toronto Temerty Faculty of Medicine)은 교육의 질적 개선을 위해 정기적인 평가와 교수진 및 학생들의 피드백을 중요하게 고려하고, 이를 바탕으로 교육과정의 변화를 추진하고 있다[39]. 국내에서도 일부 의과대학은 자체적인 평가체계를 도입하여 교육의 질적 개선을 추구하고 있으며[15,20,21,40], 이를 통해 교육프로그램의 지속적인 질 향상을 추구하고 있다.
특히 본 연구에서 제안된 평가체계는 교육프로그램의 전반적인 과정을 아우를 수 있도록 구조화되어 교육프로그램의 성과뿐만 아니라 과정 및 실행단계에서 발생하는 교육의 요소들을 포괄적으로 평가할 수 있다는 특징이 있다. 또한 기존의 단일 평가모형이 가지는 한계점을 보완하여 평가영역 및 평가질문에 적합한 통합모형을 제시함으로써 교육의 질이나 성과에 이르는 기전을 체계적으로 평가할 수 있게 하였다. 더 나아가 이러한 평가가 일회성에 그치지 않고, 주기적인 평가를 통해 교육의 개선을 유도하는 데 적합한 지표에 비중을 두고 설계되어 지속적인 질 향상 활동을 지원할 수 있는 기반을 마련할 수 있도록 하였다.
본 연구의 한계점은 다음과 같다. 첫째, 연구에서 개발한 평가지표는 델파이 조사를 통해 이루어졌으며, 이는 제한된 전문가의 의견에 기반하고 있다. 델파이 조사에서 패널의 전문성은 연구의 신뢰성과 타당성에 중요한 영향을 미치며, 연구결과는 조사참여자의 주관적 견해에 영향을 받을 수 있다[41]. 또한 일부 평가지표는 협의회를 개최하여 전문가들의 합의를 거쳐 추가되거나 수정되었으나 제한된 시간으로 인해 각 평가지표에 대한 심층적이고 다면적인 검토가 충분히 이루어지지 못했을 가능성이 있다. 따라서 실제 교육프로그램에서 평가지표를 적용한 결과를 바탕으로 평가의 신뢰도 및 타당도를 검토하고, 평가도구의 실효성에 대한 추가적인 피드백을 수집하는 등 향후 모니터링을 통한 평가체계의 개선이 필요할 것이다. 둘째, 본 연구에서는 양적 자료를 중심으로 교육성과를 측정하는 평가지표가 다수 포함되었으므로, 교육의 질적 측면을 충분히 반영하지 못할 가능성이 있다. 특히 학생들의 학습경험이나 교수-학생 간 상호작용과 같은 교육의 질적 요소를 평가하는 데 한계가 있을 수 있다. 따라서 후속연구를 통해 교육의 질적인 측면을 강화할 수 있는 평가지표로 범위를 확장할 필요가 있다. 셋째, 본 연구에서 개발된 평가지표는 특정 의과대학의 교육환경과 목표를 반영한 것이므로, 일반화에 한계가 있을 수 있다. 각 의과대학은 교육철학과 운영방식, 자원이 다를 수 있기 때문에 본 연구에서 도출된 평가지표의 적용 가능성은 대학의 맥락과 교육에 따라 달라질 수 있다.
적절한 교육프로그램 평가체계의 수립은 교육과정의 개발과 실행에 있어 필수적인 요소이다. 본 연구에서 개발된 평가체계는 교육프로그램 전반을 평가하고 개선하기 위한 기초자료를 제공할 뿐만 아니라, 주기적인 평가를 통해 의과대학 교육프로그램의 성취 정도를 파악하고, 개선이 필요한 영역을 진단하는 데 중요한 역할을 할 것으로 기대된다. 평가체계의 적용은 단순히 현재 상태를 진단하는 데 그치는 것이 아니라, 교육의 질 향상을 위한 전략적 기초를 마련하는 데 기여할 수 있을 것이다. 향후 연구에서는 개발된 평가체계를 실제 교육현장에 적용하여 평가결과의 타당도와 신뢰도를 확인하고 그 실효성을 검증하는 것이 필요하다. 한편, 변화하는 교육환경과 의료시스템에 대응하여 평가지표가 지속적으로 유용하게 사용될 수 있도록 주기적인 재평가와 보완이 필요하다. 이를 통해 교육프로그램의 성과와 한계점을 체계적으로 분석하고 교육과정의 설계와 실행에 필요한 구체적인 방향을 제시할 수 있을 것이다.
Notes
Conflict of interest
이 연구에 영향을 미칠 수 있는 기관이나 이해당사자로부터 재정적, 인적 자원을 포함한 일체의 지원을 받은 바 없으며, 연구윤리와 관련된 제반 이해상충이 없음을 선언한다.
Authors’ contribution
연구설계: 강유림, 김혜원, 최준용; 자료분석: 강유림; 원고작성 및 수정: 강유림, 김혜원; 원고검토 및 수정: 최준용