台灣急診醫學會 - 台灣急診醫學通訊


首頁本會期刊台灣急診醫學通訊第四卷第四期致急診教師：評量的歷史演進-由數字到委員會本會期刊台灣急診醫學通訊台灣急診醫學通訊第四卷第四期刊登日期：2021/08/30 Taiwan Emergency Medicine Bulletin 4(4) : e2021040407回上頁點閱次數：884 PDF下載次數：5 致急診教師：評量的歷史演進-由數字到委員會黃昭硯^1,2 劉政亨³ ¹中山醫學大學附設醫院急診醫學部 ²中山醫學大學醫學系 ³國立臺灣大學醫學院附設醫院新竹分院急診醫學部有鑒於住院醫師臨床能力委員會（Clinical Competency Committee, CCC）成為近年醫學教育在評量上的重要發展方向，因此本文整理一篇2020年發表於期刊Advances in Health Sciences Education的文章「A history of assessment in medical education 」¹，來簡述評量在醫學教育中的演變及CCC的發展脈絡。近年來，醫學教育中評量（assessment）的內涵一直在轉變。原文¹將其分為三種演進階段：以測量為依歸的評量（assessment as measurement）、以評判為依歸的評量（assessment as judgement）、以系統為依歸的評量（assessment as system）。這三種演進階段並不互相獨立，而是彼此重疊且互相影響的。以測量為依歸的評量（assessment as measurement）在1960年代，評量追求的是結構化、標準化且高度客觀的模式，就像智力測驗一般，希望透過單純的數字量化一個人的能力。在這樣的邏輯下，客觀的評量應該屏除評分者的個人判斷，並強調測量工具的準確性，而評量所得出的量化結果多半被用來區分學生為通過或不通過。研究也指出，這樣的評量必須面對信度及效度的問題，乃至於針對評量有一系列的文獻^2,3在探討效度證據建立的過程，例如考試內容是否反映學習目標、題幹說明是否影響答題、試卷題目本身的內在一致性、鑑別度是否良好、以及評量本身是否能呼應真實世界中其他的量測方式。若未注意相關細節，當一份筆試題目比重偏向冷門的內容時，剛好準備到的考生就可能順利通過，而其應答筆試的解題能力則未必能代表在實務中解決問題的能力。臨床的勝任能力包含了知識、態度、技術與解決問題的能力等四個面向，由心理學測驗的觀點，這四種次能力應該可被單獨測量且不受彼此影響，因而發展出筆試及臨床技能考核（OSCE）等不同形式的測量工具。然而，Van der Vleuten⁴等人的研究卻顯示技能性測驗可以用紙本測驗來部分取代，而Swanson⁵也歸納出醫學評量中最重視的兩種能力：臨床推理能力與問題解決能力，其實都和背景知識呈現高度相關。在這個階段，醫學教育者們致力於發展量化評估工具，卻發現不同面向與不同性質的評估工具，彼此相關卻又有所差異，反映出評量本身的複雜性。將評量簡化成測量的過程，是這個階段面臨的矛盾。以評判為依歸的評量（assessment as judgement） 1990年代Boud⁶等人提出，評量的目的應該是促進學員獨立、發展全面性觀點及批判性思考等等，但以測量做為評量的方式卻與學習背道而馳。Boud⁷繼而提出，只有將學員納入主動參與評量的一部分，並給予回饋才能彰顯出評量的價值。過去的評量主要強調「胡蘿蔔與棍子」（reinforcement and punishment），以數字作為總結性的結果，忽略能力形成的過程。但評量對於學習的影響其實是相對複雜，因而產生幾種思維轉變。首先是勝任能力(competency)的概念⁸，勝任能力應該被視為醫學教育的結果而非個人特質，這讓教育者可以藉由有意義的回饋來強化學習。第二點是評量應該回到實際場域，以包含專業素養、自我反省、批判性思考等更多面向的考量。最後則是納入人為評判（human judgement）於評量過程⁹。結合上一階段發展出的信效度概念，實際工作場域中的評估（Workplace-based assessment , WBA）將可以兼顧客觀及場域真實性，讓一些無法在OSCE被測量的面向得以被觀察，如壓力下的處置判斷、與病患互動的應變能力及健保制度下行醫等等。在WBA當中，評分者透過直接觀察進行評量並給予成績。然而，不同的評分者可能會觀察到不同面向而有不同的結果，這導致了對於客觀性的批評。事實上，Gingerich¹⁰探討了評分者差異其實是對學員能力的不同觀點，彼此屬於互補且加成，而在Olle ten Catey提出可信賴專業活動（Entrustable Professional Activities, EPA）的概念後¹¹，讓原本概略化的WBA成績有更清楚的任務及能力導向(Competency-based)架構作為評核的依歸。然而，儘管EPA兼顧了多種次核心能力的評核，也強調了其連續性評估的特性，卻依舊受限於場合與形式，難以產生全面性的結論，而這樣的限制也促成了醫學教育評量第三階段的演進，以系統為依歸的評量。以系統為依歸的評量（assessment as system）這個階段以系統理論的思維來探究醫學教育中評量的角色¹²：1.教育是解決問題的過程，而其途徑應該是多元的。2.在不同的途徑中，適合與不適合的邊界其實是模糊的。3.如果選擇的途徑並非最佳辦法，主事者應該要察覺，保持彈性並主動調整。在這樣的背景下，評量的形式由單一方法轉變為系統評估為導向，例如規劃性評估(programmatic assessment)的概念¹³，將評量視為一個整體，納入學員與老師對整體學習歷程的互動，並多方參考各種測驗及評估結果作為三角校正，猶如質性研究者以多面向的資訊來建構出預期探究的本體-學生的學習成效¹⁴。由上述的演進脈絡，不難理解住院醫師臨床能力委員會(Clinical Competency Committee, CCC）在今日所成的面貌¹⁵，除了量化的測量更重視數字背後的內涵，及如何與學員臨床勝任能力相呼應，透過老師們的集體智慧(shared mental model)，與學員間的互動辯證，共同歸納出學習現況並給予以學員為中心的後續建議。總結來說，醫學教育評量的目的不在於獲取測量高分，而是以改進學員解決問題、批判思考的方法，並培養完善的專業素養及勝任能力為最終目標。參考文獻 1. Schuwirth LWT, Vleuten CPM van der. A history of assessment in medical education. Adv Health Sci Educ 2020. 25;1045-1056. 2. Cronbach LJ. What Price Simplicity? Educ Meas Issues Pract 1983;2(2):11-12. 3. Cronbach LJ, Meehl PE. Construct validity in psychological tests. Psychological Bulletin 1955;52(4);281-302. 4. Van der Vleuten CP, Van Luyk SJ, Beckers HJ. A written test as an alternative to performance testing. Med Educ. 1989 Jan;23(1):97-107. 5. Swanson DB, Norman GR Linn RL. Performance-Based Assessment: Lessons From the Health Professions. Educ Researcher 1995; 24(5):5-11. 6. Boud D. Assessment and the promotion of academic values. Stud High Educ 1990; 15(1);101-111. 7. Sambell K, McDowell L, Montgomery C. Assessment for Learning in Higher Education. (1st ed., pp. 35-45). Routledge. 2012. 8. Van Der Vleuten CP. The assessment of professional competence: Developments, research and practical implications. Adv Health Sci Educ Theory Pract. 1996 Jan;1(1):41-67. 9. Valentine N, Durning S, Shanahan EM, Schuwirth L. Fairness in human judgement in assessment: a hermeneutic literature review and conceptual framework. Adv Health Sci Educ 2021;26(4):713–738. 10. Gingerich A, Ramlo SE, van der Vleuten CPM, Eva KW, Regehr G. Inter-rater variability as mutual disagreement: identifying raters' divergent points of view. Adv Health Sci Educ Theory Pract. 2017 Oct;22(4):819-838. 11. ten Cate O. Entrustability of professional activities and competency-based training. Med Educ. 2005 Dec;39(12):1176-1177. 12. Bertrand L, Thoury M, Gueriau P, Anheim É, Cohen S. Deciphering the Chemistry of Cultural Heritage: Targeting Material Properties by Coupling Spectral Imaging with Image Analysis. Acc Chem Res. 2021 Jul 6;54(13):2823-2832. 13. Schuwirth LW, van der Vleuten CP. Programmatic assessment and Kane's validity perspective. Med Educ. 2012 Jan;46(1):38-48. 14. Driessen E, van der Vleuten C, Schuwirth L, van Tartwijk J, Vermunt J. The use of qualitative research criteria for portfolio assessment as an alternative to reliability evaluation: a case study. Med Educ. 2005 Feb;39(2):214-220. 15. Promes SB, Wagner MJ. Starting a clinical competency committee. J Grad Med Educ. 2014 Mar;6(1):163-164. 回上頁

第四卷第四期
刊登日期：2021/08/30
Taiwan Emergency Medicine Bulletin 4(4) : e2021040407回上頁

點閱次數：884 PDF下載次數：5

致急診教師：評量的歷史演進-由數字到委員會

黃昭硯^1,2

劉政亨³

¹中山醫學大學附設醫院急診醫學部
²中山醫學大學醫學系
³國立臺灣大學醫學院附設醫院新竹分院急診醫學部

有鑒於住院醫師臨床能力委員會（Clinical Competency Committee, CCC）成為近年醫學教育在評量上的重要發展方向，因此本文整理一篇2020年發表於期刊Advances in Health Sciences Education的文章「A history of assessment in medical education 」¹，來簡述評量在醫學教育中的演變及CCC的發展脈絡。

近年來，醫學教育中評量（assessment）的內涵一直在轉變。原文¹將其分為三種演進階段：以測量為依歸的評量（assessment as measurement）、以評判為依歸的評量（assessment as judgement）、以系統為依歸的評量（assessment as system）。這三種演進階段並不互相獨立，而是彼此重疊且互相影響的。

以測量為依歸的評量（assessment as measurement）

在1960年代，評量追求的是結構化、標準化且高度客觀的模式，就像智力測驗一般，希望透過單純的數字量化一個人的能力。在這樣的邏輯下，客觀的評量應該屏除評分者的個人判斷，並強調測量工具的準確性，而評量所得出的量化結果多半被用來區分學生為通過或不通過。研究也指出，這樣的評量必須面對信度及效度的問題，乃至於針對評量有一系列的文獻^2,3在探討效度證據建立的過程，例如考試內容是否反映學習目標、題幹說明是否影響答題、試卷題目本身的內在一致性、鑑別度是否良好、以及評量本身是否能呼應真實世界中其他的量測方式。若未注意相關細節，當一份筆試題目比重偏向冷門的內容時，剛好準備到的考生就可能順利通過，而其應答筆試的解題能力則未必能代表在實務中解決問題的能力。

臨床的勝任能力包含了知識、態度、技術與解決問題的能力等四個面向，由心理學測驗的觀點，這四種次能力應該可被單獨測量且不受彼此影響，因而發展出筆試及臨床技能考核（OSCE）等不同形式的測量工具。然而，Van der Vleuten⁴等人的研究卻顯示技能性測驗可以用紙本測驗來部分取代，而Swanson⁵也歸納出醫學評量中最重視的兩種能力：臨床推理能力與問題解決能力，其實都和背景知識呈現高度相關。在這個階段，醫學教育者們致力於發展量化評估工具，卻發現不同面向與不同性質的評估工具，彼此相關卻又有所差異，反映出評量本身的複雜性。將評量簡化成測量的過程，是這個階段面臨的矛盾。

以評判為依歸的評量（assessment as judgement）

1990年代Boud⁶等人提出，評量的目的應該是促進學員獨立、發展全面性觀點及批判性思考等等，但以測量做為評量的方式卻與學習背道而馳。Boud⁷繼而提出，只有將學員納入主動參與評量的一部分，並給予回饋才能彰顯出評量的價值。

過去的評量主要強調「胡蘿蔔與棍子」（reinforcement and punishment），以數字作為總結性的結果，忽略能力形成的過程。但評量對於學習的影響其實是相對複雜，因而產生幾種思維轉變。首先是勝任能力(competency)的概念⁸，勝任能力應該被視為醫學教育的結果而非個人特質，這讓教育者可以藉由有意義的回饋來強化學習。第二點是評量應該回到實際場域，以包含專業素養、自我反省、批判性思考等更多面向的考量。最後則是納入人為評判（human judgement）於評量過程⁹。結合上一階段發展出的信效度概念，實際工作場域中的評估（Workplace-based assessment , WBA）將可以兼顧客觀及場域真實性，讓一些無法在OSCE被測量的面向得以被觀察，如壓力下的處置判斷、與病患互動的應變能力及健保制度下行醫等等。

在WBA當中，評分者透過直接觀察進行評量並給予成績。然而，不同的評分者可能會觀察到不同面向而有不同的結果，這導致了對於客觀性的批評。事實上，Gingerich¹⁰探討了評分者差異其實是對學員能力的不同觀點，彼此屬於互補且加成，而在Olle ten Catey提出可信賴專業活動（Entrustable Professional Activities, EPA）的概念後¹¹，讓原本概略化的WBA成績有更清楚的任務及能力導向(Competency-based)架構作為評核的依歸。然而，儘管EPA兼顧了多種次核心能力的評核，也強調了其連續性評估的特性，卻依舊受限於場合與形式，難以產生全面性的結論，而這樣的限制也促成了醫學教育評量第三階段的演進，以系統為依歸的評量。

以系統為依歸的評量（assessment as system）

這個階段以系統理論的思維來探究醫學教育中評量的角色¹²：1.教育是解決問題的過程，而其途徑應該是多元的。2.在不同的途徑中，適合與不適合的邊界其實是模糊的。3.如果選擇的途徑並非最佳辦法，主事者應該要察覺，保持彈性並主動調整。

在這樣的背景下，評量的形式由單一方法轉變為系統評估為導向，例如規劃性評估(programmatic assessment)的概念¹³，將評量視為一個整體，納入學員與老師對整體學習歷程的互動，並多方參考各種測驗及評估結果作為三角校正，猶如質性研究者以多面向的資訊來建構出預期探究的本體-學生的學習成效¹⁴。

由上述的演進脈絡，不難理解住院醫師臨床能力委員會(Clinical Competency Committee, CCC）在今日所成的面貌¹⁵，除了量化的測量更重視數字背後的內涵，及如何與學員臨床勝任能力相呼應，透過老師們的集體智慧(shared mental model)，與學員間的互動辯證，共同歸納出學習現況並給予以學員為中心的後續建議。總結來說，醫學教育評量的目的不在於獲取測量高分，而是以改進學員解決問題、批判思考的方法，並培養完善的專業素養及勝任能力為最終目標。

參考文獻

1. Schuwirth LWT, Vleuten CPM van der. A history of assessment in medical education. Adv Health Sci Educ 2020. 25;1045-1056.
2. Cronbach LJ. What Price Simplicity? Educ Meas Issues Pract 1983;2(2):11-12.
3. Cronbach LJ, Meehl PE. Construct validity in psychological tests. Psychological Bulletin 1955;52(4);281-302.
4. Van der Vleuten CP, Van Luyk SJ, Beckers HJ. A written test as an alternative to performance testing. Med Educ. 1989 Jan;23(1):97-107.
5. Swanson DB, Norman GR Linn RL. Performance-Based Assessment: Lessons From the Health Professions. Educ Researcher 1995; 24(5):5-11.
6. Boud D. Assessment and the promotion of academic values. Stud High Educ 1990; 15(1);101-111.
7. Sambell K, McDowell L, Montgomery C. Assessment for Learning in Higher Education. (1st ed., pp. 35-45). Routledge. 2012.
8. Van Der Vleuten CP. The assessment of professional competence: Developments, research and practical implications. Adv Health Sci Educ Theory Pract. 1996 Jan;1(1):41-67.
9. Valentine N, Durning S, Shanahan EM, Schuwirth L. Fairness in human judgement in assessment: a hermeneutic literature review and conceptual framework. Adv Health Sci Educ 2021;26(4):713–738.
10. Gingerich A, Ramlo SE, van der Vleuten CPM, Eva KW, Regehr G. Inter-rater variability as mutual disagreement: identifying raters' divergent points of view. Adv Health Sci Educ Theory Pract. 2017 Oct;22(4):819-838.
11. ten Cate O. Entrustability of professional activities and competency-based training. Med Educ. 2005 Dec;39(12):1176-1177.
12. Bertrand L, Thoury M, Gueriau P, Anheim É, Cohen S. Deciphering the Chemistry of Cultural Heritage: Targeting Material Properties by Coupling Spectral Imaging with Image Analysis. Acc Chem Res. 2021 Jul 6;54(13):2823-2832.
13. Schuwirth LW, van der Vleuten CP. Programmatic assessment and Kane's validity perspective. Med Educ. 2012 Jan;46(1):38-48.
14. Driessen E, van der Vleuten C, Schuwirth L, van Tartwijk J, Vermunt J. The use of qualitative research criteria for portfolio assessment as an alternative to reliability evaluation: a case study. Med Educ. 2005 Feb;39(2):214-220.
15. Promes SB, Wagner MJ. Starting a clinical competency committee. J Grad Med Educ. 2014 Mar;6(1):163-164.