提示工程-以 PEDro 量表為例
我詢問 ChatGPT & Claude AI 相關問題,結果如下:
ChatGPT 如連結。
Claude 如下:
Q:您是一位 prompting enginering 專家,請解釋 chain of thought,並以應用於 PEDro scale 應用於評論 RCT 論文為例說明之
我很樂意為您解釋 chain of thought(思維鏈)概念,並以應用於 PEDro scale 評論隨機對照試驗(RCT)論文為例說明。
chain of thought 是一種提示工程技術,旨在引導人工智能模型通過一系列邏輯步驟來解決複雜問題。這種方法鼓勵模型逐步思考,類似於人類解決問題的方式,從而提高其推理能力和輸出質量。
現在,讓我們以使用 PEDro scale 評論 RCT 論文為例,說明如何應用 chain of thought:
1. 首先,我們可以這樣開始提示:
"請使用 PEDro scale 評估以下 RCT 論文。逐步思考每個評分標準,並解釋你的評分理由。"
2. 然後,我們可以引導模型按照 PEDro scale 的 11 個標準逐一思考:
"1. 請檢查論文是否明確說明了受試者的納入標準。解釋你的發現。
2. 現在,評估受試者是否被隨機分配到不同組別。描述你在論文中找到的相關信息。
3. 分配是否是隱蔽的?解釋論文如何描述這一過程。
4. 檢查基線時各組的主要預後指標是否相似。提供你的觀察結果。
5. 受試者是否被盲法處理?說明你的判斷依據。
6. 治療師是否被盲法處理?解釋論文中的相關描述。
7. 評估者是否被盲法處理?提供論文中的證據。
8. 是否至少有 85% 的受試者完成了關鍵結果測量?計算並解釋你的結論。
9. 所有受試者是否都接受了分配的治療或對照條件?如果沒有,是否進行了意向性分析?解釋你的發現。
10. 組間比較的統計結果是否被報告?描述你在論文中找到的相關數據。
11. 研究是否同時提供了點估計和變異性估計?舉例說明。"
3. 最後,我們可以要求模型總結其評估:
"基於以上分析,請給出這篇 RCT 論文在 PEDro scale 上的總分,並簡要總結其優缺點。"
通過這種 chain of thought 方法,我們引導模型系統地思考 PEDro scale 的每個方面,確保全面評估論文質量,並提供詳細的推理過程。這不僅有助於得出更準確的評分,也使評估過程更加透明和可靠。
如果您想了解更多細節或有任何其他問題,我很樂意為您進一步解釋。
Q:以上有關 chain of thought 的概念,我覺得是大架構的思考/評析步驟。請以 PEDro11題目為例,逐題提供仔細的chain of thought,以更深入導引/評析。
非常好的建議。我會為 PEDro scale 的每一個項目提供更詳細的 chain of thought,以深入指導評析過程。這將幫助我們更仔細地審查每個標準。
1. 受試者的納入標準是否有明確說明?
- 檢查方法部分是否有專門的段落描述納入標準
- 尋找關鍵詞如"inclusion criteria"、"eligible participants"
- 確認是否明確列出年齡範圍、疾病狀態、其他相關特徵
- 評估這些標準是否足夠具體,能讓其他研究者重複
2. 受試者是否被隨機分配到不同組別?
- 查找"randomization"、"randomly assigned"等詞
- 確認是否描述了具體的隨機化方法(如電腦生成的隨機數序列)
- 檢查是否提到了分組過程(如1:1分配)
- 評估隨機化過程是否適當且無偏
3. 分配是否是隱蔽的?
- 尋找"allocation concealment"、"sealed envelopes"等詞
- 檢查是否描述了如何防止預知分組(如不透明信封、中心化分配系統)
- 評估所用方法是否足以防止選擇偏倚
- 確認執行隨機化的人員是否與招募參與者的人員分開
4. 基線時各組的主要預後指標是否相似?
- 查找基線特徵表格
- 檢查人口統計學數據(年齡、性別等)和關鍵臨床指標
- 比較各組的均值/中位數和標準差/四分位距
- 注意作者是否報告了組間差異的統計顯著性
- 評估任何差異是否可能影響結果解釋
5. 受試者是否被盲法處理?
- 尋找"blinding"、"masked"等詞,特別是與參與者相關的描述
- 評估所用的盲法方法(如相同外觀的安慰劑)
- 考慮研究設計是否允許對參與者進行盲法處理
- 如果沒有盲法,評估這可能如何影響結果
6. 對受試者進行治療的人員是否被盲法處理?
- 查找有關治療師或臨床醫生盲法的描述
- 評估在研究設計下是否可能對治療人員進行盲法
- 如果做到了,描述如何確保治療人員不知道分組情況
- 如果沒有盲法,考慮這可能如何影響治療的提供和患者的體驗
7. 對主要預後指標進行評估的人員是否被盲法處理?
- 尋找關於結果評估者盲法的信息
- 確認是否明確stated評估者不知道分組情況
- 檢查用於維持評估者盲法的方法(如獨立的評估團隊)
- 評估盲法的完整性,是否有可能被打破
8. 是否至少有85%的受試者完成了至少一次主要預後指標的測量?
- 查找流程圖或文本中的脫落率信息
- 計算完成主要結果測量的參與者比例
- 檢查各組的脫落率是否相似
- 評估脫落原因,考慮是否與研究干預有關
9. 是否對所有受試者採用意向性分析?
- 尋找"intention-to-treat"或"ITT"的明確陳述
- 檢查分析中包含的參與者數量是否與初始隨機化數量一致
- 評估如何處理缺失數據(如最後觀察值結轉、多重插補)
- 如果使用了per-protocol分析,檢查是否也報告了ITT結果
10. 是否報告了組間至少一個主要預後指標的統計比較結果?
- 查找主要結果的統計分析部分
- 確認是否報告了組間比較的p值或置信區間
- 檢查使用的統計方法是否適當(如t檢驗、ANOVA、回歸分析)
- 評估結果的呈現是否清晰,包括效應大小的報告
11. 研究是否同時提供了點估計和變異性估計?
- 檢查結果表格和文本
- 確認是否報告了效應大小的點估計(如平均差、比值比)
- 查看是否提供了相應的變異性度量(如標準差、置信區間)
- 評估這些估計是否足以理解效應的精確度和臨床相關性
通過這種詳細的 chain of thought,我們可以更系統、更深入地評估每個 PEDro 標準,確保不遺漏任何重要細節,並提供更全面、更可靠的評估。這種方法不僅有助於得出準確的評分,還能幫助識別研究的優缺點,為改進研究設計提供有價值的見解。
Q:有關"8.是否至少有85%的受試者完成了至少一次主要預後指標的測量?" 除了 "查找流程圖或文本中的脫落率信息
* 計算完成主要結果測量的參與者比例
* 檢查各組的脫落率是否相似
* 評估脫落原因,考慮是否與研究干預有關" 請再提供更仔細的思考/查證步驟,亦請提供更多實例(符合與不符合評析標準的例子),以提升效能
您提出了一個很好的要求。我會為這個標準提供更詳細的思考步驟,並增加一些實例來說明。這將有助於更全面地評估這個重要的方法學標準。
更詳細的思考/查證步驟:
1. 確定主要預後指標:
- 在方法部分查找明確標註的主要結果
- 如果沒有明確標註,考慮研究目標中提到的關鍵指標
2. 定位參與者流程信息:
- 檢查文章是否包含 CONSORT 流程圖
- 如果沒有流程圖,搜索方法和結果部分的相關文字描述
3. 確定初始樣本量:
- 記錄隨機分配到每組的參與者數量
- 計算總的初始樣本量
4. 追踪參與者流程:
- 記錄每個時間點的參與者數量
- 特別注意主要結果測量時的參與者數量
5. 計算完成率:
- 對每組分別計算:(完成主要結果測量的人數 / 初始隨機分配人數) × 100%
- 計算總體完成率:(所有組完成測量的總人數 / 總初始樣本量) × 100%
6. 評估是否達到 85% 標準:
- 如果總體完成率 ≥ 85%,此標準得分
- 如果 < 85%,則不得分
7. 分析脫落模式:
- 比較各組的脫落率,檢查是否存在顯著差異
- 如果存在差異,考慮這是否可能導致偏倚
8. 檢查脫落原因:
- 列出所有報告的脫落原因
- 評估這些原因是否與研究干預或結果相關
- 考慮這些脫落是否可能影響結果的有效性
9. 評估處理缺失數據的方法:
- 檢查研究者是否使用了任何方法來處理缺失數據(如最後觀察值結轉、多重插補)
- 評估這些方法的適當性和可能對結果的影響
10. 考慮長期隨訪的影響:
- 如果是長期研究,評估不同時間點的完成率
- 考慮時間對完成率的影響,以及這如何影響結果的解釋
實例:
符合標準的例子:
1. 研究 A:
- 初始樣本量:200人(每組100人)
- 完成主要結果測量:干預組95人,對照組92人
- 計算:(95 + 92) / 200 = 93.5%
- 結論:超過85%,符合標準
2. 研究 B:
- 初始樣本量:150人(干預組75人,對照組75人)
- 完成主要結果測量:干預組70人,對照組68人
- 計算:(70 + 68) / 150 = 92%
- 額外信息:使用多重插補處理缺失數據
- 結論:符合標準,且恰當處理了缺失數據
不符合標準的例子:
1. 研究 C:
- 初始樣本量:100人(每組50人)
- 完成主要結果測量:干預組40人,對照組42人
- 計算:(40 + 42) / 100 = 82%
- 結論:低於85%,不符合標準
2. 研究 D:
- 初始樣本量:300人(干預組150人,對照組150人)
- 完成主要結果測量:干預組120人,對照組135人
- 計算:(120 + 135) / 300 = 85%
- 額外信息:干預組脫落率明顯高於對照組
- 結論:雖然達到85%,但組間脫落率差異大,可能引入偏倚,需謹慎解釋
3. 研究 E:
- 初始樣本量:250人(每組125人)
- 6個月結果:干預組110人,對照組105人(總計86%)
- 12個月結果(主要終點):干預組100人,對照組95人
- 計算:(100 + 95) / 250 = 78%
- 結論:雖然中期完成率高,但主要終點測量低於85%,不符合標準
通過這些更詳細的步驟和實例,我們可以更全面地評估這個標準,不僅考慮數字本身,還要考慮脫落的模式和原因,以及研究者如何處理這些問題。這種深入的分析可以提供更準確的評估,並有助於理解研究結果的可靠性和普遍性。
Q:除了chain of thought,還有其它方法可以提升 prompting 之效能?亦請以 PEDro為例說明
當然,除了 chain of thought 之外,還有幾種能提升 prompting 效能的方法。我會介紹這些方法,並以 PEDro scale 為例說明它們的應用。
1. Few-shot learning (少樣本學習):
這種方法通過提供幾個範例來幫助模型理解任務。
例子:
"以下是使用 PEDro scale 評估 RCT 論文的兩個例子:
論文 A:
1. 納入標準: 是 (明確說明了)
2. 隨機分配: 是 (使用電腦生成的隨機數)
...
總分: 8/10
論文 B:
1. 納入標準: 否 (未明確說明)
2. 隨機分配: 是 (使用區組隨機化)
...
總分: 6/10
現在,請你評估以下論文 C:"
2. Role prompting (角色提示):
讓模型扮演特定角色,可以提高其表現。
例子:
"你是一位經驗豐富的臨床研究方法學專家,專門使用 PEDro scale 評估 RCT 論文質量。請評估以下論文,並詳細解釋你的評分理由。"
3. Task decomposition (任務分解):
將複雜任務分解為更小、更容易管理的子任務。
例子:
"讓我們逐步評估這篇 RCT 論文:
1. 首先,閱讀摘要並確定研究設計。
2. 然後,仔細檢查方法部分,重點關注受試者選擇和隨機化過程。
3. 接下來,評估干預措施和對照組的描述。
4. 審查結果部分,關注數據收集和統計分析。
5. 最後,根據 PEDro scale 的每個標準進行評分。"
4. Self-consistency (自我一致性):
讓模型生成多個回答,然後選擇最一致或最常見的回答。
例子:
"請獨立評估這篇 RCT 論文三次,每次使用 PEDro scale。然後比較這三次評分,解釋任何差異,並給出最終評分。"
5. Reflection and refinement (反思和改進):
讓模型反思其回答,並進行自我修正。
例子:
"請使用 PEDro scale 評估這篇 RCT 論文。完成後,請反思你的評分過程:你是否可能遺漏了什麼重要信息?你的評分是否存在任何偏見?基於這些反思,如果需要的話,請調整你的評分並解釋原因。"
6. Structured output (結構化輸出):
要求模型以特定格式提供答案,以確保全面性和一致性。
例子:
"請使用以下格式評估這篇 RCT 論文:
標準1: [分數] - [理由]
標準2: [分數] - [理由]
...
標準11: [分數] - [理由]
總分: [X]/10
優點:
1.
2.
缺點:
1.
2.
總體評價: [你的評論]"
這些方法可以單獨使用,也可以結合使用,以獲得最佳效果。選擇哪種方法取決於具體任務、模型能力和所需輸出的性質。
您是否希望我詳細解釋其中的某個方法,或者您對如何在 PEDro scale 評估中應用這些方法有任何具體問題?
Q;以上的 prompting 皆為「事前」的 prompting, 有無「事後」(結果輸出後)的 prompting?以檢查或精進結果的方法?
您提出了一個非常好的問題。確實,除了「事前」的 prompting 技術外,還有一些「事後」的 prompting 方法,可以用來檢查、改進或精煉模型的輸出結果。這些方法通常被稱為「後處理」或「結果優化」技術。讓我為您介紹幾種常用的方法,並繼續以 PEDro scale 評估為例來說明:
1. 結果驗證(Output Verification):
要求模型檢查其自身的輸出是否符合特定標準或要求。
例子:
"你剛才使用 PEDro scale 評估了一篇 RCT 論文。現在,請仔細檢查你的評估結果,確保:
a) 每個標準的評分都有充分的理由支持
b) 總分計算正確
c) 沒有遺漏任何 PEDro scale 的標準
如果發現任何問題,請指出並修正。"
2. 自我批評(Self-critique):
讓模型批評自己的輸出,指出可能的缺陷或改進空間。
例子:
"請回顧你對這篇 RCT 論文的 PEDro scale 評估。以一位嚴格的同行評審的角度,批評這個評估。指出任何可能的弱點、主觀判斷或需要更多證據支持的地方。"
3. 替代視角(Alternative Perspectives):
要求模型從不同角度重新考慮問題,可能會發現新的見解。
例子:
"你已經完成了這篇 RCT 論文的 PEDro scale 評估。現在,請從以下三個不同角度重新考慮你的評估:
1. 作為論文的作者
2. 作為該研究的資助者
3. 作為可能使用這項研究結果的臨床醫生
這些不同視角是否會改變你對某些標準的評分?為什麼?"
4. 深入解釋(Elaboration):
要求模型對其輸出提供更詳細的解釋或例子。
例子:
"對於你在 PEDro scale 評估中給出的每個評分,請提供更詳細的解釋。特別是對於評分較低的項目,請引用論文中的具體內容來支持你的判斷,並建議作者如何改進。"
5. 假設情境(Hypothetical Scenarios):
提出假設情況,看看模型是否能夠一致地應用其判斷。
例子:
"基於你對這篇 RCT 論文的 PEDro scale 評估,考慮以下假設情況:
1. 如果作者增加了意向性分析,你的評分會如何變化?
2. 如果研究的盲法程序更嚴格,會影響哪些評分項目?
3. 如果樣本量增加一倍,但其他因素保持不變,這會改變你的哪些評價?"
6. 同儕審查模擬(Peer Review Simulation):
讓模型模擬同儕審查過程,可能發現新的觀點。
例子:
"假設你是這篇 RCT 論文的同儕審稿人。基於你的 PEDro scale 評估,撰寫一份詳細的審稿意見。包括論文的優點、需要改進的地方,以及具體的修改建議。"
7. 量化置信度(Confidence Quantification):
要求模型對其評估結果的每個部分給出置信度評分。
例子:
"請重新審視你的 PEDro scale 評估結果。對每個評分項目,給出一個 1-10 的置信度評分,其中 1 表示非常不確定,10 表示絕對確定。對於置信度較低的項目,解釋為什麼,並指出需要哪些額外信息來提高置信度。"
這些「事後」prompting 技術可以幫助提高模型輸出的質量、準確性和可靠性。它們可以單獨使用,也可以組合使用,具體取決於任務的性質和所需的輸出質量。
您對這些方法有什麼看法?是否希望我詳細解釋其中的某個方法,或者探討如何將它們應用到其他類型的任務中?
留言
張貼留言