提示工程-以 PEDro 量表為例

我詢問 ChatGPT & Claude AI 相關問題,結果如下:

ChatGPT 如連結。

Claude 如下:

Q:您是一位 prompting enginering 專家,請解釋 chain of thought,並以應用於 PEDro scale 應用於評論 RCT 論文為例說明之

我很樂意為您解釋 chain of thought(思維鏈)概念,並以應用於 PEDro scale 評論隨機對照試驗(RCT)論文為例說明。

chain of thought 是一種提示工程技術,旨在引導人工智能模型通過一系列邏輯步驟來解決複雜問題。這種方法鼓勵模型逐步思考,類似於人類解決問題的方式,從而提高其推理能力和輸出質量。

現在,讓我們以使用 PEDro scale 評論 RCT 論文為例,說明如何應用 chain of thought:

1. 首先,我們可以這樣開始提示:

   "請使用 PEDro scale 評估以下 RCT 論文。逐步思考每個評分標準,並解釋你的評分理由。"

2. 然後,我們可以引導模型按照 PEDro scale 的 11 個標準逐一思考:

   "1. 請檢查論文是否明確說明了受試者的納入標準。解釋你的發現。

   2. 現在,評估受試者是否被隨機分配到不同組別。描述你在論文中找到的相關信息。

   3. 分配是否是隱蔽的?解釋論文如何描述這一過程。

   4. 檢查基線時各組的主要預後指標是否相似。提供你的觀察結果。

   5. 受試者是否被盲法處理?說明你的判斷依據。

   6. 治療師是否被盲法處理?解釋論文中的相關描述。

   7. 評估者是否被盲法處理?提供論文中的證據。

   8. 是否至少有 85% 的受試者完成了關鍵結果測量?計算並解釋你的結論。

   9. 所有受試者是否都接受了分配的治療或對照條件?如果沒有,是否進行了意向性分析?解釋你的發現。

   10. 組間比較的統計結果是否被報告?描述你在論文中找到的相關數據。

   11. 研究是否同時提供了點估計和變異性估計?舉例說明。"

3. 最後,我們可以要求模型總結其評估:

   "基於以上分析,請給出這篇 RCT 論文在 PEDro scale 上的總分,並簡要總結其優缺點。"

通過這種 chain of thought 方法,我們引導模型系統地思考 PEDro scale 的每個方面,確保全面評估論文質量,並提供詳細的推理過程。這不僅有助於得出更準確的評分,也使評估過程更加透明和可靠。

如果您想了解更多細節或有任何其他問題,我很樂意為您進一步解釋。


Q:以上有關 chain of thought 的概念,我覺得是大架構的思考/評析步驟。請以 PEDro11題目為例,逐題提供仔細的chain of thought,以更深入導引/評析。

非常好的建議。我會為 PEDro scale 的每一個項目提供更詳細的 chain of thought,以深入指導評析過程。這將幫助我們更仔細地審查每個標準。

1. 受試者的納入標準是否有明確說明?

   - 檢查方法部分是否有專門的段落描述納入標準

   - 尋找關鍵詞如"inclusion criteria"、"eligible participants"

   - 確認是否明確列出年齡範圍、疾病狀態、其他相關特徵

   - 評估這些標準是否足夠具體,能讓其他研究者重複

2. 受試者是否被隨機分配到不同組別?

   - 查找"randomization"、"randomly assigned"等詞

   - 確認是否描述了具體的隨機化方法(如電腦生成的隨機數序列)

   - 檢查是否提到了分組過程(如1:1分配)

   - 評估隨機化過程是否適當且無偏

3. 分配是否是隱蔽的?

   - 尋找"allocation concealment"、"sealed envelopes"等詞

   - 檢查是否描述了如何防止預知分組(如不透明信封、中心化分配系統)

   - 評估所用方法是否足以防止選擇偏倚

   - 確認執行隨機化的人員是否與招募參與者的人員分開

4. 基線時各組的主要預後指標是否相似?

   - 查找基線特徵表格

   - 檢查人口統計學數據(年齡、性別等)和關鍵臨床指標

   - 比較各組的均值/中位數和標準差/四分位距

   - 注意作者是否報告了組間差異的統計顯著性

   - 評估任何差異是否可能影響結果解釋

5. 受試者是否被盲法處理?

   - 尋找"blinding"、"masked"等詞,特別是與參與者相關的描述

   - 評估所用的盲法方法(如相同外觀的安慰劑)

   - 考慮研究設計是否允許對參與者進行盲法處理

   - 如果沒有盲法,評估這可能如何影響結果

6. 對受試者進行治療的人員是否被盲法處理?

   - 查找有關治療師或臨床醫生盲法的描述

   - 評估在研究設計下是否可能對治療人員進行盲法

   - 如果做到了,描述如何確保治療人員不知道分組情況

   - 如果沒有盲法,考慮這可能如何影響治療的提供和患者的體驗

7. 對主要預後指標進行評估的人員是否被盲法處理?

   - 尋找關於結果評估者盲法的信息

   - 確認是否明確stated評估者不知道分組情況

   - 檢查用於維持評估者盲法的方法(如獨立的評估團隊)

   - 評估盲法的完整性,是否有可能被打破

8. 是否至少有85%的受試者完成了至少一次主要預後指標的測量?

   - 查找流程圖或文本中的脫落率信息

   - 計算完成主要結果測量的參與者比例

   - 檢查各組的脫落率是否相似

   - 評估脫落原因,考慮是否與研究干預有關

9. 是否對所有受試者採用意向性分析?

   - 尋找"intention-to-treat"或"ITT"的明確陳述

   - 檢查分析中包含的參與者數量是否與初始隨機化數量一致

   - 評估如何處理缺失數據(如最後觀察值結轉、多重插補)

   - 如果使用了per-protocol分析,檢查是否也報告了ITT結果

10. 是否報告了組間至少一個主要預後指標的統計比較結果?

    - 查找主要結果的統計分析部分

    - 確認是否報告了組間比較的p值或置信區間

    - 檢查使用的統計方法是否適當(如t檢驗、ANOVA、回歸分析)

    - 評估結果的呈現是否清晰,包括效應大小的報告

11. 研究是否同時提供了點估計和變異性估計?

    - 檢查結果表格和文本

    - 確認是否報告了效應大小的點估計(如平均差、比值比)

    - 查看是否提供了相應的變異性度量(如標準差、置信區間)

    - 評估這些估計是否足以理解效應的精確度和臨床相關性

通過這種詳細的 chain of thought,我們可以更系統、更深入地評估每個 PEDro 標準,確保不遺漏任何重要細節,並提供更全面、更可靠的評估。這種方法不僅有助於得出準確的評分,還能幫助識別研究的優缺點,為改進研究設計提供有價值的見解。

Q:有關"8.是否至少有85%的受試者完成了至少一次主要預後指標的測量?" 除了 "查找流程圖或文本中的脫落率信息

* 計算完成主要結果測量的參與者比例

* 檢查各組的脫落率是否相似

* 評估脫落原因,考慮是否與研究干預有關" 請再提供更仔細的思考/查證步驟,亦請提供更多實例(符合與不符合評析標準的例子),以提升效能

您提出了一個很好的要求。我會為這個標準提供更詳細的思考步驟,並增加一些實例來說明。這將有助於更全面地評估這個重要的方法學標準。

更詳細的思考/查證步驟:

1. 確定主要預後指標:

   - 在方法部分查找明確標註的主要結果

   - 如果沒有明確標註,考慮研究目標中提到的關鍵指標

2. 定位參與者流程信息:

   - 檢查文章是否包含 CONSORT 流程圖

   - 如果沒有流程圖,搜索方法和結果部分的相關文字描述

3. 確定初始樣本量:

   - 記錄隨機分配到每組的參與者數量

   - 計算總的初始樣本量

4. 追踪參與者流程:

   - 記錄每個時間點的參與者數量

   - 特別注意主要結果測量時的參與者數量

5. 計算完成率:

   - 對每組分別計算:(完成主要結果測量的人數 / 初始隨機分配人數) × 100%

   - 計算總體完成率:(所有組完成測量的總人數 / 總初始樣本量) × 100%

6. 評估是否達到 85% 標準:

   - 如果總體完成率 ≥ 85%,此標準得分

   - 如果 < 85%,則不得分

7. 分析脫落模式:

   - 比較各組的脫落率,檢查是否存在顯著差異

   - 如果存在差異,考慮這是否可能導致偏倚

8. 檢查脫落原因:

   - 列出所有報告的脫落原因

   - 評估這些原因是否與研究干預或結果相關

   - 考慮這些脫落是否可能影響結果的有效性

9. 評估處理缺失數據的方法:

   - 檢查研究者是否使用了任何方法來處理缺失數據(如最後觀察值結轉、多重插補)

   - 評估這些方法的適當性和可能對結果的影響

10. 考慮長期隨訪的影響:

    - 如果是長期研究,評估不同時間點的完成率

    - 考慮時間對完成率的影響,以及這如何影響結果的解釋

實例:

符合標準的例子:

1. 研究 A:

   - 初始樣本量:200人(每組100人)

   - 完成主要結果測量:干預組95人,對照組92人

   - 計算:(95 + 92) / 200 = 93.5%

   - 結論:超過85%,符合標準

2. 研究 B:

   - 初始樣本量:150人(干預組75人,對照組75人)

   - 完成主要結果測量:干預組70人,對照組68人

   - 計算:(70 + 68) / 150 = 92%

   - 額外信息:使用多重插補處理缺失數據

   - 結論:符合標準,且恰當處理了缺失數據

不符合標準的例子:

1. 研究 C:

   - 初始樣本量:100人(每組50人)

   - 完成主要結果測量:干預組40人,對照組42人

   - 計算:(40 + 42) / 100 = 82%

   - 結論:低於85%,不符合標準

2. 研究 D:

   - 初始樣本量:300人(干預組150人,對照組150人)

   - 完成主要結果測量:干預組120人,對照組135人

   - 計算:(120 + 135) / 300 = 85%

   - 額外信息:干預組脫落率明顯高於對照組

   - 結論:雖然達到85%,但組間脫落率差異大,可能引入偏倚,需謹慎解釋

3. 研究 E:

   - 初始樣本量:250人(每組125人)

   - 6個月結果:干預組110人,對照組105人(總計86%)

   - 12個月結果(主要終點):干預組100人,對照組95人

   - 計算:(100 + 95) / 250 = 78%

   - 結論:雖然中期完成率高,但主要終點測量低於85%,不符合標準

通過這些更詳細的步驟和實例,我們可以更全面地評估這個標準,不僅考慮數字本身,還要考慮脫落的模式和原因,以及研究者如何處理這些問題。這種深入的分析可以提供更準確的評估,並有助於理解研究結果的可靠性和普遍性。

Q:除了chain of thought,還有其它方法可以提升 prompting 之效能?亦請以 PEDro為例說明

當然,除了 chain of thought 之外,還有幾種能提升 prompting 效能的方法。我會介紹這些方法,並以 PEDro scale 為例說明它們的應用。

1. Few-shot learning (少樣本學習):

   這種方法通過提供幾個範例來幫助模型理解任務。

   例子:

   "以下是使用 PEDro scale 評估 RCT 論文的兩個例子:

   論文 A:

   1. 納入標準: 是 (明確說明了)

   2. 隨機分配: 是 (使用電腦生成的隨機數)

   ...

   總分: 8/10


   論文 B:

   1. 納入標準: 否 (未明確說明)

   2. 隨機分配: 是 (使用區組隨機化)

   ...

   總分: 6/10


   現在,請你評估以下論文 C:"


2. Role prompting (角色提示):

   讓模型扮演特定角色,可以提高其表現。


   例子:

   "你是一位經驗豐富的臨床研究方法學專家,專門使用 PEDro scale 評估 RCT 論文質量。請評估以下論文,並詳細解釋你的評分理由。"


3. Task decomposition (任務分解):

   將複雜任務分解為更小、更容易管理的子任務。


   例子:

   "讓我們逐步評估這篇 RCT 論文:

   1. 首先,閱讀摘要並確定研究設計。

   2. 然後,仔細檢查方法部分,重點關注受試者選擇和隨機化過程。

   3. 接下來,評估干預措施和對照組的描述。

   4. 審查結果部分,關注數據收集和統計分析。

   5. 最後,根據 PEDro scale 的每個標準進行評分。"


4. Self-consistency (自我一致性):

   讓模型生成多個回答,然後選擇最一致或最常見的回答。


   例子:

   "請獨立評估這篇 RCT 論文三次,每次使用 PEDro scale。然後比較這三次評分,解釋任何差異,並給出最終評分。"


5. Reflection and refinement (反思和改進):

   讓模型反思其回答,並進行自我修正。


   例子:

   "請使用 PEDro scale 評估這篇 RCT 論文。完成後,請反思你的評分過程:你是否可能遺漏了什麼重要信息?你的評分是否存在任何偏見?基於這些反思,如果需要的話,請調整你的評分並解釋原因。"


6. Structured output (結構化輸出):

   要求模型以特定格式提供答案,以確保全面性和一致性。


   例子:

   "請使用以下格式評估這篇 RCT 論文:

   

   標準1: [分數] - [理由]

   標準2: [分數] - [理由]

   ...

   標準11: [分數] - [理由]

   

   總分: [X]/10

   

   優點:

   1. 

   2. 

   

   缺點:

   1. 

   2. 

   

   總體評價: [你的評論]"


這些方法可以單獨使用,也可以結合使用,以獲得最佳效果。選擇哪種方法取決於具體任務、模型能力和所需輸出的性質。


您是否希望我詳細解釋其中的某個方法,或者您對如何在 PEDro scale 評估中應用這些方法有任何具體問題?


Q;以上的 prompting 皆為「事前」的 prompting, 有無「事後」(結果輸出後)的 prompting?以檢查或精進結果的方法?

您提出了一個非常好的問題。確實,除了「事前」的 prompting 技術外,還有一些「事後」的 prompting 方法,可以用來檢查、改進或精煉模型的輸出結果。這些方法通常被稱為「後處理」或「結果優化」技術。讓我為您介紹幾種常用的方法,並繼續以 PEDro scale 評估為例來說明:


1. 結果驗證(Output Verification):

   要求模型檢查其自身的輸出是否符合特定標準或要求。


   例子:

   "你剛才使用 PEDro scale 評估了一篇 RCT 論文。現在,請仔細檢查你的評估結果,確保:

   a) 每個標準的評分都有充分的理由支持

   b) 總分計算正確

   c) 沒有遺漏任何 PEDro scale 的標準

   如果發現任何問題,請指出並修正。"


2. 自我批評(Self-critique):

   讓模型批評自己的輸出,指出可能的缺陷或改進空間。


   例子:

   "請回顧你對這篇 RCT 論文的 PEDro scale 評估。以一位嚴格的同行評審的角度,批評這個評估。指出任何可能的弱點、主觀判斷或需要更多證據支持的地方。"


3. 替代視角(Alternative Perspectives):

   要求模型從不同角度重新考慮問題,可能會發現新的見解。


   例子:

   "你已經完成了這篇 RCT 論文的 PEDro scale 評估。現在,請從以下三個不同角度重新考慮你的評估:

   1. 作為論文的作者

   2. 作為該研究的資助者

   3. 作為可能使用這項研究結果的臨床醫生

   這些不同視角是否會改變你對某些標準的評分?為什麼?"


4. 深入解釋(Elaboration):

   要求模型對其輸出提供更詳細的解釋或例子。


   例子:

   "對於你在 PEDro scale 評估中給出的每個評分,請提供更詳細的解釋。特別是對於評分較低的項目,請引用論文中的具體內容來支持你的判斷,並建議作者如何改進。"


5. 假設情境(Hypothetical Scenarios):

   提出假設情況,看看模型是否能夠一致地應用其判斷。


   例子:

   "基於你對這篇 RCT 論文的 PEDro scale 評估,考慮以下假設情況:

   1. 如果作者增加了意向性分析,你的評分會如何變化?

   2. 如果研究的盲法程序更嚴格,會影響哪些評分項目?

   3. 如果樣本量增加一倍,但其他因素保持不變,這會改變你的哪些評價?"


6. 同儕審查模擬(Peer Review Simulation):

   讓模型模擬同儕審查過程,可能發現新的觀點。


   例子:

   "假設你是這篇 RCT 論文的同儕審稿人。基於你的 PEDro scale 評估,撰寫一份詳細的審稿意見。包括論文的優點、需要改進的地方,以及具體的修改建議。"


7. 量化置信度(Confidence Quantification):

   要求模型對其評估結果的每個部分給出置信度評分。


   例子:

   "請重新審視你的 PEDro scale 評估結果。對每個評分項目,給出一個 1-10 的置信度評分,其中 1 表示非常不確定,10 表示絕對確定。對於置信度較低的項目,解釋為什麼,並指出需要哪些額外信息來提高置信度。"


這些「事後」prompting 技術可以幫助提高模型輸出的質量、準確性和可靠性。它們可以單獨使用,也可以組合使用,具體取決於任務的性質和所需的輸出質量。


您對這些方法有什麼看法?是否希望我詳細解釋其中的某個方法,或者探討如何將它們應用到其他類型的任務中?


留言

這個網誌中的熱門文章

以中文撰寫的論文,如何請 ChatGPT 翻譯成英文

My GPTs 協助評析論文