寫作經驗

方差分析結果要表述為“效應相同/異”

來源: | 作者:王俊杰 | 日期:2022-10-28 14:36:12 | 閱讀: 7115

一個月前,審稿中見到“具有統計學意義”一詞,不甚明了該詞含義,網查卻得以腦洞大開。

網查追溯到陳海峰和李樞強二人發表在《生物學通報》2007年第4期上的《“差異顯著”還是“有統計學意義”》一文。文中指出并建議:在方差分析中,使用“有統計學意義”代替常用的“差異顯著”“差異具有顯著性”“差別有顯著意義”“統計顯著”等說法。當P<0.05時,應該表達為“有統計學意義”,否則稱之為“無統計學意義”。文章分析指出,“差異顯著”容易造成兩個誤解,一是誤認為兩個樣本間差別很大;二是誤認為P<0.01比P<0.05更有顯著性,進而得到前者比后者差別更顯著的結論,其實前者只是比后者犯錯的概率更小,并不說明兩個樣本間實際差異前者比后者更小。

“差異顯著”并不能說明兩個樣本間差別很大,實際差別可能并不大,沒有實際意義。例如在造林試驗中,處理組平均成活率為89%,對照組平均成活率為86%,方差分析結果P<0.05,實際上處理組平均成活率僅比對照組高3個百分點,這在造林實踐中并沒有多大意義?!安町惒伙@著”也不能說明兩個樣本間差別很小,實際差別可能并不小。例如處理組平均成活率為66%,對照組平均成活率為36%,方差分析結果P>0.05,實際上處理組平均成活率比對照組高30個百分點,這在造林實踐中很有意義。其實,我國新版《造林技術規程》(GB T 15776-2016)第15章規定,純林造林時,合格小班的造林成活率標準為:生態脆弱地帶≥70%,其他地區≥85%;成活率<41%則為造林失敗小班,需要重新造林;兩者之間為需要補植的小班。按這個標準,在前一個例子中,處理和對照的平均造林成活率均滿足合格標準,兩種措施都可以用于造林實踐,因此處理組和對照組的造林成活率差異有統計學意義而無實際意義。在后一個例子中,對照組屬于造林失敗情況,而處理組則屬于可以補植的情況,顯然處理措施具有實際意義。至于為什么兩個樣本實際差異很大卻方差分析得到無統計學意義結果,這就需要結合試驗具體情況仔細分析原始數據,找出試驗設計時被忽視并且嚴重影響試驗結果的因素,以便改進試驗。

方差分析屬于統計分析的內容之一,對于其中的P值,近年來爭論很大。筆者曾經陸續收集了幾篇相關文章,當時讀得似懂非懂,這一次因著“有統計學意義”一詞,再次反復閱讀,仍然似懂非懂。筆者統計學基礎知識太差,消受不起這頓大餐。下面列出相關鏈接文章,有志者盡可深研,并請著文分享。

Megan Yu:對從事科學研究而言,統計學是一門特別重要的技能

生物谷:科學研究中數據分析的弊病-“P-值”

生物谷:p值檢驗,你用對了嗎?

Jacqueline Shawn:我叫“P值” 這是我的故事

David Colquhoun:是時候拋棄“統計顯著”這個詞了

于淼:估計、p值與科學決策

Editage意得輯:有P值為何還需要效果量?

LetPub編輯:對p值的討論

邵斌:什么樣的結果是顯著的:淺談p值

Enago英論閣:P值真的萬能嗎?

孫學軍:科學家真懂統計學嗎?

Marisha Fonseca:怎么正確表現P值?

Editage意得輯:P值也被濫用?BASP期刊宣布禁用P值 - 意得輯專家視點

2018-8-27于蘭州


現在看來,“有統計學意義”一詞同樣也不有妥之處。這個詞非?;\統,具體是什么意義,需要進一步解釋,否則令人疑竇叢生。本人曾建議表述為“有/無統計學差異”,現在想來依然不夠妥貼,用來檢驗的指標值原本就是不同的,原本就有差異,再稱檢驗結果為“有/無統計學差異”,不僅語義顯得重復啰嗦,而且讓人感到非常別扭。

造成上述混亂的原因在于對英文詞“statistically significant”翻譯失當,僅僅譯出其字面意義,而沒有譯出其科學內涵,尤其significant一詞。significant字面意思指重要的、有重大意義的、顯著的、值得注意的、有效的、別有含義的、意味深長的、區別性的、相當數量的、不可忽略的、值得注意的等,如果逐字翻譯,隨便挑一個含義都可以,為什么非要使用“有重大意義的”“顯著的”呢?

事實上,統計檢驗針對兩個假設進行:一是同效假設,試驗因素的效應相同(無效),指標差值為0;二是異效假設,試驗因素的效應相異(有效),指標差值非0。然后計算同效假設成立時出現指標差值為0的概率p,如果p≥0.05(0.01),說明指標差值為0的概率大到不可忽略的程度,因而接受同效假設而拒絕異效假設;如果p<0.05(0.01),說明指標差值為0屬于小概率事件,事實上不可能出現,因而否定同效假設而接受異效假設。由此可見,統計檢驗的是效應相同還是相異,或者說是效應的有無與否,不是效應有無差異,更不是效應的差異大小與否。例如,就樹高而言,兩個樹木品種基因型可能完全不同,甚至兩個不同樹種,只要高生長效應相同,兩者就沒有選擇性,造林時選誰都可以;只有高生長效應相異時才具有選擇性,自然會選擇樹高值較高的哪一個,被打上記號特別標注出來。significant一詞中,signi〔= sign〕記號+ fic具有某種性質的+ ant …的→可以打上記號的(可以引申為“有效的”“異于另一個的”),也就是說,“Statistically significant”在英文中本義指被統學檢驗打上記號的。因此,從檢驗過程來看,統計檢驗實質就是效應異同性檢驗,相應地檢驗結果應表述為“效應相同/異”,也就是說在“Statistically significant”一詞中,significant應取“有效的”一義。在統計學領域,把significant譯成“顯著的”不會帶來歧義,因為統計學只涉及概率大小,不涉及效應的大小。但在統計學應用領域,由于涉及到效應的大小, 而且是研究者關注點所在,因而容易把統計學的“顯著”與效應的“顯著”混同起來,造成失誤。

萬事萬物都有隨機變化,試驗中還包括無數個非試驗因素引起的變化,理論上效應指標值總有出入。統計檢驗就是用來判斷效應指標值的差異是隨機變化還是非隨機變化(試驗因素所致),從而有把握地判斷指標值代表的試驗因素的效應是相同還是相異。顯然,“顯著差異”“差異有/無統計學意義”“有/無統計學差異”均無法精準清晰地表達出這個含義。

統計檢驗的真諦在于判斷效應異同(有無),而非效應大小或差異大小,選擇的本質在于效應的異同?!皸l條大路通羅馬”,“英雄不論出身”。對于研發類論文來說,研究只看效應,不論其因素異同。例如施肥1kg/株增產桃果10kg/株,灌水1t/株同樣增產桃果10kg/株,這就是施肥和灌水兩個不同因素而增產效應相同的現象。再如,牛的體重500kg,馬的體重500kg,盡管牛馬不同種,但其體重效應是相同的。統計檢驗就是“英雄不論出身”,只驗效應異同,不看因素異同,統計學原本就是抽去具體事物只計算數值的數學方法,原本就沒有驗證因素異同的功能。

見過很多論文,對于多重比較結果為“差異不顯著”的多個處理仍然排列指標值大小,完全忽視了統計檢驗結果,其原因正是混淆了統計學和效應兩個不同的“顯著”。用“效應相同/異”就可以避免上述失誤。對于效應相同的兩個處理,對于同效的兩個處理,再去排列指標值大小,連自己都應該感到“多此一舉”了吧?

2022-10-08再改于蘭州


剛剛瀏覽文獻,讀到甲因素對乙性狀“有顯著的正效應”,忽然意識到其中隱藏一個巨大謬誤:主觀預定因素有效應?!坝酗@著的正效應”是“有顯著效應”的擴充說法,指試驗因素的效應與對照相異,這是統計檢驗的結果,其現實意義被解讀為試驗因素有效應。多與此相對立,“無顯著效應”指試驗因素的效應與對照相同,即試驗因素無效應。“無顯著效應”先自預定了試驗因素有效應,因而才把統計檢驗結果陳述為“無顯著效應”;如果沒有預定,就不會陳述為“無顯著效應”。因此,“無顯著效應”潛臺詞:“按理,因素有效應,只是結果顯示效應不夠顯著”,可見其背后有一個主觀預定之幽靈在暗中使套。兩廂對比,“效應相異/同”是客觀陳述統計檢驗結果,絕無“有/無顯著效應”那樣的主觀色彩。

主觀預定有效應,研究時就會有意無意地尋求有效應的證據,這樣得出的結論很可能會違背事實??茖W研究的一切全在于總結客觀事實,有效應就是有效應,無效應就是無效應,要盡量避免主觀預定的影響?!坝酗@著效應”即以往常說的“差異顯著”,“無顯著效應”即“差異不顯著”。很多人在統計檢驗“差異不顯著”的情況下還固執地比較數值大小,排列次序,就是受主觀預定有效應(有差異)影響的惡果。

2022-10-28補寫