【英語論文の書き方】第91回 「*誤った*精度:パート2:統計的確率」について
2025年11月25日 17時15分
第90回では「*誤った*精度:パート1:精度と正確度」を取り上げました。
第91回(今回)のテーマは
「*誤った*精度:パート2:統計的確率」についてです。
本記事のパート1では、
小数点以下をどの程度まで報告するのが妥当で有用なのかを
判断するための指針をいくつか紹介しました。
今回のパート2では、それらの指針が統計的確率に
どのように適用されるのかを解説します。
著者のGeoffさんは、統計的な判断や結果の読み取り方、
数値の示し方に関する考え方の中で、
十分な精度は重要ですが、細かくし過ぎるのも避けるべきである
という点にも触れています。
項目は以下の2つです。
・Statistical probability
・Be precise, but not too precise!
ぜひご参考になさってください。
第91回(今回)のテーマは
「*誤った*精度:パート2:統計的確率」についてです。
本記事のパート1では、
小数点以下をどの程度まで報告するのが妥当で有用なのかを
判断するための指針をいくつか紹介しました。
今回のパート2では、それらの指針が統計的確率に
どのように適用されるのかを解説します。
著者のGeoffさんは、統計的な判断や結果の読み取り方、
数値の示し方に関する考え方の中で、
十分な精度は重要ですが、細かくし過ぎるのも避けるべきである
という点にも触れています。
項目は以下の2つです。
・Statistical probability
・Be precise, but not too precise!
ぜひご参考になさってください。
(False) precision: Part 2: Statistical probability
By Geoffrey Hart
In part 1 of this article, I described some of the guidelines for determining how many decimal places of precision it is legitimate and useful to report. In this part, I’ll explain how those guidelines apply to statistical probability.
Statistical probability
The issue of precision also arises for statistical probabilities. One of the standard tools of statistical analysis is the P score, which tells you the probability of a statistical result being due to a type I or type II error (which I have defined below) rather than being a real result. Most fields of science perform hypothesis testing using statistical significance based on the P score. Tests of significance are designed to determine whether the null hypothesis (that no significant relationship exists between two variables, or that no difference exists between treatments) is likely to be correct. The most common uses of the P value are to reveal the probability of two types of error:- Type I error: incorrectly rejecting the null hypothesis (thus, obtaining a significant result) when there is no real difference between treatments. This is often called the α probability.
- Type II error: incorrectly accepting the null hypothesis (thus, obtaining a non-significant result) when there is a real difference between treatments. This is often called the β probability.
The probability of incorrectly rejecting the null hypothesis is expressed as the P value. The P value is the decimal value of a percentage between 1 and 100%. It refers to the number of times per 100 trials that you could expect to incorrectly reject the null hypothesis due to random chance rather than due to the existence of a real difference. The standard value used by many journals is P = 0.05, which means that you might see an error 5 times in 100 trials (1 time in 20). Some journals prefer to define significance as P < 0.01, which means that the error would occur 1 time or fewer in 100 trials. However, the choice of the P level that should be met before declaring a result statistically significant is completely arbitrary; an error that occurs 1 time in 20 is uncomfortably frequent for many researchers, particularly in cases such as testing pharmaceutical drugs where human lives are at risk, so some journals prefer P = 0.001, which is 1/50 times the error frequency at P = 0.05. Some physics journals that publish exceptionally precise measurements require “five sigma” significance (P = 0.0000003), where sigma (σ) represents the standard deviation. That is, a significant result must be five standard deviations from the value being used as the basis for the comparison (e.g., from a value of 0).
P values are statistical expectations, not laws of physics. As a result, they are entirely arbitrary values that reflect your desired level of confidence. Beyond a certain point, striving for more decimal places of significance is meaningless. The difference between P = 0.0010 and P = 0.0001 is largely meaningless in most research. This is why most journals ask authors to express statistical significance using only three standard levels: 0.05, 0.01, and 0.001. In practice, achieving a good P value in a single experiment suggests the result is likely to be meaningful, but doesn’t confirm that your result is meaningful until several other researchers have replicated your result. Successful replication, not P levels, is the true test of a hypothesis, and this replication, not the P level in a single study, is the key to determining when a hypothesis matures into a theory.
Note: Because the three P levels used by many journals are entirely arbitrary, some authors have made a strong case for reporting the actual P value rather than using arbitrary categories. For example, P = 0.049 would traditionally be considered significant because the value is less than 0.05 but P = 0.051 would be considered non-significant because the value is greater than 0.05. However, both in practice and in theory, it is unlikely that the two precise P values, which differ by only 0.2%, represent a real difference.
More importantly, a P level only tells you whether your result is likely to reflect a real difference. It does not tell you whether that result has any practical significance. For example, if you are confident at P < 0.001 that based on statistical expectations, one person in a million will win the next lottery, this doesn’t mean that investing in lottery tickets is a wise use of your money. Conversely, if you are confident at P < 0.10 that the bridge you’re thinking about crossing is 50% likely to collapse, you’d be unwise trying to cross the bridge, even though the P level seems weak.
Statistical significance also assumes that errors are random rather than inherent to the system you are studying (i.e., it assumes that there are no systematic errors). For example, if you continue to flip a coin with two sides (heads and tails) many times, it’s highly likely you will achieve a long-term average frequency close to 50% heads and 50% tails. But if both sides of a coin are heads, the frequency will always be 100% heads, no matter how often you perform this test. (It’s also possible, though highly improbable, that the coin will land on its edge and not display a head as the result.) A great deal of experimental design involves trying to eliminate systematic errors so that you can focus on the real phenomenon you’re trying to study.
In summary, P scores tell you how confident you should be in your result, not whether your result is meaningful. The more important point is the strength of the relationship you’re studying, which is usually expressed as the r value for a correlation analysis and the R2 value for a regression analysis. A relatively weak r or R2 value combined with p < 0.001 means only that you can be highly confident that you have found a real weak relationship rather than a relationship that exists purely by chance; conversely, a relatively strong r or R2 value combined with p < 0.05 tells you only that you can be moderately confident that you have found a real and strong relationship.
Be precise, but not too precise!
The lesson of this article is that simply adding decimal places to a number, whether in a summary statistic such as a mean, an estimate from a model or equation, or a significance level, doesn’t necessarily mean a better result. It’s better to produce a highly probable value, a defensible value (a value that can be justified by the precision of the measurements) that’s sufficiently accurate for your purposes, and a replicated value that has been produced by multiple researchers.Acknowledgment
I thank Dr. Julian Norghauer for a reality check on this article.無料メルマガ登録
これからも英語で論文を書く方向けに役立つコンテンツをお届けしていきますので、お見逃しのないよう、上記のフォームよりご登録ください。
もちろん無料です。
バックナンバー
第1回 if、in case、when の正しい使い分け:確実性の程度を英語で正しく表現する
第2回 「装置」に対する英語表現
第3回 助動詞のニュアンスを正しく理解する:「~することが出来た」「~することが出来なかった」の表現
第4回 「~を用いて」の表現:by と with の違い
第5回 技術英文で使われる代名詞のitおよび指示代名詞thisとthatの違いとそれらの使用法
第6回 原因・結果を表す動詞の正しい使い方:その1 原因→結果
第7回 原因・結果を表す動詞の使い方:その2 結果→原因
第8回 受動態の多用と誤用に注意
第9回 top-heavyな英文を避ける
第10回 名詞の修飾語を前から修飾する場合の表現法
第11回 受動態による効果的表現
第12回 同格を表す接続詞thatの使い方
第13回 「技術」を表す英語表現
第14回 「特別に」を表す英語表現
第15回 所有を示すアポストロフィー + s ( ’s) の使い方
第16回 「つまり」「言い換えれば」を表す表現
第17回 寸法や重量を表す表現
第18回 前置詞 of の使い方: Part 1
第19回 前置詞 of の使い方: Part 2
第20回 物体や物質を表す英語表現
第21回 句動詞表現より1語動詞での表現へ
第22回 不定詞と動名詞: Part 1
第23回 不定詞と動名詞の使い分け: Part 2
第24回 理由を表す表現
第25回 総称表現 (a, theの使い方を含む)
第26回研究開発」を表す英語表現
第27回 「0~1の数値は単数か複数か?」
第28回 「時制-現在形の動詞の使い方」
第29回 then, however, therefore, for example など接続副詞の使い方
第30回 まちがえやすいusing, based onの使い方-分詞構文
第31回 比率や割合の表現(ratio, rate, proportion, percent, percentage)
第32回 英語論文の書き方 総集編
第33回 Quality Review Issue No. 23 report, show の時制について
第34回 Quality Review Issue No. 24 参考文献で日本語論文をどう記載すべきか
第35回 Quality Review Issue No. 25 略語を書き出すときによくある間違いとは?
第36回 Quality Review Issue No. 26 %と℃の前にスペースを入れるかどうか
第37回 Quality Review Issue No. 27 同じ種類の名詞が続くとき冠詞は付けるべき?!
第38回 Quality Review Issue No. 22 日本人が特に間違えやすい副詞の使い方
第39回 Quality Review Issue No. 21 previous, preceding, earlierなどの表現のちがい
第40回 Quality Review Issue No. 20 using XX, by XXの表現の違い
第41回 Quality Review Issue No. 19 increase, rise, surgeなど動詞の選び方
第42回 Quality Review Issue No. 18 論文での受動態の使い方
第43回 Quality Review Issue No. 17 Compared with とCompared toの違いは?
第44回 Reported about, Approach toの前置詞は必要か?
第45回 Think, propose, suggest, consider, believeの使い分け
第46回 Quality Review Issue No. 14 Problematic prepositions scientific writing: by, through, and with -3つの前置詞について
第47回 Quality Review Issue No. 13 名詞を前から修飾する場合と後ろから修飾する場合
第48回 Quality Review Issue No. 13 単数用法のThey
第49回 Quality Review Issue No. 12 study, investigation, research の微妙なニュアンスのちがい
第50回 SinceとBecause 用法に違いはあるのか?
第51回 Figure 1とFig.1の使い分け
第52回 数式を含む場合は現在形か?過去形か?
第53回 Quality Review Issue No. 8 By 2020とup to 2020の違い
第54回 Quality Review Issue No. 7 high-accuracy data? それとも High accurate data? 複合形容詞でのハイフンの使用
第55回 実験計画について
第56回 参考文献について
第57回 データの分析について
第58回 強調表現について
第59回 共同研究の論文執筆について
第60回 論文の略語について
第61回 冠詞の使い分けについて
第62回 大文字表記について
第63回 ダッシュの使い分け
第64回 英語の言葉選びの難しさについて
第65回 過去形と能動態について
第66回 「知識の呪い」について
第67回 「文献の引用パート1」について
第68回 「文献の引用パート2」について
第69回 「ジャーナル用の図表の準備」について
第70回 「結論を出す ~AbstractとConclusionsの違い~」について
第71回 「研究倫理 パート1: 研究デザインとデータ報告」について
第72回 「研究倫理 パート2: 読者の時間を無駄にしない」について
第73回 「記号と特殊文字の入力」について
第74回 「Liner regression(線形回帰)は慎重に」について
第75回 「Plagiarism(剽窃)を避ける」について
第76回 研究結果がもたらす影響を考える
第77回 「データの解析(パート1):データ探索を行う」について
第78回 「データの解析(パート2):統計分析」について
第79回 「データの解析(パート3):データを提示する」について
第80回 データ、その他の大事なものをバックアップする(パート1)
第81回 「データ以外のもの(パート2)」について
第82回 「研究データと関連文書の管理(パート1):研究内容を文書で厳密に記録することがなぜ大切なのか」について
第83回 「研究データと関連文書の管理(パート2):必要なプロジェクトファイル、フォルダ(ディレクトリ)の構成とデータの消去
第84回 研究データと関連文書の管理(パート3):データ検証とカスタム開発ソフトウェア
第85回 研究データと関連文書の管理(パート4):ファイルの複製
第86回 「科学において有効な方法は仮説検定(hypothesis testing)だけではない」について
第87回 「スプレッドシートを安全に使う」について
第88回 「変数と数学記号の命名と入力: パート 1: 変数の命名」について
第89回 「変数と数学記号の命名と入力: パート 2: 変数の書式設定」について
第90回 「*誤った*精度:パート1:精度と正確度」について
第2回 「装置」に対する英語表現
第3回 助動詞のニュアンスを正しく理解する:「~することが出来た」「~することが出来なかった」の表現
第4回 「~を用いて」の表現:by と with の違い
第5回 技術英文で使われる代名詞のitおよび指示代名詞thisとthatの違いとそれらの使用法
第6回 原因・結果を表す動詞の正しい使い方:その1 原因→結果
第7回 原因・結果を表す動詞の使い方:その2 結果→原因
第8回 受動態の多用と誤用に注意
第9回 top-heavyな英文を避ける
第10回 名詞の修飾語を前から修飾する場合の表現法
第11回 受動態による効果的表現
第12回 同格を表す接続詞thatの使い方
第13回 「技術」を表す英語表現
第14回 「特別に」を表す英語表現
第15回 所有を示すアポストロフィー + s ( ’s) の使い方
第16回 「つまり」「言い換えれば」を表す表現
第17回 寸法や重量を表す表現
第18回 前置詞 of の使い方: Part 1
第19回 前置詞 of の使い方: Part 2
第20回 物体や物質を表す英語表現
第21回 句動詞表現より1語動詞での表現へ
第22回 不定詞と動名詞: Part 1
第23回 不定詞と動名詞の使い分け: Part 2
第24回 理由を表す表現
第25回 総称表現 (a, theの使い方を含む)
第26回研究開発」を表す英語表現
第27回 「0~1の数値は単数か複数か?」
第28回 「時制-現在形の動詞の使い方」
第29回 then, however, therefore, for example など接続副詞の使い方
第30回 まちがえやすいusing, based onの使い方-分詞構文
第31回 比率や割合の表現(ratio, rate, proportion, percent, percentage)
第32回 英語論文の書き方 総集編
第33回 Quality Review Issue No. 23 report, show の時制について
第34回 Quality Review Issue No. 24 参考文献で日本語論文をどう記載すべきか
第35回 Quality Review Issue No. 25 略語を書き出すときによくある間違いとは?
第36回 Quality Review Issue No. 26 %と℃の前にスペースを入れるかどうか
第37回 Quality Review Issue No. 27 同じ種類の名詞が続くとき冠詞は付けるべき?!
第38回 Quality Review Issue No. 22 日本人が特に間違えやすい副詞の使い方
第39回 Quality Review Issue No. 21 previous, preceding, earlierなどの表現のちがい
第40回 Quality Review Issue No. 20 using XX, by XXの表現の違い
第41回 Quality Review Issue No. 19 increase, rise, surgeなど動詞の選び方
第42回 Quality Review Issue No. 18 論文での受動態の使い方
第43回 Quality Review Issue No. 17 Compared with とCompared toの違いは?
第44回 Reported about, Approach toの前置詞は必要か?
第45回 Think, propose, suggest, consider, believeの使い分け
第46回 Quality Review Issue No. 14 Problematic prepositions scientific writing: by, through, and with -3つの前置詞について
第47回 Quality Review Issue No. 13 名詞を前から修飾する場合と後ろから修飾する場合
第48回 Quality Review Issue No. 13 単数用法のThey
第49回 Quality Review Issue No. 12 study, investigation, research の微妙なニュアンスのちがい
第50回 SinceとBecause 用法に違いはあるのか?
第51回 Figure 1とFig.1の使い分け
第52回 数式を含む場合は現在形か?過去形か?
第53回 Quality Review Issue No. 8 By 2020とup to 2020の違い
第54回 Quality Review Issue No. 7 high-accuracy data? それとも High accurate data? 複合形容詞でのハイフンの使用
第55回 実験計画について
第56回 参考文献について
第57回 データの分析について
第58回 強調表現について
第59回 共同研究の論文執筆について
第60回 論文の略語について
第61回 冠詞の使い分けについて
第62回 大文字表記について
第63回 ダッシュの使い分け
第64回 英語の言葉選びの難しさについて
第65回 過去形と能動態について
第66回 「知識の呪い」について
第67回 「文献の引用パート1」について
第68回 「文献の引用パート2」について
第69回 「ジャーナル用の図表の準備」について
第70回 「結論を出す ~AbstractとConclusionsの違い~」について
第71回 「研究倫理 パート1: 研究デザインとデータ報告」について
第72回 「研究倫理 パート2: 読者の時間を無駄にしない」について
第73回 「記号と特殊文字の入力」について
第74回 「Liner regression(線形回帰)は慎重に」について
第75回 「Plagiarism(剽窃)を避ける」について
第76回 研究結果がもたらす影響を考える
第77回 「データの解析(パート1):データ探索を行う」について
第78回 「データの解析(パート2):統計分析」について
第79回 「データの解析(パート3):データを提示する」について
第80回 データ、その他の大事なものをバックアップする(パート1)
第81回 「データ以外のもの(パート2)」について
第82回 「研究データと関連文書の管理(パート1):研究内容を文書で厳密に記録することがなぜ大切なのか」について
第83回 「研究データと関連文書の管理(パート2):必要なプロジェクトファイル、フォルダ(ディレクトリ)の構成とデータの消去
第84回 研究データと関連文書の管理(パート3):データ検証とカスタム開発ソフトウェア
第85回 研究データと関連文書の管理(パート4):ファイルの複製
第86回 「科学において有効な方法は仮説検定(hypothesis testing)だけではない」について
第87回 「スプレッドシートを安全に使う」について
第88回 「変数と数学記号の命名と入力: パート 1: 変数の命名」について
第89回 「変数と数学記号の命名と入力: パート 2: 変数の書式設定」について
第90回 「*誤った*精度:パート1:精度と正確度」について



