本文转载自微信公众号“小白学统计”,感谢作者授权。
前段时间参加一次讲座,听到其中一位老师言道,现在是大数据时代,是神经网络的时代,前面讲的一些回归方法其实已经过时了(前面有几位老师讲了一些传统的回归方法)。这位老师是一位中青年临床专家,似乎也懂得一些神经网络如何在r中实现。联想到也曾有学生问过我类似问题,说答辩时候有的专家说使用的方法已经过时了。今天特地撰文就此发表一下对此问题的看法。
首先,本人观点很明确:凡是说这类话的所谓专家,肯定不是一个真正的统计学家!所以,你可以放心地无需理会,也不用担心你的方法好像真过时了。
统计方法没有什么过时不过时之说,你可以说适用不适用。并非复杂的方法一定就好,简单的方法就低人一等。统计方法也没有什么所谓的高级、低级之分,你可以说复杂方法和简单方法。有些方法确实更复杂。尽管现在有的统计书名也叫“高级统计方法……”,我个人还是不建议这么称呼,这很容易引起歧义,比如logistic回归,这是高级方法还是低级方法,谁能定义?我想没有人敢说这样的话。起码 真正的统计学家永远不会说这种话。
据我个人了解,往往提出这种观点的,大都是这样的专家:非统计学家、了解一些机器学习方法、懂得如何用r或python实现机器学习方法、用机器学习方法发表过一些文章或做过一些课题。
这里需要明确一个观念:懂得用软件实现某方法,并不等于真正掌握这种方法。事实上,对于一种方法的掌握,软件实现是最底层的技能,也是最容易掌握的技能,现在关于软件操作的书汗牛充栋,随便找几本,只要稍微用心,很容易掌握。
然而,再往上一层才是更加难掌握的,那是关于方法本身而非软件实现层面,掌握方法的思路、原理、算法,这些才是更难能可贵的。然而这也是更花时间的一个过程。 学软件容易,学原理和算法 难。 然而只有了解方法本身,才能说是真正掌握了这个方法。否则一旦软件出现错误,你都无法去解决。
我个人经常碰到这种情况,例如简单的logistic回归,这些似乎每个人都会,很多临床大夫也都知道如何用统计软件实现。然而,依然有很多人(包括流行病学和公共卫生的专业人员)问我关于logistic回归的问题,比如发现结果的标准误太大、求不出结果而且找不出原因、跟预期的结果差别太大,等等问题。这就很难说你是真的掌握了logistic回归这种方法,你仅仅是会用统计软件给出结果而已。
其实在我当年初学统计学时,也曾有这种想法,都想追求一种更新的方法,尤其在自己的毕业论文中。当时我的硕士导师跟我说,其实你能把logistic回归吃透就行了(我的毕业论文用到logistic回归),真正在论文中把logistic回归说清楚,这比非要去学习一种新的方法而泛泛介绍要好得多。我当时其实并不是很理解,但仍然照做了,我没有去追求新的方法(当时我读硕士时,神经网络刚刚有这个概念,我也追了一阵)。现在我对这些话的体会更加深刻,所以我也会对学生或其他咨询我的人给出同样的劝告。
追求新颖,这不是什么错。但我想,最终大家都会明白,所有的东西都会返璞归真。我记得当年高中学哲学,前言有钱学森先生的话,大致意思是:越是老了之后,越是发现需要学哲学,所有的内容最终都要上升到哲学的境界。当时很不懂,其实压根不想学哲学。然而现在慢慢也懂了。
所以,我个人虽然不建议大家一味追求新方法,但并非反对。但我相信,当你同样经历了各种方法学习的沉淀,最终一定会返璞归真,明白什么才是有用的、合理的方法。
当年谷歌预测流感,引起了当时的轰动,很多人甚至都认为大数据分析已经可以取代一切。然而仅仅几年时间,谷歌这一预测团队解散。事实上,目前很多统计学家已经提出,大数据是带来了一些契机,然而同时伴随的更多的是虚假。如何识别这些虚假,这是真正的统计学家需要做的事情。
统计方法亦是如此,尽管近几年也提出了不少新的方法,然而大家仔细想想,到底是一种历经百年仍在使用的方法可靠,还是一种提出来只有不到5年的方法可靠?就像你买东西,你为什么更相信百年老店?答案不言而喻。
最后给真正想学统计的人几点建议:
(1)食不厌精、脍不厌细。学一种方法,就要把它吃透。千万不要那种一翻书好像都会,一分析什么都不会。比如简单的方差分析,你是真的理解了方差分析吗?其实并不见得,真正能理解的恐怕没有多少人。为什么要用“方差”分析而不是“标准差”分析,既然都是表示变异的指标?
(2)不乱于心、不困于情。如果你学方法是出于其它目的,这种就很难免不公允。有的人学一种方法只是为了出于发表一篇文章,或是为了申请一个课题。这种目的下,你可能会快速了解这种方法,但很难真正掌握这种方法。你可以扪心自问,你是不是这样的人:当学到一种新的方法会非常激动;当发现一个问题会很迫切地想解决;当看到数据时会有一种兴奋感。我当年就是如此,可能现在随着年龄渐增,没有了当年的激情,但总会在某一个时期,你应该有这种类似感觉。
(3)欲穷千里目、更上一层楼。统计学在医学、社会学、心理学、经济学等各个领域各有侧重。多阅读不同领域的方法观点,相互印证,才能更有助于你掌握统计方法之间的联系。只有在更高层面上理解、看待这些方法,才能消化并为己所用。你站的层次越高,对方法的理解会更深刻,也更容易形成自己的方法学体系。
(4)教材只需浅尝辄止、专著则要潜精研思。我一直给学生强调,教材手里有一本就足够,作为翻翻查个公式之类的工具。想从教材中掌握统计方法,这几乎是不可能的事。教材的优势在于标准、规范;同样其劣势在于不敢越雷池一步,很多方法介绍不敢随意表达,而且教材往往对每种方法都是蜻蜓点水。所以想要真正掌握一种方法,一定要看专著。比如学logistic回归,那就专门看logistic回归的书,想学多水平模型,就专门看多水平模型的书。
(5)运筹帷幄,方为帅才。不要只满足于会用软件实现某方法,软件实现某方法的结果输出,并不代表你掌握了这种方法。帅之所为为帅,因为他并不是只会杀敌攻城,而是因为他能运筹帷幄。从统计学角度,你如果只会用r、python输出统计方法的结果(哪怕是很复杂的方法),那始终不可能成为一个帅才。也许你是一个很优秀的程序员,但统计师才是告诉你应该做什么、怎么做的那个人,程序员只是实现这种思路。只有真正掌握方法的思路和原理、算法,知道什么时候该用这种方法、出现问题该如何解决,等等,这才是帅才。希望大家最终都能成为一个掌握方法、在方法上运筹帷幄的帅才。
确认删除