rolling machine是什么机器?

数以科技 2025-05-07 05:11 机器学习 285 次浏览

一、rolling machine是什么机器?

那是公元60年,一位古希腊工程师——有个响亮的名字叫英雄(Hero),设计了一种可滚动机器(rollingmachine),能使用绳子和木钉编程,使机器展现不同结构,现在的人分析说达芬奇的原理和他是一样的

二、machine智能机器狗怎么充电?

智能语音狗,它充电的话,他都是通过下方人,有个充电口直接插上去就可以了,有的是可以直接充专用的充电器就行

三、机器学习(machine learning)在心理学中有哪些应用?

机器学习包含很多种方法,但重要的还是其思想与目标。

机器学习的目标是预测,重要的思想是降低抽样误差。而这两样东西如果能恰当地运用在心理学研究中,将会使心理科学锦上添花。

心理学所面临的挑战

一篇发表在Perspectives on Psychological Science上的名为Choosing Prediction Over Explanation in Psychology: Lessons From Machine Learning的文章详细地阐述了为什么心理学需要机器学习。

Yarkoni, T., & Westfall, J. (2017). Choosing Prediction Over Explanation in Psychology: Lessons From Machine Learning. Perspectives on Psychological Science, 12(6), 1100-1122.

心理学的目标在于理解人类行为,这其中包括解释以及预测人的行为。然而这两个目标很少被区分对待。

The goal of scientific psychology is to understand human behavior. Historically this has meant being able both to explain behavior—that is, to accurately describe its causal underpinnings—and to predict behavior—that is, to accurately forecast behaviors that have not yet been observed. In practice, however, these two goals are rarely distinguished (Yarkoni & Westfall, 2017).

如果研究能更强调预测,而将解释作为次要目标,无论在短期或长期,都将是一个富有成效的办法。

Research programs that emphasize prediction, and that treat explanation as a secondary goal, would be more fruitful both in the short term and the long term.

导致心理学重“解释”,轻“预测”的一个很大的原因是:很少有心理学工作者了解与运用预测科学的工具

one of the biggest reasons that psychologists have historically opted for explanation is that, in the not-so-distant past, the tools of successful predictive science were poorly understood and rarely deployed in most fields of social and biomedical science.

如果解释性科学并不是预测性科学,或反过来说,预测性科学并不是解释性科学。那么,研究者必须做出一个选择:去解释亦或是去预测。大多数心理学都选择了“解释”,而没有给予“预测”更多、更严肃的考虑

If ideal explanatory science is not generally ideal predictive science, and vice versa, then researchers must make a conscious choice: to explain or to predict. Historically, most of psychology has reflexively chosen an explanatory approach, without giving any serious consideration to a predictive approach (Yarkoni & Westfall, 2017).

作者谈到了心理学中的“可重复性危机

There is mounting evidence from the ongoing replication crisis that the published results of many papers in psychology do not, in fact, hold up when the same experiments and analyses are independently conducted at a later date (Ebersole et al., 2015; Nosek & Lakens, 2014; Open Science Collaboration, 2015).

那么机器学习能给心理学带来什么?

机器学习领域奠基人之一、美国工程院院士T. Mitchell教授在其经典教材《Machine Learning》中所给出的机器学习经典定义为“利用经验来改善计算机系统自身的性能”。

机器学习与人工智能常常相提并论,它们之间是什么关系呢?

机器学习与人工智能

人工智能(Artifical Intelligence)是一个更上位的概念,偏应用领域。机器学习是实现人工智能的手段与方法,而深度学习(Deep Learning)又是机器学习领域中的一个方向。

机器学习的流程

机器学习的流程

与心理学不同,机器学习的流程是拿到数据后先将数据拆分为训练集(Training set)与测试集(Test set),然后用训练集训练模型,后建立模型,再用测试集测试模型,最后衡量模型优劣。

训练集不用做测试模型,测试集不用做训练模型。

用心理学的话说,这个流程是为了让模型的外部效度(External Validity)更高。因为拿建立模型的数据去测试模型的效果,结果肯定不会太差。这样得到的模型是否能够适应新数据、新环境?有待拿另一批没用过的数据来验证。

心理学除了编制问卷流程中涉及到探索性因子分析(EFA)与验证性因子分析(CFA)时,对数据做了拆分,其他情况下一般不拆分数据。(EFA+CFA的思想与机器学习的流程有异曲同工之妙)

数据集拆分

通常对数据集的拆分是二八开,即80%的数据用作训练集,剩下20%的数据用作测试集。但实际情况可以稍有区别,如75%-25%或90%-10%。

机器学习的方法:

  • 回归(Regression)
  • 支持向量机(Support Vector Machine)
  • 人工神经网络(Artificial Neural Network)
  • 关联规则学习(Association Rule Learning)
  • 决策树(Decision Tree)
  • 随机森林(Random Forest)
  • 朴素贝叶斯(Naive Bayes)
  • K最邻近(k-Nearest Neighbor)

机器学习的方法有很多,以上只是列举主流方法。其中回归并不是只有机器学习才有,它普遍存在于众多学科领域中。但机器学习较常用下面几种回归方法:

  1. 逻辑回归(Logistics Regression)
  2. 岭回归(Ridge Regression)
  3. LASSO (Least Absolute Shrinkage and Selection Operator)

回归在心理学中的运用(从机器学习的角度)

一篇发表在PNAS上名为Computer-based personality judgments are more accurate than those made by humans的文章探讨了机器评估人格是否比人类评估更精确,从标题的肯定句式就可以判断出该研究得出的结论是肯定的。

Youyou, W., Kosinski, M., & Stillwell, D. (2015). Computer-based personality judgments are more accurate than those made by humans. Proceedings of the National Academy of Sciences, 112, 1036-1040.

原文链接:https://www.pnas.org/content/112/4/1036

研究流程

上图是该研究的分析流程:

  1. 采用IPIP五因素模型人格量表测量70520位用户的人格,形成矩阵(行:用户,列:人格五维度)
  2. 收集这些用户在Facebook上喜欢的主题(点击Like),形成一个矩阵(行:用户,列:喜欢的主题)
  3. 利用流程1和2的数据来建模,形成一个回归模型(因变量:人格维度,自变量:喜欢主题)
  4. 利用建立好的回归模型来预测测试集(test set)中用户的人格
研究结果

X:Facebook喜欢的数量 Y:准确率(自我-他人一致性)

六条线不同颜色的线条分别代表人格五维度+五种特质的平均值(红色)

随着获得的LIKES数据的增加,预测的准确率逐渐攀升。开放性的准确率相对其它四种人格特质更高。研究采集了用户的同事、朋友、同居者、配偶和家庭成员对这些用户的人格评估。评估准确性由高到低依次为:

  1. 配偶(0.58)
  2. 家庭成员(0.50)
  3. 朋友(0.45)
  4. 同居者(0.45)
  5. 同事(0.27)

人类平均准确率为0.49,机器平均准确率为0.56。机器评估显著优于人类评估(z = 3.68, p < 0.001)。在获得用户300个LIKES主题后,机器预测准确率将超越所有人类(用户的同事、朋友、同居者、家庭成员与配偶)。

该研究来自剑桥大学心理系,该团队在2年后发表了另一篇文章Birds of a Feather Do Flock Together: Behavior-Based Personality-Assessment Method Reveals Personality Similarity Among Couples and Friends来探讨伴侣、朋友与自己的人格相似性。

Youyou, W., Stillwell, D., Schwartz, H. A., & Kosinski, M. (2017). Birds of a Feather Do Flock Together: Behavior-Based Personality-Assessment Method Reveals Personality Similarity Among Couples and Friends. Psychological Science, 28(3), 276–284.

原文链接:Birds of a Feather Do Flock Together: Behavior-Based Personality-Assessment Method Reveals Personality Similarity Among Couples and Friends - Wu Youyou, David Stillwell, H. Andrew Schwartz, Michal Kosinski, 2017

以往认为择偶或择友都是随机的,而且自我报告的人格测验都显示配偶或朋友与自己的人格相关度很低,但作者并不认同这一结论。认为这可能是由于群体参照效应(reference-group effect)导致的。

前人对此做出的改进:

Botwin et al. (1997) and Buss (1984a) measured personality using independent interviewers' ratings and found similarity among spouses. Admittedly, this type of measure is still subject to the reference-group effect because the interviewer has his or her own reference group, but it affects both dyad members equally and therefore does not obscure the similarity between them.

Introversion, for example, was assessed by asking participants to judge whether in the last 3 months they "watched the soap opera on TV" or "went for a long walk alone" (Buss, 1984b, p. 368).

尽管前人努力做了改进,但仍避免不了群组参照效应。本文采用的方法是收集Facebook用户的两类数据:

  1. 脸书喜欢(Facebook Likes)
  2. 语言使用(language use: Facebook status updates)

Extraverts, for example, tend to use more words describing positive emotions (e.g., "great," "happy," or "amazing"; H. A. Schwartz et al., 2013) than introverts do.

第一类数据在上一篇文章中有过介绍,语言使用则是采集用户发布状态所使用的语言。比如,相较于内向的人,外向者更经常使用great, happy或amazing这些词语。

主要流程:

  1. we obtained a sample of participants with both self-reports of personality and Facebook data.
  2. Next, we built a series of predictive models to link self-reports of personality with Likes or language use, respectively.
  3. The resulting models were then applied to a separate sample of romantic partners and friends to generate personality scores for these participants.

可以看出不管是用LIKES(左上角)还是用户发布状态所使用的语言(右上角)数据,得到的恋人与朋友的人格相似性均高于自我报告的人格相似性(右下角)。其中语言数据得到的相似性更高。

以上两篇文章所使用的回归方法并不稀奇,但拆分数据为训练集与预测集的思想在心理学研究中并不常见。

人工神经网络在心理学中的运用

人工神经网络(Artificial Neural Network, ANN)简称神经网络(Neural Network,NN)或类神经网络,在机器学习和认知科学领域,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。

real neuron

在真正的神经元中,树突(Dendrites)用于接收信号,轴突(Axon)用于传递信号。

在人工神经网络中,树突可以看作为输入,轴突看做输出,用来处理信息的细胞体可以看作为隐藏层(Hidden layer)。

Example of simple network

非常火的深度学习就是包含多个隐藏层的人工神经网络。

深度学习常常被运用在图像识别领域。比如识别一张图片是猫还是狗,输入层是猫狗图片,输出层就是判断图片是猫还是狗。

深度学习的流程:

使用带有猫的图片作为训练集(此处数据为图像数据)来建立神经网络模型(多个隐藏层),当有新图片进入时,便可以使用该模型来推断这张图片会否包含猫。

JCP上的一篇名为Neural network applications in consumer behavior的文章总结了ANN在消费心理学中的运用。

Briesch, R., & Rajagopal, P. (2010). Neural network applications in consumer behavior. Journal of Consumer Psychology, 20(3), 381-389.

作者整理了以往采用ANN来研究消费选择、消费行为、消费者满意度等的文献。

另一篇相对较新的发表在Journal of Research in Personality上的文献将ANN运用在人格的研究中。

Read, S. J. , Smith, B. , Droutman, V. , & Miller, L. C. . (2017). Virtual personalities: using computational modeling to understand within-person variability. Journal of Research in Personality, 69, 237.

该研究将情境因素看做输入层隐藏层分为趋近(Approach)与回避系统(Avoidance),输出层为人的行为。

在改进后的神经网络模型中,输入层包含身体状态(Bodily state)与情境因素,行为会给最初的输入层一个反馈,这个反馈又包含Satiation与Consummation。举个例子就容易理解了:

  • 身体状态:饥饿
  • 情境因素:桌上有美味的食物
  • 行为:吃

当我们的身体处于饥饿状态,而桌上恰巧有美味的食物时,我们倾向于将桌上的食物吃掉。当吃掉食物后,行为会给到输入层两个反馈。对于身体状态来说,饥饿状态没了,对于情境因素来说,桌上的食物被吃掉了。

决策树在心理学中的运用

决策树是一种有监督的机器学习算法,通常以一个倒立的树呈现。在树中,节点代表自变量,节点之间的连接代表决策,每一个叶节点代表一个结果(因变量)。

A Decision Tree is a Supervised Machine Learning algorithm which looks like an inverted tree, wherein each node represents a predictor variable (feature), the link between the nodes represents a Decision and each leaf node represents an outcome (response variable).

决策树的优势:

  1. It is considered to be the most understandable Machine Learning algorithm and it can be easily interpreted.
  2. It can be used for classification and regression problems.
  3. Unlike most Machine Learning algorithms, it works effectively with non-linear data.
  4. Constructing a Decision Tree is a very quick process since it uses only one feature per node to split the data.

理解决策树的一个非常好的例子:

http://www.r2d3.us/%E5%9C%96%E8%A7%A3%E6%A9%9F%E5%99%A8%E5%AD%B8%E7%BF%92%E7%AC%AC%E4%B8%80%E7%AB%A0/

一篇发表在Child Indicators Research上的关于欺凌的文章探讨了哪些因素会使得青少年受到欺凌,使用的方法是分类与回归树

Moon, S. S., Kim, H., Seay, K., Small, E., & Kim, Y. K. (2015). Ecological Factors of Being Bullied Among Adolescents: a Classification and Regression Tree Approach. Child Indicators Research, 9(3), 743-756.

原文链接:https://link.springer.com/article/10.1007/s12187-015-9343-1

这种方法的一个非常大的优势是可以看出各个自变量之间的复杂交互关系。比如,在上图的结果中,根节点是年龄,这是对因变量欺凌行为(二分变量,是或否)的一个重要预测变量。14.5岁以上的青少年是否受到欺凌更易受到Enjoy classmates的影响。而影响14.5岁以下的青少年是否被欺凌的因素就多得多,如父母支持、学业压力等。

这样的发现是我们平常简单地收集一些自变量,然后使用线性回归得出的结论所不能达到的。因为那样只能得出年龄是一个影响因素,亦或是将年龄当做一个控制变量(尤其是在结构方程模型中)。即使采用多组SEM做群组分析,你也很难恰好将14岁拿出来做分组标准。

另一篇采用回归树的方法运用在组织行为学中的研究:

Giorgi, G., Dubin, D., & Perez, J. F. (2016). Perceived Organizational Support for Enhancing Welfare at Work: A Regression Tree Model. Frontiers in Psychology, 7(1770).

随机森林在心理学中的运用

随机森林是基于决策树的一种方法,一棵树得出的结论可能有偏,那多颗树的结论可能弥补这一缺陷。因此,建立一片森林能使得结果能可靠。

随机森林的建立流程

主要的思想是抽取数据集中不同的样本,然后取这些不同样本的子集,通过这些子集建立决策树,最后将所有的决策树的结果做平均。

一篇发表在Personality and Individual Differences上的文章采用随机森林的方法评估了正念冥想问卷的效度,可以说是随机森林在心理测量学中的运用

Sauer, S. , Lemke, J. , Zinn, W. , Buettner, R. , & Kohls, N. . (2015). Mindful in a random forest: assessing the validity of mindfulness items using random forests methods. Personality and Individual Differences, 81, 117-123.

以上是机器学习中一些主流方法在心理学中的运用。

模型评估

对模型优劣的评估主要涉及对分类模型回归模型的评估。

评估分类模型优劣主要采用:

  • 混淆矩阵(Confusion Matrix)
  • ROC (Receiver Operating Characteristic)
  • AUC(Area Under Curve)
Confusion Matrix

在混淆矩阵中,行代表实际值,列代表预测值

  • 实际值是阳性,预测值也是阳性,叫做真阳性(正确接受);
  • 实际值是阴性,预测值是阳性,叫做假阳性(错误接受);
  • 实际值是阳性,预测值是阴性,叫做假阴性(错误拒绝);
  • 实际值是阴性,预测值也是阴性,叫做真阴性(正确拒绝)。

这和普通心理学中信号检测论中的内容相似,也和一类、二类错误(Type I, Type II error)的内容有联系。

评估回归模型优劣主要采用Root Mean Squared Error (RMSE)

RMSE

这就是回归方程中的误差项,不再赘述。

取样误差带来的挑战

取样会影响模型的表现(Sampling can affect performance measures)。

因此,需要更为稳健的测量方式如交叉验证(Add robustness to these measures: cross-validation)。

交叉验证的思想是:sample multiple times, with different separations

交叉验证的主要形式

  1. K-fold cross-validation
  2. Leave-One-Out-Cross-Validation (LOOCV)

第二种留一交叉验证由于耗时,其优势不如第一种K折交叉验证明显。

4-fold cross-valudation

K折交叉验证就是将收集到的数据平等地划分为K份,这样产生了K个训练集以及K个测试集。平均K次的结果或者使用其它结合方式,最终得到一个单一估测。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次,10折交叉验证是最常用的。

机器学习与心理学的相关性

机器学习的一些思想并不是这个学科所独有的,心理学有一些概念或方法所使用的的理念与其有相似之处。总结为以下几点:

  1. 特征(feature) vs 自变量,目标(target) vs 因变量
  2. 训练集与测试集 vs 探索性因子分析与验证性因子分析
  3. Bootstrap vs k-fold cross-validation

第一,机器学习通常把自变量叫做特征,因变量叫做目标。其实就是自变量与因变量。

第二,机器学习对于数据集的拆分与心理测量学中问卷编制阶段的因子分析类似,都是出于担心旧样本生成的模型不能很好地适应新数据。探索出量表的结构后,需要在一个新的数据集上对已经得到的结构进行验证。

第三,虽然Bootstrap不是因为心理学发明的,但它已经是中介效应的主流检验方法,其背后的思想是重复抽样(如,有放回的抽样5000次,最后平均)。这与K折验证背后拆分K次的思想类似(运用随机产生的子样本训练与验证,最后合成)。

为什么心理学需要机器学习?

  1. 机器学习中预测的思想弥补心理学中重解释、轻预测的现状;
  2. K-fold cross-validation用于得到可靠的模型;
  3. 机器学习的一些方法如人工神经网络能建立具备非线性关系、复杂关系的心理模型;
  4. 机器学习中的模式分析可为理解人类行为背后隐藏的深层模式带来帮助。

最后,任何一样东西都不是你想得那样难,也不是你想的那样简单。我们应当对学习机器学习的概念与方法要抱有信心。

PS:AI界的一些大牛如Hinton,Jordan具备心理学背景。

神经网络之父、深度学习鼻祖 Geoffrey E. Hinton

Geoffrey E. Hinton

Hinton曾在剑桥大学攻读实验心理学,后再爱丁堡大学攻读人工智能。

资料来源:http://www.cs.toronto.edu/~hinton/

AI界泰斗,美国科学院、美国工程院、美国艺术与科学院三院院士Michael I. Jordan

Michael I. Jordan
Michael I. Jordan is the Pehong Chen Distinguished Professor in the Department of Electrical Engineering and Computer Science and the Department of Statistics at the University of California, Berkeley. He received his Masters in Mathematics from Arizona State University, and earned his PhD in Cognitive Science in 1985 from the University of California, San Diego.

Jordan本科专业是心理学,博士专业是认知科学

资料来源:https://people.eecs.berkeley.edu/~jordan/

参考文献:

Briesch, R., & Rajagopal, P. (2010). Neural network applications in consumer behavior. Journal of Consumer Psychology, 20(3), 381-389. Giorgi, G., Dubin, D., & Perez, J. F. (2016). Perceived Organizational Support for Enhancing Welfare at Work: A Regression Tree Model. Frontiers in Psychology, 7(1770). Moon, S. S., Kim, H., Seay, K., Small, E., & Kim, Y. K. (2015). Ecological Factors of Being Bullied Among Adolescents: a Classification and Regression Tree Approach. Child Indicators Research, 9(3), 743-756.Read, S. J. , Smith, B. , Droutman, V. , & Miller, L. C. . (2017). Virtual personalities: using computational modeling to understand within-person variability. Journal of Research in Personality, 69, 237.Sauer, S. , Lemke, J. , Zinn, W. , Buettner, R. , & Kohls, N. . (2015). Mindful in a random forest: assessing the validity of mindfulness items using random forests methods. Personality and Individual Differences, 81, 117-123.Yarkoni, T., & Westfall, J. (2017). Choosing Prediction Over Explanation in Psychology: Lessons From Machine Learning. Perspectives on Psychological Science, 12(6), 1100-1122.Youyou, W., Kosinski, M., & Stillwell, D. (2015). Computer-based personality judgments are more accurate than those made by humans. Proceedings of the National Academy of Sciences, 112, 1036-1040. Youyou, W., Stillwell, D., Schwartz, H. A., & Kosinski, M. (2017). Birds of a Feather Do Flock Together: Behavior-Based Personality-Assessment Method Reveals Personality Similarity Among Couples and Friends. Psychological Science, 28(3), 276–284.

四、机器学习(machine learning)在经济学领域是否有应用前景?

我的专栏——

机器学习、大数据与经济学研究 - 大石头路73号 - 知乎专栏

对于这个问题,经济学大牛 Varian 已经写论文说过了,知乎上有人给了论文链接,我在这里简单介绍一下这篇文章的内容。

Varian, 2014, Big data: New tricks for econometrics

这里有一篇中文的介绍:

【香樟论坛】大数据:计量经济学的新技巧

其实这篇介绍的挺详细。但如果我全都照搬过来,岂不是很没有创造性?所以我决定重新写一篇。。。

论文作者是范里安(Hal Varian),学过经济学的应该都知道这位大名鼎鼎的美国经济学家,著有经济学教材《微观经济学:现代观点》,就算没读过应该也听说过。他现在已经从加州大学伯克利分校退休,现任 Google 首席经济学家,参与设计了 Google 广告关键词拍卖系统等项目。

范里安为 Google 设计的「AdWords Select」系统背后的经济学原理是怎样的? - 谷歌 (Google)首席经济学家范里安:谷歌摇钱树 -- 经济金融网 -- 传送门

看看他在这篇论文脚注中的作者介绍,感觉还是挺酷的:

Hal Varian is Chief Economist, Google Inc., Mountain View, California, and Emeritus Professor of Economics, University of California, Berkeley, California.

不知道是不是受到 Google 程序员们的影响,范里安现在对机器学习和大数据很感兴趣。

范里安认为,计算机技术现在已经深入到经济学研究中。传统的统计和计量方法,比如回归分析,当然是不错的研究方法,但如今数据量越来越大,而正好符合研究要求的数据已然有限,同时大数据量让变量之间的关系变得更加灵活,传统计量中的线性以及大多非线性模型可能都无法满足这一要求,所以经济学家需要寻找新的研究方法。范里安认为,机器学习理论中的决策树(decision trees),support vector machines,深度学习(deep lerning)等技术,可以更加有效率的处理复杂的关系。

所以,他在文中的思路可以简单总结为:

- 经济学要与数据打交道,传统分析用的是样本等小数据

- 随着经济交流的日益频繁和技术水平的提高,数据越来越大,大数据出现

- 传统经济学分析方法在分析大数据时显得捉襟见肘

- 我们需要新的分析方法

- 机器学习技术可以在这方面帮助我们

这篇文章开始给读者介绍了一些处理数据的方法和软件,以及大型 IT 公司的处理方法,这还是挺有用的。比如在处理百万条的大型数据时需要用到 SQL,数据清理可以用 OpenRefine 和 DataWrangler。

不过计量经济学和机器学习当然是有区别的,作者认为:

Data analysis in statistics and econometrics can be broken down into four categories: 1) prediction, 2) summarization, 3) estimation, and 4) hypothesis testing. Machine learning is concerned primarily with prediction.[...]Machine learning specialists are often primarily concerned with developing high-performance computer systems that can provide useful predictions in the presence of challenging computational constraints.[...]Data science, a somewhat newer term, is concerned with both prediction and summarization, but also with data manipulation, visualization, and other similar tasks.

计量和统计学主要关注四个方面:预测、总结、估计和假设检验。机器学习主要关注预测。数据科学侧重预测和总结,也涉及数据处理、可视化等。

计量经济学关注因果关系,会遇到内生性等问题,而机器学习则会遇到“过度拟合”(overfitting)的困扰,但机器学习可以关注到计量和统计中样本以外的数据。

那么机器学习如何运用到经济学中呢?作者举了几个例子。

一个是分类和回归树分析(Classification and regression trees,简称CART),这一方法适用于分析一件事情是否发生以及发生概率的时候,即被解释变量是0或1。计量上通常用 logit 或 probit 回归。

范里安这里用的是例子是泰坦尼克号沉船事件中不同人群的死亡概率。作者用机器学习理论中的 CART 方法(R 软件中有这个包 rpart),把船上的乘客按照舱位等级和年龄进行分类。

这是树模型(Tree model)的分类,舱位分一、二、三等,一等最好,三等最差。然后做成树型的样式:

最上面一层把乘客按照舱位分开,左边是三等舱,右边是一等和二等。三等舱(很有可能穷人居多)死亡概率较高,501个人中有370个遇难。接下来把右边一等和二等的乘客按照年龄分类,左边是大于等于16岁的,右边是小于16岁的儿童。先看儿童,这类人群的幸存概率很高,36个人中有34个都活下来了。左边把年龄16岁及以上的人又分为两类,左边的二等舱和右边的一等舱。二等舱233人中有145人遇难,一等舱276个成年人中174人幸存下来。我算了一下,四类人从左到右的幸存概率分别是26%、37%、63%和94%。所以在泰坦尼克沉船时,儿童和一等舱的人容易活下来

接下来重点关注一下乘客的年龄分布,下图是各年龄段的幸存概率以及置信区间:

从图中可以看出,10岁所有的儿童和60岁左右的人幸存概率更高

同时,作者又用传统的计量方法 logit 模型回归了一下,解释变量是年龄,被解释变量是幸存(1)。结果如下:

年龄(age)与幸存为显著的负相关,即年龄越小越可能在沉船时活下来,但是系数太小,影响很弱。总结这两种方法作者认为,是否幸存并不取决于年龄,而是乘客是否是儿童或者60岁左右的人,这一点在回归分析中无法反映出来

类似的机器学习的方法还有一个叫conditional inference tree,这里同样是运用泰坦尼克的数据制作的图:

这幅图把乘客进行了更加细化的分类,添加了性别(sex)一项。pclass 是舱位登记,age 年龄,sibsp 为船上兄弟姐妹和配偶的数量。最下面的刻度中黑色是这一人群的幸存比例。可以得出的结论是妇女和儿童的幸存率最高。(这是因为在沉船的时候大家大喊“让小孩和女人先走”吗。。?)

上面这个例子比较简单,但也足够明了,我认为它比较清楚的解释了机器学习和计量的差别:机器学习更加关注相关性和预测,所以得出的结论是某个年龄段的人群幸存率更高。而计量更加关注因果关系,根据上面的 logit 模型,很难说是年龄导致了幸存,很明显还有很多其他变量没有被考虑进去,比如个人体质等等,或许年龄根本就不是计量经济学家在这里主要考察的变量。而且如果加入交叉项也许会有新的结论。所以简单的说就是模型设定的问题。具体哪种方法更好,还要看具体研究的问题是什么。

此外,作者还举了其他机器学习的例子,如 boosting, bagging, bootstrap, bayes,这里就不详细说了。文中的几个例子挺值得一看,可以了解一下机器学习的基本方法。比如利用机器学习研究一家公司投放广告是否有效,传统的计量方法是需要设计实验,设立处理组和对照组,但成本较高。

范里安认为过去几十年计算机科学家与统计学家已经进行了许多卓有成效的合作,他对机器学习在经济学,特别是计量经济学和统计学的应用十分看好,所以范里安给经济学专业的学生一条建议:

[…] my standard advice to graduate students these days is “go to the computer science department and take a class in machine learning.

“学经济学的都去计算机系修一下机器学习的课程吧!”

范里安一方面是传统意义上的经济学家,另一方面由于在 Google 工作的经历,使得他对机器学习技术有了更深的了解,他的观点值得一看。

当然,这也只是他的一家之言,毕竟机器学习和计量经济学在方法、目的上都有较大差别,机器学习是否会真的大范围进入到经济学领域还很难说。不过,计算机技术越来越多的被运用到经济学研究当中已经是不争的事实,而且也是趋势,现在如果不懂点编程技术(至少是计量软件),很难在经济学这个行当走的更远。虽然现在有不少功成名就的经济学家和教授在写代码方面并不精通,但每个时代对人们的要求都有不同,当年计算机技术还没有普及,而他们接受的教育实际上已经比之前的人有了长足进步。我想,今天这个时代对经济学研究者的要求之一就是掌握一定的编程技术吧,虽然不用达到写应用程序那个等级,但也得有较高的搜集数据和处理数据的能力。

所以,如果你只是打算学完经济学就去公司当白领,那么写代码技术可能不是必需的,反而用好word, excel, powerpoint 可能更有用(IT、金融等对写代码有一定要求的行业或岗位除外)。但假如想在学术圈待下去并且有所建树,那么从长远考虑,现在就赶紧去学点编程技术,提高自己的数据处理能力吧。

现在网上这类资源很多,比如coursera上John Hopkins大学很有名的数据科学的课程

https://www.coursera.org/specializations/jhudatascience?utm_medium=courseDescripTop

大部分都带中文字幕

我自己也在听这个公开课。另外我也会在YouTube找一些数据处理的课程,YouTube 在这方面的优点是资源很丰富(中国的视频网站在这方面的资源太匮乏),基本上只要你能想到的软件教程都会有。缺点是质量参差不齐,而且有些视频不完整,有的视频发布者更新一段时间就停止了。相比而言,coursera 的质量和完整度都要更胜一筹。所以 coursare 和 YouTube 结合起来还是不错的。

其他参考资料:

计量经济学、时间序列分析和机器学习三者有什么区别与联系? - 经济学

五、机器学习 (machine learning) 在天文学中有或者将会有什么应用?

好问题……

我只能说我自己知道的一个简单例子:测光红移。

SDSS-III 里的无光谱的天体的测光红移数据,就已经是由机器学习给出的了(

https://www.sdss3.org/dr8/algorithms/photo-z.php

)。

自己没事的时候拿模拟数据试验过几种机器学习的方法。目前看来,如果人工干预做得够好(比如事先依据颜色把 LRG、ELG、类星体之类的东西的分类做好),那么几种常见算法的效果还是可以的,虽然还是没办法拿来做大尺度结构的研究就是(红移换算成的尺度因子的相对偏差不应超过大约 1/20,否则抓瞎)。

神经网络照例慢得要命且效果一般。SVM(滋磁向量机)所得的测光红移的 scatterings 迷之微小,虽然离真实值差得比较远(也就是,精密度很好,准确度很烂)——似乎能用一个依照星系类型而定的函数修正就好?现在流行的做法是随机决策树和决策森林,加进一些不仅仅是测光数据的辅助参数(比如这一篇

http://arxiv.org/pdf/1504.07255.pdf

,这帮人从好几年前就开始忙活着把星系的形态学数据甚至形态本身加进里头去)。

未来的 LSST 是没有光谱仪通道的,红移数据只能依据测光给出。在这方面,机器学习相对于模板拟合似乎有一定优势。

当然,我倒是更看好把测光红移与 JHU 的 Menard 组做的“相关红移”(

http://arxiv.org/abs/1303.4722

,只要你知道啥是两点相关函数,他们的计算方法就很好理解了;当然,这么弄出来的红移数据是不能用来做结构形成的,否则逻辑就错了)结合起来的结果(以及其实无缝光谱法挺好的他们为啥不用……起码比测光强多了……)。

六、该不该坚持学习Machine Learning?

谢邀

一个技能学与不学,肯定有千万种理由,然而并没有一种理由叫做‘因为赶不上最牛的人,所以不学了’。如果你真有这样的观点,为何要继续‘老老实实做开发’呢?别人做开发了几十年了,你赶的的上最牛的人吗?为何要‘多看看系统设计类的东西’呢?别人系统设计也做了几十年了,你赶得上最牛的人吗?既然什么东西都赶不上最牛的人,还继续学什么呢?混吃等死就好了。

然而你并不会这么想,既然不会这么想,为什么会把这个观点用在‘是否要学ML’上呢?

换个角度想想,为什么觉得‘老老实实做开发,多看看系统设计类的东西’听起来是一个保险的选择,而‘学和ML相关的技术’是冒险的选择?因为工作环境,周围所接触实实在在的人,都是按照这个路子走出来的,因此心中会觉得这样子理所应当。然而换一个环境,在一个充满‘新技术改变世界’的氛围中,可能会觉得‘学和ML相关的技术’是更保险,甚至唯一的选择,而‘老老实实做开发,多看看系统设计类的东西’反而是需要犹豫的选择。

我不想说到底应不应该坚持学习某项技术,毕竟每个人有自己的选择。我只是认为做决定的时候,要多考虑技术本身,历史的潮流,而不要仅仅因为自己小圈子所带来的感受。要跳出圈子,不做井底之蛤,看到更大的世界,才能顺应时代发展的需求。毕竟

‘一个人的命运啊,当然要靠自我奋斗,但是也要考虑到历史的行程’

--

by @陈然

七、机器学习包括?

机器学习

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

八、如何评价《CS:GO》主播/解说 Machine玩机器?

玩机器四大名著:《都市特种兵之对面eco》《战场反省录之本来刷了》《呐喊续集——“我不玩了”》《惊悚悬疑集之谁偷了我的天梯分》

《A大树位》《侧道单车》《沙发贴墙》《火车低坡》

《本来刷了》《这人克我》《把分还我》《我不玩了》


富豪去世前找来自己三个儿子说谁能把这个房间填满就把遗产给谁。大儿子买了一堆稻草企图把房间堆满但是没有成功,二儿子买了一堆面粉洒满房间,富豪还是不满意。这时三儿子拿着手机外放玩机器直播走了进来,房间里的二刺螈浓度一下子拉满了

最好的烟雾弹使用者

上学时没钱抽烟,土豪朋友家里有各种最顶级的烟雾弹

6657胡言乱语


大家好,我是6657玩机器马姓,欲渡黄河冰塞川,将登太行雪满山。我就是人称洋马骑士,Blueballfatberg,北美第一突破口,石家庄shroud,石家庄第一风行,让hiko误认为本人是大主播的玩鸡器,鸡是j8的鸡,头像是伊利亚,切记日呆不是强的就是彩笔,玩机器技术厉害,长得又帅,说话又好听,我带大家玩世界上最好玩的游戏CSGO。接下来我要为大家表演一段喊麦。

大家好,我是成语大师MC机器,穷玩车,富玩表,燃料喷射器(SBWJQ),我秦王绕柱,近大远小,以高打低,交叉火力,自以为抓住了什么了不起的时机,却旋转跳跃闭着眼被roca5杀,真是稳如磐石,让人不禁感叹这就是让人不禁感叹啊。6657upup,身陷囹圄还不忘看2k打架,s1mple唱歌,n0thing跳舞,冷神洗澡。在烟雾散开的一瞬间就是小鬼露出獠牙的时刻。XX在这一瞬间踏火而行,让人不禁想起了丹麦特色美食丹麦烤香肠,土耳其传统美食土耳其烤肉,巴西烤肉,最后让我为大家放一段跳熊,容我去吃一份猪蹄饭加西红柿鸡蛋面,配上中午那份黄焖鸡米饭。吃完饭播比赛,只要直播间还有一个观众,我就继续播,你们不要骗我比赛开了, 6657没有手枪局,6657是独裁直播间,我说播什么就什么,jdm要是拿下这个5杀我就roll红包,他想到了吗?他想到了!什么?!这也在你的计算之内吗?还有你,XXX,你在干嘛?不要在匪家挂机了。接下来我将随机抽取一名幸运水友,把你银行卡号给我,0打多打少是个缘分。来让我们打开大侄子的直播间,一起看一会儿咬人猫,阿雨帮我下一碗雪菜肉丝面,何红雨顺便把我鞋给刷了,看看这个家庭地位,我就是一家之主玩机器。最后让我们伴着红果果和绿泡泡的音乐结束今天的直播。

这波……何红雨在刷鞋,玩机器打算直接点开视频一波快冲……什么! 阿雨刷完鞋还来得及回头处决包匪玩机器,玩机器这波自以为抓到了什么了不起的时机,没想到自己的快冲是被一波回头直接摧毁了……让人不禁感叹这就是Rain啊,阿雨upup!

九、机器学习是从哪里学习?

机器学习是从数据中学习的。它利用算法和统计模型来分析数据,发现数据中的模式和规律,从而生成预测模型和决策模型。

机器学习有监督学习、无监督学习和强化学习等不同的学习方式,可以应用于各种不同的领域,如自然语言处理、计算机视觉、音频信号处理和金融等。

机器学习的数据来源可以是结构化数据和非结构化数据,如图像、文本、音频和视频等。

十、什么是学习和机器学习?

机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是人工智能的核心,是使计算机具有智能的根本途径。

学习,是指通过阅读、听讲、思考、研究、实践等途径获得知识和技能的过程。学习分为狭义与广义两种:狭义:通过阅读、听讲、研究、观察、理解、探索、实验、实践等手段获得知识或技能的过程,是一种使个体可以得到持续变化(知识和技能,方法与过程,情感与价值的改善和升华)的行为方式。例如:通过学校教育获得知识的过程。广义:是人在生活过程中,通过获得经验而产生的行为或行为潜能的相对持久的方式。次广义学习指人类的学习。

Top