2017-11-24 13:51:35 浏览: 来源:
斯坦福大学 统计及机器学习 科研
Stanford University Statistics and Machine Learning Research
斯坦福大学与加州大学伯克利分校共同构成了美国西部的学术中心;
截止至 2017 年,共有 64 位斯坦福校友、教授或研究人员曾获得诺贝尔奖;
20 位曾获得图灵奖(计算机界最高奖);
7 位斯坦福教授曾获得过菲尔兹奖(数学界最高奖);
2016-17 年,斯坦福大学在 ARWU 世界大学学术排名和 QS 世界大学排名中均位列世界第二;
在泰晤士高等教育世界大学排名中位列世界第三;
在 USnews 世界大学排名中亦位列世界第三;
斯坦福大学为硅谷(Silicon Valley)的形成和崛起奠定了坚实的基础,培养了众多高科技产品的领导者及创业精神的人才,这其中就包括惠普、谷歌、雅虎、耐克、罗技、特斯拉汽车、Firefox、艺电、太阳微系统、NVIDIA、思科、硅谷图形及 eBay 等公司的创办人;
面向对象:欲申请美国名校统计类、计算机类、数据科学类相关专业的高中生或大学生;
科研主题:经典统计学概论,统计建模,机器学习及神经网络在计算机视觉和智能系统中的应用;
科研时间
时间:寒暑假,项目时长 3-4 周;
具体情况根据学生面试情况由美方进行调整;
报名后 1 周安排面试,面试前辅导学生阅读 1 篇专业论文;
科研简介
本科研项目主要涵盖统计学的三方面内容:
1. 经典统计学基础,包括常见的多种概率分布(正态分布,二项分布,泊松分布,指数分布等),协方差,相关性,简单线性回归,多项式线性回归以及广义线性模型,并通过实际的小科研实践来理解他们的应用; 2.机器/统计学习基础,包括常见的机器学习算法介绍:分类——K-最近邻居,随机森林,逻辑回归,
Adaboost,聚类分析——K-平均算法,数据降维——主成分分析,并通过实际的例子学习他们的应用和常见的数据预处理方法等。(此部分会用到 python 或者 R 的编程,如果需要,可以安排时间讲解);
3.神经网络,卷积神经网络,以及他们在图像处理上的应用,包括常见的计算单元和神经网络结构,神经网络优化方法,深度学习框架如 Caffe,学生将会自己编写程序搭建一个小的神经网络,并学习如何利用Caffe 训练深度卷积神经网络进行图像识别。
科研内容
研究模块 1 ----经典统计理论
统计是关于数据的函数,学习统计能够更好地帮助我们理解数据和从数据中挖掘知识,这在大数据时
代显得尤为重要。本模块主要通过对基本统计学概念的介绍,如概率分布,协方差,相关性等帮助学生了 解统计学,同时把它们运用在实际的统计建模中,本节视进度会有一到两个小项目。
研究模块 2 ----机器学习
机器学习理论来源于统计学习,由计算机实现。主要是通过算法和大量的数据来训练计算机,是得给
定新的数据,计算机能够识别隐藏在数据中的模式(pattern)。和深度学习一样,这样的问题本质上来讲
是一个抽象+优化的过程。本模块主要涉及多个机器学习算法的介绍,常用的机器学习库,如 python 的sklearn(视学生具体情况,会增加 python 和 R 的编程讲解),以及一般处理机器学习问题的流程。本节将会有一个机器学习相关的课题给学生完成,学生会在导师的引导下定义问题,定义目标函数,自己利用python 编写程序实现。
研究模块 3 ----深度学习及神经网络
深度学习是机器学习的一个分支,主要通过深度神经网络来实现,被广泛地运用于信号处理,图像识
别,自动驾驶,自然语言处理中,是目前最热的研究领域之一。本模块将会涵盖感知机(perceptron)的基本架构,简易神经网络的结构,常用的优化方法如 SGD,主流的神经网络框架如 Caffe。学生将会在导师的引导下自己用 python 编写一个神经网络,同时通过实际例子接触卷积神经网络在在图像识别和语义 分割中的应用。
科研进程
Section |
Contents |
Section1 |
1. Basic concepts:基础概念 · Random variable, variance, expectation, common distributions including Normal distribution, Binomial distribution, Poisson distribution, correlation (随机变量,方差,期望,概率分布,相关性) · Conditional probability(条件概率) · Bayes Rule, Law of Large Number(贝叶斯法则,大数定律) 2. Basic Statistical modeling:基础统计建模 · Simple linear regression;(简易回归) |
· Multiple linear regression;(多项式回归)
· Generalized linear model: (广义线性模型)
· Small project walk through: correlation based trading strategy(基于相
关性的交易策略设计)
Section 2 |
1. Basic framework:机器学习的基本框架 · Define the machine learning problems: regression, classification, clustering;(回归,分类,聚类分析) · Training set, testing set, cross validation; · Common Algorithms: random forest, decision tree, logistic regression, support vector machine, K nearest neighbor, adaboost, etc(,随机森林,决策树,逻辑回归,支持向量机,K 最近邻,adboost) · Software overview: intro to R(R 编程) 2. Examples and project walk through: · Kaggle competitionàRandom forest · Spamemail detection/tumour detection àlogistic regression |
Section 3 |
1. Basic architecture:神经网络基本架构 · Neurons, weights, bias,activation functions(激活函数) · Perceptron(感知元) · Convolutional neural networks and application(卷积神经网络) · Intro to python programming(Python 编程) 2. Examples and small project: · How to code a small neural networks(编写小的神经网络) · Neural nets for digit recognition(神经网络及数字识别) |
Section 4 |
TBD: The schedule has not been fixed yet.Topics can involve graduate school application/image processing using Python/Basic time series analysis |
科研收获
1. 对统计学,机器学习和神经网络有一个大体而全面的认识,通过实际操作掌握处理相关问题的流 程,了解近年兴起的“数据科学家”,“机器学习工程师”的工作。
2. 切身体会斯坦福和硅谷的学术和技术创新氛围
下一篇:美国游学访问名校材料解析
扫码加入微信群