SAS微薄资讯17期
.
除了招聘继续给力,本期SAS资讯中高性能计算讨论和SAS软件中一个问题debug探讨也同样精彩;另外张栋老师的“机器学习在互联网应用 10 大挑战”系列在此汇总了一下,希望对你有帮助。
.
本期招聘
- @英创人才上海国际部: 500强日化公司,数理统计高级研究员,张江高科技园区,月薪7-9k。要求:统计学、生物统计专业;熟练应用SAS或SPSS;流利的英文听写能力,本科1-2年工作经验或硕士应届毕业生,有临床或日化行业经验优先。简历发送到tongqt@yingchuang.com – 原文地址:http://t.cn/SidGFC [01/04/2012 21:10:54]
- 本期SAS招聘://@张磊IDMer: //@赵炳岳: 北京在招聘SAS或者SPSS的开发工程师,要求:1、本科或硕士学历,统计学、计算机、数学与应用数学等相关专业;2. 熟练SAS编程和使用SAS相关数据挖掘工具,如SAS EM、SAS EG和SAS EMM工具等,并能完成分析报告的编写;3. 熟悉主流数据库 – 原文地址:http://t.cn/SViipp [12/19/2011 21:13:50]
- #SAS招聘#美国500强日化公司,数理统计高级研究员,张江高科技园区,月薪7-9k。要求:统计学、生物统计专业;独立制定统计计划,熟练应用SAS或SPSS;流利的英文听写能力,良好的团队合作精神;本科1-2年工作经验,或者应届硕士,有临床试验或日化行业经验优先。有意者简历发送至tongqt@yingchuang.com [12/17/2011 12:39:04]
- 帮转 //@郑来轶: #招聘信息#公司:淘宝商城,地点:杭州,岗位:数据库营销类,待遇:有肉有米//@勾践XO: 招聘了招聘了。有志于在电子商务B2C数据库营销领域里一展抱负的兄弟姐妹们,进来看看。http://t.cn/SVcjzo @车品觉 @数据挖掘与数据分析 @小蚊子乐园 @郑来轶 @徐梁君 @徐达S @ZJUER-刘建斌 @沈浩老师 @商业分析-数据挖掘 @数据化管理 @susantl @P夏夏 @自己_木吒 @网店那些事儿 帮我转一转啊。 [12/19/2011 16:48:30]
- 回复@零对冲:恩啊, 基本上这类职位都在北上广杭等地,其他地方基本没有。经济商业的发展水平决定的。 //@零对冲:南京类似职位为什么这么少? //@sxlion:招聘 //@小蚊子乐园: #微招聘#数据分析师,广州同样招聘,有兴趣者简历发至xiaowenzi22@qq.com//@数据挖掘与数据分析: #微招聘#【触发条件】:三年及三年以上互联网数据挖掘经验,懂SQL,掌握一种数据挖掘工具(SPSS、SAS、R等),会玩office系列工具;【催化剂】1、营销及业务分析优先考虑;2、内部火速推荐,流程短,效果佳!【base】:北京 【Email】cwdengkai@360buy.com @小蚊子乐园 @数据化管理 @郑来轶 @森可诚 [12/07/2011 15:56:26]
已完成会议活动
- //@中国统计网: #活动公告#地址:桂果路669号,近宜山路 //@中国统计网:12月4日(13-17时)上海数据分析同行交流会”棋局”一切准备就绪,望与会者大家提前查号路线(9号线漕河泾开发区下,1号口出来后,直走到第一个十字路口左转走200米左右),准时出席,欢迎大家来破解棋局! 其它联系组织者@datathinking//@中国统计网: #棋局最新动态#活动嘉宾和主讲内容已经确定,现公布! (其它任何建议和想法请联系@datathinking ) 活动方案和地图地址:http://weibo.com/1650363390/xxA2P8kaq
[12/04/2011 11:21:48]
- //@SAS杨旭: SAS目前正进行机器辅助翻译的研究,希望今后能涉足机器翻译领域。 //@CCF中文信息技术专委会:转发微博//@刘群MT-to-Death: 昨天在中文信息学学会30周年会议上我代表机器翻译专委会做了一个机器翻译领域的报告,里面有我和同行们关于机器翻译近年来发展的总结和展望,也加入了我自己很多思考。报告已上载:http://t.cn/SGBsJ8 请各位同行批准指正,非常希望跟大家交流。 [12/06/2011 10:21:57]
- //@PKU王栋: 转发微博//@李航博士: NIPS2011结束了。每次参见NIPS的感受都一样,要学习的东西太多了。总结了一些今年的趋势。传统话题Reinforcement Learning,Neural Computing等仍占一席之地;最近热门话题Sparsity and Low Rank,Non-Parametric Bayesian,Deep Learning等仍然很火;全新话题crowdsourcing颇受瞩目。明天回北京。 [12/16/2011 20:43:13]
博文推荐
- 另外,对于一个博士来说,如果他毕业了,不对他所研究的领域有绝对发言权,基本上算是失败的了。这篇文章就是偏重于目前研究比较成熟,应用很火的两种机器学习方法:支持向量机SVM和Boosted Trees。因此推荐广大SASor读一读,在以后的工作和科研中会用得到的。//@sxlion: 【转载】统计学习那些事 by eeyan 2011 http://t.cn/ScCcrE 说明:与其说是统计学习那些事,不如说是非统计专业博士毕业的那些事。作为一个原来学机械自动化的,后来搞生物信息学这个坑爹的方向。作者苦逼地读了5年博士,不找点好玩的,简直是没法活下去了。
[12/16/2011 21:38:06]
SAS爱好者资讯
- //@tianwild: //@webgu:转发微博//@SAS中文论坛: #SAS# 9.2开始提供了自定义函数接口proc fcmp,方便大家灵活的封装数据处理逻辑。这里提供了详细说明解释proc fcmp的用法。proc jlaunch又是一片新天地啊,直接上图让大家看看新界面。在SAS 9.22中,我们还可以通过图形界面FCmp Function Editor去维护这些自定义函数。样例代码:http://t.cn/SVkMnM
[12/21/2011 14:16:39]
- //@零对冲: What is SAS doing with Hadoop? At SAS, have a number of initiatives around Hadoop to enable SAS users to access, load, process, visualize and analyze data stored in Hadoop. – 原文地址:http://t.cn/SILRd6 [12/23/2011 19:52:53]
- 转发微博//@PKU王栋: “IT产业已经充斥着大量的商业智能与分析软件,但仍缺乏对大量非结构化数据进行分析的工具。在企业中约有80%的数据为非结构化数据,这意味着在数据库中无法轻易将非结构化数据分类。” -IBM新兴技术副总裁Rod Smith [12/12/2011 13:24:57]
- 转发微博//@SAS中文论坛: 很多#SAS#分析员都想详细了解各种算法与他们之间的相互联系。就拿SVD举例,marketing里面的perceptual mapping都是基于SVD的,参见market research methods in SAS,很多数据挖掘算法也是基于SVD的,比如colaborative filtering; SVD也用于NMF的初始值计算….. 详细内容请访问:http://t.cn/Sqs91u
[12/10/2011 18:23:09]
- 哈哈,这这种方法果然神奇,看来SAS9.3不能买graph模块了。//@SAS中文论坛: 最近研究的一点#SAS#画中国地图的窍门。SAS 9.2下管用。proc sgplot data = maps.china ; scatter x = x y = y /markerattrs=(size=2); xaxis grid label = ‘ ‘; yaxis grid label = ‘ ‘; run; …… 样例程序参见:http://t.cn/htosnt by damaopao
[12/10/2011 17:55:55]
- 转发微博//@SAS杨旭: 介绍一个英语词频语料的网站:http://t.cn/Si8Iov,该网站使用COCA,有4亿多词,做文本挖掘的可以关注一下。 [01/04/2012 20:27:10]
SAS高性能计算测试讨论
- …. [good]//@kuhasu: 我最近详细研习了HP系列的所有Procs信息,然后惊奇的发现,其实很多东西自己很多年前就已经那么做了~两个方面需要注意一下子:1、算法方面的优化,木公开,但是效率提升20倍,精确度下降5%;2、MPP共享数据库方面,以及触发。 [12/15/2011 16:20:58]
- //@真正的圈总: 回复@yatmingyatming:基于最经典的IRLS算法,利用PROC REG迭代,涵盖常用的几种GLM的分布,比如binomial,poisson,gamma等。通常LOGISTIC 回归只要迭代张磊IDMer: 1分钟完成10亿条记录的Logistic Regression[续]:昨天发了微博,大家对背后的细节比较感兴趣,所以补充说明:业务问题是针对金融业的贷款违约建立信用评级模型。采用了SAS高性能计算(HPC)技术,包括库内计算、网格计算和内存计算。硬件采用EMC GreenPlum 32节点服务器。数据量为10亿记录,6个自变量。[12/16/2011 10:57:51]
- //@真正的圈总: #SAS# 我对第二个测试的结果比较感兴趣。用现有的PROC LOGISTIC,服务器版SAS,2000个变量,1E5观测值,需要用时42分钟,I/O耗时几乎不计。我自己写了一个 %HPGLM 的宏,可以多线程,同样的数据,耗时降低为只有20%左右。堪称穷人的HPLOGITIC,哈哈。 //@yatmingyatming:SAS四月有两个测试,第一个测试与本次类似,测试结果当初是80s以下,两rack,各16台EMC GP的server,每rack各192 Intel cores, 和768 GB RAM,面对是a few variables和1billion的数据。其次第二个测试是24个节点的TD platform,1800 var和50 million的obs,耗时42s。//
- //@张磊IDMer: 我也抛砖引玉:在我以往的建模工作里,分析宽表中最多用过2000多个变量,最终留在模型里的大约20个。另外在营销响应预测建模中,宽表变量为600个左右,最后留在决策树模型里的变量为7个。正象@文彤老师 说的,其它的变量都打酱油了;)//@张磊IDMer: 问题2:你在数据挖掘建模时,用过最多的变量数是多少个?建模后,发现真正留在模型里的还有多少? [12/15/2011 12:09:14]
- //@张磊IDMer: 关于抽样大小的确定,我一直没有找到有效的理论依据来支撑,所以大多时候都是基于经验值。以前做过试验,电信业客户流失预测,数百万记录,分别用1%、2%、5%、10%、50%和100%的样本来建模,发现10%以上的样本和100%的样本建模结果基本相同。所以我一般建议抽样10%以上(针对大数据量)。//@张磊IDMer: 1分钟完成10亿条记录的Logistic Regression [再续]:前两天的微博引发各路大侠的关注和评论,其实那条微博只是给大家看一下SAS高性能计算的一个测试数据而已,并非真实的建模。但引发了一些很有意思的问题:变量数和样本数。抛出个问题:你是如何决定该抽取多大的样本来建模比较合适? [12/15/2011 12:08:26]
- 恩啊,这下就解决不少疑问了。//@张磊IDMer: 1分钟完成10亿条记录的Logistic Regression[续]:昨天发了微博,大家对背后的细节比较感兴趣,所以补充说明:业务问题是针对金融业的贷款违约建立信用评级模型。采用了SAS高性能计算(HPC)技术,包括库内计算、网格计算和内存计算。硬件采用EMC GreenPlum 32节点服务器。数据量为10亿记录,6个自变量。
[12/14/2011 14:18:23]
- 转发微博//@张磊IDMer: 在10亿条记录上做Logistic Regression,一分钟内完成!查看内部技术新闻邮件,有这么一条:Logistics regression with one billion records in under one minute (functionality is targeted for General Availability in December 2011) 。看了演示视频,不错。
[12/13/2011 18:11:52]
SAS系统bug发现和debug过程
- //@SAS_张涛: 是,proc sql和data step处理同名列机制不相同。关键问题就在于重名列。如果log中间有关于这方面的信息,我们就可以大概知道怎么处理。当然,在往前看,就是create view时如果不允许重名列,问题就没有了,呵呵。//@文彤老师: #SAS Bug# 9.2TS2M2版,刚刚发现如果是使用proc sql建立的复杂视图,在数据步里面直接引用可能会导致数据丢失,但在sql过程里面则一切正常,目前具体原因不明。 @张磊IDMer @sxlion [12/07/2011 09:41:30]
- //@文彤老师: 回复@SAS_张涛:谢谢,不过增加warning只是一方面,data步引用和sql过程引用结果不一致的问题也是应当解决的//@SAS_张涛: 我们已经将data step处理view中重名列没有warning message的问题反馈到开发部门。有进一步消息,会及时更新。谢谢大家!//@文彤老师: #SAS Bug# 9.2TS2M2版,刚刚发现如果是使用proc sql建立的复杂视图,在数据步里面直接引用可能会导致数据丢失,但在sql过程里面则一切正常,目前具体原因不明。 @张磊IDMer @sxlion [12/07/2011 09:41:27]
- //@SAS_张涛: 我们已经将data step处理view中重名列没有warning message的问题反馈到开发部门。有进一步消息,会及时更新。谢谢大家!@文彤老师//@文彤老师: #SAS Bug# 9.2TS2M2版,刚刚发现如果是使用proc sql建立的复杂视图,在数据步里面直接引用可能会导致数据丢失,但在sql过程里面则一切正常,目前具体原因不明。 @张磊IDMer @sxlion [12/07/2011 09:41:22]
- //@康涅狄格州xieliang: 回复@文彤老师:这个样子就很难查了。我现在能想到的估计有字长,和拖尾的空白字符在DATA step和SQL里面的处理不是完全一样。 //@文彤老师:回复@康涅狄格州xieliang:问题是log一切正常没报错呀//@文彤老师: #SAS Bug# 9.2TS2M2版,刚刚发现如果是使用proc sql建立的复杂视图,在数据步里面直接引用可能会导致数据丢失,但在sql过程里面则一切正常,目前具体原因不明。 @张磊IDMer @sxlion [12/04/2011 09:57:56]
- //@张磊IDMer: 解决方法是:将最后的视图语句改为 create view txns_auc as select * from txns left join auctions (rename=(goods_id=g_id)) on txns.goods_id=auctions.g_id;//@文彤老师: #SAS Bug# 9.2TS2M2版,刚刚发现如果是使用proc sql建立的复杂视图,在数据步里面直接引用可能会导致数据丢失,但在sql过程里面则一切正常,目前具体原因不明。 @张磊IDMer @sxlion [12/04/2011 09:55:56]
- //@张磊IDMer: 使用create table …… 会报出WARNING: 变量 goods_id 已经存在于文件“WORK.TXNS_AUC”中。 并自动删除第二个重复的同名变量。也提醒SASor们在使用PROC SQL做表连接时注意同名变量的问题,如果你要使用*来选择所有变量,保险的做法是create table。//@文彤老师: #SAS Bug# 9.2TS2M2版,刚刚发现如果是使用proc sql建立的复杂视图,在数据步里面直接引用可能会导致数据丢失,但在sql过程里面则一切正常,目前具体原因不明。 @张磊IDMer @sxlion [12/04/2011 09:55:51]
- //@文彤老师: 回复@张磊IDMer:呵呵多谢 还是你找出原因了 计算机就是计算机 偷一点懒他就搞不懂 重名的事我一直都知道 但没出过问题也就没改过程序 没想到这里会出故障了 重名Warning好像Data步引用的确就不给了 //@张磊IDMer:我尝试了一下,的确会出现你说的问题,就是后续data步中出现“非主键列均//@文彤老师: #SAS Bug# 9.2TS2M2版,刚刚发现如果是使用proc sql建立的复杂视图,在数据步里面直接引用可能会导致数据丢失,但在sql过程里面则一切正常,目前具体原因不明。 @张磊IDMer @sxlion [12/04/2011 09:55:36]
- 哈哈, 厉害啊,终于debug出来了。 以前程序出错经常怀疑SAS出问题,后来发现都是自己代码的问题。看来写代码还是要标准化,不能老想着偷吃sweet candy。[偷笑]//@文彤老师: #SAS Bug# 9.2TS2M2版,刚刚发现如果是使用proc sql建立的复杂视图,在数据步里面直接引用可能会导致数据丢失,但在sql过程里面则一切正常,目前具体原因不明。 @张磊IDMer @sxlion [12/04/2011 09:53:49]
- 估计是bug,SAS本身是有bug的(哪怕是最新的9.3),官方会不断发布补丁来更正。试试找找最新的补丁,如果不行,需要给SAS公司打报告,等他们发完补丁,才可以解决。 @康涅狄格州xieliang//@文彤老师: #SAS Bug# 9.2TS2M2版,刚刚发现如果是使用proc sql建立的复杂视图,在数据步里面直接引用可能会导致数据丢失,但在sql过程里面则一切正常,目前具体原因不明。 @张磊IDMer @sxlion [12/02/2011 16:17:00]
SAS 公司官方资讯
- 转发微博//@PKU王栋: 【SAS商业分析技术概览网络研讨会】作为SAS商业分析应用系列网络研讨会第一场,本次对商业分析技术进行了全面的介绍,包括商业分析的8个等级、SAS商业分析框架的组成要素及应用案例,并演示了部分软件的功能和界面。本期研讨会由SAS中国公司首席咨询顾问张磊博士主讲。欢迎观看http://t.cn/hDA9MR [12/12/2011 13:24:24]
- SAS报告会: 新趋势下的CRM 2.0 正在直播 14:05–15:00 新趋势下的CRM 2.0——SAS? 客户智能概览及案例 SAS中国公司 数据挖掘和客户关系管理首席顾问 盛秋戩 15:00–15:30 互动问答 SAS中国公司 数据挖掘和客户关系管理首席顾问 盛秋戩 地址: http://t.cn/ScZxiM [12/15/2011 14:03:19]
- 好。//@SAS软件JMP事业部: 希望直接从数据库中获取数据进行分析,而不是将数据先从数据库中导出来,然后再用软件打开进行分析么?JMP视频教程 “八分钟玩转数据分析:数据库连接(Database connecting)” 可以帮助解决这个问题:http://t.cn/a92FUU [12/15/2011 10:12:22]
- 转发微博//@SAS软件JMP事业部: JMP Pro是JMP产品系列中的重要一员,它具有64位版本,能够快速地分析更海量的数据。此外,它拥有更强的可视化预测性数据挖掘功能,包括决策树、神经网络方法等等,是SAS预测性数据挖掘解决方案的重要成员。 [12/20/2011 21:58:02]
- //@SAS软件JMP事业部: 回复@Cosinx子小: 如果借助一种算法去分析所有的问题,可能会得到错误的结论,因为这里存在所谓方法适用性的问题。最好是根据数据的实际情况选用合适的算法,比如这里“X之间的相关性强弱”是一个选择算法时需要考虑的方面。//@SAS软件JMP事业部: Boosted trees 和 Bootstrap forest是JMP Pro中“神经网络(Neural Network)”分析的两种算法,Boosted Trees倾向于生成紧凑模型,在模型中可能会看到少数变量的贡献率很显著,而其他变量贡献率很小或是0;Bootstrap forest算法倾向于考虑多个变量而生成较大模型,模型中往往显示多个变量都有贡献率。 [12/20/2011 21:57:11]
- 转发微博//@SAS软件JMP事业部: JMP中国区2011年下半年推出了“8分钟学会使用JMP”视频课程系列,每段视频集中讲解JMP中某个功能的使用方法、或者如何在JMP中进行某种特定的数据分析,由JMP中国区资深顾问录制。旨在帮助使用数据分析方法更好地为决策服务,如质量改进、六西格玛、研发、生物统计分析、定价等等。网址见JMP中国区主页 [12/15/2011 12:25:43]
- JMP新课程 。//@SAS软件JMP事业部: 分享图片:JMP视频课程,右边的导航栏可以看到视频课程分类。网址:http://t.cn/a92FUU
[12/15/2011 12:25:33]
- //@SAS软件JMP事业部: 时间序列分析是JMP的重要功能之一,提供比较完善的算法,用来分析时间序列数据的随机性、周期性、趋势性、季节性等都没有问题。您可以亲自用JMP试一试进行您提到的分析//@小蚁雄兵2010: 对@SAS软件JMP事业部 说:请问JMP可以作时间序列的预测么?比如说生命周期法、灰色预测法…… [12/07/2011 18:22:05]
- 转发微博//@SAS软件JMP事业部: 数据库软件发展的新趋势之一:智能分析,而这正是SAS/JMP的核心优势。所以,研究计算机技术的朋友不要忘了学点SAS,至少要会JMP噢。 [12/06/2011 13:53:22]
SAS竞争对手
- 竞争对手动作频频啊 ,据说modeler(以前的柑橘)也很牛了。//@吃桃的猫: 转发微博//@中国统计网: #行业资讯#12月15日晚间消息,国际商用机器公司(IBM)周四宣布,将收购总部位于马萨诸塞州Burlington的EmptorisInc,后者是一家开发基于云计算的数据分析软件的公司,拥有725名员工。此项交易的财务条款未予透露。IBM表示,此项收购将帮助加强其旨在降低采购成本和风险的产品组合。http://t.cn/SVX7pa [12/19/2011 23:22:54]
- //@SAS杨旭: SAS应该关注谷歌了,战役已经打响! //@杨滔_机器学习:谷歌的大数据BigQuery 服务! // @nicaionline : // @fengyuncrawl : Google已经从一家搜索公司进化成数据挖掘公司了,它的服务器里有几乎全球的数据,它不做数据挖掘,谁还能做呢?未来企业的数据库容量决定了企业的实力!//@TechFrom: 创业者当心!谷歌发布BigQuery海量数据服务可能杀死你的项目! – TechFrom科技源 11.15日,国外很多关于海量数据商业智能分析或者可视化的创业项目,但是谷歌发布的大数据(海量数据)BigQuery 服务,可能会让很多类似的创业公司望而却步,Goo… http://t.cn/S2LcUc
[12/13/2011 19:43:31]
图表欣赏
- 配色对比鲜明 。 //@沈浩老师: 推荐学习! // @广东陈进 :因为写了“史上”和“最全面”这两个形容词,有点夸张。但还是可以学习学习滴,只是要说明它的来源是以前RI的品牌资产模式就可以了。//@网站分析探索者: 史上最全面的市场调查分析方法,腾讯网市场数据分析附统计学知识,内部资料,你值得拥有。#数据分析# #市场调查# @王鲁生微博数据分析 @鲨鱼1 @李煜辉Reco @李黎 @数据化管理 http://t.cn/S4Xqtp
[12/15/2011 21:52:53]
- //@刘万祥ExcelPro: 看着就舒服//@新读图时代NPRT: 【每日分享-社会】说说世界上的专利,中国大亮!——Where’s China? 作者给了我们一个让人无奈的答案。大图看这里: http://t.cn/ScatPY
[12/16/2011 17:55:04]
- Amazing ! 月亮图的原型,不多见的。 //@波顿余安: 哦yeah~月全食!月全食~//@果壳网: 【目标周六,月全食观测全攻略】本周六(12月10日),只要天气好,全中国都能看到一场月全食。而且它发生在上半夜,你根本不用熬夜,也能看到这次天象哦!不过,月全食应该怎么看才过瘾呢?为了解答这个问题,单身的@Steed的围脖 老师写了个攻略,来果壳网观星者小组来学学吧:http://t.cn/S4kDRN
[12/05/2011 22:29:07]
- 有意思的手绘图表。//@图表汇: #信息图表#中基于数值统计型数据常用的几种图表样式,Kawai!http://t.cn/ScHAU7
[12/17/2011 13:39:53]
- 转发微博//@199IT-互联网数据中心: 分享:腾讯微博和新浪微博用户数比较。—注:其实,数据不重要,重要的是这个曲线有意思。
[12/25/2011 22:39:25]
- //@刘万祥ExcelPro: 图表控一定要收藏这个网址,图表宝藏//@经济学人中文网: 《经济学人》近期对广受欢迎的Daily chart(每日图表)栏目进行改版,栏目更名为Graphic detail(图表细节)http://t.cn/S5a731,该栏目除了发布每日图表外,还会发布其他的图表、图形、地图、互动图、信息图等,欢迎读者继续关注。http://t.cn/SqdIgM [12/10/2011 17:22:41]
- 好看的图。//@麻省理工科技创业: 走进#安卓市场#的数字世界 http://t.cn/S5zbda #谷歌#安卓市场(Android Market)的应用程序(Apps)的下载量突破100亿,一起来看看这座由100亿块砖构成的巨型数字大厦,内部有哪些五彩缤纷的颜色和风格各异的结构,又是如何从无到有建起来的。
[12/09/2011 16:12:21]
- 有意思的曲线。//@数据化管理: 职场空降兵伤不起啊!把握好的心态最重要!//@数据化管理: #微杂谈C#现在企业的空降兵越来越多,很多外企的职业经理人跳槽到私企等民营企业。成功者寥寥。简单总结了空降兵和老板的心路历程,欢迎对号入座!职场的辛酸全在这一条一条的曲线中了,对于一个空降兵来说,如果能在一个私营企业经过三轮的起伏,那就“没问题”了!看懂了的请转走!
[12/31/2011 10:33:10]
机器学习在互联网应用 10 大挑战 by @张栋_机器学习
- @张栋_机器学习: 终于写完了 “机器学习在互联网应用 10 大挑战”,是我在过去几年学习和工作中 总结出来的;也是未来努力的起点 …
- 【机器学习在互联网应用 10 大挑战 之十】“Human + Machine” 机器学习应用在一个特定领域,需要特定领域的专家知识:机器学习应用在 “医学”,需要一个经验丰富的医生;应用在 “股票”,需要一个有10年以上经验的操盘手;应用在 “互联网”,需要一个上网时间超过 1万小时的 PM
- 【机器学习在互联网应用 10 大挑战 之九】机器学习之美在于对于不同的问题需要不同建模方法。我去给讲座的时候,经常听有人说:“SVM 做过,Naive Bayes 做过 … 但效果不好”;做过很简单,但能否 “做到极致”? 这个世界你能想到别人想不到的事情概率极低,只有一件你花十倍努力做到极致的事情!
- 由于 “冷启动” 问题的存在,使得互联网抢占 “先发优势” 非常重要; 同时,后来公司 “追赶和超越” 成熟大公司极其困难 … //【机器学习在互联网应用 10 大挑战 之八】“Cold-Start” (冷启动) 是互联网应用的典型问题:一个好互联网产品,用的人多,得到的数据多;得到的数据越多,模型训练的越好,产品会变得更好用,用的人就会更多 … 进入 “良性循环”。对于一个新产品,在初期,要面临数据不足的 “冷启动” 问题 …
- 【机器学习在互联网应用 10 大挑战 之七】互联网 每时每刻 都在产生大量新数据,要求模型随之不停更新,所以 “online learning” 是机器学习的一个重要研究方向。人也是一样: Life is an online learning process … “online learning” 也是人最重要的能力之一
- 【机器学习在互联网应用 10 大挑战 之六】“速度” 是互联网核心的用户体验。线下模型训练可以花费很长时间:比如,Google 某个模型更新一次需要几千台机器,大约训练半年时间。但是,线上使用模型的时候 要求一定要 “快,实时 (real-time)” …
- 【机器学习 之五】”Scalability” 是互联网的核心问题之一。搜索引擎索引的重要网页超过 100 亿: 如果1台机器每秒处理1000 网页,需要至少100天。所以出现了 MapReduce, MPI, Spark, Pegasus, Pregel, Hama … 等分布式计算构架。选择什么样的计算平台,和算法设计紧密相关 ..
- 【机器学习在互联网应用 10 大挑战 之三,四】高数量和高质量 “标定数据” 是机器学习效果的保障,但是获取标定数据需要耗费大量人力和财力。而且,人会出错,人有主观性。如何获取高数量和高质量标定数据,或者用机器学习方法只标定 “关键” 数据 (active learning) 值得深入研究 …
- 【机器学习在互联网应用 10 大挑战 之二】 “不平稳随机过程产生的数据”:机器学习模型往往假设数据的产生是 “平稳随机过程”。但是有些互联网数据(比如 spam 邮件,spam 网站等)的产生是动态的,不平稳随机过程 …
- 【机器学习在互联网应用 10 大挑战 之一】 “数据稀释性”:训练一个模型,需要大量(标注)数据,但是数据往往比较稀疏。比如,我们想训练一个模型表征某人 “购物兴趣”,但是这个人在网站上浏览行为很少,购物历史很少,很难训练出一个 “meaningful model” 来预测应该给这个人推荐什么商品等 …
- @张栋_机器学习: 【一个兴奋的想法】机器学习需要大量 “标定数据”,互联网上有大量无聊的人。如果能够设计几个小游戏,让这些无聊的人把多余的精力花在帮助标定数据上(同时,也能得到乐趣),这将是一件多么美妙的事情!我愿意出想法,出钱,出资源 做这件事情,有没有志愿开发者? //@张栋_机器学习: 是的,很多年了:是对我过去几年工作的总结,也是未来工作的起点! // @宪策: 这一定是思考过很久了 🙂 感觉都在点子上//@张栋_机器学习: 今天讲座中,我提到了 “机器学习在互联网应用面临的 10 大挑战” (如下图)。 记得 Eric 说过类似的话:Google is looking for the most talented and creative engineers to tackle the toughest challenges in Internet … 我希望和有志于此的工程师多交流
[12/04/2011 11:21:41]
Leave a Comment