由于本科专业是生物信息(可以理解为生物统计学或者与基因数据相关的数据挖掘学科), 所以那时已经开始接触数据挖掘,对统计也算有一定的基础。记得大二的时候,我便开始学用 matlab,然后玩弄SVM,神经网络之类的机器学习算法做一些分析和实验。现在想想那时候可能连这些算法的基本概念都不是很清晰,算是皮毛都不懂。但有一点就是,让我对这类算法不怎么畏惧,甚至于非常感兴趣。本科的时候,发现自己对生物兴趣不大,倒是对编程颇以为是,所以读研又改学了计算机。虽然换了专业,但我对数据挖掘仍然兴趣不减。在研究生阶段,涉及数据挖掘,机器学习, 高级数据库之类的课程我的成绩都是 90+,这至少说明我很用心。总之,读研这几年我也在不断地规划着自己的数据挖掘之路。然而,数据挖掘是门交叉学科,涉及的内容很多,而且还需要理论联系实际,要掌握起来其 实是非常困难的。我曾经非常幼稚地认为,数据挖掘无所不能,适用于各行各业,却忽视了数据挖掘非常难以掌握的一面。首先,要构建完整的数据挖掘理论知识体系;其次,要能够 深入到具体的行业或市场进行具体项目的实战。至于学习数据挖掘的前景,推荐看看一篇博客, 扒一扒这个数据挖掘行业,黄油和面包。这篇文章算是资深人士对数据挖掘行业一点点小小的爆料,感觉对于我这样的初学者来说,有着高屋建瓴的作用。http://saslist.net
学习SAS 源于我当初想去金融行业做分析师的想法,而这个想法又是源自于自己的 MBTi 测试的结论。算起来开始学sas 应该是 10 年下半年的时候,我先是买了一本《SAS 编程与数 据挖掘商业案例》,后是看了《The little SAS book (3rd)》电子版,还有 SAS 认证考试 样题-123 题。我还在 saslist 上建立起了博客,分享了一些学习心得,还有找实习的一些经历。而我对 sas 的学习经历,也就集中在 10 年的下半年这段时间了。后来到了11 年初, 偶然间看到统计之都上,举办第一届数据挖掘挑战赛的信息。我便花了 1 个多月去参加比赛, 再后来便去找实习。到现在不知道自己还会不会继续学习 sas,但 saslist 确实对我的数据 挖掘之路,起着承上启下的作用。在这里很容易让你融入一个学习数据分析,数据挖掘的圈子,很多前辈们的精彩博文都对自己起着极大的鼓舞作用。
原创文章: ”我的数据挖掘之路 by wrchow“,转载请注明: 转自SAS资源资讯列表
本文链接地址: http://saslist.net/archives/252
导读: 与其说是统计学习那些事,不如说是非统计专业博士毕业的那些事。这篇文章不光内容比较好玩,可读性强,还有很大的参考价值,因此推荐广大SASor读一读,在以后的工作和科研中会用得到的。
香港科技大学 电子与计算机工程系 eeyang
在港科大拿到 PhD,做的是 Bioinformatics 方面的东西。Bioinformatics 这个领域很乱,从业者水平参差不齐,但随着相关技术(比如 Microarray, Genotyping)的进步,这个领域一直风风光光。 因为我本科是学计算机电子技术方面的,对这些技术本身并没有多大的兴趣,支持我一路走过来的一个重要原因是我感受到统计学习(Statistical learning)的魅力。正如本科时代看过的一本网络小说《悟空传》所写的:“你不觉得天边的晚霞很美吗?只有看着她,我才能坚持向西走。”
离校前闲来无事,觉得应该把自己的一些感受写下来,和更多的爱好者分享。
先介绍一下我是如何发现这个领域的。我本科学自动化,大四时接触到一点智能控制的东西,比如模糊系统,神经网络。研究生阶段除了做点小硬件和小软件,主要的时间花在研究模糊系统上。一个偶然的机会,发现了王立新老师的《模糊系统与模糊控制教材》。我至今依然认为这是有关模糊系统的最好的书,逻辑性非常强。它解答了我当年的很多困惑,然而真正令我心潮澎湃的是这本书的序言,读起来有一种“飞”的感觉。后来我终于有机会来到港科大,成为立新老师的 PhD 学生,时长一年半(因为立新老师离开港科大投身产业界了)。立新老师对我的指导很少,总结起来可能就一句话:“你应该去看一下Breiman 和 Friedman 的文章。”立新老师在我心目中的位置是高高在上的,于是我就忠实地执行了他的话。那一年半的时间里,我几乎把他们的文章看了好几遍。开始不怎么懂,后来才慢慢懂了,甚至有些痴迷。于是,我把与他们经常合作的一些学者的大部分文章也拿来看了,当时很傻很天真,就是瞎看,后来才知道他们的鼎鼎大名,Hastie, Tibshirani, Efron等。文章看得差不多了,就反复看他们的那本书“The Elements of Statistical learning”(以下简称ESL)。说实话,不容易看明白,也没有人指导,我只好把文章和书一起反复看,就这样来来回回折腾。比如为看懂 Efron 的“Least angle regression”,我一个人前前后后折腾了一年时间(个人资质太差)。
当时国内还有人翻译了这本书(2006 年),把名字翻译为“统计学习基础”。我的神啦,这也叫“基础”!还要不要人学啊!难道绝世武功真的要练三五十年?其实正确的翻译应该叫“精要”。在我看来,这本书所记载的是绝世武功的要义,强调的是整体的理解,联系和把握,绝世武功的细节在他们的文章里。
1,美国总统招助理 要求统计学专业和熟悉挖掘分析软件;
2,大数据时代来临,大数据定义,例子及面临的问题;
3,SAS9.3的新功能介绍;中文SAS维基上线。
本期资讯由五部分组成:1,招聘信息、行业前沿、会议信息和最新的SAS博客博文;2,大数据、数据分析挖掘讨论 网络资源;3,SAS官方资讯;4,图表点评、制图向导和图表欣赏;5,电子商务信息和社交网络的发展。 (更多…)
原创文章: ”SAS资讯 from 新浪微博-2011-08-16“,转载请注明: 转自SAS资源资讯列表
本文链接地址: http://saslist.net/archives/177
原创文章: ”SAS资讯 from 新浪微博-2011-07-31“,转载请注明: 转自SAS资源资讯列表
本文链接地址: http://saslist.net/archives/153
第一部分 最新的消息,如行业前沿信息、招聘、会议资料,不要错过哦
1.1 行业前沿信息; 1.2 招聘信息; 1.3 刚刚结束的部分会议的资料,视频,可下载; 1.4 最新SAS博文
第二部分 数据挖掘,数据分析 理论、应用、工具软件及资料
2.1 数据挖掘,数据分析 理论、应用、工具软件及资料; 2.2 数据分析工具及讨论; 2.3 SAS讨论,官方资讯、历史回顾 ;
第三部分 图表展示理论、图表点评和各种应用例子——很多精彩图片哦,内容和展示形式都非常吸引人,懂的入,不懂可以熏陶下
3.1 图表学习与点评; 3.2 内容和形式都很好的精美图表欣赏
第四部分 微博传播研究、分析方法和文化杂谈
第五部分 数据挖掘,数学统计理论、文化书籍推荐
原创文章: ”SAS资讯 from 新浪微博-2011-06-15“,转载请注明: 转自SAS资源资讯列表
本文链接地址: http://saslist.net/archives/143
整理从5月15日到5月31日的新浪微博上有关SAS和数据分析挖掘的资讯资料。这段时间讨论的话题都非常让人感兴趣,本期的亮点在:1,网络数据挖掘继续热点,公司招聘消息6条;2,R会议上SASor吐槽 ; 3,许多漂亮的图表展示,值得一看。
包括下面四部分:
第一部分 最新的消息,如行业前沿信息、悬赏竞赛、招聘、会议,不要错过哦
1.1 行业前沿信息; 1.2 网络悬赏竞赛——有本事你来拿; 1.3 本期微博资讯收集的招聘信息; 1.4 即将举行的国际国内会议 ; 1.5 刚刚结束的几个会议
第二部分 数据挖掘基础理论,应用和工具讨论(SAS PKing R)
2.1 数据分析基础、数据挖掘理论与应用; 2.2 数据分析工具及讨论; 2.3 SAS公司免费网络会议(随时可看); 2.4 最新SAS博文
第三部分 图表展示理论、图表点评和各种应用例子——很多精彩图片哦,内容和展示形式都非常吸引人,懂的入,不懂可以熏陶下
3.1 图表展示理论和技巧; 3.2 图表学习与点评; 3.3 内容和形式都很好的精美图表欣赏
第四部分 微博传播研究、分析方法和文化杂谈 —— 微博作为一个有前途的新兴事物,看看大家都谈些什么
4.1 微博传播研究; 4.2 微博文化; 4.3 其他
大家可以加我的新浪微博来同步获得这些信息。
原创文章: ”SAS资讯 from 新浪微博-2011-05-31“,转载请注明: 转自SAS资源资讯列表
本文链接地址: http://saslist.net/archives/137
整理从5月1日到5月15日的新浪微博上有关SAS和数据分析挖掘的资讯资料。这段时间讨论的话题都非常让人感兴趣,本期的亮点在:1,电子商务公司发展迅猛,很多公司开始招数据分析员,这对广大数据分析人员是好消息;2,一篇SAS评论引起的大讨论 ; 3,有很多漂亮的图表展示,值得一学。
包括下面五部分:
第一部分 最新的消息,如行业发展、招聘、会议、悬赏竞赛,不要错过哦
第二部分 SAS大讨论如行业信息,软件安装,基础知识 和数据挖掘遇到的问题讨论
第三部分 各种漂亮的图表展示形式欣赏 和较差图表的评点—— 当然,这是我个人的观点,大家可以讨论的
第四部分 基础统计分析知识、,数学理论应用和数学文化 —— 基础知识越扎实,以后才能在数据分析道路走能更远
第五部分 微博知识、文化、机遇、商业化杂谈 —— 微博作为一个有前途的新兴事物,看看大家都谈些什么
大家可以加我的新浪微博来同步获得这些信息。
原创文章: ”SAS资讯 from 新浪微博-2011-05-15“,转载请注明: 转自SAS资源资讯列表
本文链接地址: http://saslist.net/archives/133
下面是从2011年4月1日到4月15日的新浪微博信息,信息果然大,维数很多,需要大家慢慢品读。当然,我会继续努力,把微博信息整理得更加清晰有条理,便于大家阅读。这两个星期,大家的关注点在下面几个部分:
1,会议交流信息:SAS全球论坛会议、国内SASor聚会信息和其他的一些国内会议交流活动
2,数据挖掘实际应用和中文数据挖掘工具,以及对新兴社交媒体数据如BBS、博客、微博等新媒体信息如何分析的讨论;
3,数据可视化的一些应用;
4,其他一些SAS相关话题及产品信息。
详细如下:
原创文章: ”SAS资讯 from 新浪微博-2011-04-15“,转载请注明: 转自SAS资源资讯列表
本文链接地址: http://saslist.net/archives/120
微博的信息量好大啊! 两个星期内有很多SAS相关信息,这些信息具有实时性,反应最新,最快的信息。
尽管如此,微博信息量巨大,并且杂而乱,因此这里将定时整理微博上的信息,使之更有条理和清晰,便于大家阅读。
当然,大家也可以加我的新浪微博。
原创文章: ”SAS资讯 from 新浪微博-2011-03-31“,转载请注明: 转自SAS资源资讯列表
本文链接地址: http://saslist.net/archives/106
博客资源 (随机排序)
我所订阅到SAS博客
http://blogs.sas.com/sasdummy/ SAS公司员工博客
主要是将EG模块的。博客作者曾经写过一本初级的SAS书《SAS for Dummies》
http://sxlion.spaces.live.com/default.aspx 一个SASor的技术空间
一个SAS爱好者用SAS编程解决各种数据清理,数据整理和解决各种实际问题。
http://sxlion.blog.sohu.com/ 一个SASor的图表空间
和上面是同一个作者,这个博客宣称用SAS画出所能看到的所有数据图形,主要侧重于商业,学术和工业图表,里面有用SAS模仿商业周刊风格的精美图表。
http://sas-programming.blogspot.com SAS Programming for Data Mining Applications
oloolo的个人技术博客,专注于用BASE,STAT等等编程模块实现与EM同等功能的各种数据挖掘功能的算法,相当强大,SAS主办的2010年数据挖掘大会上作为官方推荐资源。博客提供了许多用BASE编的挖掘算法, 可惜国内看不到,需翻墙。
http://sugiclub.blogspot.com/ SUGI CLUB — SAS User Group International Club
这个博客,文章是博主挑出各SUG(SAS用户组,在网页资源有解释)的一些文章进行翻译,做少量补充,内容涉及范围较广。但是需要翻墙。
下面是几个停止更新的博客:
http://statcompute.spaces.live.com/default.aspx
博主刘文穗 WenSui Liu,现在在ebay。 曾经是最勤劳的SAS博主,产量非常大,博客文章很值得一读,都是关于市场,经济等等方面的。2010年5月后停止更新。
博主单名一个:风 各种SAS技术,偏IT,2009年停止更新。
原创文章: ”学习和提高SAS编程和应用的好出处——博客资源“,转载请注明: 转自SAS资源资讯列表
本文链接地址: http://saslist.net/archives/59