msgbartop
List for SAS fans and programmer
msgbarbottom

30 1月 13 2013评点——怎么才能成为数据分析专家


2013已至,春节将至,本博距上次更新已经有两个月了。一个不成熟的观点一直在酝酿,到现在为止,还不大成熟。不过有些事情,现在不写,以后恐怕就也没有机会写了。

大数据,皇帝新装

这几天,终于可以闲下来了,翻翻了给俺家闺女准备的童话读物——《安徒生童话》,于是重新温故了下小时候读过的《皇帝的新装》。读完感觉:经典就是经典,这个世界有时候就是那么简单的重复着,故事老套,几百年都可以不变,情节都可以一样。 记得2000年左右上大学那会,一句“21世纪,是生物学的世纪” ,害得多少莘莘学子挤破脑袋去抢报生物专业。四年后,要么毕业去卖假药,比如“鳖精”、“红桃k”,“太阳神”等等;要么一条道读到黑——从硕士,博士,圣斗士,到烈士。现在不知多少“受害学子”在追问是谁不负责任的乱说 (注:这里不是埋汰学生物的人,这些都是学生物的同学跟我的吐槽)。类似的“21世纪是XX的世纪”可多了,什么“计算机的世纪”,“互联网的世纪”,“厨师的世纪”,最近还出了个“大数据的时代”。不扯远了, 还是谈谈童话吧, 皇帝爱衣服, 要新装;大臣爱皇帝,要皇帝开心;百姓爱大臣,要维护大臣;骗子爱金子,要卖衣服给皇帝。 于是生意就这么成交了,大家都开心了。本来新装游行都是这么顺利地,成功地进行,也是值得庆祝的。最讨厌的是安徒生, 偏偏安排个小朋友,说了那么一句不和谐的话,搞得这则童话变笑话,一直流传到现在。 想想,大数据,不就是这么回事么。 这个世界需要创新(未考证), 政府们需要业绩(真的), 科学家们需要拿课题(真的),厂家们需要卖硬件/软件(千真万确!!!,看看SAS的HPA和SAP的HANA硬件需求)。就这样,新的一场新装游行开始了,奥巴马的“新能源”不吸引人了,赶紧上新货——“大数据”,哄选民很重要。于是政府点头,科学家们牵头开会, 硬件软件厂商搭台,各方互动开始,大家有兴趣,可以看看我2012年收集的微博资讯——会议信息。 http://saslist.net

务实吧,准专家们! (更多…)

原创文章: ”2013评点——怎么才能成为数据分析专家“,转载请注明: 转自SAS资源资讯列表

本文链接地址: http://saslist.net/archives/310


19 10月 12 SAS资讯 from 新浪微博 – 2012-10-03


SAS资源资讯  第 26 期 微博汇
 
秋天这么美,你还在电脑前面跑SAS吗?
  最新资讯
  1. 转发微博//@中国统计网: 【新闻:IBM宣布收购英国数据分析公司Butterfly】9月25日消息,据国外媒体报道,IBM收购了英国软件公司Butterfly Software。这个收购交易的金融条款没有披露。Butterfly是一家私营数据分析与迁移软件公司,总部位于英格兰的梅登黑德。全文:http://t.cn/zlLf4vv  [09/25/2012 10:52:23]
  2. //@SAS杨旭: 介绍很详细。 //@粄1394:Dremel主要特点:它是一个大规模系统,是MR交互式查询能力不足的补充,其数据模型是嵌套(nested)的,数据是用列式存储的,结合了Web搜索 和并行DBMS的技术。//@yankay: Google Dremel 原理 – 如何能3秒分析1PB http://t.cn/zWEC68v [09/18/2012 21:51:58]
SAS招聘
  1. SASor 招聘//@Kevin猎头: 数据分析师(杭州、上海)1)5~10年数据相关工作的从业经验,至少3年及以上商业智能分析工作的从业经验;2)熟悉#数据挖掘#的常用算法; 3)熟悉常用商业分析工具,如SAS、spss、 matlab;4)熟悉常用报表开发工具,如BO、COGNUS、BIEE等;5)熟悉PL/SQL,了解主流数据库oracle、 mysql;欢迎推荐! [09/26/2012 15:59:07]
  2. SASor 招聘 (更多…)

原创文章: ”SAS资讯 from 新浪微博 – 2012-10-03“,转载请注明: 转自SAS资源资讯列表

本文链接地址: http://saslist.net/archives/290


18 9月 12 SAS资讯 from 新浪微博 – 2012-09-03


SAS资源资讯  第 25 期 微博汇
SAS软件将逐步对国内高校免费
别犹豫了,赶紧让你们的系主任申请吧!!!
最新资讯
  1. Big news: 2012年8月,SAS公司对中国部分大学开放免费使用SAS软件,第一批免费使用的高校是北大和人大。出处:http://t.cn/zWj9AMd 目前进展情况是:北大,人大已经安装使用,上财正在申请中。[08/13/2012 00:07:31]
  2. //@innovate511: 不愧是大数据技术霸主//@云计算_行业七彩云://@马伟民_:转发微博//@雷锋网: 【Google Dremel让大数据不再“恐怖”】Hadoop是“大数据”时代的核心,但它需几分钟或几个小时才能执行完任务,而Google新开发的Dremel技术则是专门为即时查询而生,它能同时执行多个查询操作,且时间极短,可以说Dremel的出现让大数据变得“渺小”了起来。http://t.cn/zWnfz1o 也将开辟一个新时代。 [08/26/2012 12:01:56]
  3. 数据分析人员的未来角色。//@数据分析精选: 谷歌的首席经济学家Hal Varian多次强调,下一个十年将出现一类新的专业人才:数据科学家。数据可视化工程师是其中一种,他们既懂得数据分析的科学,又精通构图的艺术,集讲故事的能力和艺术家的特质于一身,是大数据时代的导航员。这样的人才,去哪里找?如何培养? (更多…)

原创文章: ”SAS资讯 from 新浪微博 – 2012-09-03“,转载请注明: 转自SAS资源资讯列表

本文链接地址: http://saslist.net/archives/285


03 9月 12 SAS函数精选三 翻译


系列:  SAS函数精选一           SAS函数精选二

 

CATS和CATX函数

         这两个函数用于连接字符串。函数CATS首先去掉每个要连接字符串的首尾空格。CATX也会去掉首尾的空格,并且还会在每个字符串之间插入分隔符(CATX函数的第一个语句)。

         这些函数需要非常注意的点是结果的存储长度,如果没有预先定义,默认是长度200。而你使用连接符号(||或!!)只是这些连接字符串长度之和。

         如果你有一系列的变量如Base1-Basen,你可以在列表前使用关键词‘OF’。最后,列表中的值可以是字母,也可以说数字。如果一些语句是数字,SAS将会把数字当作字母对待,并且不会在SAS log里面出现转换信息。

         下面的例子示意这些函数字母操作去掉空格,函数CATX字母插入分隔符。

程序17

1
2
3
4
5
6
7
8
data join_up;
length Cats $ 6 Catx $ 13;
String1 = 'ABC ';
String2 = ' XYZ ';
String3 = '12345';
Cats = cats(String1,string2);
Catx = catx('-',of String1-String3);
run;

图17:程序17的输出结果

Cats         Catx

ABCXYZ    ABC-XYZ-12345

COUNT和COUNTC函数

         SAS有两个计数函数,COUNT和COUNTC。它们之间的区别就像FIND和FINDC。COUNT计算一个子字符串在一个字符串中出现的次数,COUNTC计算单独字母在字符串中出现的次数。这些函数的语句和FIND和FINDC一样。第一个语句是你想要搜索的字符串,第二个语句是子字符串(COUNT)或一列字母(COUNTC)。最后你可以在第三个语句中使用可选的修饰符,其中修饰符‘i’(忽略大小写)最有用了。 (更多…)

原创文章: ”SAS函数精选三 翻译“,转载请注明: 转自SAS资源资讯列表

本文链接地址: http://saslist.net/archives/284


01 9月 12 SAS函数精选一 翻译


下面是Dr. Ron Cody的一篇关于SAS函数的文章,非常好的函数介绍文章。曾经在2009年SAS公司(上海)举办的一次SASor聚会上,我做了一次关于SAS函数的presentation分享,见 ppt正文,我发现竟然有部分内容重合。 我个人非常喜欢SAS系统提供的函数,建议老手新手都可以读读下面的文章,祝都有所获!

最有用的一些SAS函数
A Survey of Some of the Most Useful SAS Functions

by Dr. Ron Cody   翻译 sxlion

摘要:

     SAS函数为你的数据步(DATA step)编程提供惊人的能力。有一部分SAS函数是精华,能够帮助你节省大量不必要的代码。这篇文章内容覆盖其中最有用的一些SAS函数。有些函数可能对你来说有些陌生,然后她们将会改变你的编程方式,并助你轻松完成日常的编程任务。

 介绍:

         本文写到的大部分函数都与字符数据有关,这些函数的功能包括搜索字符串,查找和替代字符串,或连接字符串,还有些函数能测量两个字符串之间的距离(这对于“模糊”配对非常有用)。一些最新和最叹为观止的函数还以Call例程的形式存在。你知道怎么用函数在同一个观察值进行排序吗?你知道你不仅可以定位一列变量中极大或极小值,而且可以定位到第二位、第三位最大或最小的值? 如果你觉得上面的介绍能够吸引你的兴趣,请继续往下读! http://saslist.net

SAS是怎样存储字符值的?

 在我们讨论字符函数之前,了解SAS怎样存储函数值非常重要。为了帮助讨论,你首先需要理解两个重要的字符函数:LENGTHN和 LENGTHC。

LENGTHN和 LENGTHC

        这两个函数返回字符值的长度信息,其中LENGTHN返回未计算后缀空格语句的长度。LENGTHC返回字符变量的存储长度。你也许对旧的SAS函数LENGTH比较熟悉,大部分情况下函数LENGTH和LENGTHC返回同样的值。有一个例外的是,当语句里是缺失值时,LENGTH函数返回的是1,而LENGTHN返回0。有一些新函数看起来是在旧函数后面加个字母“n”,这里的“n”代表“空字符串”(“null string”)。在SAS9中,长度为0的字符串概念被引进。在大多数情况下,如果你看到一个你似曾相识的新函数(比如说新函数TRIMN, (更多…)

原创文章: ”SAS函数精选一 翻译“,转载请注明: 转自SAS资源资讯列表

本文链接地址: http://saslist.net/archives/282


04 7月 12 心有多远,你就能走多远~loves in SAS


这是一份迟来的面经,本来是2011年3月就发布到SASlist,鉴于作者当时刚到SAS公司工作, 为避免不必要的问题,一年后经作者本人同意后再次发布出来,与大家分享。里面有很多真实的公司面试场景和问题,以及一些作者本人非常实用的建议,值得木有任何经验的在校生一读。另外从本站的几份求职面经看来,积极主动是每一个成功求职者的必备特质。当然,混论坛,QQ群,微薄很重要啊,信息时代获取工作信息的新途径。         

SAS公司面经  for 在校

by Chris.zhang

————前言

从口头offer到现在已经过了两天了,答应了自己要写一篇详细的面经。与其说是面经,倒不如说是自己在这条路上是怎样的成长,不求这篇胡思乱想脱口而出之文能给大家多少借鉴,只愿成为同为大四的各位在求职慢慢长路中的一盏明灯,指向你我心中的理想。互勉!

与其他人比起来,我的求职路似乎非常非常短暂,算多了就那么2个月,而投简历方式更像传说中的非主流。招聘网站的网申基本全军覆没,招聘会更是一次比一次惨。不过在一次次的惨败后吸取经验,总结技巧,最终追求到自己梦寐以求的公司的录取通知。

地球人都知道我是一个懒鬼,十分讨厌做重复无效率的工作,故甚少网申。幸运的是知道我是懒鬼的人包括自己,深知对于懒鬼这个种族来说笨鸟先飞是如此的重要,所以早在大四前的暑假自己就开始制作中英简历。(简历在面经之后我会写下一些自己的见解)。由于早早就定了找工作的方向,应聘的时候就更加有针对性了。http://saslist.net/

与SAS中国的相遇非常非常偶然,从来没想过自己有机会能进SAS公司,最多也只是希望能够在医药,金融行业能找到一份与SAS有关系的工作就不错了。为什么?一是SAS中国的招聘要求比较苛刻,基本上都属于社招的,要工作经验不说还需要master or above的学历,二是在很多都是招研发类的,虽然说自己的SAS技能还算可以,但可是上帝要给人机会,你挡也挡不住的。还记得那是星期五的早上,刚电面完一家上海招SAS数据挖掘的公司,由于感觉不好心情也就一般般,郁闷地对着电脑屏幕反省下自己。这时有猎头在SAS的QQ群发布招聘信息,是关于SAS中国招聘技术支持的,这条信息我记得在mysas那里看过,由于要求那里标明4-8年工作经验把我直接秒杀掉,所以没多理会。不过机会来到自己的眼前,不是应该去争取吗?便联系上猎头。 http://saslist.net/

我:你好,请问您是替SAS公司招人还是招SAS Programmer呢?

猎头:替SAS公司招人,你有兴趣么?

我:有,不过我只是本科,而且还没有毕业。

猎头:你能不能把CV发给我看一下呢?

(更多…)

原创文章: ”心有多远,你就能走多远~loves in SAS“,转载请注明: 转自SAS资源资讯列表

本文链接地址: http://saslist.net/archives/274


27 4月 12 我的数据挖掘之路 by wrchow


导读:作者wrchow是浙江大学计算机硕士,通过自己的努力终于拿到了心仪的offer(搜狗Web数据挖掘助理研究员),实现了从事互联网数据挖掘的梦想。他对数据挖掘这个行业的兴趣,以及为了进入这个行业所做的准备和努力,非常值得想进入这一行业的在校生或朋友们参考。
我的数据挖掘之路

由于本科专业是生物信息(可以理解为生物统计学或者与基因数据相关的数据挖掘学科), 所以那时已经开始接触数据挖掘,对统计也算有一定的基础。记得大二的时候,我便开始学用 matlab,然后玩弄SVM,神经网络之类的机器学习算法做一些分析和实验。现在想想那时候可能连这些算法的基本概念都不是很清晰,算是皮毛都不懂。但有一点就是,让我对这类算法不怎么畏惧,甚至于非常感兴趣。本科的时候,发现自己对生物兴趣不大,倒是对编程颇以为是,所以读研又改学了计算机。虽然换了专业,但我对数据挖掘仍然兴趣不减。在研究生阶段,涉及数据挖掘,机器学习, 高级数据库之类的课程我的成绩都是 90+,这至少说明我很用心。总之,读研这几年我也在不断地规划着自己的数据挖掘之路。然而,数据挖掘是门交叉学科,涉及的内容很多,而且还需要理论联系实际,要掌握起来其 实是非常困难的。我曾经非常幼稚地认为,数据挖掘无所不能,适用于各行各业,却忽视了数据挖掘非常难以掌握的一面。首先,要构建完整的数据挖掘理论知识体系;其次,要能够 深入到具体的行业或市场进行具体项目的实战。至于学习数据挖掘的前景,推荐看看一篇博客, 扒一扒这个数据挖掘行业,黄油和面包。这篇文章算是资深人士对数据挖掘行业一点点小小的爆料,感觉对于我这样的初学者来说,有着高屋建瓴的作用。http://saslist.net

发现SASlist

学习SAS 源于我当初想去金融行业做分析师的想法,而这个想法又是源自于自己的 MBTi 测试的结论。算起来开始学sas 应该是 10 年下半年的时候,我先是买了一本《SAS 编程与数 据挖掘商业案例》,后是看了《The little SAS book (3rd)》电子版,还有 SAS 认证考试 样题-123 题。我还在 saslist 上建立起了博客,分享了一些学习心得,还有找实习的一些经历。而我对 sas 的学习经历,也就集中在 10 年的下半年这段时间了。后来到了11 年初, 偶然间看到统计之都上,举办第一届数据挖掘挑战赛的信息。我便花了 1 个多月去参加比赛, 再后来便去找实习。到现在不知道自己还会不会继续学习 sas,但 saslist 确实对我的数据 挖掘之路,起着承上启下的作用。在这里很容易让你融入一个学习数据分析,数据挖掘的圈子,很多前辈们的精彩博文都对自己起着极大的鼓舞作用。

(更多…)

原创文章: ”我的数据挖掘之路 by wrchow“,转载请注明: 转自SAS资源资讯列表

本文链接地址: http://saslist.net/archives/252


17 1月 12 SAS资源资讯博客精华汇总 2011

2011年网站年末盘点

2012农历新年马上就要到了,看着湖南卫视的小年夜春晚,不禁想着给自己的博客网站做个盘点,这个想法其实在大家年会的时候就想做了,趁奥尼尔还没出场,赶紧把这个盘点给整了,有些事现在不做,以后永远就不会做了。

 自从2010年9月3日开始至今天(2012.1.17),本博客网站共发布了60篇博文,其中2010年16篇,2011年42篇,2012年是2篇,累计访问IP近2W,PV近10W(因为用插件统计,所以有一定的水分,需要打折下)。因为没有类似的博客网站数据和其他类型网站的数据(都没有公布),所以无法横向和纵向比较。大家也随便看看,消遣一下吧,反正有水分。

本站文章包括自己原创评论、网络资源整理、工作信息、书籍点评推荐、转载文章和外文翻译等等内容,下面对本站博文的内容分类和精选才是最真才实料的干货。

史上最强悍的十篇SAS资源整理博文

  1. 最全的SAS9.2函数列表一
  2. 2010年10月近期SAS职位招聘列表
  3. SAS中文书籍清单 1991-2010年
  4. 学习和提高SAS编程和应用的好出处——博客资源(2011年扩充版)
  5. 学习SAS编程技术的好出处——网页资源
  6. 学习和讨论SAS技术的好出处——论坛资源
  7. 学习SAS画图的好出处
  8. SAS程序员必看的10个中文网站(另10个英文)
  9. 最新最全的SAS公司官方博客(2011年)
  10. 新浪微博资讯整理列表

(更多…)

26 7月 11 SAS资讯 from 新浪微博 – 2011-07-15


本期亮点:
  1. SAS9.3于美国时间2011年7月12日星期二(大陆时间可能是7.13)正式发布了;
  2. 学术界和工业界的数据挖掘交流大会兴起;
  3. SAS官方微博继续给力,举办多次网络会议  并且资源放在网上可直接网上观看。
本期资讯由五部分组成:1,行业前沿、招聘和会议;2,数据分析方法和工具讨论;3,SAS公司官方资讯,包括案例、网络视频资料和历史回顾;4,图表使用方法讨论和图表欣赏;5,微博和社交网络相关。

原创文章: ”SAS资讯 from 新浪微博 – 2011-07-15“,转载请注明: 转自SAS资源资讯列表

本文链接地址: http://saslist.net/archives/147


09 7月 11 SAS资讯 from 新浪微博-2011-06-30


本期亮点:

1,各种微博、社交网络研究方法逐渐成熟,SAS公司将推出社交媒体分析解决方案,目前处于研发阶段;

2,微博与博客:微博信息具有短、快的,微博上的信息经常会很快被时间冲掉,特别是有价值的难以保留下来。越来越的微博作者开始整理微博上有价值的内容,并且定期发布。

3,各种漂亮图表和免费网络资源闪耀上市,请谨慎收藏,慢慢品尝,以防消化不良。

原创文章: ”SAS资讯 from 新浪微博-2011-06-30“,转载请注明: 转自SAS资源资讯列表

本文链接地址: http://saslist.net/archives/145