《看穿一切数字的统计学》,一点儿也不无聊的统计学入门书,不用艰深的数学式,就能理解统计学的基本概念,用故事点出主题,让你学得透彻,看得过瘾。学会统计学,看穿一切数字背后的真相!
最热门的职业
最能够证明这一推测的根据,来自于微软在专门用于招聘的网页上于2010年8月23日发表的一篇文章,其中提到技术领域今后最热门的3个专业,如下所示。 数据分析、机械学习、人工智能、自然语言处理。 商务智能、竞争分析。 分析、统计——特别是网页分析、分离测试(A/B测试)、统计分析。
数据挖掘
从已经存在的大量数据中找出有价值的信息和假设的方法,被称为数据挖掘。这种方法在拥有一定准确度的前提下更加重视速度,通过重复比较简单的计算过程就能够实现,所以应用比较广泛。最常见的例子是对超市的POS(销售终端)数据进行数据挖掘,结果显示同时购买尿片与啤酒的概率出人意料得高。
文本挖掘
文本挖掘,对文字进行数据分析的方法。将语言学的方法延展,使其也能够应用于商务活动。通过被称为语素分析(将文章拆分成单词)的过程,对出现过的某些单词,以及单词之间的关联性进行分析。
Exadata系统
常年以来,一直占据数据库业界老大地位的甲骨文公司经过巨额收购后终于完成的大数据相关主力商品。在软件和硬件两方面都能够最快地分散数据进行高速处理。性能和价格都很高。
Greenplum系统
Exadata系统的竞争对手。充分地利用了开源技术,比Exadata系统便宜很多,同时也能够对庞大的数据进行高速处理。
分散处理
对于难以处理的庞大数据,如果分散到100台服务器上分别处理,最后将结果统计一下就能够得到比单一处理高100倍的效率。由于数据的构造和计算程序算法的不同,想要实现“完美分散后统计结果”所消耗的时间也不同,这是这种方法最大的难点所在。
内存数据库
为了提高数据读写的速度,将数据记录在内存(RAM)上的方法。当然,如果切断电源数据就会消失,所以为了弥补这一缺陷尝试使用SSD(固态硬盘)和RAM相结合的方法。
Hadoop系统
对数据进行分散处理的JAVA(一种程序语言)软件工作模式,主要负责分散处理“最关键的部分”。最近,我们所听说的大规模数据分散处理软件大部分都是基于Hadoop系统运行的。
AWS平台
亚马逊开发的数据库和数据分析云计算服务,也能够对应大数据的分散处理。
非结构化数据
以甲骨文为首的传统数据库(RDB)是以“构造化的表”与“表之间的联系”为基础对数据进行保存和检索的。这种传统的数据库形式无法很好地进行整理的数据被称为非构造化数据。
NoSQL
RDB的处理是使用结构化查询语言(SQL)记述的,使用其他不同方法保存数据进行处理的方法就被称为NoSQL。
KVS
KVS ,Key Value Store的简称。RDB是以既定的格式对表和表之间的联系进行处理,而KVS则是利用表中的值(Value)和值之间的联系(Key)来对数据进行处理。对包括非结构化数据的大规模数据进行分散处理非常方便。
R语言
开源的统计分析用语言。全世界的专家们可以随心所欲地制作分析方法并且将其公开的库。那些买不起收费软件的贫穷学者们都喜欢使用这个,最近忽然受到了大家的关注。似乎可以直接从Exadata系统、Greenplum系统甚至“统计产品与服务解决方案”软件(SPSS)之中直接调用R语言库。