13楼
《数学之美》目录:
i 出版说明
v 序言1
ix 序言2
xi 前言
第1章 文字和语言 vs 数字和信息
文字和语言与数学,从产生起原本就有相通性,虽然它
们的发展一度分道扬镳,但是最终还是能走到一起。
1 信息
2 文字和数字
3 文字和语言背后的数学
4 小结
第2章 自然语言处理 — 从规则到统计
人类对机器理解自然语言的认识走了一条大弯路。早期
的研究集中采用基于规则的方法,虽然解决了一些简单
的问题,但是无法从根本上将自然语言理解实用化。直
到?? 多年后,人们开始尝试用基于统计的方法进行自
然语言处理,才有了突破性进展和实用的产品。
1 机器智能
2 从规则到统计
3 小结
第3章 统计语言模型
统计语言模型是自然语言处理的基础,并且被广泛应用
于机器翻译、语音识别、印刷体或手写体识别、拼写纠错、
汉字输入和文献查询。
1 用数学的方法描述语言规律
2 延伸阅读:统计语言模型的工程诀窍
3 小结
第4章 谈谈中文分词
中文分词是中文信息处理的基础,它同样走过了一段弯
路,目前依靠统计语言模型已经基本解决了这个问题。
1 中文分词方法的演变
2 延伸阅读:工程上的细节问题
3 小结
第5章 隐含马尔可夫模型
隐含马尔可夫模型最初应用于通信领域,继而推广到语
音和语言处理中,成为连接自然语言处理和通信的桥梁。
同时,隐含马尔可夫模型也是机器学习的主要工具之一。
1 通信模型
2 隐含马尔可夫模型
3 延伸阅读:隐含马尔可夫模型的训练
4 小结
第6章 信息的度量和作用
信息是可以量化度量的。信息熵不仅是对信息的量化度
量,也是整个信息论的基础。它对于通信、数据压缩、
自然语言处理都有很强的指导意义。
1 信息熵
2 信息的作用
3 延伸阅读:信息论在信息处理中的应用
4 小结
第7章 贾里尼克和现代语言处理
作为现代自然语言处理的奠基者,贾里尼克教授成功地
将数学原理应用于自然语言处理领域中,他的一生富于
传奇色彩。
1 早年生活
2 从水门事件到莫妮卡?莱温斯基
3 一位老人的奇迹
第8章 简单之美 — 布尔代数和搜索引擎的索引
布尔代数虽然非常简单,却是计算机科学的基础,它不
仅把逻辑和数学合二为一,而且给了我们一个全新的视
角看待世界,开创了数字化时代。
1 布尔代数
2 索引
3 小结
第9章 图论和网络爬虫
互联网搜索引擎在建立索引前需要用一个程序自动地将
所有的网页下载到服务器上,这个程序称为网络爬虫,
它的编写是基于离散数学中图论的原理。
1 图论
2 网络爬虫
3 延伸阅读:图论的两点补充说明
4 小结
第10章 PageRank — Google的民主表决式网名
网页排名技术是早期的杀手锏,它
的出现使得网页搜索的质量上了一个大的台阶。它背后
的原理是图论和线性代数的矩阵运算。
1 PageRank 算法的原理
2 延伸阅读:PageRank 的计算方法
3 小结
第11章 如何确定网页和查询的相关性
确定网页和查询的相关性是网页搜索的根本问题,其中确
定查询中每个关键词的重要性有多高是关键。是目
前通用的关键词重要性的度量,其背后的原理是信息论。
1 搜索关键词权重的科学度量TF-IDF
页排名技术
2 延伸阅读:TF-IDF 的信息论依据
3 小结
第12章 地图和本地搜索的最基本技术 — 有限划
地图和本地服务中要用到有限状态机和动态规划技术。
这两项技术是机器智能和机器学习的工具,它们的应用
非常广泛,还包括语音识别、拼写和语法纠错、拼音输
入法、工业控制和生物的序列分析等。
1 地址分析和有限状态机
2 全球导航和动态规划
3 延伸阅读:有限状态传感器
4 小结
第13章 Google AK-47 的设计者 — 阿米特·士
在所有轻武器中最有名的是冲锋枪,因为它从不
卡壳,不易损坏,可在任何环境下使用,可靠性好,杀
伤力大并且操作简单。的产品就是按照上述原
则设计的。
第14章 余弦定理和新闻的分类
计算机虽然读不懂新闻,却可以准确地对新闻进行分类。
其数学工具是看似毫不相干的余弦定理。
1 新闻的特征向量
2 向量距离的度量
3 延伸阅读:计算向量余弦的技巧
4 小结
第15章 矩阵运算和文本处理中的两个分类问题
无论是词汇的聚类还是文本的分类,都可以通过线性代
数中矩阵的奇异值分解来进行。这样一来,自然语言处
理的问题就变成了一个数学问题。
1 文本和词汇的矩阵
2 延伸阅读:奇异值分解的方法和应用场景
3 小结
第16章 信息指纹及其应用
世间万物都有一个唯一标识的特征,信息也是如此。每
一条信息都有它特定的指纹,通过这个指纹可以区别不
同的信息。
1 信息指纹
2 信息指纹的用途
3 延伸阅读:信息指纹的重复性和相似哈希
4 小结
第17章 由电视剧《暗算》所想到的 — 谈谈
原理
密码学的根本是信息论和数学。没有信息论指导的密码
是非常容易被破解的。只有在信息论被广泛应用于密码
学后,密码才真正变得安全。
1 密码学的自发时代
2 信息论时代的密码学
3 小结
第18章 闪光的不一定是金子 — 谈谈搜索引擎
题
闪光的不一定是金子,搜索引擎中排名靠前的网页也
未必是有用的网页。消除这些作弊网页的原理和通信
中过滤噪音的原理相同。这说明信息处理和通信的很
多原理是相通的。
第19章 谈谈数学模型的重要性
正确的数学模型在科学和工程中至关重要,而发现正确
模型的途径常常是曲折的。正确的模型在形式上通常是
简单的。
第20章 不要把鸡蛋放到一个篮子里 — 谈谈型
最大熵模型是一个完美的数学模型。它可以将各种信息
整合到一个统一的模型中,在信息处理和机器学习中有
反作弊问题着广泛的应用。它在形式上非常简单、优美,而在实现
时需要有精深的数学基础和高超的技巧。
1 最大熵原理和最大熵模型
2 最大熵模型的训练
3 小结
第21章 拼音输入法的数学原理
汉字的输入过程本身就是人和计算机之间的通信。好的
输入法会自觉或不自觉地遵循通信的数学模型。当然要
做出最有效的输入法,应当自觉使用信息论做指导。
1 输入法与编码
2 输入一个汉字需要敲多少个键 — 谈谈香农
3 拼音转汉字的算法
4 延伸阅读:个性化的语言模型
5 小结
第22章 自然语言处理的教父马库斯和他的
们
将自然语言处理从基于规则的研究方法转到基于统计的
研究方法上,宾夕法尼亚大学的教授米奇?马库斯功不
可没。他创立了今天在学术界广泛使用的语料库,
同时培养了一大批精英人物。
1 教父马库斯
2 从宾夕法尼亚大学走出的精英们
第23章 布隆过滤器
日常生活中,经常要判断一个元素是否在一个集合中。
布隆过滤器是计算机工程中解决这个问题最好的数学工具。
1 布隆过滤器的原理
2 延伸阅读:布隆过滤器的误识别问题
3 小结
第24章 马尔可夫链的扩展 — 贝叶斯网络
贝叶斯网络是一个加权的有向图,是马尔可夫链的扩展。
而从认识论的层面看:贝叶斯网络克服了马尔可夫链那
种机械的线性约束,它可以把任何有关联的事件统一到
它的框架下面。它在生物统计、图像处理、决策支持系
统和博弈论中都有广泛的使用。
1 贝叶斯网络
2 贝叶斯网络在词分类中的应用
3 延伸阅读:贝叶斯网络的训练
4 小结
第25章 条件随机场和句法分析
条件随机场是计算联合概率分布的有效模型,而句法
分析似乎是英文课上英语老师教的东西,这两者有什
么联系呢?
1 句法分析计算机算法的演变
2 条件随机场
3 小结
第26章 维特比和他的维特比算法
维特比算法是现代数字通信中使用最频繁的算法,同时
也是很多自然语言处理的解码算法。可以毫不夸张地讲,
维特比是对我们今天生活的影响力最大的科学家之一,
因为如今基于的移动通信标准主要就是他创
办的高通公司制定的。
1 维特比算法
2 CDMA 技术 — 3G 移动通信的基础
3 小结
第27章 再谈文本自动分类问题 — 期望最大化
算法
只要有一些训练数据,再定义一个最大化函数,采用
算法,利用计算机经过若干次迭代,就可以得到所
需要的模型。这实在是太美妙了,这也许是我们的造物
主刻意安排的。所以我把它称作上帝的算法。
1 文本的自收敛分类
2 延伸阅读:期望最大化和收敛的必然性
3 小结
第28章 逻辑回归和搜索广告
逻辑回归模型是一种将影响概率的不同因素结合在一起
的指数模型,它不仅在搜索广告中起着重要的作用,而
且被广泛应用于信息处理和生物统计中。
1 搜索广告的发展
2 逻辑回归模型
3 小结
第29章 各个击破算法和Google 云计算的基础
Google颇为神秘的云计算中最重要的MapReduce工具,
其原理就是计算机算法中常用的“各个击破”算法,它
的原理原来这么简单 — 将复杂的大问题分解成很多小
问题分别求解,然后再把小问题的解合并成原始问题的
解。由此可见,在生活中大量用到的、真正有用的方法
常常都是简单朴实的。
1 分治算法的原理
2 从分治算法到MapReduce
3 小结
附录
后记
索引
i 出版说明
v 序言1
ix 序言2
xi 前言
第1章 文字和语言 vs 数字和信息
文字和语言与数学,从产生起原本就有相通性,虽然它
们的发展一度分道扬镳,但是最终还是能走到一起。
1 信息
2 文字和数字
3 文字和语言背后的数学
4 小结
第2章 自然语言处理 — 从规则到统计
人类对机器理解自然语言的认识走了一条大弯路。早期
的研究集中采用基于规则的方法,虽然解决了一些简单
的问题,但是无法从根本上将自然语言理解实用化。直
到?? 多年后,人们开始尝试用基于统计的方法进行自
然语言处理,才有了突破性进展和实用的产品。
1 机器智能
2 从规则到统计
3 小结
第3章 统计语言模型
统计语言模型是自然语言处理的基础,并且被广泛应用
于机器翻译、语音识别、印刷体或手写体识别、拼写纠错、
汉字输入和文献查询。
1 用数学的方法描述语言规律
2 延伸阅读:统计语言模型的工程诀窍
3 小结
第4章 谈谈中文分词
中文分词是中文信息处理的基础,它同样走过了一段弯
路,目前依靠统计语言模型已经基本解决了这个问题。
1 中文分词方法的演变
2 延伸阅读:工程上的细节问题
3 小结
第5章 隐含马尔可夫模型
隐含马尔可夫模型最初应用于通信领域,继而推广到语
音和语言处理中,成为连接自然语言处理和通信的桥梁。
同时,隐含马尔可夫模型也是机器学习的主要工具之一。
1 通信模型
2 隐含马尔可夫模型
3 延伸阅读:隐含马尔可夫模型的训练
4 小结
第6章 信息的度量和作用
信息是可以量化度量的。信息熵不仅是对信息的量化度
量,也是整个信息论的基础。它对于通信、数据压缩、
自然语言处理都有很强的指导意义。
1 信息熵
2 信息的作用
3 延伸阅读:信息论在信息处理中的应用
4 小结
第7章 贾里尼克和现代语言处理
作为现代自然语言处理的奠基者,贾里尼克教授成功地
将数学原理应用于自然语言处理领域中,他的一生富于
传奇色彩。
1 早年生活
2 从水门事件到莫妮卡?莱温斯基
3 一位老人的奇迹
第8章 简单之美 — 布尔代数和搜索引擎的索引
布尔代数虽然非常简单,却是计算机科学的基础,它不
仅把逻辑和数学合二为一,而且给了我们一个全新的视
角看待世界,开创了数字化时代。
1 布尔代数
2 索引
3 小结
第9章 图论和网络爬虫
互联网搜索引擎在建立索引前需要用一个程序自动地将
所有的网页下载到服务器上,这个程序称为网络爬虫,
它的编写是基于离散数学中图论的原理。
1 图论
2 网络爬虫
3 延伸阅读:图论的两点补充说明
4 小结
第10章 PageRank — Google的民主表决式网名
网页排名技术是早期的杀手锏,它
的出现使得网页搜索的质量上了一个大的台阶。它背后
的原理是图论和线性代数的矩阵运算。
1 PageRank 算法的原理
2 延伸阅读:PageRank 的计算方法
3 小结
第11章 如何确定网页和查询的相关性
确定网页和查询的相关性是网页搜索的根本问题,其中确
定查询中每个关键词的重要性有多高是关键。是目
前通用的关键词重要性的度量,其背后的原理是信息论。
1 搜索关键词权重的科学度量TF-IDF
页排名技术
2 延伸阅读:TF-IDF 的信息论依据
3 小结
第12章 地图和本地搜索的最基本技术 — 有限划
地图和本地服务中要用到有限状态机和动态规划技术。
这两项技术是机器智能和机器学习的工具,它们的应用
非常广泛,还包括语音识别、拼写和语法纠错、拼音输
入法、工业控制和生物的序列分析等。
1 地址分析和有限状态机
2 全球导航和动态规划
3 延伸阅读:有限状态传感器
4 小结
第13章 Google AK-47 的设计者 — 阿米特·士
在所有轻武器中最有名的是冲锋枪,因为它从不
卡壳,不易损坏,可在任何环境下使用,可靠性好,杀
伤力大并且操作简单。的产品就是按照上述原
则设计的。
第14章 余弦定理和新闻的分类
计算机虽然读不懂新闻,却可以准确地对新闻进行分类。
其数学工具是看似毫不相干的余弦定理。
1 新闻的特征向量
2 向量距离的度量
3 延伸阅读:计算向量余弦的技巧
4 小结
第15章 矩阵运算和文本处理中的两个分类问题
无论是词汇的聚类还是文本的分类,都可以通过线性代
数中矩阵的奇异值分解来进行。这样一来,自然语言处
理的问题就变成了一个数学问题。
1 文本和词汇的矩阵
2 延伸阅读:奇异值分解的方法和应用场景
3 小结
第16章 信息指纹及其应用
世间万物都有一个唯一标识的特征,信息也是如此。每
一条信息都有它特定的指纹,通过这个指纹可以区别不
同的信息。
1 信息指纹
2 信息指纹的用途
3 延伸阅读:信息指纹的重复性和相似哈希
4 小结
第17章 由电视剧《暗算》所想到的 — 谈谈
原理
密码学的根本是信息论和数学。没有信息论指导的密码
是非常容易被破解的。只有在信息论被广泛应用于密码
学后,密码才真正变得安全。
1 密码学的自发时代
2 信息论时代的密码学
3 小结
第18章 闪光的不一定是金子 — 谈谈搜索引擎
题
闪光的不一定是金子,搜索引擎中排名靠前的网页也
未必是有用的网页。消除这些作弊网页的原理和通信
中过滤噪音的原理相同。这说明信息处理和通信的很
多原理是相通的。
第19章 谈谈数学模型的重要性
正确的数学模型在科学和工程中至关重要,而发现正确
模型的途径常常是曲折的。正确的模型在形式上通常是
简单的。
第20章 不要把鸡蛋放到一个篮子里 — 谈谈型
最大熵模型是一个完美的数学模型。它可以将各种信息
整合到一个统一的模型中,在信息处理和机器学习中有
反作弊问题着广泛的应用。它在形式上非常简单、优美,而在实现
时需要有精深的数学基础和高超的技巧。
1 最大熵原理和最大熵模型
2 最大熵模型的训练
3 小结
第21章 拼音输入法的数学原理
汉字的输入过程本身就是人和计算机之间的通信。好的
输入法会自觉或不自觉地遵循通信的数学模型。当然要
做出最有效的输入法,应当自觉使用信息论做指导。
1 输入法与编码
2 输入一个汉字需要敲多少个键 — 谈谈香农
3 拼音转汉字的算法
4 延伸阅读:个性化的语言模型
5 小结
第22章 自然语言处理的教父马库斯和他的
们
将自然语言处理从基于规则的研究方法转到基于统计的
研究方法上,宾夕法尼亚大学的教授米奇?马库斯功不
可没。他创立了今天在学术界广泛使用的语料库,
同时培养了一大批精英人物。
1 教父马库斯
2 从宾夕法尼亚大学走出的精英们
第23章 布隆过滤器
日常生活中,经常要判断一个元素是否在一个集合中。
布隆过滤器是计算机工程中解决这个问题最好的数学工具。
1 布隆过滤器的原理
2 延伸阅读:布隆过滤器的误识别问题
3 小结
第24章 马尔可夫链的扩展 — 贝叶斯网络
贝叶斯网络是一个加权的有向图,是马尔可夫链的扩展。
而从认识论的层面看:贝叶斯网络克服了马尔可夫链那
种机械的线性约束,它可以把任何有关联的事件统一到
它的框架下面。它在生物统计、图像处理、决策支持系
统和博弈论中都有广泛的使用。
1 贝叶斯网络
2 贝叶斯网络在词分类中的应用
3 延伸阅读:贝叶斯网络的训练
4 小结
第25章 条件随机场和句法分析
条件随机场是计算联合概率分布的有效模型,而句法
分析似乎是英文课上英语老师教的东西,这两者有什
么联系呢?
1 句法分析计算机算法的演变
2 条件随机场
3 小结
第26章 维特比和他的维特比算法
维特比算法是现代数字通信中使用最频繁的算法,同时
也是很多自然语言处理的解码算法。可以毫不夸张地讲,
维特比是对我们今天生活的影响力最大的科学家之一,
因为如今基于的移动通信标准主要就是他创
办的高通公司制定的。
1 维特比算法
2 CDMA 技术 — 3G 移动通信的基础
3 小结
第27章 再谈文本自动分类问题 — 期望最大化
算法
只要有一些训练数据,再定义一个最大化函数,采用
算法,利用计算机经过若干次迭代,就可以得到所
需要的模型。这实在是太美妙了,这也许是我们的造物
主刻意安排的。所以我把它称作上帝的算法。
1 文本的自收敛分类
2 延伸阅读:期望最大化和收敛的必然性
3 小结
第28章 逻辑回归和搜索广告
逻辑回归模型是一种将影响概率的不同因素结合在一起
的指数模型,它不仅在搜索广告中起着重要的作用,而
且被广泛应用于信息处理和生物统计中。
1 搜索广告的发展
2 逻辑回归模型
3 小结
第29章 各个击破算法和Google 云计算的基础
Google颇为神秘的云计算中最重要的MapReduce工具,
其原理就是计算机算法中常用的“各个击破”算法,它
的原理原来这么简单 — 将复杂的大问题分解成很多小
问题分别求解,然后再把小问题的解合并成原始问题的
解。由此可见,在生活中大量用到的、真正有用的方法
常常都是简单朴实的。
1 分治算法的原理
2 从分治算法到MapReduce
3 小结
附录
后记
索引
14楼
《浪潮之巅》目录:
目 录
序言
前言 有幸见证历史
第1章 帝国的余辉—AT&T
第2章 蓝色巨人—IBM 公司
第3章 “水果”公司的复兴—乔布斯和苹果公司
第4章 计算机工业的生态链
第5章 奔腾的芯 — 英特尔公司
第6章 IT 领域的罗马帝国—微软公司
第7章 互联网的金门大桥—思科公司
第8章 英名不朽—杨致远、菲洛和雅虎公司
第9章 硅谷的见证人—惠普公司
第10章 没落的贵族—摩托罗拉公司
第11章 硅谷的另一面
第12章 短暂的春秋—与机会失之交臂的公司
第13章 幕后的英雄—风险投资
第14章 信息产业的规律性
第15章 硅谷的摇篮—斯坦福大学
第16章 科技公司的吹鼓手—投资银行
第17章 挑战者—Google 公司
第18章 成功的转基因—诺基亚、3M、GE 公司
第19章 印钞机—最佳的商业模式
第20章 互联网 2.0
第21章 金融风暴的冲击
第22章 云计算
第23章 下一个 Google
后记
索引
回复
有奖活动 | |
---|---|
【有奖活动】分享技术经验,兑换京东卡 | |
话不多说,快进群! | |
请大声喊出:我要开发板! | |
【有奖活动】EEPW网站征稿正在进行时,欢迎踊跃投稿啦 | |
奖!发布技术笔记,技术评测贴换取您心仪的礼品 | |
打赏了!打赏了!打赏了! |