- 1.1大数据的定义与特点
- 1.2大数据算法-大数据算法的定义
- 1.3大数据算法-求解大数据上计算问题的过程
- 1.4大数据算法-大数据算法的特点与难点
- 1.5大数据算法设计与分析
- 2.1亚线性算法的定义
- 2.2水库抽样—空间亚线性算法
- 2.3平面图直径—时间亚线性计算算法
- 2.4-全0数组判定—时间亚线性判定算法
- 3.1数据流中频繁元素-基础知识
- 3.2数据流中频繁元素-算法与分析
- 3.3生成树权重(一)
- 3.4生成树权重(二)
- 3.5数组有序性判定
- 4.1外存存储结构与外存算法
- 4.2外存排序算法(一)
- 4.3外存排序算法(二)[可选学]
- 4.4外存查找树
- 5.1 B树(一)
- 5.2 B树(二)
- 5.3 KD树
- 6.1表排序及其应用
- 6.2时间前向处理方法
- 6.3缩图法
- 7.1MapReduce概述
- 7.2字数统计
- 7.3平均数计算
- 7.4单词贡献矩阵的计算
- 8.1-连接算法
- 8.2--图算法(一)
- 8.3--图算法(二)
- 9.1基于迭代处理平台的并行算法
- 9.2基于图处理平台的并行算法
- 10.1众包的定义
- 10.2众包的实例
- 10.3众包的要素
- 10.4众包算法例析
大数据不论在研究还是工程领域都是热点之一,算法是大数据管理与计算的核心主题,因此将大数据算法作为信息与计算科学专业的一门选修课程。通过本课程的学习,使学生能掌握一些大数据算法设计的基本思想,较好的理解和传统算法课程不一样的算法设计与分析思路,通过实践练习初步掌握大数据算法设计与分析的技术,并能够将其中的思想应用于实际的研究和开发。从而提高学生的创新实践能力,加强学生开展科研工作能力。为今后进行更深入的研究奠定良好的理论基础。
通过本课程的学习,学生将达到以下要求:
1.掌握大数据算法设计的基本思想,较好的理解大数据算法设计与分析的基本思路;
2.初步掌握大数据算法设计与分析的基本方法和技术;
3.初步具备将大数据算法应用于实际开发的能力,并能够分析算法效率。
(二)知识、能力及技能方面的基本要求
1.基本知识:掌握大数据算法设计和分析的基本思想,掌握概率算法、I/0有效算法、并行算法等大数据算法的基本思想。
2.基本理论和方法:掌握大数据算法设计的一般原理和步骤。要求学生能够掌握亚线性算法、外存算法、并行算法等算法的设计方法和分析技术。
3.基本技能:具备运用亚线性算法、外存算法、并行算法等算法综合解决实际问题的能力,初步具备将大数据算法应用于实际开发的技能。
大数据给数据分析和处理带来了前所未有的机遇和挑战。本课程介绍大数据分析中一些算法 :数据的稀疏和低秩表达,稀疏和低秩矩阵优化,社交网络计算中的图与网络流问题,机器 学习和数据挖掘的最优化算法,随机优化算法,并行计算等等 Big data has brought unprecedented opportunities and challenges to data analysis and processing. This course introduces some basic concepts of algorithms for big data analysis: sparse and low-rank data representation, sparse and low-rank matrix optimization, graph and network flow problems in social network computation, optimization algorithms for machine learning and data mining, stochastic optimization algorithms, parallel computing, etc. 课程对象: 高年级本科生和研究生。 参考书: (1) Thomas H. Cormen, Charles E. Leiserson, Ronald L. Rivest, Clifford Stein, Introduction to Algorithms, The MIT Press, http://mitpress.mit.edu/books/introduction-algorithms (2) Jure Leskovec, Anand Rajaraman, Jeff Ullman, Mining of Massive Datasets, Cambridge University Press, http://www.mmds.org/ (3) Stephen Boyd and Lieven Vandenberghe, Convex optimization, Cambridge University Press, 2004, http://stanford.edu/~boyd/cvxbook/ (4) Jorge Nocedal and Stephen Wright, Numerical Optimization, Springer, 2006, http://www.ece.northwestern.edu/~nocedal/book/ (5) 袁亚湘,孙文瑜,最优化理论与方法,科学出版社,2003 内容提要和学时分配: 1. 课程简介, 3学时 课程简介,大数据分析中的最优化理论与算法介绍 2. 线性规划,半定规划, 6学时 线性规划,单纯形方法,半定规划,对偶理论 4.稀疏优化与低秩矩阵恢复, 9学时 压缩感知和稀疏优化基本理论和算法 低秩矩阵恢复的基本理论和算法 PCA,robust PCA (matrix separation), sparse PCA 5. 社交网络计算中的图和网络流问题,9学时 the network simplex problem the shorted path problem the maximum flow problem the minimum spanning tree problem 6. 机器学习和数据挖掘,9学时 聚类分析: clustering 高维数据降维: eigenvalue, SVD 链接分析: page rank 推荐系统: matrix completion, 大规模机器学习: support vector machine 7.现代医学成像与高维图像分析,3学时 相位恢复以及低温电子显微镜和三维重构中的若干反问题 8.大数据分析的随机优化算法,3学时 9.大数据分析的并行计算、分布式计算、分散式计算,6学时 OpenMP, MPI, 稀疏优化的并行计算,分散式计算