Ds1.绪论
一.数据结构的基本概念
1.基本概念和术语
1.1数据
数据是信息的载体,是描述客观事物属性的数、字符及所有能输入到计算机中并被计算机程序识别和处理的符号的集合。数据是计算机程序加工的原料
1.2数据元素、数据项
数据元素是数据的基本单位,通常作为一个整体进行考虑和处理。 一个数据元素可由若干数据项组成,数据项是构成数据元素的不可分割的最小单位。例如,学生记录就是一个数据元素,它由学号、姓名、性别等数据项组成。
1.3数据对象
数据对象是具有相同性质的数据元素的集合,是数据的一个子集。例如,整数数据对象是集合N={0,±1,±2,…}。
1.4数据类型
数据类型是一个值的集合和定义在此集合上的一组操作的总称。
1)原子类型。其值不可再分的数据类型。
2)结构类型。其值可以再分解为若干成分(分量)的数据类型。
3)抽象数据类型。抽象数据组织及与之相关的操作。
1.5数据结构
数据结构是相互之间存在一种或多种特定关系的数据元素的集合。在任何问题中,数据元素都不是孤立存在的,它们之间存在某种关系,这种数据元素相互之间的关系称为结构(Structure)。数据结构包括三方面的内容:逻辑结构、存储结构和数据的运算。
数据的逻辑结构和存储结构是密不可分的两个方面,一个算法的设计取决于所选定的逻辑结构,而算法的实现依赖于所采用的存储结构。
二.数据结构三要素
2.1逻辑结构
逻辑结构是指数据元素之间的逻辑关系,即从逻辑关系上描述数据。它与数据的存储无关,是独立于计算机的。数据的逻辑结构分为线性结构和非线性结构,线性表是典型的线性结构:集合、树和图是典型的非线性结构。
2.1.1集合
结构中的数据元素之间除“同属一个集合”外,别无其他关系
2.1.2线性结构
结构中的数据元素之间只存在一对一的关系
2.2.3树形结构
结构中的数据元素之间存在一对多的关系
2.2.4图状结构或网状结构
结构中的数据元素之间存在多对多的关系
2.2存储结构
2.2.1顺序存储
把逻辑上相邻的元素存储在物理位置上也相邻的存储单元中,元素之间的关系由存储单元的邻接关系来体现。其优点是可以实现随机存取,每个元素占用最少的存储空间:
缺点是只能使用相邻的一整块存储单元,因此可能产生较多的外部碎片。
2.2.2链式存储(非顺序储存)
逻辑上相邻的元素在物理位置上可以不相邻,借助指示元素存储地址的指针来表示元素之间的逻辑关系。
优点是不会出现碎片现象,能充分利用所有存储单元
缺点是每个元素因存储指针而占用额外的存储空间,且只能实现顺序存取。
2.2.3索引存储(非顺序储存)
在存储元素信息的同时,还建立附加的索引表。索引表中的每项称为索引项,索引项的一般形式是(关键字,地址)
2.2.4散列存储(非顺序储存)
根据元素的关键字直接计算出该元素 的存储地址,又称哈希(Hash)存储
若采用顺序存储,则各个数据元素在物理上必须是连续的;若采用 非顺序存储,则各个数据元素在物理上可以是离散的
数据的存储结构会影响存储空间分配的方便程度
数据的存储结构会影响对数据运算的速度
1 Eg:在b和d之间插入新元素c
2.3数据的运算
施加在数据上的运算包括运算的定义和实现。
运算的定义是针对逻辑结构的,指出运算的功能
运算的实现是针对存储结构的,指出运算的具体操作步骤
2.4.数据类型、抽象数据类型
数据类型是一个值的集合和定义在此集合上的一组操作的总称。
1)原子类型。其值不可再分的数据类型。
2)结构类型。其值可以再分解为若干成分(分量)的数据类型。
抽象数据类型(Abstract Data Type,ADT)是抽象数据组织及与之相关的操作。
ADT 用数学化的语言定义数 据的逻辑结构、定义运算。 与具体的实现无关
习题:
选择
1.可以用(D)定义一个完整的数据结构。
A,数据元素
B.数据对象
C.数据关系
D.抽象数据类型
1 >抽象数据类型(ADT)描述了数据的逻辑结构和抽象运算,通常用(数据对象,数据关系,基本操作集)这样的三元组来表示,从而构成一个完整的数据结构定义。2.以下数据结构中,(A)是非线性数据结构。
A.树
B.字符串
C.队列
D.栈
1 >树和图是典型的非线性数据结构,其他选项都属于线性数据结构。3.以下属于逻辑结构的是(C)。
A.顺序表
B.哈希表
C.有序表
D.单链表
1 >顺序表、哈希表和单链表是三种不同的数据结构,既描述逻辑结构,又描述存储结构和数据运算。而有序表是指关键字有序的线性表,仅描述元素之间的逻辑关系,它既可以链式存储,又可以顺序存储,故属于逻辑结构。4.以下与数据的存储结构无关的术语是(D).
A.循环队列
B.链表
C.哈希表
D.栈
1 >数据的存储结构有顺序存储、链式存储、索引存储和散列存储。循环队列(易错点)是用顺序表表示的队列,是一种数据结构。栈是一种抽象数据类型,可采用顺序存储或链式存储,只表示逻辑结构。5.以下关于数据结构的说法中,正确的是(A)。
A,数据的逻辑结构独立于其存储结构
B.数据的存储结构独立于其逻辑结构
C.数据的逻辑结构唯一决定其存储结构
D.数据结构仅由其逻辑结构和存储结构决定
1 >数据的逻辑结构是从面向实际问题的角度出发的,只采用抽象表达方式,独立于存储结构,数据的存储方式有多种不同的选择;而数据的存储结构是逻辑结构在计算机上的映射,它不能独立于逻辑结构而存在。数据结构包括三个要素,缺一不可。6.在存储数据时,通常不仅要存储各数据元素的值,而且要存储(C)。
A,数据的操作方法
B.数据元素的类型
C.数据元素之间的关系
D.数据的存取方法
1
2 >在存储数据时,不仅要存储数据元素的值,而且要存储数据元素之间的关系。
>PS:笔者开始时认为要存储数元素的类型7.链式存储设计时,结点内的存储单元地址(A).
A.一定连续
B.一定不连续
C.不一定连续
D.部分连续,部分不连续
1 >链式存储设计时,各个不同结点的存储空间可以不连续,但结点内的存储单元地址必须连续。简答
1.对于两种不同的数据结构,逻辑结构或物理结构一定不相同吗?
1
2 应该注意到,数据的运算也是数据结构的一个重要方面。
对于两种不同的数据结构,它们的逻辑结构和物理结构完全有可能相同。比如二叉树和二叉排序树,二叉排序树可以采用二叉树的逻辑表示和存储方式,前者通常用于表示层次关系,而后者通常用于排序和查找。虽然它们的运算都有建立树、插入结点、删除结点和查找结点等功能,但对于二义树和二叉排序树,这些运算的定义是不同的,以查找结点为例,二叉树的时间复杂度为O(n),而二叉排序树的时间复杂度为O(log2 n)。2.试举一例,说明对相同的逻辑结构,同一种运算在不同的存储方式下实现时,其运算效率不同。
1
2 >线性表既可以用顺序存储方式实现,又可以用链式存储方式实现。在顺序存储方式下,在线性表中插入和删除元素,平均要移动近一半的元素,时间复杂度为O():而在链式存储方式下,
>插入和删除的时间复杂度都是O(1)。
三.算法和算法评价
1.算法的基本概念
算法(Algorithm)是对特定问题求解步骤的一种描述,它是指令的有限序列,其中的每条指令 表示一个或多个操
1.1算法的特性
1.1.1有穷性
一个算法必须总在执行有穷步之后结束,且每一步都可在有穷时间内完成。
注:算法必须是有穷的,而程序可以是无穷的
1.1.2确定性
算法中每条指令必须有确切的含义,对于相同的输入只能得出相同的输出。
1.1.3可行性
可行性。算法中描述的操作都可以通过己经实现的基本运算执行有限次来实现。
1.1.4输入
一个算法有零个或多个输入,这些输入取自于某个特定的对象的集合。
1.1.5输出
一个算法有一个或多个输出,这些输出是与输入有着某种特定关系的量。
1.2.好算法的特性
1.2.1正确性
算法应能够正确地解决求解问题。
1.2.2可读性
算法应具有良好的可读性,以帮助人们理解。
1.2.3健壮性
输入非法数据时,算法能适当地做出反应或进行处理,而不会产生莫名其妙的输出结果。
1.2.4高效率与低存储量需求
高效率:花的时间少。 时间复杂度低。
低存储量:不费内存。 空间复杂度低
四.算法效率的度量
算法效率的度量是通过时间复杂度和空间复杂度来描述的
1.时间复杂度
时间复杂度T(n)——根据算法写成的程序在执行时耗费时间的长度。
这个长度往往也跟输入数据的规模有关。时间复杂度过高的低效算法可能导致我们在有生之年都等不到运行结果。
2.空间复杂度
空间复杂度S(n)——根据算法写成的程序在执行时占用存储单元的长度。
这个长度往往与输入数据的规模有关。空间复杂度过高的算法可能导致使用的内存超限,造成程序非正常中断。
算法原地工作是指算法所需的辅助空间为常量,即O(1)。
习题:
选择 PS:log_2 表示log以2为底的对数
1.一个算法应该是(B).
A.程序
B.问题求解步骤的描述
C.要满足五个基本特性
D.A和C
1 >本题是中山大学某年的考研真题,题目本身没有问题,考查的是算法的定义。程序不一定满足有穷性,如死循环、操作系统等,而算法必须有穷。算法代表对问题求解步骤的描述,而程序则是算法在计算机上的特定实现。不少读者认为C也对,它只是算法的必要条件,不能成为算法的定义。2.某算法的时间复杂度为O(n^2),表明该算法的(C)。
A.问题规模是n^2
B.执行时间等于n^2
C.执行时间与n^2成正比
D.问题规模与n^2成正比3.以下算法的时间复杂度为()
1
2
3
4
5
6 void fun(int n){
int i = 1;
while(i<=n){
i=i*2;
}
}4.【2011统考真题】设n是描述问题规模的非负整数,下面的程序片段的时间复杂度是(A)。
1
2
3 x=2;
while(x<n/2)
x=2*x;
1 >基本运算(执行频率最高的语句)为x=2*x,每执行一次×乘2,设执行次数为t,则有2^t+1<n/2,所以t<log_2 (n/2)-1=log_2 n -2,得T(n) = O(log_2 n)5.【2012统考真题】求整数n(n≥0)的阶乘的算法如下,其时间复杂度是(B)。
1
2
3
4 int fact(int n){
if(n<=1) return 1;
return n*fact(n-1);
}6.【2013统考真题】已知两个长度分别为m和n的升序链表,若将它们合并为长度为m+n的一个降序链表,则最坏情况下的时间复杂度是(D)。
A.O(n)
B.O(mn)
C.O(min(m,n))
D.O(max(m,n))7.【2014统考真题】下列程序段的时间复杂度是(C).
1
2
3
4 count = 0;
for(k=1;k<=n;k*=2)
for(j=1;j<=n;j++)
count++;8.下列函数的时间复杂度是(B)
1
2
3
4
5 int func(int n){
int i = 0,sum = 0;
while(sum<n) sum+=++i;
return i;
}9.有以下算法,其时间复杂度为(C)。
1
2
3
4
5 void fun(int n){
int i= 0;
while(i*i*i<=n)
i++;
}10.程序段如下:
1
2
3
4 for(i=n-1;i>1;i--)
for(j=1;j<i;j++)
if(A[j]>A[j+1])
A[j]与A[j+1]对换其中n为正整数,则最后一行语句的频度在最坏情况下是(D)。
11.以下算法中加下画线的语句的执行次数为(A)。
1
2
3
4
5 int m=0,i,j;
for(i;i<=n;i++)
for(j=1;j<=2*i;j++)
m++;
__A.n(n+1)
B.n
C.n+1
D.n^212.下面说法中,错误的是(A)。
I.算法原地工作的含义是指不需要任何额外的辅助空间
II.在相同规模n下,复杂度为O(n)的算法在时间上总是优于复杂度为O(2^n的算法
III.所谓时间复杂度,是指最坏情况下估算算法执行时间的一个上界
IV.同一个算法,实现语言的级别越高,执行效率越低
A.I
B.I,II
C.I,IV
D.III
1
2
3
4 >I.算法原地工作是指算法所需的辅助空间是常量。
>Ⅱ,本项考查算法效率的理解,时间复杂度是指渐近时间复杂度,不要想当然地去给n赋予一个特殊值,时间复杂度为O()的算法必然优于时间复杂度为O(2^n)的算法。
>III.时间复杂度总是考虑最坏情况下的时间复杂度,以保证算法的运行时间不会比它更长。
>IV为严蔚敏教材中的原话,该问题在论坛讨论过多年,对于这种在语言层次上的效率问题,建议不要以特例程序来解释其优劣,此处认为该结论是正确的。13.【2019统考真题】设n是描述问题规模的非负整数,下列程序段的时间复杂度是(B)。
1
2
3 x=0;
while(n>=(x+1)*(x+1))
x=x+1;
1 >假设第k次循环终止,则第k次执行时,(x+1)^2>n,x的初始值为0,第k次判断时,x=k一1,即k^2>n,k>√n,因此该程序段的时间复杂度为O(√n)。因此选B。简答
时间复杂度为O(nlog_2 n)。
DS1.疑难总结
1.循环主体中的变量参与循环条件的判断
2.循环主体中的变量与循环条件无关