一、什么是数据类型?
在学习数据分析时,我们常会提到由于某某数据是某类型,所以采取对于的统计分析方法。所以对于数据类型的了解就变得十分必要。
根据存储方式划分
根据存储方式,我们可以把数据分为结构化数据和非结构化数据。
- 结构化数据:特征和观察值以表格形式存储(行列结构),例如存储个体属性数据的二维表、存储在图或邻接矩阵的关系矩阵;
- 非结构化数据:数据以自由实体形式存在,不符合任何标准的组织层次结构,例如服务器日志、邮件、文本等;
非结构化数据一般可以通过数据预处理转化为结构化数据,以便使用统计方法进行分析。例如,一段文字描述,可使用“字数/短语”,“特殊符号”,“文本相对长度”,“文本主题”来描述文本特征;发帖的文本,可以通过语义分析提取共现词,形成关键词共现矩阵。
根据测量尺度划分
其中的结构化数据根据数据的测量尺度可以划分为分类型数据和数值型数据。
- 定量数据:用数字表示,并支持包括加法在内的数学运算;
- 定性数据:用自然类别和文字表示,不支持数字格式和数学运算;
而定量数据可继续分为离散型和连续型:
- 离散型数据:计数类数据,取值为自然数或整数;
- 连续型数据:测量类数据,取值为无限范围区间;
以上的划分较为粗略,统计学中一般根据测量尺度的不同把数据分为四类:
定类数据定序数据定距数据定比数据
我们根据不同的数据类型才能选用相应的统计方法。
定类尺度(Nominal Measurement)
定类数据也称作名义数据,是对事物的类别或属性的一种划分,按照事物的某种属性对其进行分类或分组。其特点是其值仅代表了事物的类别和属性,仅能表示类别差异,不能比较各类之间的大小,各类之间没有顺序或等级,
定类变量只能计算频数和频率,不能进行大小的比较。
例如:
”性别“变量:分为男、女。男和女没有次序之分,只是表示不同类别。在 SPSS 编码中,我们可以把”男“编码为1,”女“编码为2,这里的“1“、“2”只是表示类别的不同,没有次序关系。我们可以计算男性和女性的频数和频率。 地区变量:分为东部、中部、西部等。
在 SPSS 中使用度量标准(Measure)属性对变量的测量尺度进行定义,其中定类尺度变量用“名义(N)”来表示。能使用的定类尺度的数据可以是数值型变量,也可以是字符型变量。
要注意的是,使用定类变量对事物进行分类时,必须符合相互独立和完全穷尽原则 (Mutually Exclusive Collectively Exhaustive,MECE)。相互独立是指每个样本都只能归为一个类别,而不能同时归属多个类别,完全穷尽是指每个样本都必须归为一个类别。
定序变量(Ordinal Measurement)
定序尺度是对事物之间等级或顺序差别的一种测度,用数字表示个体在某个有序状态中所处的位置,可以比较优劣或排序。定序变量比定类变量的信息量多一些,不仅含有类别的信息,还包含了次序的信息;但是由于定序变量只测度类别之间的顺序,无法测出类别之间的准确差值,即测量数值不代表绝对的数量大小,所以其计量结果只能排序,不能进行算术运算。 对于定序变量除了可以计算频率之外,还可以计算累计频率。 例如:
反映被调查者对某事物或主题的综合态度的李克特量表就是定序变量,如非常同意、比较同意、一般、比较不同意、非常不同意。我们可以计算同意的人数和比例,还可以计算比较同意及非常同意的累计人数和比例。 “学历”变量:分为小学、初中、高中、本科、研究生。
定距尺度(Interval Measurement)
定距尺度是对事物类别或次序之间间距的测度。其特点是其不仅能将事物区分为不同类型并进行排序,而且可准确指出类别之间的差距是多少;定距变量通常以自然或物理单位为计量尺度,因此测量结果往往表现为数值,所以计量结果可以进行加减运算,生活中最典型的定距尺度变量就是温度。
定比尺度(Scale Measurement)
定比尺度是能够测算两个测度值之间比值的一种计量尺度,它的测量结果同定距变量一样也表现为数值,如职工月收入、企业销售额等。
区分定距尺度和定比尺度
定距尺度和定比尺度的差别在于是否存在一个固定的绝对“零点”。定距尺度中没有绝对的0 点,其中的“0”并不表示“没有”,仅仅是一个测量值。比如温度,0℃只是一个普通的温度(水的冰点),并非没有温度,因此它只是定距变量。 而定比尺度中的“0”则真正表示“没有”。比如重量,则是定比变量,0 kg 就意味着没有重量可言。
定比变量是测量尺度的最高水平,它除了具有其他 3 种测量尺度的全部特点外,还具有可计算两个测度值之间比值的特点,因此可进行加、减、乘、除运算,而定距变量严格来说只可进行加减运算。
SPSS 中默认的变量测量尺度就是定比尺度。但由于后两种测量尺度在绝大多数统计分析中没有本质上的差别,在 SPSS 中就将其合并为一类,统称为“度量(S)”。这 3 种尺度有更为通俗的名称:无序分类变量、有序分类变量和连续性变量。
以下是四种数据尺度的比较:
一般来说,数据的等级越高,应用范围越广泛,等级越低,应用范围越受限。 不同测度级别的数据,应用范围不同。等级高的数据,可以兼有等级低的数据的功能,而等级低的数据,不能兼有等级高的数据的功能。
二、php数据类型和mysql数据类型区别?
php是弱数据类型语言,也就是说对于数据类型不是特别敏感,mysql有较多的数据类型 其中timestamap,datetime等时间类型与php相差较大
三、485数据类型?
485通信接口的远程称重数据采集方法
广泛用于工矿、交通运输等企业作为称重计量设备的电子汽车衡在数据处理等功能上的落后现状,对SCS系列全电子汽车衡显示仪表(XK3122豪华双显示称重仪)的数据通信接口进行测试和分析研究,提出一种基于微机RS232串行通信接口的称重数据采集方法,进一步结合RS422/RS485串行数据通信接口标准与特点实现了远程数据采集并在实际运用中得到验证,具有一定的推广价值。
四、sql数据类型?
1)字符串型
VARCHAR:
变长的字符串,需要在声明字段时指定能存储的最大字符数,真实占用的空间取决于存入的字符数,存入的越多占用空间越多。适合保存内容长度不定的字符类型数据。能包含数据的大小,mysql5.0以前0~255字节,mysql5.0以后0~65535字节
CHAR:
定长字符串,需要在声明字段时指定固定字符数。即使存入的字符数少于该长度,该字段也会占用该固定长度。适合存储长度不变的字符类型数据。能包含数据的大小,0~255字节
2)大数据类型
BLOB:
大二进制类型,可以存入二进制类型的数据,通过这个字段,可以将图片、音频、视频等数据以二进制的形式存入数据库。最大为4GB。
TEXT:
大文本,被声明为这种类型的字段,可以保存大量的字符数据,最大为4GB。
注意:text属于mysql的方言,在其他数据库中为clob类型
3)数值型
TINYINT:占用1个字节,相对于java中的byte
SMALLINT:占用2个字节,相对于java中的short
INT:占用4个字节,相对于java中的int
BIGINT:占用8个字节,相对于java中的long
FLOAT:4字节单精度浮点类型,相对于java中的float
DOUBLE:8字节双精度浮点类型,相对于java中的double
4)逻辑型
BIT:
位类型,可以存储指定位的值,可以指定位的个数,如果不指定则默认值为1位,即只能保存0或1,对应到java中可以是boolean型。
5)日期型
DATE:日期
TIME:时间
DATETIME:日期时间
TIMESTAMP:时间戳
**DATETIME和TIMESTAMP的区别?
* DATETIME和TIMESTAMP显示的结果是一样的,都是固定的"YYYY-MM-DD HH:MM:SS"的格式
* DATETIME支持的范围是'1000-01-01 00:00:00'到'9999-12-31 23:59:59'。TIMESTAMP的显示范围是'1970-01-01 00:00:00'到2037年,且其实际的存储值为1970年到当前时间的毫秒数。
* 在建表时,列为TIMESTAMP的日期类型可以设置一个默认值,而DATETIME不行。
* 在更新表时,可以设置TIMESTAMP类型的列自动更新时间为当前时间。
五、raw数据类型?
Oracle中用于保存位串的数据类型是RAW,LONG RAW(推荐使用BLOB)。
RAW,类似于CHAR,声明方式RAW(L),L为长度,以字节为单位,作为数据库列最大2000,作为变量最大32767字节。
LONG RAW,类似于LONG,作为数据库列最大存储2G字节的数据,作为变量最大32760字节
RAW类型的好处就是:在网络中的计算机之间传输 RAW 数据时,或者使用 oracle 实用程序将 RAW 数据从一个数据库移到另一个数据库时,Oracle 服务器不执行字符集转换。存储实际列值所需要的字节数大小随每行大小而异,最多为 2,000 字节。可能这样的数据类型在数据库效率上会提高,而且对数据由于字符集的不同而导致的不一致的可能性在这边也排除了。
六、dir数据类型?
一,string
string 是 redis 最基本的类型,你可以理解成与 Memcached 一模一样的类型,一个 key 对应一个 value。
string 类型是二进制安全的。意思是 redis 的 string 可以包含任何数据。比如jpg图片或者序列化的对象。
string 类型是 Redis 最基本的数据类型,string 类型的值最大能存储 512MB。
命令: SET 和 GET 命令
二、hash
Redis hash 是一个键值(key=>value)对集合。
Redis hash 是一个 string 类型的 field 和 value 的映射表,hash 特别适合用于存储对象。
HMSET, HGET 命令,HMSET 设置了两个 field=>value 对, HGET 获取对应 field 对应的 value。
三、list
列表是简单的字符串列表,按照插入顺序排序。可以添加一个元素到列表的头部(左边)或者尾部(右边)。
列表最多可存储 232 - 1 元素 (4294967295, 每个列表可存储40多亿)。
lpush 设置值,lrange取值
四、set
redis的set是string的无序集合。集合通过哈希表实现。
添加一个string元素到key对应的set集合中,用 sadd命令。返回1表示成功,0表示在集合中已存在,返回错误表示key对应的set不存在。
查看用smembers 命令
集合内元素的唯一性,第二次插入的元素将被忽略。
集合中最大的成员数为 232 - 1(4294967295, 每个集合可存储40多亿个成员)。
五、zset
redis的zset 和 set 一样也是string类型元素的集合,且不允许重复的成员。
不同的是每个元素都会关联一个double类型的分数。redis正是通过分数来为集合中的成员进行从小到大的排序。zset的成员是唯一的,但分数(score)却可以重复。
添加元素到集合,元素在集合中存在则更新对应score:zadd key score member。
七、PLC数据类型?
PLC类型有基本数据、复合数据、参数三大类。
1.基本数据:二进制位为l位,字节为8位,字为16位,双字为32位等。
2.复合数据:是指字长大于2个字(32位)的数据,可以通过基本数据组合而成。
3.参数:在逻辑块之间进行相互传递的数据称为参数。分为“形式参数”与“实际参数”两类。
八、DD数据类型?
DD数据是描述数据的信息集合,是对系统中使用的所有数据元素的定义的集合。
通常一般用户是无法修改DD数据的,只有程序维护人员有编辑、修改DD数据的权限。
在开发的程序中,DD数据可以帮助开发人员理解各个数据项目的类型、数值和它们与现实世界中的对象的关系。
建立数据字典的目的:
1.提高开发效率,降低研制成本。
2.促进数据共享,提高数据的使用效率。
3.控制数据的使用。在某些特定的场合,可以通过对DD数据的控制达到控制数据使用的目的。
九、ip 数据类型?
常用的ip地址分为A、B、C三类。
1、A类IP地址:一个A类IP地址由1字节的网络地址和3字节主机地址组成,网络地址的最高位必须是“0”, 地址范围从1.0.0.0 到126.0.0.0。可用的A类网络有126个,每个网络能容纳1亿多个主机。
2、B类IP地址:一个B类IP地址由2个字节的网络地址和2个字节的主机地址组成,网络地址的最高位必须是“10”,地址范围从128.0.0.0到191.255.255.255。可用的B类网络有16382个,每个网络能容纳6万多个主机 。
3、 C类IP地址:一个C类IP地址由3字节的网络地址和1字节的主机地址组成,网络地址的最高位必须是“110”。范围从192.0.0.0到223.255.255.255。C类网络可达209万余个,每个网络能容纳254个主机。
十、excel数据类型?
数值
这种类型的基本都是需要计算的数字,比如销售额、考试成绩等等。
2、文本
姓名、性别、商品名称等等这些都是文本型, 另外还有一些不需要进行计算的数字,比如电话号码、银行卡号等等也可以保存为文本型。
3、日期和时间
日期和时间数据,是一个比较特殊的分类,严格说也是数值的一种。
如果在A1单元格中输入“2021-2-14”,Excel就会自动将其保存为日期格式。
假如将这个单元格的数字格式设置成常规(也就是没有任何格式)或数字,单元格中的内容就会变成一个5位数:
数值
这种类型的基本都是需要计算的数字,比如销售额、考试成绩等等。
2、文本
姓名、性别、商品名称等等这些都是文本型, 另外还有一些不需要进行计算的数字,比如电话号码、银行卡号等等也可以保存为文本型。
3、日期和时间
日期和时间数据,是一个比较特殊的分类,严格说也是数值的一种。
如果在A1单元格中输入“2021-2-14”,Excel就会自动将其保存为日期格式。
假如将这个单元格的数字格式设置成常规(也就是没有任何格式)或数字,单元格中的内容就会变成一个5位数: