1. 用户画像是什么 2. 画像规划和数据架构 3. 数据指标体系 4. 标签开发和存储 5. 作业流程调度(ETL) 6. 作业性能调优 7. 画像产品形态 8. 用户画像应用
2024-01-17 18:52:10 4.52MB 用户画像 数据指标 标签开发
1
1. 架构说明 目前的协议有如下一些特点: 1) 客户向服务器发送请求, 每个请求的长度不定. 请求的长度在第一个INT中指定. 2) 每个服务器通常会向多种客户提供服务, 例如, TS要同时向CP, NP提供服务, CP要向NP和其他CP提供服务, 同时还是其他CP, TS, SP的客户. 3) 每个服务器为客户服务时, 通常是长期的, 会涉及多次请求-应答的来回. 这样的结构, 主要是为了能够支持大量并发客户连接而设计的. 在具有大量并发客户 连接时, 无论采用线程还是进程, 都无法进行有效的服务, 因此必须采用select 轮询方式. 2. 基本数据结构说明 对于每个客户端, 需要保存该客户端相应的一些信息. 目前的CPnew.c, SPnew.c 和TSnew.c的核心数据结构基本相同, 都由Session, SessionCluster (TSnew.c中) 或者 ServerDesc (CPnew.c和SPnew.c)构成. 其中, Session是每个客户端相关的数据, SessionCluster(或者是ServerDesc)是 有关每种服务的信息, 其中有一个指向该服务相关的各个Session的指针. Session 这一数据结构不是在有客户请求时动态分配的, 而是在最开始初始化时就已经分配 好的, 当有新客户请求到来时, 服务器搜索这一预先分配好的这些Session, 发现其中 有空闲则使用, 如果没有空闲就报告错误. 对于TS和CP(SP)来说, 最大的区别是TS使用UDP协议, 而CP和SP则使用TCP协议, 二者的 不同在于: 1) 对于TCP协议的客户端, 由于每个客户端都使用不同的socket, 因此select之后 只需要看各个客户端的fd_set是否置位就可以了, 而对于UDP客户端, 找到相应的 客户端需要进行一次查找过程. TS使用了一些措施来减轻查找所带来的开销. 2) TCP协议中, 发来得数据是流形式的, 因此需要进行消息分块, 有可能两个消息 在一次read中读完, 也有可能一个消息需要读很多次, 这两种情况都需要考虑, 因此 每个Session中都有一个buf, rstart, rlen, 用来存储读来但还没有处理的消息, 同样, 写的过程中也需要考虑写的时候有可能没有一次写完, 因此也需要每个Session中 保留wbuf, wstart, wlen三项. UDP中则不同, 在协议实现中假设每个UDP数据包中 所包含的消息都是完整的, 因此没有这几项. SessionCluster(或者是ServerDesc)来说, 描述了一个服务, 这个服务由这样几个 主要的部分构成 1) sock: 描述所所使用的socket 2) cur: 当前客户端的个数 3) max: 最多容纳客户端的个数 4) head: Session的头, head[0]为第一个Session, head[max-1]为最后一个session 5) init: 这一服务中每个Session需要执行的初始化操作. (函数指针) 6) process: 这一服务中消息的处理函数 7) closure: 这一服务中需要的析构函数 3. 主要结构说明 process_child: 主要函数, 这一函数主要用来 设置socks和wsocks, 对于SP和CP, 只有Session的wlen>0的时候才设置wsocks; select; 对于每个ServerDesc(或者SessionCluster), 进行process_type 在SP和CP中, 为了支持PUSHLIST操作, 在每一次循环前先要进行processJob 在CP中, 还周期进行periodCheck, 用来将过期的连结清除 在TS中, 周期进行periodLog, 用来将过期的客户连接清除 process_type: 对于每个Session, 检查是否可读. 如果可读, 检查是否有完整的消息, *(unsigned int *)(rbuf+rstart) <= rlen 调用相应的process直到没有完整的消息为止 检查是否可写, 如果可写且wlen>0, 则进行写 4. 其他重要的模块 1) 配置模块 配置模块主要由struct NamVal, read_config, free_config组成, NamVal结构中, Name是在cfg文件中的名字, ptr是指向存放的指针, type是数据的类型, 目前支持这样 几种类型 'd': 整数类型, ptr是一个整数指针 's': 字符串类型, ptr是一个指向指针的指针, (char **) 'b': 字符串buffer类型, ptr是一个char *, 使用这种类型时应当注意, 对于's'类型, read_config将为该val分配内存(malloc), 但是对于'b' 类型, ptr所指向的必须是已经 分配好的内存 两个重要的函数分别为: read_config, 参数为文件名, 一个struct NamVal *, 以及该struct NamVal的项数 free_config, 参数为和read_config相同的struct NamVal *以及项数 2) mysql 模块 mysql模块主要有MYSQL *local_mysql以及三个函数构成, 这三个函数是 init_mysql, 初始化mysql, 返回一个MYSQL *, 一般用来初始化local_mysql query_mysql, 执行一个mysql语句, 格式为query_mysql (local_mysql, "mysql语句, 其中格式和printf的格式相同, 例如delete from %s等", 所需要的值) query_mysql_select, 执行一个mysql的select语句, 与上面不同的是, 它返回一个 MYSQL_RES *. 3) network排序模块 这一模块主要由networks结构, readNETBLOCK函数, getnetwork函数, compareNet函数 构成, 其中, readNETBLOCK用来读入network配置文件, 初始化全局变量NETBLOCKS, NETBLOCKS是一个 networks结构数组, 有MAX_NET项. getnetowrk用来查找和一个IP地址最接近的netblock compareNet是在qsort中用到的一个函数, 对找到的NPPeer进行排序, 让同一个网络 中的NPPeer排在前面. 4) 图管理 在目前的CP, SP, NP中, CP可以同时加入多个频道, 而NP也可以有多个资源, 为了描述 这种结构, 引入了图的概念. 每个边(Edge)存储了指向NP的指针, 指向Channel的指针, 在TS中还需要存储这一Session在这一Channel中的各个Interval. 每个Channel通过Edge 中的cnext串成一个链表, 这个链表的头是Channel结构中的PeerHead, 而每个Session 通过Edge中的enext也串成一个链表, 这个链表的头是Session结构中的header. 相关的函数有: newEdge: 新添一个边, 参数为Channel *, Session *, 对于TS还需要一个ChannelInfo来 初始化Edge中的信息 delEdge: 删除一个边, 参数为Edge * 5) Channel模块 Channel模块的功能主要是: TS中用来处理NEED_PEERS, SP中还需要保存和查找频道数据, 频道都使用图结构进行管理. 频道的搜索为了效率方面的因素, 采用了Hash进行搜索, ChannelHash中使用的是字符串 hash, 如hash_str所示. TS中的Channel相对较为简单, SP和CP中Channel还需要管理Channel相关的数据. 这些 数据以文件的形式存在硬盘上/var/tmp/目录下, 文件名随机生成, 对于每一块的相关信息, 由BlockData来保存, BlockData中的firstsampl, message_size, message_id, offset分别 存储了firstsample信息, 快的长度, 块的id, 以及在文件中的offset. SP和CP的处理有所不同, 对于CP, 块是以hash的方式来存放的, 例如, 块的ID为1000, 而 max_queue为100, 则存储位置为1000%100=0. 对于SP, 如果资源是一个CS发来的频道, 则是一个循环队列, 每一块按照次序分别存放在相应位置, 如果到了队列尾部, 就再从 队列头开始. 如果资源是文件, 就不保存BlockData信息, 直接根据blockID到原文件定位. 涉及Channel的函数有很多, 如locate_by_id, locate_order_by_id, newChannel, freeChannel, saveBlock等. 6) Berkeley DB模块 这只在SP中涉及, 主要是打开DB文件, 查询某个md5的位置. 主要涉及到DB* MediaDB, openDB, openMedia这两个函数 openDB: 参数为DB文件的名 openMedia: 参数为md5和一个整数指针, 返回FILE *以及该文件的长度, 在整数指针中 7) Job模块 Job模块用在CP和SP中, 用来处理PUSHLIST, PUSHLIST消息可以重新设置Job的列表, 也可以添加Job或者是删除Job. 涉及到job.c中的函数和JobDes结构. JobDes结构 中一个Session *, 一个Channel *用于标识该Job所属的Session和Channel, num表示 所需要下载的BlockID数, job是一个指向整数的指针, mask也是一个指向整数的指针, job 是需要下载的BlockID, 如果mask为0,则需要进行下载, 如果为1, 则不需要. addJob: 添加job的时候, 不检查该Job是否已经在列表中, 直接生成一个Job然后 添加到链表中. deleteJob: 删除Job时, 检查所有Job列表中的具有相同Session和Channel的Job, 然后将需要删除的blockID的相应mask设置为1. processJob: 对于每个job, 从cur开始, 利用process_P2P_REQUEST_real来传输 第一个mask为0的块, 如果都为1, 就删除这个job. freeJob: 删除某个JobDes. freeJobList: 删除某个Session的所有JobDes, 通常用于该Session退出时使用. 8) Interval模块 Interval模块用在TS中, 用来表示NP上面所有的快区间, 目前块区间由一个开始 字段和一个长度字段来标识. 对于Interval的主要操作是merge和delete, merge 是将原有的Interval和新的Interval列表合在一齐, 而delete则是从原有的当中 去掉新的. merge: 算法如下, 使用了缓冲Interval列表tmp. if (old < new[j]) tmp[k] = old; else tmp[k] = new[j]; 然后再看old和new中哪些能够可以和tmp[k]合并 delete: 较为复杂一些, 考虑下面几种情况 old的开始比new[j]的结束大 old的结束在new[j]的开始前 old和new[j]有共同部分, 而且 old含在new[j] 中 new[j]含在old中 互不包含, new[j] 在前 互不包含, old 在前 5. 一些快速算法 1) 在使用UDP的TS中, 在客户初次登录时, 需要查找空闲的Session, 此外, 客户有可能 会重复发送LOGIN消息, 这时需要检查这一客户端是否已经在Session列表中, 第三, 当 客户端发送消息时, 需要找到相应的Session. 为了避免这些查询, 分别使用了如下方法. 首先, 建立一个Hash表, 开始的时候所有空闲Session都串到Hash[0]处, 每当来一个 新的客户端时,从Hash[0]中取出Session, 链到相应的hashid上. 为此, hash所得的值 不能为0, 如果为0, 就返回最大的可能hashid. 根据来源端口和IP地址查询Session也使用这一Hash表. 客户端发送消息时, 使用了用于验证的7个字节中的前3字节, 用这3字节来标识Session 的下标, 这样就避免了查询开销. 2) 使用maxid来减少搜索次数. 在TCP中没有使用Hash, 使用了maxid这一项, 用来记录Session中最大的id, 由于在Session 初始化的时候, 是查找ID最小的空闲Session, 因此可以认为Session是比较紧凑的, 由于SP和CP支持的客户端要比TS少得多, 因此这样的处理是可以接受的. 在客户退出的时候, 有可能需要更新maxid, 这一更新是由Clientclosure来完成的, Clientclosure更新maxid, 然后再调用相应的析构函数. 3) 长期idle的连接的超时处理. 由于超时处理需要遍历整个列表, 为了节约系统资源, IDLE时间比较长, 此外, 一般还需要定期报告系统统计数字, 因此需要及时性. 为此, 一般periodLog或者periodCheck都判断是执行这两者中的哪一种操作. 4) 查询CPPeer时, 考虑到目前只支持GCP, 因此直接采用了GCPCHOICE,设置为当前 负载最小的GCP, 在GCP报告或者是GCP登录, 退出的时候更新. 6. 消息处理 1) TS消息处理 NP2TS_LOGIN: NP向TS登录, 按照来源IP地址和所报告的npport进行hash, 如果距离上次 发送NP2TS_LOGIN消息的时间小于SILENCE_TIME, 则直接返回, 否则发送WELCOME消息. NP2TS_REPORT: 报告Interval信息, 如果refresh为true, 则重置, 否则则先增加后删除. NP2TS_NEED_PEERS: 查询Peer信息, 使用findCPPeer寻找合适的CP, 使用findNPPeers 寻找合适的NP. NP寻找时, 找到结果后按照networks来排序, 保证在同一个网络中的 排在前面. NP2TS_LOGOUT: 退出 NP2TS_RES_LIST:发送当前NP的所有RESOURCE, 使用addSession来进行处理, 如果还没有这 条边, 就添加 NP2TS_REQ_RES: 添加RES, 并返回Peers NP2TS_DEL_RES: 删除RES CP2TS_REGISTER: 登录, CP向TS登录, 按照来源IP地址和所报告的npport进行hash, 如果距离上次发送CP2TS_REGISTER⒌氖奔湫∮赟ILENCE_TIME, 则直接返回, 否则发送 WELCOME消息. CP2TS_UPDATE: 报告CP负载 CP2TS_NEED_PEERS: ECP查询用, 目前尚未使用 2) SP消息处理 P2P_HELLO: 加入某个频道, 如果频道存在 如果是个Media文件: 返回SPUPDATE, 表明这一频道的最小最大blockID 否则: 如果这一频道已经结束, 返回结束信息 如果频道不存在 如果是个Media文件: 返回SPUPDATE, 表明这一频道的最小最大blockID, 建立频道 否则: 返回一个SPUPDATE指示错误 P2P_PUSHLIST: 重置或者是增加删除任务列表. 重置时, 先删除所有的相关任务, 然后 再增加或删除. CS2SP_REGISTER: 建立频道 CS2SP_UPDATE: 更新频道信息 CS2SP_BLOCK: 发送数据块 3) CP消息处理 P2P_HELLO: 加入某个频道, 根据提供的SP地址来建立相应连接 P2P_PUSHLIST: 重置或者是增加删除任务列表 P2P_SPUPDATE: SP发来的SPUPDATE, 如果是Media文件, 则不转发给NP P2P_RESPONSE: SP发来的数据块. 此外CP还需要向TS注册. 目前只有GCP一种类型在使用.
2024-01-17 18:46:44 3.05MB 视频技术 nat
1
1. MOSFET开关管工作的最大占空比Dmax: 式中:Vor为副边折射到原边的反射电压,当输入为AC 220V时反射电压为135V;VminDC为整流后的最低直流电压; VDS为MOSFET功率管导通时D与S极间电压,一般取10V。2.变压器原边绕组电流峰值IPK为: 式中:η为变压器的转换效率;Po为输出额定功率,单位为W。3.变压器原边电感量LP为: 式中:Ts为开关管的周期(s);LP单位为H。4.变压器的气隙lg为: 式中:Ae为磁芯的有效截面积(cm2);△B为磁芯工作磁感应强度变化值(T);Lp单位取H,IPK单位取A,lg单位为mm。5.变压器磁芯反激式变换器功率通常较小,一般选用铁氧体磁芯作为变压器磁芯,其功率容量AP为 式中:AQ为磁芯窗口面积,单位为cm2;Ae为磁芯的有效截面积,单位为cm2;Po是变压器的标称输出功率,单位为W;fs为开关管的 开关频率;Bm为磁芯最大磁感应强度,单位为T;δ为线圈导线的电流密度,通常取200~300A/cm2,η是变压器的转换效率;Km为窗口填充系数, 一般为0.2~0.4;KC为磁芯的填充系数
2024-01-17 17:55:04 104KB 电源设计 基础知识 技术应用
1
1).简单地讲就是需能(电)源的器件叫有源器件,无需能(电)源的器件就是无源器件。有源器件一般用来信号放大、变换等,无源器件用来进行信号传输,或者通过方向性进行“信号放大”。
1
0.引言 光电开关在工业自动控制设备中应用广泛, 与机械行程开关相比, 光电开关无机械碰撞, 响应快, 控制精度高。许多包装机、印刷机、纺织机等都用其进行限位、换向及其它控制。本文介绍的红外光电开关, 由红外二极管(GaAs发光二极管、光敏二极管)集成运算放大器及继电器等构成。其特点是电路简单、抗干扰能力强、工作稳定可靠。 1.电路结构及工作原理 红外光电开关电路原理图如图1。红外发光二极管V1或V2(SE303)与电阻R1组成红外发射电路直接驱动, 产生红外光信号。红外光敏二极管或与电阻或红外线接收头构成红外接收电路直接接收, 其作用是将红外信号转换成电信号。由于红外光敏二极管的峰值波长在的红外区域, 安装时再选带有可见光截止滤波片的硅光敏二极管,环境光对它的影响就很小, 使用时一般不再对环境光进行要求。 集成运算放大器IC1-1(LM324)。与外围元件组成直流电压比较器,红外接收电路的输出直接加到IC1-1的同相端, 电位器RP中心头输出的基准直流电压加于反相端, 通过3脚与2脚的电压比较使IC1-1的输出为低电平(0.00V)或高电平(7.62V)。发光二极管VH为
1
. 总结针对计算应用的典型同步降压调节器负载设计规范;Tjcn、负载电流、DC和瞬态调节 . 简单概述带来典型的每相20 - 30 A电流的因素;工作频率、瞬态响应和效率 . 解释三要素概念=>额定输出电流由三个因素确定:输出功率/电流、效率,以及Tjcn-amb热阻抗 . 总结功率级(Power Stage)器件设计特性,优化效率和热阻抗 . 展示在效率、功率损耗和温升等方面的测量数据 . 解释采用如何测量安装在电源板上的零部件的热阻抗 . 探讨受输出电压影响的效率和热阻抗,及所产生的HS/LS占空比(duty cycle) . 结论 II.典型的同步降压计算负载规范 针对典型的同步降压调节器计算负载需求,对功率级系列部件进行优化。这些应用将具有大范围的电流水平且可以是单相或者多相。通过在每相基准上比较电源系统(power train)规范,我们注意到,许多设计显示了共同的工作范围。典型的每相电源系统规范为: . 电源系统占空比为5 % - 40 % . 工作频率:300 kHz到600 kHz . 负载功率:25 W . 负载电流:25 A 针对此设计范
1
微机与接口技术实验:计时器源文件与报告 计时器基本功能: 1)CPU必须用8086 2)计时器最小计时单位为秒。 3)以00:00格式显示计时,前2位表示分钟,后2位表示秒。 4)计时器是正计时方式 5)有暂停、继续计时功能 6)有复位计时功能 7)每次按下暂停键,能显示计时间隔时间
2024-01-17 11:12:41 1.02MB
1
"物联网"在1999年第一次提出,是互联网技术之后,IT业的第三个浪潮。它利用IPV6技术和较为成熟的无线数据采集技术,在现代社会和日常生活中应用广泛,尤其是在物流、交通、智能家居、货物收发、仓储、港口、旅游业以及制造行业供应链管理等领域,RFID技术具有无限的应用前景。本文介绍了物联网的体系结构和技术特点,分析了物联网的关键技术,并从产业化视角探讨了物联网的三层模型结构,对物联网的发展具有有益的参考价值。
2024-01-17 10:58:01 362KB 体系结构 射频识别技术
1
"产权式酒店"是多功能综合楼中设计较为复杂的一种,其房产测量的内外业处理也极具繁复性和风险性。文中结合实例系统地介绍了产权式酒店房产测量的内外业流程,重点讲述了外业数据的采集方法和内业数据的处理技术。
2024-01-17 10:48:37 205KB 房产测量 共有面积分摊
1
"互联网+"与先进制造业的融合发展成为时代的热点,文中在创新的视角下,研究"互联网+"与高新技术产业创新的融合机理,分析"互联网+"对高新技术产业的作用效果,采用了熵权-灰色关联度模型,选取2013年、2015年和2017年长江经济带11省市高新技术产业的创新数据,对"互联网+"与高新技术产业创新的融合情况进行研究。研究结果显示:"互联网+"与高新技术产业创新能力的总体融合程度较好,"互联网+"与高新技术产业创新能力的融合状况存在较为显著的区域差异性,"互联网+"对高新技术产业发展薄弱的省份关联性更强。从时间维度上看"互联网+"的创新提升效果有增强的趋势;高新技术产业的创新产出、创新转化与"互联网+"的融合水平较高,创新投入和创新支撑与"互联网+"的融合水平相对较低,"互联网+"主要通过促进高新技术产业创新产出和转化提升其创新能力水平。
1