|
|
|
|
|
|
高可用性——设计、技术和运作过程 内容提要 |
《高可用性——设计、技术和运作过程》是一部由哈里斯. 科恩企业计算学会强力推出的最新IT专业人士解决方案专著。《高可用性——设计、技术和运作过程》围绕计算机系统可用性管理制度问题展开了全面、系统的论述,其核心是如何使IT资源得到高效益利用,实现计算机系统的“高可用性”-- 即可用性最大化。《高可用性——设计、技术和运作过程》涉及到产品和技术、IT技术人员和用户、运作过程及组织体系等,具有很强的针对性和实用性。 |
|
|
高可用性——设计、技术和运作过程 目录 |
第一章今天复杂的计算环境 ●复杂、复杂、还是复杂……………………………………1 多重技术和协议……………………………………………1 各种各样的厂商……………………………………………2 各种各样的用户……………………………………………2 无处不在的位置……………………………………………3 日新月异的变化……………………………………………3 更大的商业需求……………………………………………3 令人望而生畏的工作环境…………………………………4 ●所有权总成本(TCO)方面的几个问题 ……………………4 如何定义所有权总成本……………………………………4 所有权总成本的工业化评估………………………………6 所有权总成本研究揭示的意义……………………………6 导致所有权总成本居高不下的几个原因…………………8 一种典型的方案:办公室系统的选择……………………9 可用性已经成为所有权总成本最大的贡献者……………10 ●总结…………………………………………………………10 第二章实现更高的可用性 ●判定用户对可用性的需求…………………………………12 服务水平协议………………………………………………12 帮助用户确立他们对可用性的需求………………………13 ●可用性的级别及测定………………………………………14 高可用性.级别(High Availability Level) …………14 不间断运行级别(Continuous Operations level) ……15 不间断可用性级别(Continuous Availability Level) 15 可用性指标的量化…………………………………………16 可用性:用户为主的测量标准……………………………17 端对端可用性的测量………………………………………19 ●总结…………………………………………………………20 第三章系统可用性计划的要点 ●明确系统部件………………………………………………22 ●注重处理关键性部件………………………………………24 ●可用性四大要素……………………………………………25 ●总结…………………………………………………………25 第四章建立系统管理制度 ●过程、数据、工具和组织…………………………………26 ●个人计算机(PC)领域的系统管理 (或此类工作的不足)……………………………………27 ●集中式:令IT企业离而复归………………………………28 ●熟悉需要管理的系统………………………………………28 ●管理的基础:5个阶段 ……………………………………30 阶段l:树立目标 …………………………………………30 阶段2:制订计划 …………………………………………30 阶段3:贯彻执行 …………………………………………31 阶段4:质量测量 …………………………………………31 阶段5:跟踪控制 …………………………………………31 ●确立系统管理制度…………………………………………32 第五章加强服务水平的管理 ●服务水平管理………………………………………………33 过程要求……………………………………………………33 数据和测量要求……………………………………………36 组织要求……………………………………………………37 工具要求……………………………………………………38 服务水平管理的益处………………………………………38 ●问题处理管理………………………………………………39 过程要求……………………………………………………39 数据和测量要求……………………………………………43 组织要求……………………………………………………44 工具要求……………………………………………………45 问题处理管理的益处………………………………………46 ●变更管理……………………………………………………47 过程要求……………………………………………………48 数据和测量要求……………………………………………50 组织要求……………………………………………………51 工具要求……………………………………………………52 变更管理的益处……………………………………………52 ●安全管理……………………………………………………53 过程要求……………………………………………………53 数据和测量要求……………………………………………57 组织要求……………………………………………………59 工具要求……………………………………………………61 安全管理的益处……………………………………………62 ●资产和配置管理……………………………………………62 过程要求……………………………………………………63 数据和测量要求……………………………………………65 组织要求……………………………………………………67 工具要求……………………………………………………68 ●可用性管理…………………………………………………69 过程要求……………………………………………………70 数据和测量要求……………………………………………72 组织要求……………………………………………………73 工具要求……………………………………………………74 可用性管理的益处…………………………………………74 第六章计算环境:从集中式到分布式 ●系统管理制度………………………………………………75 ●集中式计算环境……………………………………………75 ●分布式计算环境……………………………………………76 ●今天计算环境中的系统管理………………………………77 确定合理的职能与控制……………………………………77 选择一种实施战略…………………………………………78 ●推行一种部署战略(Deployment strategy) ……………81 例外性管理…………………………………………………8l 政策化管理…………………………………………………81 性能数据标准化……………………………………………82 分布式系统管理员所承担的责任…………………………82 系统管理体系结构的清晰界定……………………………82 过程专管所属………………………………………………83 ●总结…………………………………………………………83 第七章满足多重可用性需要的技术 ●冗余(Redundancy)…………………………………………85 硬件冗余举例………………………………………………85 软件冗余举例………………………………………………87 环境冗余举例………………………………………………88 影响成功的关键性因素……………………………………88 ●关键资源的备份(Backup)…………………………………89 备份的方法…………………………………………………89 硬件备份举例………………………………………………9l 软件备份举例………………………………………………9l IT操作备份举例……………………………………………92 获得成功的关键因素………………………………………93 ●集群…………………………………………………………95 集群与冗余之比较…………………………………………95 硬件和软件集群举例………………………………………96 IT操作集群举例……………………………………………98 环境集群举例………………………………………………98 获得成功的关键性因素……………………………………98 ●容错(Fault Tolerence) …………………………………99 硬件容错举例………………………………………………100 软件容错举例………………………………………………100 环境容错举例………………………………………………101 获得成功的关键性因素……………………………………101 ●隔离或者分区………………………………………………102 硬件隔离举例………………………………………………103 软件隔离举例………………………………………………103 隔离的其他优点……………………………………………104 获得成功的关键性因素……………………………………105 ●自动化操作…………………………………………………106 控制台和网络操作举例……………………………………108 工作负荷量(WOI"kload)管理举例 ………………………108 系统资源监测举例 ………………………………………109 问题处理管理应用程序……………………………………109 资源分布举例 ……………………………………………110 备份和恢复举例……………………………………………110 获得成功的关键性因素……………………………………111 ●安全接入机制………………………………………………112 安全接入的几个步骤………………………………………113 安全的类型…………………………………………………115 密码管理……………………………………………………119 获得成功的关键性因素……………………………………121 ●标准化………………………………………………………122 硬件标准化举例……………………………………………123 软件标准化举例……………………………………………124 网络标准化举例……………………………………………125 过程和程序标准化举例……………………………………125 名称标准化举例……………………………………………126 获得成功的关键性因素……………………………………127 向标准化过渡………………………………………………128 ●总结…………………………………………………………129 第八章系统可靠性之特殊技术 ●使用可靠的部件……………………………………………131 硬件部件可靠性实现最大化之技术………………………131 软件部件可靠性实现最大化之技术………………………133 人员相关类可靠性实现最大化之技术……………………136 环境相关类可靠性实现最大化之技术……………………137 供应商可靠性的几项指标…………………………………138 ●利用程序设计使故障率实现最小化………………………139 正确性(correctness) ……………………………………139 坚固性(robustness)………………………………………141 扩展性(extensibility) …………………………………142 复用性(reusability) ……………………………………144 ●采取措施应对独立于环境之外的干扰……………………145 使用发电机…………………………………………………145 使用独立的空调设备………………………………………145 使用消防装置………………………………………………145 使用升高地板………………………………………………146 安装设备轮锁………………………………………………146 将计算机房设在二楼………………………………………146 ●采取故障避免(也称免错)(fault avoidance) 措施………………………………………………………147 分析问题的倾向及其统计结果……………………………147 使用先进的硬件技术………………………………………147 使用软件维修工具…………………………………………148 ●总结…………………………………………………………148 第九章系统可恢复性之特殊技术 ●故障识别自动化技术………………………………………149 奇偶校验检查存储器………………………………………149 错误检查和校正(ECC)存储器 ……………………………150 数据确认例行程序(data validation routine) ………150 ●快速恢复技术………………………………………………151 ●最低限度使用缺乏稳定性的存储媒体……………………151 对中央存储器进行定期的数据更新………………………151 自动文件保存特性…………………………………………152 ●总结…………………………………………………………152 第十章系统可维修性之特殊技术 ●联机系统的重新定义………………………………………153 添加或者拆除输入/输出(I/O)设备……………………153 可选性子系统断电…………………………………………154 确认或者拒绝变更…………………………………………154 ●出错信息可掌握技术………………………………………154 使用标准化通用术语………………………………………154 采纳普遍的应用软件已使用的术语………………………155 提供发生的问题、原因和影响以及如何 进行处理的信息…………………………………………155 提供上下文相关性(context-sensitive)帮助 …………156 提供选项以便更加详细地查看更多的 误差信息…………………………………………………156 在错误被清除后,继续提供误差信息的 可用性……………………………………………………156 ●完善文件资料技术…………………………………………157 手头要有一本《操作手册》………………………………157 编写关于基本问题隔离和恢复的指南手册………………158 提供系统配置图表…………………………………………158 实现资源标签加注…………………………………………158 提供一个技术图书馆………………………………………159 ●安装最新的修改和补丁程序 (fixes and patches) …………………………………159 ●总结…………………………………………………………160 第十一章系统可管理性之特殊技术 ●使用可管理的系统部件……………………………………161 简单网络管理协议(SNMP)………………………………163 公共管理信息协议(CMIP)………………………………164 桌式管理界面(DMI) ……………………………………164 公共信息管理格式(CIM) ………………………………165 联线管理(WfM) …………………………………………165 ●管理应用程序………………………………………………166 系统管理问题(sytems Management lssus) ……………167 自动化的系统管理能力……………………………………168 系统管理应用程序和工作系统(Framework) ……………168 ●加强IT人员的系统管理制度教育…………………………171 信息系统的商业价值………………………………………171 管理原理……………………………………………………171 基本的数值分析技术………………………………………171 ●总结…………………………………………………………172 第十二章总结性论述 ●系统管理制度的意义………………………………………173 ●首先从何处人手……………………………………………174 ●故障停机分析………………………………………………175 ●确定故障的单点(single point)…………………………176 ●现有条件下的挖潜…………………………………………176 ●推荐一项实用策略…………………………………………177 ●总结……………………………………………………177 附录A 部分选用产品的可用性特征 ●可选用操作系统之可用性特征………………………179 美国NoveU公司推出的NetWare操作系统的 可用性特征………………………………………………179 美国Sun公司推出的solaris 8操作系统的 可用性特征………………………………………………183 IBM公司推出的AIx操作系统的可用性特征……………186 美国微软公司推出的windOW82000服务器及专业 版之可用性特征…………………………………………188 IBM公司推出的OS/400操作系统之可用性 特征………………………………………………………195 ●可选用硬件部件之可用性特征………………………196 美国IBM公司推出的S/390综合服务器之 可用性特征………………………………………………196 美国IBM公司推出的AS/400中等系统之 可用性特征………………………………………………198 美国IBM公司推出的RS/6000之可用性特征 …………202 康柏公司推出的Proliant服务器之可用性特征………204 ●可选用软件部件之可用性特征………………………207 美国Oracle(甲骨文)公司推出的Oracle8i数据库之 可用性特征………………………………………………207 附录主要译名中英文对照表…………………………………209
|
|
|
调换货原则 |
|
|
|
|
查看评论 |
|
|
|
发布评论 |
|
|
|
|
| |
|
|
|
|