• 阿里云基础产品技术月刊 2019年2月

    通过Blink实时流计算平台,已经在Blink平台上完成了内存故障预测模型的搭建,并打通数据反馈路径并将预测宕机的相关结果回流到阿里云日志服务(SLS)的日志中。后续计划和ECS的调度系统打通,增加系统中宕机风险的...
    文章 2019-03-13 2938浏览量
  • 关于Kubernetes规划的灵魂n问

    还有近24%的客户选择的原因是:可以有更高的部署密度,从而降低基础设施成本。超过28%的客户认为,在物理上可以更加灵活地选择网络、存储等设备和软件应用生态。在公共云上,我们应该如何选择呢?2017年10月,阿里...
    文章 2020-02-05 2100浏览量
  • 关于Kubernetes规划的灵魂n问

    还有近24%的客户选择的原因是:可以有更高的部署密度,从而降低基础设施成本。超过28%的客户认为,在物理上可以更加灵活地选择网络、存储等设备和软件应用生态。在公共云上,我们应该如何选择呢?2017年10月,阿里...
    文章 2020-01-31 395浏览量
  • 关于Kubernetes规划的灵魂n问

    还有近24%的客户选择的原因是:可以有更高的部署密度,从而降低基础设施成本。超过28%的客户认为,在物理上可以更加灵活地选择网络、存储等设备和软件应用生态。在公共云上,我们应该如何选择呢?2017年10月,阿里...
    文章 2020-02-05 2751浏览量
  • 重新定义数据库的时刻,阿里云数据库专家带你了解...

    网卡挂掉了,看上去像机器在系统中消失了,但本质上和宕机没有区别,因为宕机看上去也是机器突然消失了,所以在这种情况下,P问题就是A问题。第二种,机器的硬件不稳定,比如磁盘很卡导致响应请求很慢,这时候取决于...
    文章 2018-05-23 3134浏览量
  • 阿里云基础产品技术月刊 2019年3月

    阿里云日志服务是面向日志类数据的智能化一站式平台,针对AIOps场景,新增面向趋势预测、异常发现、智能聚类、根因分析(推导)等4个高频场景系列函数,从异常的识别、分析的过程到最后的原因定位均有涉及,通过这些...
    文章 2019-04-11 4367浏览量
  • 浅谈分布式一致性:Raft 与 SOFAJRaft

    连续确定多个提案,确保集群中各个系统节点状态完全一致自动选主,保证在只有少数派宕机的情况下持续可用日志强同步,宕机后零数据丢失三 SOFAJRaft一个纯 Java 的 raft 算法实现库,使用 Java 重写了所有功能,并有...
    文章 2021-06-01 5781浏览量
  • Kubernetes 稳定性保障手册-日志专题

    通用关键告警 与业务耦合度小,如机器级别的关键告警(宕机、内存压力大、load 过高等)、托管服务的关键告警(master 组件 panic/OOM、master 组件内存压力大等),这部分告警配置可以作为基础服务,作为集群交付的一...
    文章 2021-03-02 933浏览量
  • ICDE:POLARDB定义云原生数据库

    那么请求会重试并且会被发送到一个健康的节点,事实上,当一个节点宕机的时候我们也采用同样的处理方式,所以基本上,P和A问题在某些情况下可以看做是一类问题。我们如何把失败的节点自动剔除并且能够同时保障数据...
    文章 2018-04-20 4564浏览量
  • 一个线上SQL死锁异常分析:深入了解事务和锁

    为此引入RedoLog,这个文件IO是顺序追加IO且以修改为单位,性能很高,每次事务提交持久化RedoLog到磁盘也不会对性能造成太大影响,如果宕机可以通过重启从redoLog恢复丢失数据。RedoLog高性能?映射一段连续的存储...
    文章 2021-01-22 1718浏览量
  • Redis分布式锁

    在这个样例中,我们假设有5个Redis master节点,这是一个比较合理的设置,所以我们需要在5台机器上面或者5台虚拟上面运行这些实例,这样保证他们不会同时都掉。为了取到锁,客户端应该执行以下操作: 获取当前...
    文章 2018-02-27 2920浏览量
  • 分布式一致性算法Raft简介(下)

    原因在于:新leader上任后,可能有些server仍然是宕机状态,新leader没有办法立即对其进行clean up(因为那些server宕机或网络不通,无法进行通讯),只能等到这些server恢复正常后再进行clean up;而新leader不知道...
    文章 2017-03-27 3742浏览量
  • 带你读《HBase原理与实践》之一:HBase概述

    因为稳定性的原因,并不建议在生产线上使用1.0.0~1.1.2中间的版本。目前,HBase社区推荐使用的稳定版本为1.4.10。2.x版本是接下来最受期待的一个版本(升级要慎重,请参考社区中的实践),因为最近一两年社区开发的...
    文章 2019-11-01 3264浏览量
  • 如何用好云原生数据湖?

    ENI虚拟网卡:打通VPC需要配置自己账号下的安全组和虚拟交换(VSwitch),配置之后结算节点容器会分配用户VPC对应VSwitch网段的的IP,并挂载用户的安全组。3 高吞吐网络带宽 访问OSS服务是通过高吞吐的带宽服务。...
    文章 2020-10-26 3978浏览量
  • 超全干货分享:什么是RPA?

    不会犯错误(除非宕机、断电);不拿工资(总体成本比雇员少很多)这样的模范型“员工”一经出现便成为全球各大企业争抢的对象。二、RPA的价值一种新技术如果不能为企业带来实实在在的价值,不能转化为生产力,那...
    文章 2020-08-27 4865浏览量
  • 企业运营对 DevOps 的“傲慢与偏见”

    一旦出现性能问题、宕机或故障,运维团队无疑是第一道防线,但有时问题升级会返回到应用组去修复 bug 或者帮助诊断问题。对 DevOps 感兴趣的企业往往实践或采用了一个对运维需求非常高的敏捷技术,比如建立一个测试...
    文章 2017-08-02 1165浏览量
  • 年终盘点丨细数2017云栖社区20大热点话题(附100+话题...

    而美国FOX的APP也因为服务器宕机使得观众只能听西班牙语。之后Comcast在官方声明中表示,断网的原因是位于华盛顿的一处线路着火了。那么,直播、或视频类应用和网站,搭建与运营中都会遇到什么样的技术难点?如何更...
    文章 2018-01-09 10772浏览量
  • 分布式一致性算法Raft简介(上)

    这个term值必须被可靠地存储在磁盘中,以保证server宕机重启之后该值不丢失。term的作用非常重要,其核心作用是让raft能够及时识别过期信息,比如某个认为当前term是2的server跟另外一个认为当前term是3的server进行...
    文章 2017-03-27 939浏览量
  • 如何正确地使用Redis(附性能测试实验结果)

    不用担心服务器宕机带来的灾难性后果&xff1b;提供了简单的事务功能&xff0c;能在一定程度上保证事务特性支持Lua脚本&xff0c;可以利用Lua创造出新的Redis命令&xff1b;提供了流水线&xff08;Pipeline&xff09;功能&xff0c;这样...
    文章 2021-04-20 949浏览量
  • Go程序设计语言导读

    第5章概述函数,并讨论错误处理、宕机(panic)和恢复(recover),以及defer语句。可以看出,第1~5章是基础性的,其内容是任何主流命令式语言都有的。Go的语法和风格可能与其他语言有所不同,但大多数程序员都能...
    文章 2017-05-02 2146浏览量
  • 空学Kafka之一

    split brain:每个Consumer分别单独通过Zookeeper判断哪些Broker和Consumer 宕机了,那么不同Consumer在同一时刻从Zookeeper“看”到的View就可能不一样,这是由Zookeeper的特性决定的,这就会造成不正确的Reblance...
    文章 2019-08-05 3157浏览量
  • 独家|一文读懂Hadoop(二)HDFS(上)

    如果Namenode在文件关闭前宕机了,则该文件将丢失。上述方法是对在HDFS上运行的目标应用进行认真考虑后得到的结果。这些应用需要进行文件的流式写入。如果不采用客户端缓存,由于网络速度和网络堵塞会对吞估量造成...
    文章 2017-08-01 1469浏览量
  • 日处理数据量超10亿:友信金服基于Flink构建实时用户...

    相比于旧方案中 Spark 全量读 HBase 导致其读压力过大,从而会出现集群节点宕机的问题,新方案能够有效地降低 HBase 的读取压力。经过我们线上验证,新方案对 HBase 的读负载下降了数十倍(此处优化与 2 优化不同,...
    文章 2019-12-24 3720浏览量
  • 日处理数据量超10亿:友信金服基于Flink构建实时用户...

    相比于旧方案中 Spark 全量读 HBase 导致其读压力过大,从而会出现集群节点宕机的问题,新方案能够有效地降低 HBase 的读取压力。经过我们线上验证,新方案对 HBase 的读负载下降了数十倍(此处优化与 2 优化不同,...
    文章 2019-12-24 1429浏览量
  • 阿里内核月报2015年03月

    这就等于说用户为了避免宕机而进行热升级,结果在热升级的时候用户有可能真的宕机。但是这似乎就是目前的正式状况。Ingo随后也提出了自己对于一致性模型的想法,让所有进程跑到一个一致的沉默状态,这个状态不会影响...
    文章 2017-06-07 1291浏览量
  • 智能、互联时代的应用运维——《应用智能运维实践...

    一旦出现电池状态异常或车辆缺陷导致的驾驶安全风险&xff0c;云端平台可以及时发现和告警&xff1b;车厂通过对指定型号的汽车历史数据进行分析&xff0c;可以挖掘目标用户群的使用习惯和驾驶行为特点&xff0c;从而优化新款车的...
    文章 2021-07-06 328浏览量
  • 厉害了,蚂蚁金服!创造了中国自己的数据库OceanBase

    这其中的原因很多,除了最早投入、培养了最多的相关技术研发人才和技术积累外,更重要的原因在于作为全球化的商用软件产品,无论是微软的操作系统还是甲骨文的数据库,都是伴随着全球用户集体使用、集体反馈、集体...
    文章 2018-03-26 7633浏览量
  • 顶会|关于数据库顶级会议 SIGMOD 2018,看这一篇就够...

    去年SIGMOD的Aurora论文侧重点在于设计理念和整体架构,而今年SIGMOD的Aurora论文侧重几个关键点的实现方案,包括写流程和宕机恢复,快照读取,如何避免读取操作访问多数派副本,以及成员变更。Aurora不需要使用两...
    文章 2018-07-10 5071浏览量
  • 应用运维智能化的关键技术——《应用智能运维实践...

    推断异常出现的位置及原因&xff0c;并给予初步的建议解决方案&xff0c;则将对系统状态稳定起到巨大的作用。传统的时间序列数据异常检测方法通常聚焦在一维场景下&xff0c;根据不同时间点数据样本间的关联来对异常进行判断...
    文章 2021-07-06 407浏览量
  • 带你读《Flink原理、实战与性能优化》之一:Apache ...

    在任务执行过程中,能够自动发现事件处理过程中的错误而导致数据不一致的问题,比如:节点宕机、网路传输问题,或是由于用户因为升级或修复问题而导致计算服务重启等。在这些情况下,通过基于分布式快照技术的...
    文章 2019-11-01 5431浏览量
1 2 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化
http://www.vxiaotou.com