1、从防火墙瘫痪说起
今天还没到公司就被电话告知办公室无法正常连接互联网了,网速非常慢,无法正常浏览网页。急急忙忙感到公司,开始查找问题。
首先排除了交换机故障,因为内部局域网正常。当ping防火墙设备时,丢包严重。很明显,防火墙出了问题,撑不住了,其Web管理界面根本无法正常登陆。立即联系其服务商远程查找问题,经过近3个小时的分析,得出结论是网内有两台主机大量发送TCP数据包,瞬间就能在防火墙上
Read More
moregeek program
为什么 SOFA RPC 调用30s还不超时?-多极客编程
为什么 SOFA RPC 调用30s还不超时?
背景
最近帮客户处理了一个诡异的 RPC 调用问题,想跟大家分享一下。关于 SOFA RPC,请参考我们的官网。
问题现象
客户使用 REST 接口触发 RPC 的调用,发现每次 RPC 调用都需要30秒的时间,最终的 RPC 调用结果是成功的。从业务日志来看,开始处理业务和结束业务之间确实花了30秒。
问题分析
RPC 调用花了30秒调用成功,这本
Read More
Read More
linux下生成dump文件方法及设置-多极客编程
https://andyniu.iteye.com/blog/1965571 Linux中生成 Core Dump 文件的方法1 什么是 Core DumpCore Dump 又叫核心转储。在程序运行过程中发生异常时,将其内存数据保存到文件中,这个过程叫做 Core Dump。2 Core Dump 的作用在开发过程中,难免会遇到程序运行过程中异常退出的情况,这时候想要定位哪里出了问题,仅仅依靠程
Read More
Read More
记一次线上DPDK-LVS的故障排查-多极客编程
背景
我们内部基于dpdk自研的高性能负载均衡器dpvs已经在多个机房部署上线,运行正常,但近期有多个金融相关的业务反馈,服务数据包在经过dpvs转发后,会出现hang住的情况。
问题
dpvs已经在多个机房上线,运行时间已超过半年,为何突然有业务反馈异常反馈问题的业务多与金融区相关(金融区由于其特殊性,会额外增加安全方面的加固策略)为什么问题表现均为服务hang住
问题排查
首先,我们
Read More
Read More
linux 分析和排查系统故障-多极客编程
日志分类:系统日志:存放系统产生的消息,由syslog统一管理用户日志:记录系统用户登录、退出、登录失败等相关信息程序日志:由各种应用程序独立管理的日志文件,格式不统一。(安装的每个程序都会产生自己的日志)用户日志:lastlog: 每个用户登录历史secure: 用户登录的安全方面wtmp: 退出消息btmp: 登录失败消息
日志格式:日期时间 主机名 服务名 详细描述下
Read More
Read More
生产性能运维监控之TOP介绍-多极客编程
****生产性能运维监控之TOP介绍****
TOP运维监控介绍:在日常性能测试或者生产运维工作中为了保证业务的准确性和及时性等各项业务与技术指标能满足日常操作与稳定运行,一般在工作工作会使用一些简易命令工具协助排查问题,例如排查CPU、内存、磁盘IO、网络、端口等性能故障,具体如下工具:我们习惯性的在linux操作系统中键入TOP命令来查看系统资源使用情况,如上图,通过top命令,可以看到对
Read More
Read More
Oracle 11g监听的故障排查-多极客编程
虚机数据库服务器oracle11G的监听意外中止,报错如下在虚机上执行lsnrctl start,问题解决。1、当连接异常时,可以通过分析监听日志来查找线索〜[test]$ find $ORACLE_HOME -name listener.log/opt/64bit/oracle/11.2.0/log/diag/tnslsnr/sinrndvud062/listener/trace/listene
Read More
Read More
一次 Java 内存泄漏排查过程,涨姿势-多极客编程
人人都会犯错,但一些错误是如此的荒谬,我想不通怎么会有人犯这种错误。更没想到的是,这种事竟发生在了我们身上。当然,这种东西只有事后才能发现真相。接下来,我将讲述一系列最近在我们一个应用上犯过的这种错误。最有意思的是,一开始的迹象揭示的问题,与实际发生的问题完全不同。在一个凄凉的午夜午夜刚过,我就被一条来自监控系统的警报吵醒了。Adventory,我们的 PPC (以点击次数收费)广告系统中一个负责
Read More
Read More
Windows系统故障排查-多极客编程
先ping IP 是通的无法远程,进系统进去检查。先检查远程桌面是不是启用了。选择启用。第二步检查防火墙,如果想防火墙开启能远程,这样就要做好防火墙策略,这边我们选择关闭防火墙。在有就是去看一下端口,是不是默认的3389.不是3389远程的时候加新的端口。在服务里面看一下远程服务是不是启用的。检查完以上情况,我们测试远程,就可以远程了,大多不能远程的情况,就是检查端口,是否启用远程桌面,以及防火
Read More
Read More
MySQL 故障排查-多极客编程
Linux服务器重启后发现Mysql无法启动了
故障一:启动故障
错误提示:Can't connect to local MySQL server through socket '/var/lib/mysql/mysql.sock'
解决方案:
1:尝试重启mysql服务器,是否出现同样错误
2:如出现同样错误,则删除mysql.sock文件后在重启
rm -rf /usr/local/
Read More
Read More
centos 系统ssh服务启动异常排查-多极客编程
centos 系统ssh服务启动异常排查
排查ssh服务在服务器内是否正常监听,如未监听,重启服务测试是否能正常启动。确认重启服务是否有报错。报错信息不能明确具体的问题,这时使用命令ssh -T,确认报错问题。确认是该文件的权限问题导致,查看该文件的属主和属组是否为root。将属主和属组修改为root。再次启动ssh服务器,恢复正常。
Read More
Read More
日志的排查-多极客编程
1、日志介绍
日志: 历史事件:时间,地点,人物,事件 日志级别:事件的关键性程度,Loglevel 系统日志服务: sysklogd :CentOS 5之前版本 syslogd: system application 记录应用日志 klogd: linux kernel 记录内核日志 事件记录格式: 日期时间 主机 进程[pid]: 事件内容 C/S架构:通过TCP或UDP协
Read More
Read More
Java程序各种监控命令和排查方法-多极客编程
1、监控进程GC情况:
jstat -gcutil pid 频率例如:jstat -gcutil 3807 2s
2、监控CUP和内存:命令:top,vmstat,nmon工具:Jvisualvm ,Jprofile,perfnom,Btrace,loadrunner
3、监控IO:iostat
iostat -d -x -k 1 10
4、监控网络:ifstat,iftop,nethogs
监控
Read More
Read More
5.29 1.6-1.8-多极客编程
1.5 配置ip ls:查看目录 配置ip配置ip方便用户使用远程终端软件连接服务器dhclient:NAT模式下使用该命令自动获取ip,此时得到的ip是在重启服务器后会消失的动态ipip addr:查看获取的ip地址 在NAT模式下VMware自带dhcpd服务,可以为加入该NAT网段的设备提供dhc
Read More
Read More
故障排查-多极客编程
故障排查1:MBR扇区故障(模拟扇区故障)先准备一块空的磁盘并进行格式化创建一个空目录把先前准备的空磁盘进行挂载挂载完成后就可以进行使用了,先把sda里面的东西进行复制,复制到sdb空磁盘内复制完成后模拟破坏这边sda磁盘已经被破坏了重启看一下,重启过后会让你重装系统,这边我们进入第三个急救模式然后一次进选择
到了这边之后选择第一个shell环境回车进入进入shell环境后会让你输入,我们要先创建
Read More
Read More
配置IP 网络问题排查-多极客编程
一、配置IP1、自动获取IP地址命令:dhclient ,再输入:ip add 可以获取到一个IP地址2、点击VMware workstation软件的编辑---虚拟网络编辑器---NAT模式(查看子网地址)---点击NAT设置记下网关IP,点击确定---确定3、设置静态IP1>编辑网卡配置文件 路径:vi /etc/sysconfig/network-scripts/ifcfg-ens
Read More
Read More
ALERT日志中常见监听错误:ORA-3136错误的排查-多极客编程
【现象】***********************************************************************
Fatal NI connect error 12170.
VERSION INFORMATION:
TNS for Linux: Version 12.1.0.2.0 - Production
Orac
Read More
Read More
IP配置及故障排查-多极客编程
dhclient命令自动配置ip地址 加-r杀死dhcient
ifconfig -a(或ip add)查看ip地址
vi /etc/sysconfig/network-scripts/ifcfg-ens33按i可以编辑
ONBOOT=yes #开机启动
BOOTPROTO=static #静态模式
IPADDR=192.168.10.55
NETMASK=255.255.255.0
GATE
Read More
Read More
AD常见故障排查---运维笔记-多极客编程
在维护AD的时候会经常出现一些故障,良好的问题解决方法,可以在尽可能短时间内解决问题。
一·常见故障类型
(1)域连接失败:加入域时,提示找不到域。
(2)域无法登陆:登录时密码不正确或登录后访问不了共享资源。
(3)域登录缓慢:登录时非常缓慢 。
(4)组策略部署失败:组策略未生效,或只对部分部分用户账户生效。
(5)域控制器之间复制失效:AD数据或DNS记录不能同步更新。
二·AD常见故障排
Read More
Read More