Machine check handler や Generic Hardware Error Source 、あるいはさいきんのLinuxのメモリ監視機能について
Surface Pro Xほしいですね。 Surface DuoもSurface Neoもほしいですね。Microsoftさんが、こんなにもワクワクするハードウェアを提供してくれるようになるとは、最高ですね。楽しみですね。
いちおう、わたしの専門分野は InnoDB かな?と思っているのですが、サーバの低レイヤーの部分も、嗜む程度に見ています。一年くらい前、Skylake-SP世代のサーバをオンプレミス環境に導入した際、いろいろ調査するなどしました。
はじめに断っておきますと、わたしはこちら方面シロウトなので、 Kernel/VM 界隈からご意見・ご感想いただけますと幸甚です。
今日は、Linux の Machine check handler や、 Generic Hardware Error Source、 あるいはメモリ監視機構の話をします。
※Ubuntu 16.04 LTS で kernel 4.15 をベースにお話します。
- サーバ製品側でメモリ監視機能が搭載されていた場合、むかしから、EDACを無効化し mce=ignore_ce することは推奨されていたようです。ただ、このあたり詳しくはベンダーさんに確認するのが良いでしょう。
- SKylake-SP以降、ごく一部のベンダーでは ghes_edac が有効になるようになりました。今後、 ghes_edac が有効になるベンダーは増えていくかもしれません。
- ghes_edac が有効になっている場合でも、 mce=ignore_ce にするのは良いかもしれません。これも詳しくはベンダーさんに確認してください。
- MCE とか GHES とか GHES_EDAC とか、自分で調べても良いかなと思ったので、自分で調べました。
- ghes.disable=1 にすると、 ghes_edac を無効化することはできます。
- 特定の不具合に対する workaround として ghes.disable=1 が推奨されることはあるのですが、そういうことでもない限り、 ghes_edac 無効化しなくても良いかも、と認識しています。
例えば、HPEのサーバには、HPE Advanced Memory Error Detection Technology(HP Advanced Memory Error Detection Technology)という機能が、実に20年以上前から搭載されているようで、訂正可能なエラーの発生傾向から、訂正不可能なエラーの発生を、事前に検知することが可能だったようです。
詳しくは、次のTechnology briefに、詳細な解説があります。
HP Advanced Memory Error Detection Technology
HPEに限らず、サーバ製品にはメモリ監視機能を搭載したものが多いのですが、このメモリ監視機能が、Linux の Machine check handler や hardware-driven EDAC driver (chipset-specific EDAC module)と競合することがあります。
Machine check handler
Machine Check Exception というものがあります。むかしから物理サーバを使ってる年季の入ったエンジニアであれば、いままで何度か見たことがあるのではないでしょうか。あるいは、WindowsやMacをクライアントとして使っている際、不幸にも遭遇したことがある方もいらっしゃるでしょう。
詳しい説明は、WikipediaのMachine-check exceptionや、 Machine check handling on Linux を読んで頂くと良いかもしれません。
Ubuntu で kernel 4.15 は、arch/x86/kernel/cpu/mcheck/mce.c は kernel module ではなく、CONFIG_X86_MCE=y で build されているようです。mce.c がload されているのは、次のように dmesg で確認できます。
1 2 3 4 |
$ dmesg | grep 'mce:' [ 0.039613] mce: CPU supports 20 MCE banks $ |
ここでいう MCE banks とは何でしょうか。さきほどの “Machine check handling on Linux” には、次のような記述があります。
In addition there are some more registers for each bank. A bank is a group of
errors generated by a specific subsystem (like CPU, bus unit, cache, north
bridge).The number and meaning of banks is CPU dependent.
Each bank has a number of sub-errors that can be enabled or disabled
individually. Normally a generic machine check handler enables all errors and
all banksA machine check bank also has a register for the address associated with the
雑にいうと、 Machine Check bank は、CPU、バス、キャッシュ、PCI-Express などで発生したエラーの情報を、格納するところと考えて良さそうですね。
また、 さきほどの “Machine check handling on Linux” には、次のような記述もあります。machine check には、 uncrrectable な Machine Check Exception と、 correctable な silent machine check の、二種類があるようです。
There are two main kinds of machine check: machine check exceptions
(MCEs) and silent machine check. A machine check exception happens when
there is an error that the hardware cannot correct. It will cause the CPU to
interrupt the current program and call a special exception handler.With a silent machine check the hardware was able to correct the error, but
logged the event to internal registers. There the event can be read by the
operating system or the firmware later. Silent machine checks don’t need
immediate software or administrator action, but it is useful to log and analyze
them to get early cues about hardware problems.
では、 Linux はこれらに対してどのような実装になっているのでしょうか。 Linux の Machine check handler は、 corrected error を polling でチェックする実装になっているそうで、 mce=ignore_ceのドキュメントに、次のような記述があります。
1 2 3 4 5 6 7 8 9 10 |
mce=ignore_ce Disable features for corrected errors, e.g. polling timer and CMCI. All events reported as corrected are not cleared by OS and remained in its error banks. Usually this disablement is not recommended, however if there is an agent checking/clearing corrected errors (e.g. BIOS or hardware monitoring applications), conflicting with OS's error handling, and you cannot deactivate the agent, then this option will be a help. |
mce=ignore_ce にして嬉しいのはどういったときかというと、その一つは、サーバのBIOSなどが、メモリ監視機能を持っていたときです。サーバに組み込まれているメモリ監視機能が、メモリ故障の予兆検知のために corrected error を活かせなくなる可能性があるので、 mce=ignore_ce にすることが望ましいとされています。
SUSE のドキュメントにも、mce=ignore_ce に関する記述が存在します。
Considerations for dealing with correctable memory error messages
ちなみに、 mce=ignore_ce になっているかどうかは、 /sys 配下をみると確認することができます。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 |
$ head `find /sys 2>/dev/null | grep -i ignore_ce` ==> /sys/devices/system/machinecheck/machinecheck15/ignore_ce <== 1 ==> /sys/devices/system/machinecheck/machinecheck2/ignore_ce <== 1 ==> /sys/devices/system/machinecheck/machinecheck13/ignore_ce <== 1 ==> /sys/devices/system/machinecheck/machinecheck0/ignore_ce <== 1 ==> /sys/devices/system/machinecheck/machinecheck11/ignore_ce <== 1 ==> /sys/devices/system/machinecheck/machinecheck9/ignore_ce <== 1 ==> /sys/devices/system/machinecheck/machinecheck7/ignore_ce <== 1 ==> /sys/devices/system/machinecheck/machinecheck5/ignore_ce <== 1 ==> /sys/devices/system/machinecheck/machinecheck3/ignore_ce <== 1 ==> /sys/devices/system/machinecheck/machinecheck14/ignore_ce <== 1 ==> /sys/devices/system/machinecheck/machinecheck1/ignore_ce <== 1 ==> /sys/devices/system/machinecheck/machinecheck12/ignore_ce <== 1 ==> /sys/devices/system/machinecheck/machinecheck10/ignore_ce <== 1 ==> /sys/devices/system/machinecheck/machinecheck8/ignore_ce <== 1 ==> /sys/devices/system/machinecheck/machinecheck6/ignore_ce <== 1 ==> /sys/devices/system/machinecheck/machinecheck4/ignore_ce <== 1 $ |
Ubuntu に限らず、kernel 4.15 以降 かつ Skylake-SP 世代の HPE のサーバでは、 Skylake-SP 用の EDAC 用 kernel module(skx_edac.ko) ではなく、kernel組み込みの ghes_edac が 有効になるようになりました。
drivers/edac/ghes_edac.c を使う際、 hardware-driven EDAC driver ( chipset-specific EDAC module)は自動的に無効化されます。
次に解説されているように、 ghes_edac.c は Firmware first な EDAC driver として設計されているそうです。
There are currently 3 error mechanisms inside the Linux Kernel: edac, mcelog and ghes.
Unfortunately, not all those error mechanisms will work at the same time, as accessing the error registers by the BIOS may interfere on reading them from OS.
So, all those 3 mechanisms need to be integrated, in order to avoid such problems.
This patch series adds a new EDAC driver that uses "Firmware first" APEI/GHES as an error report mechanism. It automatically disables the hardware-driven EDAC drivers when GHES is enabled, preventing to have both OS and BIOS to read at the very same error mechanisms.
kernel 4.15 の Kconfig にも、 ghes_edac についての解説があります。確認したところ、 Ubuntu において kernel 4.15 では、 CONFIG_EDAC_GHES=y になっていますので、ghes_edac.ko は module ではなく、 kernel 組み込みになりました。ただ、次の解説にあるように、 ghes.disable=1 とすることで、 ghes_edac を無効化することは可能です。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 |
config EDAC_GHES bool "Output ACPI APEI/GHES BIOS detected errors via EDAC" depends on ACPI_APEI_GHES && (EDAC=y) help Not all machines support hardware-driven error report. Some of those provide a BIOS-driven error report mechanism via ACPI, using the APEI/GHES driver. By enabling this option, the error reports provided by GHES are sent to userspace via the EDAC API. When this option is enabled, it will disable the hardware-driven mechanisms, if a GHES BIOS is detected, entering into the "Firmware First" mode. It should be noticed that keeping both GHES and a hardware-driven error mechanism won't work well, as BIOS will race with OS, while reading the error registers. So, if you want to not use "Firmware first" GHES error mechanism, you should disable GHES either at compilation time or by passing "ghes.disable=1" Kernel parameter at boot time. In doubt, say 'Y'. |
ghes_edac.c の Frimware First mode が有用なのは、サーバのメモリ監視機能との競合が避けられるからのようです。
ちなみに、 ghes.disable=1 にして ghes_edac を無効化すると、Skylake-SP では skx_edac.ko が load されるようでした。 skx_edac.ko がサーバのメモリ監視機能と競合するのであれば、 skx_edac.ko は無効化した方が良いんでしょうね。
Firmware First mode については、 Intel の次の white paper に記述があります。
APEI Error handling models
APEI offers two error models, Firmware first model and OS Native model. Firmware 1st is used when the host firmware needs to initially examine the error and attempt recovery or corrective action in an OS transparent way. This model is also used when certain OEMs want more control over error handling before the OS takes control, such as for purposes of executing some management functions. In the Firmware 1st model, all errors are initially signaled to the host firmware via SMI or other General Purpose Input (GPI) events. Then host firmware analyzes and decides what to do, and at the end of the flow creates a detailed APEI error log with FRU information to OS. Finally, the host firmware will then signal the OS about the existence of the error via SCI, NMI, or other interrupts.
The OS native model, on the other hand, provides handling of the error directly by the OS or OS level software by directly accessing the hardware registers and analyzing the error. This requires standard architecture in the hardware for providing error information in the hardware and signaling, for e.g. industry standard PCIe AER and x86 MCA architectures. This model takes the burden off of host firmware.
Platforms can use combined model also, where some errors are handled firmware 1st, some natively and some both (a.k.a. parallel model). Many of the servers employ this combined model for better handling and managing the server better via remotely.
たいへん雑に言いますと、 OS Native model は hardware register (error bank) から、OSが直接 error を読み込んでしまいますが、 firmware first model は、 firmware が最初に bank を読むような振る舞い、ということでしょう。
ghes.c が firmware first mode で初期化されている場合、次のように dmesg で確認することができます。
1 2 3 |
$ dmesg | grep 'firmware first' [ 1.172974] GHES: APEI firmware first mode is enabled by APEI bit and WHEA _OSC. $ |
ghes_edac に対応しているベンダーは、まだ限定的なようで、多くのベンダーは、 sky_edac.ko(hardware-driven EDAC driver あるいは chipset-specific EDAC module) で動作しているようです。それは何故かと言いますと、次のような commit log があります。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 |
EDAC, ghes: Add platform check The ghes_edac driver was introduced in 2013 [1], but it has not been enabled by any distro yet. This driver obtains error info from firmware interfaces (APEI), which are not properly implemented on many platforms, as the driver says on load: This EDAC driver relies on BIOS to enumerate memory and get error reports. Unfortunately, not all BIOSes reflect the memory layout correctly. So, the end result of using this driver varies from vendor to vendor. If you find incorrect reports, please contact your hardware vendor to correct its BIOS. To get out from this situation, add a platform check to selectively enable the driver on platforms that are known to have proper APEI firmware implementation. "ghes_edac.force_load=1" skips this platform check. [1]: |
ghes.c が firmware first mode で初期化されているサーバに置いて、 /sys/devices 配下は、例えば次のようになったりします。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 |
$ find /sys -type d 2>/dev/null | grep -i -e ghes -e edac /sys/devices/platform/GHES.1 /sys/devices/platform/GHES.1/power /sys/devices/platform/GHES.65534 /sys/devices/platform/GHES.65534/power /sys/devices/platform/GHES.0 /sys/devices/platform/GHES.0/power /sys/devices/system/edac /sys/devices/system/edac/power /sys/devices/system/edac/mc /sys/devices/system/edac/mc/power /sys/devices/system/edac/mc/mc0 /sys/devices/system/edac/mc/mc0/dimm5 /sys/devices/system/edac/mc/mc0/dimm5/power /sys/devices/system/edac/mc/mc0/dimm1 /sys/devices/system/edac/mc/mc0/dimm1/power /sys/devices/system/edac/mc/mc0/power /sys/devices/system/edac/mc/mc0/dimm6 /sys/devices/system/edac/mc/mc0/dimm6/power /sys/devices/system/edac/mc/mc0/dimm2 /sys/devices/system/edac/mc/mc0/dimm2/power /sys/devices/system/edac/mc/mc0/dimm0 /sys/devices/system/edac/mc/mc0/dimm0/power /sys/devices/system/edac/mc/mc0/dimm7 /sys/devices/system/edac/mc/mc0/dimm7/power /sys/bus/platform/drivers/GHES /sys/bus/edac /sys/bus/edac/devices /sys/bus/edac/drivers /sys/module/edac_core /sys/module/edac_core/parameters $ |
/sys/devices/platform/GHES.* というのは、ACPI Table の HEST から読み込んだ Source Id によるものようです。具体的に、初期化してるのは次のあたりのようです。
HEST は、次のように disassemble して確認できます。
1 2 3 4 5 6 7 8 9 10 |
$ sudo cat /sys/firmware/acpi/tables/HEST > HEST.dat $ iasl -d HEST.dat Intel ACPI Component Architecture ASL+ Optimizing Compiler version 20160108-64 Copyright (c) 2000 - 2016 Intel Corporation Input file HEST.dat, Length 0xE8 (232) bytes ACPI: HEST 0x0000000000000000 0000E8 (v01 HPE Server 00000001 INTL 00000001) Acpi Data Table [HEST] decoded Formatted output: HEST.dsl - 6468 bytes $ |
先程の例ではSourece Idが 0000, 0001, FFFE なので、それぞれ GHES.0, GHES.1, GHES.65534 に 対応しているようです。
1 2 3 4 5 6 7 8 |
$ grep -e 'Generic Hardware Error Source' -e ' Source Id' HEST.dsl [028h 0040 2] Subtable Type : 0009[Generic Hardware Error Source] [02Ah 0042 2] Source Id : 0000 [068h 0104 2] Subtable Type : 0009[Generic Hardware Error Source] [06Ah 0106 2] Source Id : 0001 [0A8h 0168 2] Subtable Type : 0009 [Generic Hardware Error Source] [0AAh 0170 2] Source Id : FFFE $ |
ghes_edac は、どの Source Id が Memory Controller なのか、事前に知っているわけではないと考えられます。
ghes_edac の初期化周りを確認すると、SMBIOSの仕様に従って、 dmidecode して DIMMの情報を読み取っているだけで、 Source Id を意識しているわけではないように見えます。
そして、ghes_edac_report_mem_error() で、どのようなエラーであるか判定するなどし ているようです。
Section Type は、Generic Error Data Entry に含まれているものですが、それぞれ、 後述 するACPIやUEFIのspecに記述があります。
GHES(Generic Hardware Error Source)
GHES の仕様については ACPI Specification version 4.0, section に記述されています。 Generic Hardware Error Source
The platform may describe a generic hardware error source to OSPM using the Generic Hardware Error Source structure. A generic hardware error source is an error source that either notifies OSPM of the presence of an error using a non-standard notification mechanism or reports error information that is encoded in a non-standard format.
Using the information in a Generic Hardware Error Source structure, OSPM configures an error handler to read the error data from an error status block – a range of memory set aside by the platform for recording error status information.
As the generic hardware error source is non-standard, OSPM does not implement built-in support for configuration and control operations. The error source must be configured by system firmware during boot.
APEI Error handling models で Firmware first model が採用されているケースでは、 GHES が使われる、ということでしょう。
Generic Error Data entry
ACPI 6.1 の specの Table 18-343 Generic Error Data Entry に記述があります。 Section Type は offset 0 にあり、Section Descriptor については UEFI specification に記述されています。
Section Descriptor
UEFIのspecのN.2.2 Section Descriptor に記述がありました。
UEFI Specification に対応する Section Type は、 kernel 4.15 では次のように、CPUや PCI-Expressなどに関するものが定義されています。
- サーバ製品側で持っているメモリ監視機能は、MCE Bank から Correctable Memory Error などを読み込んで、その情報を活用していることがある。
- よって、 mce=ignore_ce を設定し、Linux の Machine check handler が polling で corrected error を読み取らないようにするのは、適切な場合がある。(詳しくはベンダーさんに確認する)
- sky_edac.ko などの hardware-driven EDAC driver あるいは chipset-specific EDAC module がサーバ製品側のメモリ監視機能と競合する場合、無効化した方が適切な場合がある。(詳しくはベンダーさんに確認する)
- ghes_edac は Firmware First であり、サーバ製品側のメモリ監視機能と競合しないよう、意識して設計されている。
- kernel 4.15 の ghes は、HEST に定義された Source Id からエラーの情報を取得し、適切にハンドリングしている。それらの情報は、 Memory だけでな く、 PCI-Express などのエラーも含まれると考えられる。
- ghes が有効になっていると、 kernel 側で PCI-Express などのエラー情報なども取得できるであろうから、ghes_edac が有効になっている環境において、 よほどの不具合がない限り、 ghes.disable=1 にする必要はないと考えられる。(詳しくはベンダーさんに確認する)
- Generic Hardware Error Source が活用できたら何が嬉しいかというと、特定のチップセットや、特定のCPUの世代向けに開発されたEDAC moduleを使わなくても、kernel はハードウェアのエラーハンドリングを実現できるようになる。ただその場合、 firmware などが適切に設計されていることが求められる。
次回は、 MySQL に関する話をしたいと思います。