第2章：システム管理の基礎と運用自動化

コンテンツ

この章で解説する主要な技術・概念
2.1 高度なシステム管理の原則とツールチェーン
- 2.1.1 統合モニタリングとリソース監視
- 2.1.2 ユーザー管理とアクセス制御の拡張
2.2 systemd の高度な運用管理
- 2.2.1 ユニットファイルの詳細なカスタマイズ
- 2.2.2 cgroup を利用したリソース制御の強化
2.3 ログ・監視ツールの高度な活用
- 2.3.1 journald と rsyslog の連携
- 2.3.2 外部監視ツールとの連携
2.4 運用自動化と高度な構成管理
- 2.4.1 Ansible や SaltStack を用いた自動化の高度化
- 2.4.2 自動監査と変更管理の徹底
章末のまとめと次章へのつながり
- まとめ
- 次章へのつながり

この章で解説する主要な技術・概念

高度なシステム管理の原則とツールチェーン
- システム全体の状態把握、監視、ログ管理のための高度な設定とツール（journalctl の詳細設定、カスタムログフィルタリング、cgroups の利用など）
systemd の高度な運用管理
- ユニットファイルのカスタマイズ、依存関係の最適化、タイマー・スライス設定、cgroup を用いたリソース制御など
ログ管理と監査の拡張技法
- journald の永続化設定、カスタムログルール、ログ集約システム（例：ELKスタック、Fluentd）の連携
運用自動化と構成管理の先進的手法
- Ansible や SaltStack を利用した動的インベントリ管理、CI/CD パイプラインとの連携、Playbook/State ファイルの高度な管理

2.1 高度なシステム管理の原則とツールチェーン

エンタープライズ環境では、単に各サーバーの管理を行うだけでなく、システム全体の健全性を統合的に監視・制御することが求められます。以下の項目は、そのための基本原則に加えて上級者向けのツールや設定例です。

2.1.1 統合モニタリングとリソース監視

cgroups の活用
定義: cgroups（Control Groups）は、Linuxカーネルの機能で、プロセスのグループに対してCPU、メモリ、ディスク I/O などのリソース使用量を制限・監視する仕組みです。
活用例: systemd は内部的に cgroups を利用しており、各ユニットに対してリソース制限を設定できます。たとえば、特定のサービスの CPU 使用率を制限するために、ユニットファイルに以下の設定を追加します。

  [Service]
  CPUQuota=50%
  MemoryLimit=2G

journalctl の高度な利用
定義: journalctl は、systemd のログシステム（journald）からログ情報を抽出するためのツールです。
応用例: 永続ログを有効にし、カスタムフィルタを利用する例です。まず、/etc/systemd/journald.conf で永続化を有効にします。

  [Journal]
  Storage=persistent

その後、特定の期間やサービスに絞ったログ取得例として、次のように実行します。

  # 過去1時間分の httpd サービスのログを表示
  journalctl -u httpd --since "1 hour ago"

2.1.2 ユーザー管理とアクセス制御の拡張

上級運用では、従来のユーザー管理に加えて、LDAP や Kerberos との統合、RBAC（Role-Based Access Control）の導入などが検討されます。これにより、認証・認可の一元管理が実現し、セキュリティ強化が図れます。

2.2 systemd の高度な運用管理

systemd は、単なるサービス起動ツール以上の機能を持ち、上級運用において以下の点で重要な役割を果たします。

2.2.1 ユニットファイルの詳細なカスタマイズ

依存関係の最適化とターゲットの活用
定義: systemd では、各ユニット間の依存関係を明示的に定義することで、システム起動時の順序やサービス再起動の挙動を最適化できます。
設定例: 複数のサービス間で正しい順序を保証するために、After= や Requires= ディレクティブを用います。

  [Unit]
  Description=My Custom Application Service
  After=network.target redis.service
  Requires=redis.service

タイマーとスライス設定
定義: systemd タイマーは、cron の代替としてスケジュールされたタスクを管理します。また、スライス（Slice）は、グループ化されたユニットに対してリソース配分の優先度を設定する機能です。
設定例: タイマーを用いた定期ジョブの設定例です。

  # /etc/systemd/system/mytask.timer
  [Unit]
  Description=Run mytask every 15 minutes

  [Timer]
  OnCalendar=*:0/15
  Persistent=true

  [Install]
  WantedBy=timers.target

タイマーに対応するサービスユニットも合わせて作成し、必要に応じてスライス設定も検討します。

2.2.2 cgroup を利用したリソース制御の強化

systemd のユニットファイル内で設定できるリソース制限項目（例: CPUQuota、MemoryLimit）は、cgroups を利用してプロセスグループに対する厳格な制御を可能にします。これにより、重要なサービスが他のプロセスによりリソース枯渇を引き起こされるリスクを低減できます。

2.3 ログ・監視ツールの高度な活用

エンタープライズ環境では、単一のログ表示ツールだけでは不十分な場合が多いため、複数のツールや外部システムとの連携が推奨されます。

2.3.1 journald と rsyslog の連携

journald のフィルタリングと永続化
journald の設定を変更して、ログの保持期間やファイルサイズの上限を調整することで、必要なログを長期間保存できます。
rsyslog の拡張利用
rsyslog を利用して、ログを中央集約システム（例：ELK スタック）へ転送する設定例です。/etc/rsyslog.conf や /etc/rsyslog.d/ 配下に以下のような設定を追加します。

  # 例: ローカルの critical ログを中央サーバに転送
  if $syslogseverity <= 'crit' then @@central-log-server.example.com:514
  & stop

2.3.2 外部監視ツールとの連携

Prometheus や Grafana と連携することで、リアルタイムなメトリクスの可視化とアラート設定が可能になります。各サーバーに node_exporter をインストールし、Prometheus でスクレイピングする構成は、上級環境で広く利用されています。

2.4 運用自動化と高度な構成管理

単なる構成管理の自動化に留まらず、運用全体の自動化とその監査も上級者向けの重要な要素です。

2.4.1 Ansible や SaltStack を用いた自動化の高度化

動的インベントリの利用
クラウド環境や大規模環境では、動的にホストを検出する仕組みが求められます。Ansible の場合、AWS EC2 や OpenStack 用の動的インベントリプラグインを利用します。
CI/CD パイプラインとの連携
インフラ構成の変更は、Git によるバージョン管理と連携し、Jenkins、GitLab CI、GitHub Actions などのパイプラインで自動テスト・自動デプロイを実現します。これにより、変更の影響範囲が明確になり、ロールバックも迅速に行えます。

2.4.2 自動監査と変更管理の徹底

構成管理ファイルの変更履歴
Git などのバージョン管理システムを用いて、各種設定ファイル（Ansibleプレイブック、systemdユニットファイルなど）の変更履歴を厳密に管理します。
自動監査ログの生成
CI/CD の各ジョブで実行結果をログとして記録し、変更内容とその影響を後からトレースできる体制を整えます。

章末のまとめと次章へのつながり

まとめ

本章では、以下の主要なポイントを深堀りしました。

高度なシステム管理の原則
- cgroups の活用、journald の詳細設定、統合モニタリングの実践など、システム全体の健全性を維持するための高度なツールチェーンと設定方法を確認しました。
systemd の拡張機能の利用
- ユニットファイルの依存関係、タイマー、スライス、及び cgroups によるリソース制御といった上級者向けの機能を活用し、柔軟かつ堅牢なサービス管理の実現方法を学びました。
ログ管理・監視の高度な運用
- journald と rsyslog の連携、外部監視ツール（Prometheus/Grafana 等）との統合により、リアルタイムなシステム監視とトラブルシューティングの効率化を図る手法を解説しました。
運用自動化の先進的手法
- Ansible や SaltStack を用いた動的インベントリ、CI/CD との連携、自動監査の徹底など、環境の再現性と信頼性を向上させるための自動化戦略について議論しました。

次章へのつながり

次章では、カーネルパラメータのチューニングをさらに掘り下げ、システムパフォーマンスの最適化に焦点を当てた内容を解説します。ここまでの運用管理と自動化の知識を基盤に、システムの根幹をなすカーネルの動作を最適化する具体的な手法と、実環境におけるチューニング事例を詳述していきます。