FreeBSD で lockd を後から起動したら mount をやり直す2017年04月24日 21時04分27秒

NFS v3 では、ファイルのロックは NFS 自体の実装では提供されていないので、別途 lockd デーモンを起動する。もし、NFS を
$ sh /etc/rc.d/nfsd onestart
等のように、手動で NFS を起動した場合に、lockd の起動を忘れることがある。

lockd デーモンも同じように起動する。

$ sh /etc/rc.d/nfsd onestart
lockd と nfsd デーモンは独立しているので、片方だけ起動しても自動的には起動しない。

lockd デーモンを起動する前に、既に mount されたファイルシステムには、ファイルロックが有効にはならないようだ。一度、umount して、mount すると、ロックが有効になった。

DEBUG カーネルなら ndis を動かせる2017年03月07日 13時20分12秒

デバッグを有効にしたカーネルを用い、以下の変更を加えると通信が出来る様にはなる。
Index: sys/dev/if_ndis/if_ndisvar.h
===================================================================
--- sys/dev/if_ndis/if_ndisvar.h        (revision 317316)
+++ sys/dev/if_ndis/if_ndisvar.h        (working copy)
@@ -155,9 +155,9 @@
        u_int                   ndis_80211:1,
                                ndis_link:1,
                                ndis_running:1;
+                       struct ifnet            *ifp;
        union {
                struct {                /* Ethernet */
-                       struct ifnet            *ifp;
                        struct ifmedia          ifmedia;
                        int                     ndis_if_flags;
                };
しかし、同じ変更を GENERIC カーネルで使うと、今度は kldload が失敗する。

問題はまだあるようだが、取り敢えず回避策は見付かった。一応システムを更新したら使い物にならない現状からは一歩前進。

NDIS を壊した net80211 の変更2017年02月01日 22時24分09秒

net80211 の変更のプロジェクトその変更部分。かなり大きいので一気に変更箇所を把握するのは無理。

net80211 を ifnet から切り離したが、NDIS は両方を扱うようになっているので、中途半端な変更で終ってしまったから壊れたようだ。wlan の処理から、イーサネット依存部分を切り離そうとしたらしい。

ndis でクラッシュする原因は分かった2017年01月30日 18時23分42秒

デバッグを有効にしたカーネルを使ったら比較的簡単に原因が浮かび上がってきた。カーネルスタックは、ロックの型が一致してないとの事。

少しカーネルに変更を加えて、構造体のアドレスを表示してみた。すると、全て同じアドレスでなければいけないのに、異なったアドレスを表示する箇所がある。

ifnet 構造体の ifp のアドレスがおかしい。if_ndisvar.h の ifnet の ifp 型が、ケーブル用と無線用で共に使われていたが、変更後に共有体の一部になった事が原因だ。

ndis のコード内で、ifp 型を受け取らなければいけない場所で、ieee80211com の構造体として、初期化された部分が渡されるので、渡された構造体が全く異なってしまっている。

FreeBSD の各種デバッグオプションを有効にし NDIS を観察2017年01月22日 12時52分06秒

NDIS が 11.0-RELEASE になって動かないが、あまり有効な手段を見付けられないので、取り敢えず FreeBSD の各種デバッグオプションを有効にして、カーネルを作ることにした。何らかのヒントが出てくれれば良いのだが。

カーネルの設定ファイルは他のものを読み込むことが出来る。

% cat /usr/src/sys/i386/conf/DEBUG 
include GENERIC

ident           GENERIC-DEBUG

#options        DEADLKRES               # Enable the deadlock resolver
options         INVARIANTS              # Enable calls of extra sanity checking
options         INVARIANT_SUPPORT       # Extra sanity checks of internal structures, required by INVARIANTS
options         WITNESS                 # Enable checks to detect deadlocks and cycles
options         WITNESS_SKIPSPIN        # Don't run witness on spinlocks for speed

options         DDB
options         KDB
include で GENERIC カーネルの設定を読み込み、DDB/KDB、INVARIANTS と WITNESS を有効にして、buildkernel KERNCONF=DEBUG。

再起動後に、ndis を試すと、ロックのエラーが表示された。

kernel: panic: mtx_lock() of spin mutex network driver @ /usr/src/sys/modules/if_ndis/../../dev/if_ndis/if_ndis.c:1849
kernel: cpuid = 0
kernel: KDB: stack backtrace:
kernel: #0 0xc0c81d3f at kdb_backtrace+0x4f
kernel: #1 0xc0c3f1d5 at vpanic+0x115
kernel: #2 0xc0c3f0b9 at kassert_panic+0xd9
kernel: #3 0xc0c1e3c3 at __mtx_lock_flags+0x183
kernel: #4 0xc73b4d08 at ndis_start+0x38
kernel: #5 0xc73b1021 at ndis_starttask+0x21
kernel: #6 0xc6ceaea1 at _end+0x4f2afd1
kernel: #7 0xc0bffd6e at fork_exit+0x7e
kernel: #8 0xc119af50 at fork_trampoline+0x8

NDIS に変更が行われたのは 2015 年の夏2017年01月05日 12時54分41秒

NDIS が FreeBSD 11.0-RELEASE から使えなくなっている。current メーリングリストで、テスト募集中とあったのを見た覚えがあったので、見返してみた。メールは 2015 年の夏だった。どうやら一人だけ、テストをしてみようとした人はいたみたいだったが、動作するデバイスを持っていないようだった。

当時は当該機 も current を使っていなかったので、目に止めただけだった。これに返信しても、返事が貰えるかは定かではないが、とりあえず駄目元で返信を試みた。

ndis のデバッグを有効にする2016年12月06日 13時24分20秒

NDIS はカーネルモジュールとして読み込まれるので、素のカーネルの sysctl を探しても出て来ない。ndis モジュールを読み込んだ後に debug.ndis が変更できる。
$ sysctl debug.ndis=1
debug.ndis: 0 -> 1

11.0-RELEASE と 11-CURRENT の NDIS の状態2016年12月01日 12時09分13秒

ifconfig wlan0 に ssid を指定すると、問題が起きる事まで突き止めた。これは FreeBSD 11.0-RELEASE でのテスト。

FreeBSD 11.0-RELEASE では既に NDIS の一部が動かない様だが、何度か古いカーネルで試した結果からみても、最新のコードが一番真っ当な様だ。

春先に 11-CURRENT で wlan の作成が出来なくなった変更があった。11.0-RELEASE を下に調査を続ける前に、その変更が原因で壊れたのかを点検したい。SVN の履歴などを調べるとRev 300738が該当の変更だったようだ。そこで、Rev 300737 に戻して、試してみようと思う。尚、変更は ifconfig だったので、buildworld と buildkernel が必要になるので、時間が掛かりそうだ。

11.0-RELEASE で NDIS でパニックの再現2016年11月29日 18時50分38秒

ifconfig wlan0 list scan は動作するのは確認した。しかし、dhclient は動かない。この後、sysctl を使うとカーネルがパニックを起こす場合があるのを確認した。

ndis から wlan デバイスを作成しただけでは大丈夫なようだ。

$ kldload if_ndis
$ kldload /boot/modules/bcmwl5_sys.ko
$ sysctl -a | wc -l
5330
$ ifconfig wlan0 create wlandev ndis0 up
$ ifconfig wlan0 list scan
$ sysctl -a | wc -l
5338
$ dhclient wlan0
wlan0: no link .............. giving up
$ sysctl -a | wc -l
5338

ssid を指定して wlan を作成するとパニックを起こすようだ。

$ kldload if_ndis
$ kldload /boot/modules/bcmwl5_sys.ko
$ wlan create wlandev ndis0 ssid <id> wepmode on wepkey <key> weptxkey 1 up
$ sysctl -a | wc -l
kdb に落ちるので見ると、fill_kinfo_proc 内の strlcpy を指している。
db> where
Tracing pid 993 tid 100145 td 0xc7275000
strlcpy(...)
fill_kinfo_proc()
kern_Proc_out()
fill_kinfo_proc では二箇所で strlcpy が使われていた。

11.0-RELEASE で NDIS の実験を続ける2016年11月26日 06時14分50秒

11.0-RELEASE の方が ndis の状態が良いので、壊れた当初のリビジョンより、11.0-RELEASE で原因追求を続けることに。テストを続けていると、パニックを起こす状態になるのだが、あれこれと試しながらだったので、何がきっかけだかは完全には掴めていない。

取り敢えず、このコマンドが動作できるのは確認した。

$ kldload if_ndis
$ kldload /boot/modules/bcmwl5_sys.ko
$ ifconfig wlan0 create wlandev ndis0 up
$ ifconfig wlan0 list scan
list scan が動くので、通信は機能している様子。

次に、dhclient をそのまま試したら駄目だった。

$ dhclient wlan0
wlan0: no link .............. giving up