Original article:https://dev.to/dotnetsafer/rip-copy-and-paste-from-stackoverflow-trojan-source-solution-4p8f
その昔コピペできない文章というものがありました。
実際は単にフォントを変えているだけというものですが、人間の目に見える文字と実際の文字が異なることを利用した攻撃の一種と見ることもできます。
さて、最近になって似たような攻撃に関する論文が公開されました。
人間には見えない文字を織り交ぜることによって、一見問題ないコードが実は脆弱になってしまうというものです。
ただ論文は堅苦しいうえに長くて読むのがつらいので、具体的に何がどうなのかよくわかりません。
平易に解説している記事があったので紹介してみます。
以下はDotnetsafer( Twitter / GitHub / Webサイト )による記事、RIP Copy and Paste from Stackoverflow! 🚨 (+Trojan Source Solution)の日本語訳です。
RIP Copy and Paste from Stackoverflow! 🚨 (+Trojan Source Solution)
ケンブリッジ大学のNicholas BoucherとRoss Andersonにより、ほとんどのコンパイラに影響を与える2つの脆弱性が存在することが判明しました。
この脆弱性は、ソフトウェアのサプライチェーンに悪影響を与えます。
たとえば攻撃者が人間のレビュアーを欺いて一度でもコードインジェクションに成功した場合、そのコードはその後も継承され続ける可能性が高くなります。
どのようなテクニックが使われているかを見てみましょう。
・ 拡張文字列 文字列リテラルをコードのように見せかける。
・ コメントアウト コメントをコードとして実行させる。
・ 早期return コメント内にあるreturnを実行させ、関数をパスする。
What happens next?
それでなにが起こる?
コンパイラは、一部の目に見えない文字をサポートしているため、アプリケーションをコンパイルしたときに、IDEで人間が見るコードとは異なる内容に解釈してしまうことがある。
How Trojan Source works?
私(Juan)は攻撃者であり、dev.toやブログなどで何らかの記事を公開することにします。
ここでは、あるユーザが管理者であるか否かをチェックする方法を教えることにしましょう。
もしくは、あなたやあなたの会社が何らかのオープンソースプロジェクトを持っているとします。
私は、ある特定のアクションは管理者のみが行えるようにするようなチェックを追加し、それを公開するかプルリクエストを送信しました。
あなたはそれをマージしました。
string access_level = "user";
if (access_level != "user") //Check if admin
{
Console.WriteLine("You are an admin.");
}
ところがこのコードには、IDEには表示されないUnicode文字が含まれています。
テキストエディタで表示してみましょう。
この文字は、文字の位置や順序、方向を変更する制御文字です。
すなわち、IDEで見えている文字は決して正しいものではありません。
※訳注:実際はコピペしてもLRIがありません。元記事に貼られた参考コードの時点で既にLRIは消えているようです。
この制御文字の詳細はこちらで見ることができます。
さて、私のプルリクを受け入れたあなたのプロジェクトはこうなりました。
うまくマージされたようですね。
それではアプリを実行してみましょう。
おや?
access_level
を"user"
と定義した直後に"user"
と等しいかを調べているのに、異なると言われてしまいました。
どうして…
いったい"user"と"user"は何がちがうんだっていうんだ?
理由はもちろん、制御文字を解釈したうえでコンパイルされたからです。
アプリをデコンパイルしてILコードを見てみましょう。
コンパイル後のコードでは、比較部分がこんなことになっていました。
"user" != "user // check if admin"
当然これは等しくないので、以下のコードが実行されます。
Console.WriteLine("You are an admin.");
今度はC#でコンパイルした結果を見てみましょう。
元のソースコードとは全く異なる実行コードになりました。
私は管理者権限無しに管理者用コードを利用することが可能になり、そしてあなたがこれに気付くことはありません。
これは極めて単純な例ですが、同様に私は、目に見えない命令を大量にあなたのコードに埋め込むことが可能であり、これは非常に危険な事態といえます。
How to solve it?
幸いなことに、GitHubでは制御文字が含まれている場合に警告が表示されます。
What should I do?
どうすればよい?
インタプリタ、Unicode対応コンパイラ等は、文字列リテラルやコメントに、終端の無い文字順序制御文字が含まれていた場合に警告やエラーを出さなければなりません(MUST)。
終端の無い文字順序制御文字は、**言語要件で明示的に禁止されるべき(SHOULD)**です。
コードエディタ等では、制御文字を**視覚的に強調表示すべき(SHOULD)**です。
How to check if I have been affected by this vulnerability?
確認する方法は?
GitHubが通知してくれるのはありがたいことです。
しかし、既に脆弱性が入り込んでいた場合はどうすれば?
我々のチームで検討した結果、ベストではないかもしれないけど最もシンプルな方法に辿り着きました。
要するに、この脆弱性はコードに隠し文字を入れるというだけのことなので、自分のコードに隠し文字があるかどうかをチェックすればいいわけです。
あなたは.NET開発者なので、.NETで小さなツールを作ることにしました。
✅ Solution
隠し文字があるかどうかを調べましょう。
var nonRenderingCategories = new UnicodeCategory[] {
UnicodeCategory.Control,
UnicodeCategory.OtherNotAssigned,
UnicodeCategory.Format,
UnicodeCategory.Surrogate
};
まずは、検出したい文字をUnicodeCategory
列挙型から取り出します。
UnicodeCategory
の詳細についてはMSDNを参照してください。
我々の調べたところ、この脆弱性に関連しそうなUnicode文字は以下となりました。
・ Control U+007F、U+0000からU+001F、U+0080からU+009F
・ OtherNotAssigned どのカテゴリにも割り当てられていない文字
・ Format テキストのレイアウトや処理動作に影響を与える文字
・ Surrogate 上位サロゲート・下位サロゲート
以下は、これらの文字が存在する.cs
ファイルを探し出すコードです。
var nonRenderingCategories = new UnicodeCategory[] {
UnicodeCategory.Control,
UnicodeCategory.OtherNotAssigned,
UnicodeCategory.Format,
UnicodeCategory.Surrogate };
using StreamReader sr = new StreamReader(dotnetFile);
while (sr.Peek() >= 0)
{
var c = (char)sr.Read();
var category = Char.GetUnicodeCategory(c);
var isPrintable = Char.IsWhiteSpace(c) ||
!nonRenderingCategories.Contains(category);
if (!isPrintable
{
alert(dotnetFile);
issuesCount++;
break;
}
}
sr.Close();
sr.Dispose();
制御文字が含まれている場合に、そのファイルを書き出します。
なお、範囲が厳密ではないため、以下のような文字を誤検出する可能性があります。
・アラビア文字など特殊なアルファベット: أعطني 3 تصفيق
・絵文字など: 🦄
従って、これは完璧な対策ではありませんが、脆弱性を見つけるための第一段階として使用することは十分に可能でしょう。
これらの診断をまとめたツールをTrojanSourceDetector4Dotnetにおいて公開しています。
このツールでは、ひとつ以上の.NETプロジェクトにおいて、この脆弱性の危険がないかチェックすることができます。
我々Dotnetsaferは、あなたが如何に忙しいかを知っているので、あなたが何もしなくても全てのプロジェクトを数秒でチェックしてくれるように、このツールをインストールしておくことをお勧めします。
インストールは、cmd
もしくはPowerShell
上で以下のコマンドを打つだけです。
dotnet tool install --global TrojanSourceDetector --version 1.0.1
これで、あなたの.NETプロジェクトをいつでもスキャンできるようになりました。
TrojanSourceDetectorを実行し、パスを尋ねられたらフルパスを入力してください。
以下は、プロジェクトのディレクトリでcmd
を実行した例です。
スキャンが完了すると、疑わしい制御文字が含まれているファイルを教えてくれます。
以上!おわり!
@article{boucher_trojansource_2021,
title = {Trojan {Source}: {Invisible} {Vulnerabilities}},
author = {Nicholas Boucher and Ross Anderson},
year = {2021},
journal = {Preprint},
eprint = {2111.00169},
archivePrefix = {arXiv},
primaryClass = {cs.CR},
url = {https://arxiv.org/abs/2111.00169}
}
コメント欄
「素晴らしい、助かった!」
「コードサンプルが動かなかった。error CS1026: ) expected
って言われる。」
「VSCodeでGremlinsを使っている理由のひとつ。不可視文字を検出してくれる。」
「このポストを読もう。コンパイラや言語仕様で修正するべきではなく、開発者とツールで修正されるべきもの。Goの開発者もそう言ってる。StackOverflowは制御文字をはじくようにするべき。」
「Slackからコピペを辞めて、Discordの信頼できる人のコードをコピペするのがよいね。」「信頼できる人であれば問題ないですね。」
感想
目に見えない制御文字を使うことで、見た目のソースコードと実行されるソースコードを違うものにしてしまうということです。
普通のプログラマであれば、コピペ時にさっと目視チェックくらいは行うと思いますが、この制御文字は目に見えないので目視チェックをすり抜けてしまうわけですね。
本文にはStackOverflowが全く出てこないのですが、StackOverflowは広く使われているにもかかわらず制御文字を張り付けることができてしまうため、この問題の代表例として出したといったところでしょうか。
実際、StackOverflowだけではなく、あらゆる個人サイトや多くのSNS等でも可能な攻撃方法です。
なお、手元のVSCodeでは制御文字が強調表示され、制御文字が入っていることが一目瞭然でわかるようになっていました。
私はGremlinsを入れていないので、 これが何によるものなのかはよくわかりません → 2021/11にVSCode本体に入った機能だそうです。
このように制御文字への対策がなされていれば、コピペをしても安全性にはさほど問題ないでしょう。
もちろん何にせよ目視チェックは必要ですが。
その他
・Stack Overflowからのコピペで脆弱なプロジェクトがGitHubに多数あり
・https://arxiv.org/abs/1910.01321
一見似たような、このような論文もあります。
しかし、こちらは単に目視でもわかる脆弱なコードをコピペしたというだけの話であり、今回のように悪意を持って脆弱性を隠したコードとは意図が異なります。
こちらの脆弱性についてはQiitaだろうがどこであろうが発生する可能性はあるし、前述のツールでも見つけることはできません。
単に脆弱性のある普通のコードですからね。