More than 5 years have passed since last update.

【C#】コレクションから要素を重複せずランダムに、しかも高速に抽出する。

Last updated at 2017-09-12Posted at 2017-07-27

■まずはさておきソースコード

指定した要素数を、指定した数のブロックに分割するBlockクラスと、
それを利用してコレクションにランダム（なインデックス）でアクセスする為のRandomizerクラスです。

Block.cs（一部抜粋・コメント削除）


	public class Block
	{
		public int Begin { get; private set; }
		public int End   { get; private set; }
		public int Count { get { return End - Begin + 1; } }

		public Block(int begin, int end)
		{
			this.Begin = Math.Min( begin, end );
			this.End   = Math.Max( begin, end );
		}

		public static List<Block> As( int size, int n )
		{
			List<Block> blocks = new List<Block>();
			
			decimal seeksize = (decimal)size / (decimal)n;

			decimal index = 0m;
			
			int tail = size - 1;
			int last = n - 1;

			for ( int i = 0; i < n; i++ )
			{
				int begin = (int)Math.Ceiling(index);

				index += seeksize;
				
				int end 
					= i == last
					? tail
					: (int)Math.Ceiling( index ) - 1;

				Block block = new Block(begin, end);
				blocks.Add( block );
			}


			return blocks;
		}
	}

Randomizer.cs（一部抜粋・コメント削除）


	public class Randomizer<T>
	{
		private readonly IEnumerable<T> source;
		private readonly Random r;

		#region ctor
		public Randomizer( IEnumerable<T> source, int? seed = null )
		{
			this.source = source;
			this.r = null == seed
				? new Random()
				: new Random( seed.Value );
		}
		#endregion

		public IEnumerable<T> Randomize( int count, OrderOptions order = OrderOptions.KeepOrigin )
		{
			IEnumerable<T> random = this.Core( count );

			switch ( order )
			{
				case OrderOptions.Random:
					return random.OrderBy( x => Guid.NewGuid() );

				default:
					return random;
			}
		}


		private IEnumerable<T> Core( int count )
		{
			if ( count <= 0 )
			{
				return Enumerable.Empty<T>();
			}

			int size = this.source.Count();
			if ( size <= count )
			{
				return this.source;
			}

			int half = size / 2;
			if ( half < count )
			{
				return Skip( size, size - count );
			}
			else
			{
				return Take( size, count );
			}
		}

		private IEnumerable<T> Take( int size, int count )
		{
			var blocks = Block.As( size, count );
			foreach ( Block block in blocks )
			{
				int dx = r.Next( 0, block.Count );
				int index = block.Begin + dx;

				yield return this.source.ElementAt( index );
			}
		}

		private IEnumerable<T> Skip( int size, int count )
		{
			var blocks = Block.As( size, count );
			foreach ( Block block in blocks )
			{
				int dx = r.Next( 0, block.Count );
				int skip = block.Begin + dx;

				foreach ( int index in block.AsIndexes() )
				{
					if ( index == skip ) continue;

					yield return this.source.ElementAt( index );
				}
			}
		}
	}

■説明／解説

これは何をするもの？

簡単に言うと、コレクションからランダムで指定した数の要素を抜き出して来るものです。

なんでこんなもの作ったの？

あるシステム開発で、**「クライアントから送られてきたデータファイル（結構多い）から、適当に一部抽出してテストデータとして使いたい」**と言う要件が出て来ので。
（他にも「大量のデータの中からランダムで少数抜き出したい」みたいな話は、頻繁ではないくせに「忘れた時にやって来る」くらいの絶妙な頻度で発生する、、、と思う）

簡単に要件をまとめるとこんな感じ。

母体となるコレクションから、任意の数の要素をランダムに取り出したい。
重複して同じ要素を取り出してはいけない。
可能であれば、元の並び順を維持してランダムに取り出したい。

普通にランダム抽出ロジックを実装するとどうなる？

「コレクションからランダムに任意の個数の要素を取得する（但し、重複して取り出してはいけない）」と言う要件があった場合、多分みんな以下のようなコードを書くと思う。

要素をランダムに並び替える。
先頭から指定された個数の要素を取り出す。

特に制約がない場合、多分こんなコードを書く事になると思う。

ランダムに10個取り出すサンプルコード

	var random10 = sequens.AsEnumerable()
		.OrderBy( x => Guid.NewGuid() )
		.Take( 10 );

普通こう実装しますよね。
誰だってそーする、僕だってそーする。

このロジックのメリット：

コードがシンプルで解り易い。
LINQで書けるので汎用性が高い。

このロジックのデメリット：

取り出す個数が多かろうが少なかろうが、母体全量を並べ替える必要がある。（処理が無駄）
GUIDとか本質的に無関係なやつが目立つ。（好みの問題）
元の並び順が維持されない。

「元の並び順を維持する」という要件は珍しいと思いますが、これを要求されるとかなり難しい話になってしまいます。
特に、元の並び順が データ内の何かでソートされている訳ではない とか 元の並びに戻すのが難しい と言う場合はキツいです。
そもそも、「ランダムに並び替える→抜き出す→元の順番に並び替える」と 並び替えを二度もやるのはバカっぽくてイケてない です。