163
119

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

AudioUnit(iOS)を20個以上用いて「ラウドネス周波数特性補正付き音楽再生アプリ」を独学で造り上げた奮闘記

Last updated at Posted at 2018-08-16

副 題


プログラミング素人が、「発想を得て、特許取得からAppリリースに至る6年間の歴史」と「ハイレゾを含むオーディオ技術論と聴覚」を記す。

追加記入 : 2019年12月24日、著者記事へのアクセスは、本記事最上部の「Try-Jizy」をクリックするとアクセス可能なリストが表示されます。よって、記事最下部の「著者記事等へのアクセス案内」からこの部分を削除しました。
追加記入 : 2019年12月09日に『AudioUnit(iOS)を20個以上用いて「ラウドネス周波数特性補正付き音楽再生アプリ」を独学で造り上げた奮闘記 [ その後 -2 ]』を投稿しました。
追加記入 : 2019年03月17日、"iOS-12.1"に対応させた"私のApp"を、2019-03-16に"Ver-2.2"としてリリースしました。長いトンネルでした。後日、詳細や顛末を投稿させて頂きます。

A. はじめに


  • これは、電気音響畑で生きて60才で定年退職した後、6年の開発期間をかけ「初のプログラミング(iPhoneのApp)」に一人でチャレンジした男の実録です。
  • それは、Webで偶然発見た論文から始まり、Webや図書館(国会図書館も)、神保町の書店で情報を集め、学習と実験を重ね、回路設計とテスト機の製作、特許取得、アナログでの製品開発、App開発への方向転換、ゼロからのプログラミングに挑戦し、目標と信念を持ち懸命に「もがく」ことで、ついに「やり遂げた」老人のつぶやきです。
  • ザックリのつもりでしたが、けっこうな長文になり、誤字・脱字さらに乱文も含めてゴメンなさい。
  • オーディオ、プログラミング、医系の聴覚研究者、補聴器製造、などの学生、若きエンジニアと研究・開発者の皆さんに拡散することを願います。ついでに、ハイレゾ議論で迷える羊達にも一石を投じたいと思います。
  • なお、提示した図の中に記した「丸囲み数字」を文章内では (1), (2)、・・・の様に表記してあります。「丸囲み数字」が文中では読みにくかったためです。また、少しでも読み易くと文字に色付けを多用しました。

B. 生きて来た時代


  • 中学生の頃に3球真空管ラジオを自作したのがスタートでした。大学進学(電子工学)で上京し、アキバのジャンク屋通いとアンプの自作が大好きな田舎者でした。
  • しかし、世は真空管の時代からトランジスター、IC、LSIと進み、電卓やコンピュータが登場し、ワープロ(ブラザーを購入)やDOS(NEC 9800-UV2を購入)、そしてWindowsへ、ブラウン菅から液晶へ、フロッピーからUSBへ、メガからギガへ、テレビを含む電子機器がアナログからデジタルへ、携帯電話が登場し、すぐにiPhoneやスマホに変わり、・・・と進む世の中を生きて来ました。それらのどれにも興味を持ち、触れることが出来て楽しい時代を過ごして来ました。
  • まだ大学生の頃かな、オーディオの全盛期にも立ち会うことが出来たし、レコード、テープ、CD、ミキサー、アンプ等々のアナログからデジタルへの移り変わりも体験しました。
  • 一方、プログラミングに関する私の歴史は、大学時代に「FORTRAN ? (入り口)」と「2進法 (ブール代数 ?) 」の授業を受けた程度の経験しか無く、PCのアプリを使うだけの人間でした。

C. 理論開発のスタート


  • ちょっと大きな施設の建設と立上げで音響設備担当に五年、その後の運営に十年で定年を迎ました。定年まじかの頃は、まだ「私を待っている」あるいは「やれる仕事はあるだろう」、最悪でも「昔やっていたアンプの修理」でもと気楽な気持ちでした。(この考え方は、間違いでした。しっかり準備をするべきですよ。「なるようにしかならない」というのはあるんですけど、努力だけは・・・、頭の片隅に・・・。偉そうな事は・・・。)
  • しばらく、昼は昔の知り合いや通った街を訪ね、夜はインターネットの日々を過ごしました。その中で、「2次元等ラウドネス曲線の全聴野精密決定」という論文をWebで見つけたのがきっかけでした。
  • それは、大学時代の頃に「ラウドネスコントロール」というツマミが付いたオーディオアンプに触れる機会があり、上手く調整出来ればいい感じになるのですが、音量を変えるとドンシャリに成ってしまうものだった経験があったからです。
  • これは、人間の聴覚が音の大きさによって変化する周波数特性を持っていて、その特性を補正するとの理論でした。しかし、暫くしてこのツマミが付いたアンプを見かけなくなりました。
  • 私は、新しく発表された「新等ラウドネス曲線」(図-E01の(3))を見て「規則性がある」と直感し、すぐにグラフを数値化して、EXCELでの分析を開始しました。
  • 一週間程で個々の曲線と曲線間の特徴を把握して、直感が正しかったと確信し、ラウドネス補正に応用してみようと思いつき、全てがスタートしました。

D. まずは、「現象・理論・効果」から


  • この現象は、音楽を再生中に音量を下げていくと、低音が先に小さくなって行くことで簡単に確認出来ます。また、BGMが中高音しか聴こえない原因であり、TVの音楽番組でベース奏者が一生懸命に演奏している姿が映っているのにベースの音が聞こえてこない原因でもあります。なお、症状は低音域に顕著に現れます。
  • このことは、通常の音楽CDが、制作段階ではでは84dB(基準値)の大きな音量(通常の会話が出来ないぐらいの大きさ)で調整を行い、一方我々が一般家庭で音楽を聴く時には60dB前後(基準値)です。この音量(音圧)の違いによって発生しているのです。
  • この場合の補正は、等ラウドネス曲線の84phonと60phonとの聴覚の周波数特性の違い(差)に基づいてイコライザーなどで調整し、スタジオ作業(84dBSPL)で聴覚にとってフラットだった特性を、再生時(60dBSPL)でも聴覚でフラットな状態に修正(補正)するという理論です。(詳細はのちほど)
  • この補正による効果は、小さな音量で音楽を再生しても、制作時に「スタジオで調整された楽器の音量バランスと音質を再現出来る」ようになることです。ただし、音量の違いによる刺激感の違いは残ります。
  • しかし、以前の補正は 図-H01の(1),(2) に示す古い時代の規格の等ラウドネス曲線を使っていたため正しい補正が出来ず、その後に訪れた「余分な回路は通さない」という時代の流れで、あまり表には出て来なくなりました。しかし、専門家や技術者による聴覚や補正の研究は続けられていました。<参考資料-D1>
  • その後、旧来の曲線が後の研究による測定結果との間に差異があるとして1985年頃から日本を含む国際的な共同研究が開始され、図-E01の(3)に示す「等ラウドネス曲線 ISO 226:2003 」が2003年に発表されていました。
  • そして、著者が「新等ラウドネス曲線の曲線間に線形な関係」を見つけて、補正への応用に取り憑かれたのです。

D の 項 ま と め


  • 音楽再生では、スピーカーを含む再生機器の周波数特性をフラットに調整しても録音スタジオに近い音量で聴かない限り、楽器の音量バランスや音質を再現出来ません。しかし、"私のApp"なら「再生システムフラット + ラウドネス周波数特性補正」で可能になるのです ! ! !
  • 原因は、人間の聴覚が音の大きさにより周波数特性が変化しているからです。
  • この事は、1960年以前から解っていました。しかし、まだ解決されていない技術として残されていたのです。
  • このトライした、私のAppの「補正の効果や機能」が有効なら、「等ラウドネス曲線 ISO 226:2003 」とその応用の実証と未解決な技術の具現化が可能かもしれない。いや、せっかく見つけた老後の大テーマ、夢に向かって・・・「ヤレるところまでガンバルゾー」の思いでスタートしまた。

E. 等ラウドネス曲線とその歴史


  • 新旧の等ラウドネス曲線を比較する。

    ■ 図-E01.等ラウドネス曲線の歴史

    fig_e_01.png

    図-E-01は、X軸に周波数(単位:Hz)、Y軸に音圧をデシベル(20μPa=0dBとした対数比、単位:dB)で記載されています。
  • 図-E01の(1)は、1930年代に発表された、米国の「フレッチャー & マンソン」による等ラウドネス曲線です。80年以上も前です。
  • (2)は、1950年代に発表された、英国の「ロビンソン & ダッドソン」による等ラウドネス曲線です。
  • (3)が、最も新しい「等ラウドネス曲線 ISO 226:2003 」です。<引用資料-E3,p6>
  • (3)は、2003年にドイツ、デンマーク、日本、イギリス、アメリカなどが参加した国際共同研究グループによって発表された、国際規格です。<引用資料-E4,p1/中央>
  • なお、以下では「等ラウドネス曲線(ISO 226:2003)」を「新等ラウドネス曲線」とも表記します。
  • 論文「2次元等ラウドネス曲線の全聴野精密決定」の冒頭に <引用資料-E1,p1>

等ラウドネス曲線は、周波数が異なる純音の間でラウドネス(音の大きさ感覚)が等しくなる音圧レベルを結んだ曲線であり、ラウドネスの周波数特性を表現するものと考えられる

  • とあるように、ラウドネス曲線は測定可能な物理量である音圧(Sound Pressure Level, SPL)によって、直接測定出来ない人間の感覚量である聴覚の周波数特性を表現したものです。
  • ただし、測定に使った信号が「純音(サイン波)」であることに対し、「音楽にはいろんな種類の音が混じった音であるから、異なる特性になっているハズ」とする考えから、補正に使う事への反対意見もあるようですが、反論に関わる具体的な特性や理論を確認出来ないことから、ラウドネス曲線が唯一の重要な手掛りです。ただ、この意見の多くは古い特性曲線により作られた補正への意見だとも思います。
  • だが、「音の大きさの感覚」が「どんな音の量(ピーク値 or 実効値 or etc)」に反応し、「どんなタイミングや時間軸(立上がり、立ち下がり、保持)で変化する」のかは判然としていません。
  • 「大音量のコンサートホールに扉を開けて入ると、しばらくはうるさい」と感じるが、すぐに慣れてしまう。逆にホールから「外に出てすぐの会話は大声だが、いつしか普通の声量による会話にもどっている」ことや、先にも記したが、「音楽を再生中にボリュームを下げていくと、低音が先に小さくなって行く」などの現象は、確かに体感出来るのです。
  • また、測定に協力した被験者に付いて <引用資料-E2,p2/右下>

被験者は聴力正常な18~25歳である。この年齢範囲は、聴覚が十分に発達し、かつ、加齢による衰えのない、すなわち最も良い状態の聴覚を持つと考えられる。

  • そうです、「新等ラウドネス曲線」は、聴力が正常な若者達の聴覚の特性を表現しているのです。
  • 聴覚のバラツキと新等ラウドネス曲線の近似(フィッティング)。

    ■ 図-E02.聴覚の個人差と曲線近似

    fig_e_02.png
  • 図-E02の(1)は、若齢健聴者が知覚出来る最小音圧(スレッシュホールド、閾値(イキチ)で、「聴覚の個人差を示した曲線」です。1番上の曲線P99が99%、中央の赤の曲線P50が50%、1番下のP1が1%が知覚出来ると説明されています。<引用資料-E5>
  • さらに、(1)の中央に示したのは著者が追加したもので、オリジナルグラフより読みだした「1kHz部分を横切る各曲線を閾値とする人の割合」を算出したものです。グラフからは、80%の人が約10dBの幅の中に入っている、表現を変えると「バラツキ」があることが解ります。
  • (2)は、新等ラウドネス曲線の曲線と測定値(点)との関係を表した60phonと40phonのものを引用しました。測定値どうしにも、測定値と曲線間にも「ある程度のバラツキ」を確認出来ます。<引用資料-E6,p7>
  • 聴覚には個人差があることが解ったが、これに40才あたりからの加齢による聴覚の衰えが加わることになるのですが、その詳細は下記の「P-2.老化に伴う聴覚の周波数特性」の項を参照してください。

F. 新等ラウドネス曲線をグラフで分析


  • 新等ラウドネス曲線の数値データを用いて、加減算だけで分析してみた。

    ■ 図-F01.ラウドネス特性の分析 (著者作成)

    fig_f_01.png
  • 図-F01の(1)は、新等ラウドネス曲線の30~90phonの曲線を上下をひっくり返したもの(逆特性)です。すなわち、Y軸の上の方が感度が高くなっています。このグラフからは、低域に強力なローカットフィルターが入っているように急激に感度が低下している、加えて「曲線によってカーブの特性が違う」、「上下幅が低域と高域では異なる」などが観察できます。
  • (2)は、新等ラウドネス曲線の30~90phonの曲線を、1kHzの値が "0dB" で一致するように曲線を上下に平行移動させて比較しています。この表現では、「高域に比べて低域の曲線間の差が大きい」、さらに「低い周波数になるに従いのその差が大きくなっている」ことが観察できます。
  • (3)では、「新等ラウドネス曲線の80phonを基準で録音された信号を、1kHzを基準として10dBステッフで音量を下げて再生した場合に聴覚が感じる周波数特性」の変化を表現しました。(3)のグラフからは、「音圧差が大きいほど、低域のレベル低下がが大きくなる」ことが解ります。
  • しかし、提示した(2)と(3)は古くからの補正の考え方です。しかし、正確な補正をしようとすると、「曲線間が非線形な関係のために複雑な補正曲線による調整が必要」になる欠点があります。(私の考案は、視点を変えて欠点を解消しました)
  • それにしても、「なぜ人間の聴覚がこの様な複雑な特性なのかを考えると夜も眠れない」くらいなので、調べてみました。興味のある方は、下記「O.聴覚の構造と聴こえる仕組みの不思議」でご確認ください。早々に眠くなるか ? or 途中で眠れなくなるか ? のどちらかです。

G. ラウドネス周波数特性補正の正体


G-1. 具体的手法


  • ここでは、図-G11を用いて補正の具体的手法(既知の技術)を説明します。
  • なお、「ラウドネスコントロール」でWeb検索をすると「テレビの音量を統一(制限)する為の技術」に関連したものが混在して出て来るので、この投稿文では区別する為に「ラウドネス周波数特性補正」と表記しました。

    ■ 図-G11.ラウドネス周波数特性補正の原理 (著者作成)

    fig_g_11.png

    図-G11の(1)は、新等ラウドネス曲線より曲線を抜粋したものです。
  • (2)は、(1)より80phon曲線(赤破線)を音楽制作者(ミキサーなど)が聴く基準の曲線として、40phon曲線(赤実線)を再生して聴く基準の曲線とそれぞれに仮定して、2本の曲線を説明のために抽出しました。
  • (3)では、80phon曲線(赤破線)を下方に平行移動して、1kHz辺りで40phon曲線(赤実線)と重ねました。すると、80phon曲線の低音域と高音域が40phon曲線の下側に位置します。これにより、2本の曲線の差(上下に矢印がある緑の線)が差として確認出来ます。
  • 本来、音楽制作者が80phon曲線で聴覚的にはフラットに聞こえる状態(緑の破線)で聴取していたものが、小さい音量の40phonで聴取する音楽愛好者は2本の曲線の差の分だけ低音域と高音域がレベルが低下した特性(青の破線)で聴取することになります。
  • この差分を再生聴取者が聴く時に、新等ラウドネス曲線を用いた算出値に基づいてイコライジングでブーストして、聴覚にとってフラットになるように調整するのが「ラウドネス周波数特性補正」です。

G-2. 補正特性の新旧比較


  • ラウドネスコントロール(補正)の歴史は古く、Web検索によると1960年代のマランツや1980年頃のマッキントッシュ(C-540)、日本では1975年のDENONなどがあります。
  • Web検索でヒットする取扱説明書の中にはもっと古いと思われるものも確認することが出来ますし、国内外のメーカーの多くで製品化されたようです。しかし、高忠実度再生とする時代の波が大きく押し寄せて、影が薄く成ったようです。
  • 見つけた従来の補正特性と考案した補正特性で、周波数特性の違いを比較してみました。

    ■ 図-G21.補正周波数特性比較 ((3)は著者作成)

    fig_g_21.png

    図-G21では、3つのグラフのX軸とY軸のスケールを同じにして曲線の違いを比べ易くする為に、オリジナルデーターの一部をイメージ加工(カット)してあります。オリジナルは、引用資料で確認して下さい。
  • 図-G21の(1)は、Webで見つけた「真空管時代のマランツのアンプに搭載されていたとされるラウドネスの回路図と共に掲載されていた周波数特性です。<引用資料-G21>
  • (2)は、電子情報技術産業協会(JEITA)の「AV 機器のオーディオ信号に関する特性表示方法」の「ラウドネスコントロール特性」の項に測定例として掲載されているものです。出典元などの詳細は不明ですが参考として提示しました。<引用資料-G22,/FlashPlayerが必要>
  • (3)では、著者が考案した新等ラウドネス曲線による補正曲線です。トーンコントロールでは作り出せない、三本の直線で構成した特性で近似しているのが特徴です。
  • なお、図-G21で示した補正曲線が10dB間隔ですが、実際には「連続 or ステップ式」や「ボリュームに連動 or 単独調整」など、いろいろあります。 "私のApp"では、通常使用範囲を「 2dBステップ 」で細かく調整しています。
  • また、図-G21の (1), (2) は古い等ラウドネス曲線に基づいたものに、聴いた感じによる調整を付加しているとも考えられます。

H. ラウドネス周波数特性補正の難しさ


  • ラウドネス周波数特性補正の難しさには、2つあります。
  • 一つ目は、聞く側のシステムで正確なレベル調整が必要な事です。正確には「でした」なのですが、スビーカーを使うシステムでは結構大変でした。しかし、「iPhoneとEarPodsの組み合わせに限定したAppにする」ことで解放されました ( J-2 の項参照 )。
  • もう一つは、聴く側の勝手な言い分なのですが「音源によってバラツキがある」ことです。
  • これは、音源提供側の範疇なのですが、「録音信号の基準レベル」や「録音時のモニター音圧レベル」、「録音時のモニタースピーカーなどのクオリティ」などの違いで発生しているものです。
  • これらは、補正が「過剰」または「不足」の現象として現れます。だから、数値計算だけではうまく補正出来ません。"私のApp"では、ボーカルがより自然に聴こえるような仕上がりになっています。
  • でも、それが解るくらいにクオルティが上がっていることのあかしでもあり、現状の聞こえないことで隠されている部分が現れることで初めて分かる現象だと思慮しています。無論、昔の「ラウドネスコントロール」のような「ドンシャリ」には成りません。
  • 他方、周囲の騒音という最大の敵が居ます。極端な例・体験として、新幹線でトンネルを通過中の時です。聴覚が騒音に反応するため、音楽の音量を上げてもマトモに聞こえません。ましてや、低音はゴーと鳴る騒音に負けて聞こえません。生演奏やスピーカーでも同じ現象が起こるのですが、可能であれば、騒音に聴覚が反応しない、静かな環境でお楽しみ下さい。
  • もっとも、現在の「シャリシャリ音」に慣らされている人達がどう感じるかには興味津々です。古い人間には、ジャズベースが、グーですよ ! ! !

I. 聴覚レベルでの周波数分析も実現(著者考案)


  • 本考案を研究している中で、さらなる発見をしました。それは、聴覚で感じる周波数特性を聴覚レベルでアナライズすることです。もちろん、新等ラウドネス曲線に基づいてです。
  • なお、以下では聴覚が感じる音の大きさのことを「聴覚レベル(Hearing Level、HL、聴覚量)」と表記しました。「ラウドネス」という語句による表現が多用されているので、差別化して明確にするためです。
  • 新開発の聴覚レベル(感覚量)と一般的な音圧(物理量)による、周波数分析(FFT)の比較。

    ■ 図-I01.補正を聴覚レベルで比較する (著者作成)

    fig_i_01.png

    本測定の音源は、レディ・ガガのアルバム(CD)の「ザ・フェイム」から「JUST DANCE feat. COLBY O'DONIS」の前半部分を使用しています。また、基準値は説明の為の仮設定です。なお、測定には著者が試作した「PureData」による測定App(後述)を用いました。
  • 図-I01の(1)は、上記の音源を周波数分析(FFT)したものに、灰色の破線で示す「新等ラウドネス曲線」を合成したものです。X軸が周波数、Y軸が物理量の音圧になっています。なお、これに似た合成を用いたものは、NC値(ノイズ)測定用Appとして既に存在しています。
  • (1)の測定結果は、全体的には右肩下がりであり、ボーカル(700Hzあたり)に対し、低音楽器(70Hzあたり)の方が大きなレベルで表示されています。これは、ほとんどの音楽での傾向であり、聴覚の周波数特性に起因していると思慮します。
  • (2)は、ミキシングする人間(ミキサー)が感じる音の大きさを表す聴覚レベルでの分析結果です。700Hzのボーカルと70Hz低音楽器のレベルに注目すると、低音楽器よりボーカルの方が大きい音量になっています。また、ボーカル以外の楽器が水平に横並びとなり、同じようなレベルになっていることにも注目して下さい。これは、ミキシングする人間の聴覚(感覚)で調整した音を聴覚レベルの周波数特性として示しているのです。
  • (3)では、ボリュームを25dB下げて、聴覚補正無しで聴取(再生)した場合の聴覚レベルでの分析を表しています。
  • (4)には、(3)と同様にボリュームを25dB下げて「考案したラウドネス周波数特性補正」を施して聴取した場合の聴覚レベルでの分析を表しています。
  • (2),(3),(4)の緑の丸い破線とその中央のプラスマークに注目して曲線を比較すると、(3)が緑のプラスマークの下に来ているのに対し、(2)と(4)が緑のプラスマークの上で同じ様な位置にあります。さらに、(3)と(4)を比較すると100Hzのあたりで(3)に比べ10dB以上減衰して聞こえていることが解ります。
  • これが「聴覚レベル(測定不能な人間の感覚量)によるアナライズ」であり、現象を見える化した分析の結果です。この分析結果は、「ラウドネス周波数特性補正」の動作原理を明快に示してくれます。

J. 技術経験と理論開発からApp登録までの経過


J-1. これまでの経験


  • 真空管やTr,ICによるアンプやミキサーの製造・修理、PA、ステージのPA設備工事、オーディオプロセッサーの調整、趣味のDTM、・・・等々。そうです、趣味を仕事にしていました。

J-2. 理論開発からアナログ実証機製作・特許出願


  • 2011年7月中頃 : 「2次元等ラウドネス曲線の全聴野精密決定」に出会う。[スタート]

    この間に、技術や情報の収集、および理論の開発。
  • 2011年10月 : テスト機の製作と効果の確認を開始。

    この間に、穴あき基板でテスト機を作り効果の有効性を確認し、先行する技術や特許の検索を実施しつつ、特許文を書いた。
  • 2012年1月中頃 : 特許出願(ラウドネス補正)、2012年7月中頃 : 特許取得(補正)。

    この間に、聴覚レベルアナライズに関しての発想を得て、特許文を書く。
  • 2012年5月中頃 : 特許出願(聴覚レベル測定)、2012年12月中頃 : 特許取得(測定)。
  • 2012年6月中頃 : ラウドネス補正の製品開発を開始

    構想をまとめ、秋葉原に通って入手可能な部品を調べ、回路設計、個別回路の動作確認・測定、ケースと基板の設計・部品などの手配、組立、テスト、等々を行った。この時、多層プリント基板設計用のCADソフトを初めて使用した。

    信号系は、OPAmpと電子ボリュームや電子スイッチを使ったアナログプロセスで行い、コントロール系は1MHzクロックの小さなマイコンによるデジタルコントロールを用いました。初めてのマイコン経験でしたが、"レベルメーターの表示"や"ロータリーエンコーダー"を使い、サンプルコードをアレンジして無事完成させました。
  • 2013年春 : ラウドネス補正の製品開発完了(3台)

    説明用の資料を作成し、実証機によるデモ活動を開始しました。しかし、デモ先での音圧調整や、スピーカーと室内音響特性の調整などの煩雑さや音源によって効果にバラツキがあることなどから、方向転換を決意した。

    ■ 図-J21.製品とすべく開発したラウドネス補正装置 (著者製作)

    fig_j_21.png

J-3. 新たな実施方法の模索


  • 2013年7月中頃 : 新たな実施方法を模索[2年経過]

    ハードウエアを造る方法から、既存のデジタルプロセッサーを利用する方法も検討と実験を行ったが、前記した問題の解決にならない事に気付き断念した。

    そこで「もがく」うちに、電車で音楽を聴く人の多くがEarPodsを使っている事に気付きました。さらに、調べて見ると全てのiPhoneにEarPodsが付属している事が判りました(著者はガラパゴス携帯の愛用者)。

    さらに「もがく」ことで、iPhoneとEarPodsの組み合わせに特化すれば「音圧調整、スピーカー調整、室内音響特性」の難問を解決(スルー)出来るし、スピーカー利用者よりiPhoneユーザーの方が桁違いに沢山いるはずだと、プラス思考に転換出来ました。

    しかし、プログラミングは全くの素人、iOSやXcodeの事を調べて「もがく」が道も見えないし自信も無い。さらに「もがく」うちにオブジェクト指向繋がりで「PureData(Pd)というフリーソフト」に、たどり着きましたた。Pdは、グラフィカルプログラミングというもので、実は使った事のあるオーディオプロセッサーと同じ感覚でMacやPC上で使えるものでした。

    一つの機能を持つ回路(プログラム)がブラックボックスとして用意され、入出力やコントロールのための接続端子があり、配線(線でつなぐ)すると動作するものでした。まさに、ブロック図を書く感覚です。

    解説書とWebでサンプルを見つけ、WAVファイルを再生する基本ブロックに必要な機能を追加していく手法で、「ラウドネス補正、聴覚レベル測定、周波数特性測定」の3個のPdによるAppを作り上げました。

    半年掛かりました。しかし、Pdは後のAudioUnitのプログラムを考えるのに大変参考に成りました。なお、PdとAudioUnit共に「チョットした落とし穴」もありますので注意して下さい。測定が必須うです。
  • 2014年2月頃 : Xcode調査開始

    ちょっと自信が芽生え、Xcodeにトライする事にしました。手法は、Pdと同様に「解説書とWebで資料やサンプルを見つける」ことからです。まだ、「iOS7」の頃だったと思います。出筆時は、すでに「iOS11」です。

    永野哲久さんのWeb記事や布留川英一さんの本を含め、参考になりそうな記事(PDFに変換)やサンプルコードを全部ダウンロードし、立ち上げ可能なもの(.xcodeprojファイルがあるもの)をちょこっと動かしてみる等、情報を集めました。アメリカ(英語)のサイトにもお邪魔しました。

    まずは、「布留川英一さん著の "iPhone/iPad/iPod touch プログラミングバイブル"」からスタートしました。でも、Developerサイトにある「AddMusic」ではたくさんのエラーやDeprecated(非推奨/廃止予定)が出て動かないのには往生しました。

    有難い事に、他の問題も含めて良き先輩プログラマーの皆さんが書いた記事をかき集めて、なんとかクリア出来ました。

    また半年、「もがく」ことで全体像が見えて来ました。

J-4. iPhoneのApp開発を開始


  • 2014年8月中頃 : Developerに登録 [3年経過-iOS本格突入]

    この頃には、家族の迷惑かえりみず、期間無制限で「やり遂げる」ゾーの心境でした。

    「step-by-step」で進めました。まず、信号系(DSP)から手を付けました。信号処理で、必要な「機能・特性」を作り出せないと「全てが無駄」だからです。

    いくつか見つけてあったAudioUnitを組み込んだ「File Player」のサンプルコードを使い、必要な機能のAudioUnitを選び、一つづつ動作チェックを行い、回路を組み、「Pdで作った周波数特性測定App」を使って必要な特性が得られる事を確認し、定数を求めました。

    次は、「ViewController」と「StoryBoard」に取り掛かりました。これらは、サンプルAppの「UIButton」や「UILabel」を用いて、追加、削除、Colorの変更、線の太さの変更、Imageの表示、等々を行い学びました。

    さらに、ViewControllerと絡ませてUIButtonでUILabelのBackgroundColorを変えるプログラムを追加したりして・・・、「もがく」ことで学びました。

    もちろん、日本語の「Developer Program Support」にも電話で問い合わせましたし、「Technical Support Incident(TSI)」にも技術的な質問をしました。TSIは、ある意味有料(Developer登録に2件分が含まれ、追加すると費用が発生します。質問内容・方法に条件有り)ですが問題解決の一つの方法として利用しました。<引用資料-J41>

    < 追記/上記は古かった >久々に"Developer Support"へ質問しようとしたら、電話対応は廃止され、窓口が統合されてメールによる対応に成っていました。窓口は、ここ[<デベロッパサポート>](https://developer.apple.com/jp/support/)へアクセスして下さい。

    最終的には、機種を呼び出してViewの設定を変更することや手動でAppを初期化して終了することが出来る機能を取り入れるところまでたどり付きました。もちろん、Webの記事にお世話に成りながらです。

    困った事に、この作業に取り掛かった最初の頃に四角いViewだったのが、突如長方形に変わっりました。当時の私にとっては、Webにも記事がほとんど無く大事件でした。また、「もがく」ことで何とか脱出できました。

    AutoLayoutは、「Visio」という簡易なCADソフトを使っていたので用語を含め入り易かったです。なお、使っているのは古いバージョンものですが、手持ちのWindows7のPCでVirtual機能を使って動作しています。シンプルな機能が気に入って使い続けています。

    本件の一連の作業でVisioは、回路図やブロック図、ケースのデザイン、ロゴの下書き、等々に大いに役立っています。勿論、Viewの設計にも使い、MainViewの設定手順を図面(25ページ以上)にし、忘れ無い為と今後のサイズ変更に対応出来るようにしました。iPhoneXに対応させる時には、大変役立ちました。

    この間に、ホームページや"私のApp"内の「System Info」を作成するためにHTMLも学びました。CSSや文字化けなども経験しました。(本投稿でも、引用でコピーペーストした部分で多数の濁点に絡む文字化けが出て、せっせとキーボード入力で置き換えて修正しました。MacBookの表示では出ないのですが・・・。)

    この「Atom+Markdown」にもう少し早く気付いていればと思いましたが、逆にHTMLを学んでいたから抵抗無く使うことが出来たとも思慮しています。

    問題は、自分の文才の無さだと実感しました。書き出すまでに、時間が掛かるんだ~、直ぐに止まるし・・・、まさにローカル線状態です。

J-5. App登録手続きの調査を開始 


  • 2016年9月頃 : 登録手続きの手順や内容の調査を開始 [5年経過-iOS本格突入2年]

    実機テストでも問題が発生しなく成ったので、登録手続きの準備を始めました。Xcodeによる作業は最初から難しいと覚悟して取り掛かっていましたが、登録手続きも難物でした。

    勿論、資料集めから始めたのですが、全体像がなかなか見えて来なくて往生しました。 Developerにある200ページを超える解説書も頑張ってプリントアウトして読みましたが、判然としない。

    「設定画面などを並べて全体像を示し、事前に準備すべきものを提示し、大枠での説明、個別項目の説明があり、それぞれの場合に選ぶ設定項目の指示がある・・・」の日本式が私には解り易いのですが、英語サイトの「Q & A」コーナーも同じなのですが「で、どうすればいいの ? 」になってしまうのです。

    結局、日本のWeb記事が一番参考になりましたが、実際に手続きに入ると設定画面が新しく成っている・・・等々、苦戦の連続でした。

    また、Appleへの同意(Agreement)の所在が分かり難いのにも苦労しました。

    確かに、一度経験すると大した事では無いのですが・・・です。なお、後日のために全ての入力部分を「画面コピー」で残しました。この整理にも時間が掛かった。
  • 2016年12月末頃 : 初のApp(有料版)登録手続き、2017年1月始めに一発で受理された。
  • 2017年1月中頃 : Appを使って試してもらうための「おためしApp」が必要と考え、連続再生を3曲までの制限を付けたAppの開発に着手。一週間の「おためし」期間の設定が出来ると楽なのに・・・です。「おためし」が必要なTypeのAppも有ると思うのですが・・・。もっとも、私が知らない(調べ切れていない)だけでホントは出来るのかも・・・。

    < 追記 >・と書き上げていましたが、「2018-06-04付けで更新された英語圏向け審査ガイドラインで、無料の期間制限付きトライアルを提供可能になった」とのWebに記事が出ましたね ! ! ! 。まだ、私には詳細が解りませんし、使えませんが・・・。
  • 2017年3月中頃 : 無料版Appの登録手続きを行ったが、クレームが多数あり不受理。

    ん~「初申請の一発合格」は、Appleの作戦か、忖度か(無いな)、クリスマス休暇を挟んだ申請のタナボタか、まさか担当者によって・・・、 ? ? ? 。

    不受理の原因は、App名に続けて無料版だからと"Free"を使ったことや、イメージ画にEarPodsのイラストを使うのはNG、メイン画面の最上部に表示したApp名に続けて"w/ (withの略) EarPods"と表示したら「App名のみの表示」を指示された。さらに「XcodeでiPhoneのみを選択したのにiPadの一機種で文字が潰れる」、さらに更に「最初から無料の価格設定にするな」などでした。

    ただし、クレームメールに理由と解決方法(App名の変更など)の説明および資料のアドレスが提示してあったので、「もがく」ことで解決出来ました。

    「文字が潰れる」の件では、「iPhoneのみ対応」と設定する方法をググリ(ヤフリも)ましたが、見つかりませんでした。App Storeでの表示で、「iPhoneのみ」のAppを見た様な気がしたのですが・・・。確かに、iPadを含めて対応する事との決まりは「審査ガイドライン」で見た覚えがありましたが・・・。だったら、Xcodeでの設定は ? ? ? 。

    いまだに理解できていないのが、登録申請時の「互換性とアップデート履歴で記入する対応」の記入です。32bitが64bitに変わるなどの大きな本体側の変更に伴うものはしょうがないとは思いますが、動作する範囲のパージョンは「互換性」(Xcode)で設定し、例えばセキュリティーに絡む追加があるだけの場合には「互換性」を変更なしで「対応」のみに記載する ? ? ? 。もちろんXcodeは、最新のものを使うのですが・・・。とりあえず、両方とも最新のパージョンにしました。

    この「クレーム潰し」で、Viewを再構築しました。おかげで、全ての機種で完全に統一されたデザインの表示が出来るようになり結果オーライでした、時間は掛かりましたが・・・。なお、人間が古いので画面デザインも古いです。

    ■ 図-J51.再構築したScreenShot (著者作成、2017年11月申請時のもの)

    fig_j_51.png

    以後からは、申請時に「価格を有料」とし、「手動でStoreにUpする」に設定して登録手続きを行い、手動でUpする時に無料に変更するようにしました。ところが、iPhoneX対応でVer-Upをした1ヶ月後ぐらいにStoreを確認したら、ScreenShotの表示変更がエラーしていたのが修正されると共に、価格が有料(最初の設定価格)にもどっていました。なぜ、何故、Why ? 。無料設定も「Deprecated(使用不可)」になるの ? 。アプリ内課金を使うの ? 。

    また、Appは米国と日本に登録したのですが、最初の英語登録ページでの記載は日本語登録のページに自動でペーストされているのですが、何度か修正をしているうちにペーストされなくなる事に気がつかなくて、ミスったものもありました。

    このクレーム潰しは、日米が平日だと夜中の日付が変わる頃までに当方が申請を出しておくと、翌日の昼前には返信が届いたので、テンポよく、一日に一軒を解決するペースで何回もクレーム潰しとミスの修正を行なえました。先方からは、「まとめて修正してから送れ」などのクレームは無かったです。

    勿論、メールは主語を使った短い日本語を準備して、ググルのに使かう某社のWeb翻訳を使い、日→米→日→米を繰り返してから、英文で送りました。忘れずに、「Sorry it is my mistake」を使って・・・、日本人だな 〜 。少しは、反論しましたよ ! 、「のれんに腕押し」だったかも ? ! 。
  • 2017年5月末 : 有料版Appを無料版に合わせる為に修正したバージョンアップの登録完了
  • 2017年6月初め : 修正した無料版Appの登録完了 [6年経過-iOS本格突入3年半経過]

    以後、資料の整理をしつつ本投稿原稿を書き始めた。集めた資料、登録時の画面コピー、ホルダーの整理、・・・。理論の再確認と裏付け、新たな調査と検索、・・・。やることは、たくさんありました。何度も書き直しました。「聴覚の構造と聴こえる仕組みの不思議」は、ちと深入りしすぎたかな。でもいい勉強になりました。
  • 2017年11月中頃 : 両タイプとも、iOS11.1とiPhoneXに対応したAppの登録完了。
  • < 追記 >無料版Appは、2018年5月に登録を取り下げました。詳細は、「J-7の項」で御確認ください。

J-6. iPhoneのApp開発を終えて


  • 結果、ViewControllerで1800行に成っていました。Viewに凝り過ぎ ? 、拘り過ぎ ? 。

    とにかく、初めての経験で解らないことの連続でした。もがくことばかりでした。

    ちなみに、pdを使い始めた頃に買った "32GB" のUSBメモリは、集めた資料とテストに使用したプログラムだけで "20GB" が使用済みになってしまった。
  • ハードウエアーによる製品開発を済ませていたおかげで、早い時期に「構成(ブロック図)と完成イメージ」は出来上がっていました。

    App開発は、「地図無く、経験無く、友無く、Deprecated(非推奨/廃止予定)とバージョンUpが多い」険しい山岳地帯でした。

    Web記事さんが、唯一の助け舟、道案内でした。
  • もちろん、当初はスケジュールを立てました。しかし、App開発にカジを切ってからは、立てるのはやめました。というか、見通しが立たない。

    残り少ない我が人生だが、焦る気持ちは捨てて「やり遂げる」ことが自分の生き方、道はかき分けて造るもの。

    マイペースでないと続かない。おしりカッチンの仕事をたくさん経験し、こなして来たが満足感は得られ無かった・・・。そこで「まだまだ、やることがあるぞ」と考えることにしました。
  • 無事完成したのだが、心配事だらけだ。

    ◆ これだけ苦労した結果であるアプリのサイズが "1MB"でお釣りが来るとは・・・。

    ◆ 設計通りの動作はしているのですが・・・心配 。

    ◆ バグがまだ残っているかも・・・心配 。

    ◆ iOSのバージョンアップや新機種が出るたびに手間が・・・心配 。

    ◆ みんな使ってくれるかな・・・心配 。

    ◆ 音はいいと思うんだが・・・心配 。

    ◆ 私は好きな音なんだが・・・心配 。

    ◆ これで蘇る曲がたくさんあるんだが・・・心配 。

    ◆ 心配しててもしょうがない、「地道にコツコツと」を続けよう〜 〜 〜 。

    この機能無しの再生が考えられない時代が来るよ ! ! ! (心の叫び byモンク(ムンク?))。

    ◆ 「為せば成る、為さねば成らぬ何事も」の心境かな ! ! ! 。

    いや「風車に立ち向かう老騎士ドン・キホーテ」かも ? ? ? 。

J-7. チコちゃんに叱られる事態発生。(2018年4~6月)


  • iOSが11.3にアップデート

    iPodライブラリー操作に関わる幾つかの動作不良が発生していました。Webで調べると他のAppでも同様の症状があると投稿されていました。「バグかな ? ? ?」と思い、しばらく静観してAppleの修正アップデートを待つことにしました。
  • iOSが11.4にアップデート

    状況は改善されませんでした。この件に関するアナウンスも確認出来ませんでした。

    「iPod Library」を使う再生Appは、実機でしか動作確認が出来ない事情もあります。

    チコちゃんに「ボーっと生きてんじゃねーよ ! 」といっしょに「静観なんて、モタモタやってんじゃねーよ ! ! !と叱られそうな事態が勃発です。
  • 発生した不具合

    (1)「次の曲」や「前の曲」を操作すると曲飛びが発生する。

    (2) アルバムのイメージ画像に違うものが表示される。

    (3) リピートやシャッフルの動作が以前と異なる。

    (4) 再生中のノイズや途切れが増えた。

    (5) アップデートしたXcode(Ver 9.4.1)からは、「落胆した設定がある、UIWebViewはWKWebViewに置き換えてください。(by英語)」とイエローカードを突き付けられました。確かに以前から"Deprecated"(非推奨/廃止予定)の表示が出ていたのですが・・・。
  • 修正作業

    (1),(2),(3)は、MPMusicPlayerController内部の挙動が変わった(変えた)ために発生していると感じました。あれやこれや色々調べて、挙動に合わせてコントロールプログラムに変更を加えて、元の動作を再現・確保しました。時間が掛かった。

    (4)は、電源リセットやAppを使い込む内に、Viewのギクシャクした動きも含め、気にならない程度におさまりました。

    (5)は、文章表示とスクロールの機能が必要だっただけなので、TexViewに置き換えました。「HTML+WebView」の方が読み易すかったのですが、・・・。WKWebViewは、動作が重そうだったので使いませんでした。
  • 11.3,4のアップデート対応の総括

    正直、こんな奥まった基本部分に変更が加えられるとは、と驚いています。iPhoneにプレインストールされている「ミュージック」の機能改善or変更のために必要だったのだろうか ? ? ? 。

    だが、脳裏に浮かんだのは、「つもり積もったアプリの数を削減する」とのAppleのアナウンスでした。64bit化が、そのひとつだったろうと思っています。もちろん、時代に応じて必要な技術改善であるのでしょうが ! 。

    そして、今回の変更がそういった目的を秘めたものなのだろうと推測しました。他の分野は、どうなんでしょう ? 。

    これは、macのiTunesでiPhoneのAppが検索出来なく成ってから見つけたものですが、Appleのサイトにあるもので、[< 参考資料-J71,/iTunes プレビュー >](https://itunes.apple.com/jp/genre/ios/id36?mt=8)です。このページで、「App Store → ミュージック」を選択すると「AからZと#(数字)に分類された」凄まじい量( App Store内全体で100万点を超えるらしい)のアプリが確認出来ます。まぁー、今回の措置は仕方ないのかな ? ! 。ちなみに、リスト検索では"私のApp"の記載はありません、何かのハードルがあるのかな ? 。App名の頭文字にd(小文字)を使ったから ? ? ? 。iTunes プレビューでは、App名の頭文字がすべて大文字です。

    なお、前記と同様に「ミュージック → ワールド → 日本→AppleMusicプレビュー、宇多田ヒカル → 2018年5月23日、丸ノ内サディスティック(曲名)」と表示されることから、全項目なのかは分かりませんが現在も更新されているようです。
  • < お知らせ > 今回のバージョンアップ対応作業で、制限付無料版Appに必要な制限をさらに追加するとプログラムが複雑に成り過ぎると判断し、2018年5月に制限付無料版Appの登録を取り下げました

K. ハイレゾとデジタルオーディオ技術論


K-1. 「ハイレゾ」の定義と規格


  • オーディオ再生における「ハイレゾ」の定義と規格を調べてみた。
    ■ 図-K11.ハイレゾの定義
    fig_k_11.png

  • 図-K11の(1)は、「ハイレゾ」の規格をサンプリング周波数と量子化ビット数で図示したものです。赤線で囲まれた範囲がJEITAの定義範囲、中央のオレンジ部分がJASの定義領域です。[<引用資料-K11>](https://www.jas-audio.or.jp/hi-res/definition>)

  • 電子情報技術産業協会(JEITA)のハイレゾ オーディオ定義 (略記) <引用資料-K12>
    オーディオ及び゙音声を意味して使用される" ハイレゾリューション ”、“ ハイレゾ ”という呼称に関しても含む。
    「CDスペック(44.1kHz/16bit, 48kHz/16bit)を超えるディジタルオーディオ」であることが望ましい。

  • 日本オーディオ協会(JAS)の ハイレゾ 定義 (略記) <引用資料-K13>
    「録音を含めて使用するアナログ機器は、40kHz以上」、「デジタルは、96kHz/24bit」が可能であること。
    聴感に関わることは、各社の評価基準で「 ハイレゾ 」に相応しい商品と判断されていること。
    協会推奨の ハイレゾ ロゴ は、協会法人会員かが原則として利用でき、協会が定めた ハイレゾ 定義を満たす商品のみ使用が認められる。
    記事の最後に、次のようにまとめられている。
    ・オーディオ協会が定めているのは“ ハイレゾ 対応機器” の定義であり、ソフトや音源の定義ではない。
    ・民生用機器については、96kHz/24bitのFLACやWAVに対応していること、40kHz以上の再生が可能なことなどが条件。
    ・音源自体についての基準はJEITAの基準やレコード会社等の判断に準ずる。
    ・ハイレゾ 推奨ロゴを付与するのは、オーディオ協会会員企業の製品であり、協会の定める定義を満たすもの。
    アナログ 系の定義について、日本オーディオ協会会長の説明では <引用資料-K14>

マイクは「楽器の倍音なども考えた場合、40kHz以上が保証されている事が大事。スペアナなどで見ると、恐ろしいような倍音が含まれているが、そういうものをキチッととらえられるような周波数性能を持っていなければならない」と説明。

  • 図-K11の(2)は、音楽データーの型式によるビットレート(一秒間のデーター量)と、CDを1.00とした場合のデーター量の比較です。なお、この引用資料は、某有名スタジオのホームページに掲載されていたものですが、最近この記事にアクセス出来なくなりました。

    著者は、音質チェク用とクラッシック音楽にはWAVを使い、普段聴く曲には256kbpsのAAC(m4a)を用いています。

    AACは、なによりCDの約5分の1、ハイレゾ(96kHz/24bit)の約18分の1のデーター量はメモリーに優しい。でも、圧縮を展開する時のCPUへの負荷はどうなんだろう ? 。
  • 図-K11の(3)は、上記の記事で見つけた、ハイレゾ音源をマスターの種類によって区分する規格です。ぜひ、CDにも取り入れて欲しいものです。著者は、古い時代の音楽も好きなので・・・。<引用資料-K15>

K-2. 「ハイレゾ」を裏から見る


  • ハイレゾとは逆向きですが、音声圧縮の一つ"AAC"に付いてこんな論文を見つけました。

    ■ 図-K21.AAC圧縮でのビットレートと周波数成分の関係 (5枚のグラフを著者が合成)

    fig_k_21.png

    図-K21は、「5分37秒のクラシック音楽」(CDよりの音源)を使って、AAC圧縮処理でビットレートを変えて周波数成分の違いを測定されたものです。[<引用資料-K21>](http://cafe.mis.ous.ac.jp/2010/sawasemi/非可逆音声圧縮について_.pdf#search=%27非可逆音声圧縮について_岡山理科大%27)

    青が圧縮技術を使わないで測定した周波数成分、赤が各ビットレートで減衰していく周波数成分の特性です。論文では、「聞き比べたとき,64kbps, 96kbps, 128kbps では徐々に音質が向上しているのがわかるが、それ以上のビットレートでは音質の差はほとんど感じられなかった」とあり、「音質とデータサイズのバランスがとれているのは,128kbps で圧縮したときのものが最良と考えられる」と結論付けてあります。

    引用資料に記載は無いのですが、大学の卒業研究論文であることから「聞き比べは、聴力が正常な若者達(大学生)」と思われます。

    圧縮により他の成分も変化しているために単純には言えませんが、どうやら、少なくとも18kHz(128kbps)前後までの「音質に影響を与える音の成分が聴こえている」ようです。さてさて、順調に加齢が進む著者には、・・・ ? 。あなたには、・・・ ? 。

    なお、同論文には「MP3,OggVorbis,AAC,WMA」の音質比較も掲載されています。

    また、図-K21左下に緑ベースで合成した表は、著者が手持ちの3分06秒の手持ちのWAVファイルをビットレートを変えてAACに変換し、ファイルサイズを調べたものです。

    ちなみに、CDのビットレートは「1411.2kbps (16bit X 2ch X 44.1kHz)」、JASのハイレゾは「4608kbps (24bit X 2ch X 96kHz)」です。AACの128kbpsを単純に逆算でbitを求めると「1.45bit (128kbps / 2ch / 44.1kHz)」になります。ん〜・・・、検算すると「1.45bit X 2ch x 44.1kHz = 127.89kbps」で合っています。単純に凄いですね。
  • 電子情報技術産業協会(JEITA)が行った「CDと圧縮音源」との比較検証したもので、「メモリプレーヤーの“音質評価”は難しい」と題された記事の抜粋です。<引用資料-K22>

電子情報技術産業協会には、メモリオーディオ機器の音質表示に係る業界標準規格「CPX-2601」がある。2004年1月に策定された もので、主に圧縮コーデックやビットレートに関する評価法を規定している
圧縮の際には「人の耳 に聞こえない音をカットする」など、アナログの時代とはまったく違う音質劣化の仕方をするため、従来の基準をそのまま当てはめるわけにはいかない。「高能率の符号化技術で圧縮した音は、従来の測定法で評価できない」という
JEITA加盟企業11社から選ばれた220人。いずれも音に 関係した仕事を持つプロフェッショナルだ。基準となるCDとの差 をチェックして、違いを「わからない」「わかるが気にならない」「気になるが邪魔に ならない」「邪魔になる」「非常に邪魔になる」の5段階で評価した
ビットレートの違いから生じる音質を検証したところ、100Kbpsを境に して原音との差が如実に表れるという結果が出た。320Kbpsや256Kbpsでは「わからない」がほとんどで、128Kbpsまでは「わかるが気にならない」レベル。しかし96Kbps 以下は「邪魔になる」という

  • 結果は、256Kbpsと320Kbpsでは「CDと圧縮音源」の違いは「わからない」でした。
  • AACてどうなっているんだ ? 。で、調べて見ましたが「聴覚マスク特性(音声データー圧縮)、符号化(デジタルデーター圧縮)、・・・」簡単な話では・・・。<参考資料-K23>
  • ついでに、こんな記事を見つけて分析し、CDとハイレゾを比較しました。

    ■ 図-K22.同じ曲のCDとハイレゾの波形分析 (記事中2枚のImageを著者が加工合成)

    fig_k_22.png

    記事では、3曲のCDと同じ曲のハイレゾを、マスタリングソフトを使って「波形、音圧、スペクトラム」で分析されているものを引用しました。注目したのは、波形分析で違いが最も大きい「青空のラプソディ/ fhána 」(CDは通常市販品、ハイレゾは、WAVの96kHz/32bit)と記載されています。記事には、大いに共感するものがあります。<引用資料-K24>

    図-K22は、記事にある「青空のラプソディ」のCDの波形を赤色に加工して背面に配置し、ハイレゾの波形を青色に加工し前面に配置して比較し易くしました。

    図では、ハイレゾの波形の外側に赤がハミ出しています。さらに、細かく見ると、上下にはみ出している赤と、時間軸で青の後方にはみ出している赤がある。

    上下のはみ出しは、CDがリミッターやコンプレッサーを使い「レベルは上げるがピークはクリップしないレベルに抑える」加工をした。後方にはみ出した赤は、「リバーブやエコーをハイレゾより多くかけた」ので後方へはみ出したと思われる。

    表現を変えると、音源の最大レベルと基準レベル差の設定が異なる、例えば最大値を0dBとすると「CDの基準値が-18dB」で「ハイレゾが-24dB」としているのでは ? と考えられ、それに合わせて「リバーブやエコー」が調整されている。すなわち、このCDとハイレゾは同じ録音データーを用いたが「ミキシング調整」が異なっており、仕上げ(販売)の目的が違うソースだろうと思われる。しいて表現すれば、「ハイレゾの方がミキシング時の加工が少ない」という事なのかな ? 。

    だからといって、CDの全てがこの加工がされているわけではないし、ハイレゾにも残響や広がりを含む「ハイレゾらしく聴こえる」ための加工が加えられたものもありそうです。少なくとも、多くのCD音源を聴く限りバラバラです。でも、いいんじゃない、それぞれで。制作側は売れることが目的であり、その為の音づくりの方程式はないのだから・・・。
  • こう考えると、Web投稿で見かける「ハイレゾはCDよりも音が小さく感じる」<参考資料-K25>の意見や「ハイレゾの方が音に広がりがある」、さらに「バイオリンの弦を擦る音が聞こえた(弦を弓で擦っているは間違い無いが、こういう音はミキシング時にカットすると思う)」も説明が着くのではないでしょうか。
  • このことは、引用資料の最後にも同様の記載がある。(引用資料の記載文を要約)

筆者の主観で、参考だが仮説のとおりの結果となった。「このハイレゾから作った44.1kHz/16bitの青空のラプソディを含む2曲はCDとは違う音」になったし、聴いた印象はハイレゾの音と非常に近い。また、筆者の耳ではハイレゾ版とハイレゾから作った44.1kHz/16bitとの差はほとんど感じなかった

  • ハイレゾとCDの音比べは、記載文の様にハイレゾ音源を加工して比べる考え方に賛成です。著者も下方の「N-4」の項で、下位ビットを無音にする手法を使いましたが、我々が意識せずに起きている現象でもあります。ただし、変換による歪みなどの発生には注意が必要です。
  • なお、「青空のラプソディのハイレゾ」の販売サイトに以下の説明がありました。

24bit floating/48kHzにてレコーディング~トラックダウンを行いマスター制作、マスタリングプロセスを32bit floating/96kHzにて行なっております。存在しない周波数帯域に倍音を付加する強引なプロセスは一切行わず、デジタルフィルターの影響を小限に抑えダイナミックスレンジの表現を拡張しております

  • < お詫び >「青空のラプソディ」のハイレゾは、サンプリングを48kHzから96kHz にアップコンバートしたものでした。しかし、この考察結果に大きな影響はないと思慮しました。また、私自身はこの曲を聞いたことが無いのですが、資料による一般論として取り上げました。

    なお、「32bit floating」は「32bit-float(符号付き、32bit浮動小数点数)」と思われますが、「24bit floating」の詳細bit構成を調べましたが解りませんでした。符号部-1bit/指数部-8bit/仮数部-15bitと想像した。(N-1. 量子化ビットの構成に付いての項を参照)
  • 「LPレコードを自炊でCDに起こしたらレコードと同じ音がした」という記事もありました。これも、市販CDでは、CDにする時にた良かれと考えた(信念を持ってかな)調整(加工)の手が入っているからでは ? 。<参考資料-K26>
  • レコードやテープの時代(リミッターが一般的では無い頃)に録音された音源からCDに起こしたものの中には、全体音量が低いが「ハイレゾ」的にダイナミックレンジの広さや音の広がりを感じさせてくれるものもあります。いろんなものを探して、聴いて楽しんで下さい。

K の 項 ま と め


  • 「ハイレゾはハイレゾ」、「CDはCD」、それぞれであり、「圧縮音源も含め、それぞれに目的がある」のだから目的を無視した比較は不要です。安易な「ハイレゾは音がいい」はやめて、調査や確認をしてからにしましょう。
  • さらに、録音されたものは「ライブを客席で聴く音」や「演奏者が聴く音」などそれぞれ違う、「原音に近い」の表現も控えるべきです。私は、原音てどれって聞いてしまうかも(下記、「S.楽器を含む発音体の特性いろいろ」の項参照)。
  • レコードも含めて音源の選択は、「騒音の中で聞くBGMなのか」、「遮音されたリスニングルームなのか」、「周囲の騒音から逃れる為に音楽が鳴っていればいい」など、目的や周囲の状況、好みに合わせて選ぶべし。
  • 例えば、BGMやざわつきがある喫茶店や電車内では音量の大小差が大きいクラッシックを聴くよりも音量差が少ないポップス系CDの方が合っているし、静かな環境のリビング兼リスニングルームでワイン片手に至福の時間を過ごす音楽愛好家にはハイレゾのクラッシックやLPレコードが似合うかも知れない。
  • その前に、聴きたいのが音楽が持つ雰囲気なのか、好きな歌手の歌声なのか、歌詞なのか、音質なのか、・・・、何を聴きたいのかも考慮する必要があると思う。
  • 私は、コンピューターに向かっている時には "私のApp"で「ひと昔前の、フォークソング・演歌・ポップス・JAZZ・R&B・クラッシック・など(音質チェック用とクラッシック以外は圧縮音源)」と雑多です。もっとも、曲が終わっても気付かないんですが・・・。時には、布団に転がってイヤホンで圧縮音源のJAZZを聞きながら途中で眠ってしまいます。
  • 制作側も聴く側も、それぞれです。でも、録音されている楽器の音は全部聴こえて欲しいな、特に低音は ! ! !
  • 以上が、著者のハイレゾへの考え方です。さて、あなたどう捉えますか ? ? ? 。

L. サンプリング周波数(時間軸での1秒間の分析回数)を考察


L-1. 高いサンプリング周波数を使えば超高域音は聞こえるのか?


  • 「本研究では20KHz 以上の信号を含む場合と、含まない場合の再生音を本当に聴き分けられるか どうかを厳密なブラインドテストで検証する。」とする「NHK 技研ノート No.486」を見つけました。詳細は、資料で確認して下さい。結果は、「確認も否定も出来ないが、まず不可能」だろうでした。<引用資料-L11>
  • 上記とは反対に、「13人の被験者で超高域有無の弁別実験を行った結果、2人の被験者が筑前琵琶の音源において、有意水準5%の検定で超高域の有無を有意に弁別できた」というのもありました。<引用資料-L12,p118/右上、5.5.2の項>
  • モスキート音に付いて調べてみました。一時話題になり、コンビニの前の若者を撃退するのに使われました。「20kHz帯域の音は「13~17歳」にしか聞こえず、17kHzあたりの音域であれば20代前半までの若年層にはうるさいと感じる音」のようです。<引用資料-L13>
  • 超音波の歪みで調べてみました。「超音波が相互変調歪みの形で聴こえる場合もある。これは元の音源にはなかった音である。」とあり、超音波が直接聴こえるのでは無いようです。<引用資料-L14,/概要の項,中程>
  • 「骨伝導」で調べてみました。「通常、ヒトは超音波を知覚できないが、骨伝導で呈示された場合は聴覚が健常な者だけでなく、一部の重度感音性難聴者にも聴覚として知覚される。」また「通常の聴覚とは異なる知覚メカニズムに依っている可能性があると考えられている。」との記述があります。<引用資料-L15,/骨導超音波の項参照>
  • 超音波を使ったパラメトリック・スピーカーでは、「2つの超音波の周波数のずれを用いた方法で、うなりが発生し聞こえる」と「超音波に変調をかける方法で、空気中を超音波が伝播する際に空気分子が圧縮されるときよりも、圧縮が元に戻るときのほうが時間がかかる非線形特性により、可聴音が出現し聞こえる。」でした。<引用資料-L16>
  • < この項まとめ >
    著者は、「超高域音は、ほとんどの人には聴こえないだけでなく可聴音を作り出してしまう」に注目しました。では、「高いサンプリング周波数」は必要無いのか ? 。
    著者の結論は、「可聴帯域の高音域を正確に再生する」のには必要かもしれないが、「20kHz以上の超高域音を聴く」という意味では不要と思っています。だって「 音楽を制作する人達はそんなところで勝負していないでしょ ! ! ! 」と考えるからです。

L-2. 方形波で見るサンプリング周波数と波形の関係


  • まず、たまたまWebで見つけたLPレコードとCDのアナログ出力(DAC出力)での波形です。

    ■ 図-L21.1kHz方形波のアナログ出力での再生波形比較

    fig_l_21.png
  • 図-L21は、信号に1kHz方形波を用い、(1)はLPレコード、(2)はCD規格、(3)がfs=192kHzのハイレゾで、全てがアナログ出力での波形です。再生信号のアナログレベルでの波形の正確さや暴れ具合を観察出来ます。本当は、もっと高い周波数の波形を探したのですが、残念ながら見つかりませんでした。著者は、機材不足でNGです。なお、(1)はスケール合わせのために画像を加工しました。<引用資料-L21>
  • 記事では、(2)の暴れの原因を「20kHzでスパっと信号をカットしているため、こ のようにリンギングが出ますね。」と分析されています。なお、(2)の「暴れ」は著者の画像分析では「暴れの周波数は約21.6kHz、暴れの中央部のレベルは元の方形波に比べて約-31dB」です。
  • < この項まとめ >
    この提示した波形を見る限り、サンプリング周波数が信号周波数より十分に高い(3)が最も良く、(1)のLPレコードは大健闘と考える。
  • < 参考記事 >興味深い「日本唯一のレコードプレスメーカー」へのインタビュー記事もありましたので興味のある方は参考に。[<参考資料-L22/vol.1>](https://soundrope.com/blog/cuttingengineer-interview1/)、[<参考資料-L23/vol.2>](https://soundrope.com/blog/cuttingengineer-interview2/)

L-3. 以下で、テスト信号に7kHzを選択した理由


  • 音にメリハリを調整する帯域(3~12kHz)の一つである。
  • マイクやイヤホン等の特徴付けをする為に調整する帯域の一つである。
  • 子音(サ,シ,ス,セ,ソ)を調整する重要な帯域である。
  • さらに、44.1kHzのサンプリング周波数でも第3高調波まで再生可能である。
  • せめてこのあたりの周波数までは正確に再生(再現)をしてほしいとの思いから。
  • なお、以下ではサンプリング周波数を「fs」とも記載しています。

L-4. デジタル内で波形とFFT分析結果を比較する


  • 方形波で、信号とサンプリングの周波数を変えて比較します。

    ■ 図-L41.方形波をデジタル内で比較 (著者作成)

    fig_l_41.png

    著者作成資料の信号作成には「WaveGene Ver1.5 (Windows)」、波形表示とFFT分析には「Audacity Ver2.0.5 (Mac)」を使用しました。どちらもフリーソフトですが、古いバージョンのままかも・・・。
  • 波形は、(1)が一番良く, 次が(3)、(2)では明らかに劣化しています。
  • サンプリングと信号の周波数比(1波長あたりのサンプリング数 = サンプリング周波数 ÷ 信号周波数)では、(1)が 44.1, (2)が 6.3、(3)が 25.2 です。
  • < この項のまとめ >

    信号の1波長あたりのサンプリング数が多い方が良い。

    信号周波数が同じ場合、サンプリング周波数が高い方がより正確な再生が出来る。

L-5. サイン波と三角波の特徴を確認


  • サイン波と三角波をFFT分析して、特徴をつかむ。なお、以下のFFT分析の周波数軸(X軸)は、自動で設定されるのでバラバラですがご容赦ください。

    ■ 図-L51. サイン波と三角波の比較 (著者作成)

    fig_l_51.png
  • 図-L51の(1)は、7kHzのサイン波をfs=44.1kHz(CD規格)でのFFT分析と波形です。サンプリングポイント(6.3point)は少ないが、サインカーブ上の正確な値であるため、見た目の波形は歪んでいますがFFT分析結果に歪みはまったく表示されていません。
  • (2)では、fsより十分に低い700Hzの三角波をfs=176.4kHz(ハイレゾ)でのFFT分析と波形です。サンプリングポイント(252point)が多くて値も正確なため、波形は正確なように見える。FFT分析では、三角波の特徴である奇数次の高調波が整然と並んでいるだけで、他の歪みは有りません。これが、三角波です。

L-6. 7kHzの三角波をサンプリング周波数を変えて、分析・比較する


  • 7kHzの三角波をfsを変えて、違いを分析する。

    ■ 図-L61. 7kHzの三角波によるfs比較 (著者作成)

    fig_l_61.png
  • 図-L61の(1),(2)(3)で、右側の波形を比べると、fsが高くなるに従い本来の三角波に近づいていくことが解ります。
  • (1),(2),(3)左側のFFT分析の結果では、赤で示した基本波(7kHz)と第3高調波(21kHz,3rd)の間に、(1)のfs=44.1kHzでは19個、(2)のfs=88.2kHzでは9個、(3)fs=176.4kHzでは4個の信号が確認出来ます。
  • また、7kHzの両サイドの高調波じゃない信号で一番大きなものに注目すると、fs=44.1kHzでは基本波に対し-24dB、fs=88.2kHzでは-36dB、fs=176.4kHzでは-54dBになっている。可聴範囲の信号であり、中でも基本波(7kHz)より低い周波数の側にある折り返し歪みが一番の問題だろうと思う。
  • これらの信号は「ブーン」とか「ジー」といった入力信号とは関係なく連続して聞こえるノイズではなく、信号と一体となって発生する歪みです。
  • これらの歪みは、マスキングされて聞こえない場合や基本波を引き立たせる場合もあり「良し悪し」ですが、正確な再生には悪です。何故なら、図-L51の(2)で示した様に元の三角波には無い信号であり、サンプリングによって作り出されたものだからです。
  • 7kHzの三角波は、サンプリング周波数がfs=44.1kHzよりfs=176.4kHz高の方がより正確な再生が出来ると思われます。ただし、不用な超高音域を20kHzぐらいでカットして、可能であれば図-L21の(2)のようなリンギングが出ないよう工夫が・・・。
  • 視点を変えて、オンマイク(近接)でたくさんのマイクを使つたマルチトラック録音の現場やマスタリングでは、「高いサンプリング周波数を使用する」ことと、「ピックアップする楽器の周波数帯域に合わせて、個別により低い周波数のローパスフィルター(アナログ回路も含めて)を使う」ことで、このような現象を回避出来る・・・、必要かも・・・、今更の話かも・・・。
  • ちなみに、2nd歪みは3rd歪みに比べて音質にあまり影響しないとされている。

L の 項 ま と め


  • 高いサンプリング周波数は、悪では無い。ただし、超高域音(20kHz以上)を聴くためでは無く、可聴範囲内の高音域を正確に再現(特に録音時)するために必要なのではないか。
  • さらに、可聴範囲を超えた歪み信号は、L-1の項で示した「超音波が相互変調歪みの形で聴こえる場合もある」という副作用や「サンプリングによって作り出される歪み」もあるので、特に製作サイド(録音側)に対策として必要なのでは ? 。
  • また、聴く(再生)側ではfsを 1.5倍程度 (66.15kHz(44.1x1.5)や72kHz(48x1.5)」にすれば「DACのローパスフィルター」に余裕と自由度が出来て、歪みやノイズを減らせるかな ? 。でも、fsを高くすれば全てが解決する訳では無いとも考える。

M. サンプリング(時間軸)と量子化(電圧軸)を比較


  • 信号の周波数とサンプリング周波数、量子化ビット数の関係。

    なお、以下で量子化ビット数「16bit (65,536)」を「15bit (32,768、残り1bit は電圧の正負を定義している)」として扱っています。詳細は下記(N-1)しますが、「アナログ育ちの自分にとっては違和感がある」からです。

    ■ 図-M11. 信号の周波数によるfsと量子化数 (著者作成)

    fig_m_11.png
  • 図-M11の(1)は、X軸に信号の周波数、Y軸に信号の1波長におけるサンプリング数を設定して、サンプリング周波数を44.1kHz(黒実線)と176,4kHz(44.1kHzの4倍、黒破線)で、1波長あたりのサンプリング数を算出し、グラフにしたものです。さらに、信号の量子化が8bit(赤実線)と15bit(16bit相当、赤破線)の時の量子化数も表記しました。
  • (2)は、縦軸を信号の量子化数、横軸を1波長におけるサンプリング数とし、両者の関係を明示的に表記しました。
  • (2)のグラフからは、量子化が全てのサンプリングポイントにおいて15bit(16bit相当)で32,768stepであるのに対し、1kHzの信号でさえfs=44.1kHzの時で44.1回(1波長)、fs=176.4kHzでも176.4回です。
  • さらに、前図 Fig-B-3 で示したように、fs=44.1kHzの時の7kHzの信号に至っては1波長に6.3回でしかない。ただし、サンプリング数が信号の周波数に依存するため100Hzの信号でFs=44.1kHzの時には441回のサンプリング数になります。
  • なお、上記の量子化の分解能は、フルスケールの信号に対してのものであり単純に比べられない。例えば、-18dBの信号では 4096ステップ(12bit相当)、-36dBでは 512step(9bit)です。見方を変えると、最大出力を 1V とすると 1ステップが 約0.031mV(-90dB)で固定されて量子化されることになります。いずれにしても量子化は、サンプリングとは比較にならない ? 程の高い分解能になっています。
  • で、Wikipediaの標本化定理の項によると「波形の最大周波数の2倍以上の周波数で標本化すれば完全再構成」とのありますが、その下方に「工学的には、原信号に含まれる最大周波数成分を f とすると、2f よりも高い周波数 fs で標本化した信号は、低域通過(ローパス)フィルターで高域成分を除去することによって原信号を完全に復元することができる」と記されています。
  • でも、「原信号に含まれる最大周波数成分」の規定を考慮すると、fs=44.1kHzでは 22kHz(fsの1/2) まで「完全再構成、完全に復元する」は正しいのだろうか ? 。
  • 我々が聴く音のほとんどは基音(最も低い周波数成分)と高調波(2次、3次などの成分)によって構成されており、特に3次高調波は音質に大きく影響する成分であることを考慮すると、聞こえるかどうかは別として、7.35kHz(fsの1/2の1/3)の基音を持つ音までが実用範囲となるのではないか ? 。
  • fs=44.1kHzの場合には、「22kHzの信号(サイン波、三角波、方形波、・・・) → ADC → 方形波 → DAC → 方形波 → フイルター → サイン波」によって、22kHz(11kHz以上は基音のみ)まで再生出来るのであって、完全とは言えないが「再生出来る」なら正しいとは思います。

M の 項 ま と め


  • 「現行の「音をデジタルに変換する技法」では、「等ラウドネス曲線の低音の音圧が高く、高音の音圧が低い聴覚の周波数特性」も考慮に入れると、サンプリング周波数と量子化で共に低音域に手厚い変換を行なっていることになります。かといって、ノンリニアーでは編集処理が複雑になりそうだし・・・。ここに、改善の余地がありそうですが、著者の知識・能力では全く不足ですね・・・。
  • レコードでは、記録媒体の特性に合わせて録音時と再生時に各々逆特性のカーブによるイコライザーを現在も使っていますし、デジタル通信分野でも等ラウドネス曲線の逆特性カーブを使ってデーターを圧縮する方法に触れた特許出願も目にしました。でも、高速信号処理と大容量のUSBやSSDなどが安価に登場した昨今、こういったことは必要無くなったのかな・・・。現時点では、聴く側にとって「データー量が小さく、音がいい」が最も有難いのですが・・・。

N. 量子化(電圧軸の数値化)を考察


N-1. 量子化のビット構成に付いて


  • 音楽のデジタル信号での各ビットの役割。

    ■ 図-N11. 量子化のビット構成 (著者作成)

    fig_n_11.png

    図-N11は、「並木秀明著・Excelではじめるディジタル信号処理・技術評論社」の「第9章 アナログ信号のディジタル化」を参考にして、表を引用し、小生なりのイメージを図にして組み合わせたものです。
  • 図-N11左半分では、「16bit符号付きリニアPCM」(WAV)のビット構成を表しています。CDもこの構成になっていると思われます。
  • 一番上位のビット(赤文字)が「"0"がプラス電圧、"1"がマイナス電圧」とする±の符号を表し、残り15bitで信号の大きさ(電圧)を量子化しています。
  • すなわち、波形の「0 から +1」の信号を「 32,768 (15bit、2の15乗)ステップ」で、「0 から -1(0を含まない)」の信号を同様に「 32,768 ステップ」で数値化し、「プラスとマイナスを区別するために1bit」を用いて、「合計 16bitで表現している」となります。
  • 同図右半分では、マイナス値(青色)の数値化の方法を私なりに表現したものです。右端の波形図では、マイナス(青破線)を反転させてプラス側に移動させ量子化すると黒色の波形と同じ値になります。
  • 次に、「符号化(2の補数に変換)」の手続きとして<引用資料-N11>

     (1)「各ビットの0と1入れ替える(反転)」

     (2) さらに「1」を加算する」
    を行っています。この「符号化」によって、減算を加算で実現出来るようになるそうです。
  • ちなみに、アナログ時代からの著者は、この量子化が「16bitなので、65536(2の16乗)ステップ、96dBのダイナミックレンジがある」と表現する事に違和感を感じています。
  • なぜなら、図の波形がAC100Vの場合には「+1が+144V、-1が-144V」であり、この実効値が「144 X 0.7 = 100」なので通常は「AC100V電源」と表現しますが、「65536」の表現は「AC100V電源」を「288V電源」と表現しているように思えるからです。
  • ここでは、パルスの電圧を計っているのではなくて交流信号「AC,Alternating Current」を扱っているはずです。
  • 表の左の列で説明すると、最小波形(信号)は「プラス側が "1"、マイナス側が" "-1"の信号」であり、最大波形(信号)は「プラス側が "32767"、マイナス側が" "-32767"の信号」です。「信号の大きさの比は "1" と "32767" 」を比較して"32767倍"であり、「 20Log(32767) or 15(bit) X 6(6.0206dB) 」から「15bit、90dB のダイナミックレンジがある」が正しいのでは・・・。交流でしょ・・・。16bitで「65536の数値を表現出来る」ことは、理解しますが・・・。余談でした・・・。

    ■ 図-N12. デジタル編集で使う「32bit-float」の特徴

    fig_n_12.png
  • 図-N12は、デジタル編集が内部で計算に使う「32bit-float(符号付き、32bit浮動小数点数)」のビット構成です。一番上位のビット(赤文字)が±の符号を表す符号部、その下の8bit(青文字)が指数(小数点の位置)を表す指数部、さらにその下の23ビット(黒文字)が小数点の位置が指定されていない数値本体を表す仮数部です。<引用資料-N12>
  • 特徴的なのは指数部が追加されていることです。これは、Excelでお馴染み「100000=1.0E+05 or 0.00001=1.0E-05」の表現が出来ることなのでしょう。これにより、途中計算で扱える数値の幅が格段に増加して計算途中のクリップを防いでくれます。入り口と出口は、自己責任ですが・・・・。
  • iOSのAudioUnitは、いくつかの変遷をへて現在は「iOS 5ではさらにデフォルトが32ビットfloatに変更されている」と記載があります。<引用資料-N13,/本文最後>
    "私のApp" でも゙信号処理をするフォーマット(Audio Stream Basic Description)に "Float32" を設定しているので、32bit-floatとfloat32の差異の有無は調べきれませんでしたが「計算処理途中ではクリップのことは気にせず、最終的にレベルのつじつまが合えば良い」と思慮して使っています。floatは奥が深そうなので、ここまで・・・。

N-2. デジタルフェーダーと有効ビットの関係


  • デジタルフェーダーの動きによるレベルとビットの変化を考察した。

    ■ 図-N21. デジタルフェーダーとビット移動 (著者作成)

    fig_n_21.png
  • 図-N21の(1)は、iPhoneの「フェーダー (Volume)」を6dBづつ小さくして行った場合に「最下位から15番目までのビット」が移動する様子を簡易的に表現しています。

    黄色ベースの部分が "16bit"のDAC(デジタルをアナログに変換)が取り扱える入力ビットの範囲(以下では有効ビットと記す)内、白ベースの部分が範囲より小さいビット(以下では無効ビットと記す)を表しています。橙色ベースは、最上位ビットに位置を固定された符号ビットです。

    表上部の赤色数字が、フェーダーの移動量(dB)です。

    表左側の表に近い黒色数字は、最大値"0"から"-6dB"ステップでフェーダーの移動に伴うレベルの変化を表しています。

    表左側の表から遠い青色数字は、その時の音量(SPL)を"6dB"ステップで記しました。なお、最大値"102"は下記SMPTEの提案より「RMS値とPeak値の違い等々を考慮せず」((85+83)/2+18=102) から目安として記しました。ちなみに、「騒音計の測定結果と等ラウドネス曲線の曲線との関係は複雑なので[<参考資料-N21>](http://svmeas.rion.co.jp/support/st_sound.aspx)で確認して下さい。

    表の下方に示す赤色破線は、聴覚が知覚出来る最小音圧(閾値(イキチ)です。低域や高域は、もっと早く聞こえなくなります(図-E02を参照)が・・・。

    表右側の青色ベースの黒色数字は、24Bitの場合のビット位置を記しました。
  • ここで注目すべきは、16Bit時にフェーダーが "-42dB" では有効ビットが半減してしまうことです。それは、「聴力が正常な若者」に小生のiPhoneを貸した時に聴いていたフェーダーが "40%" 台だったから、有り得ない事では無いからです。(追伸)いい感じの音だと言ってくれたよ ! ! !
  • (2)は、著者が手持ちのiPhoneで測定した「Volumeの位置(%)とレベルの変化(dB)」を近似曲線で描いた「私的に測定した参考値」です。フェーダーレベルの目安が必要と思い記載しました。
  • ただし、「フェーダーが Max(100%)」の時に「EarPods から 102dB(SPL) の音圧」が出る訳ではありません。Appleや公式(あるいはそれに準ずる)測定結果を把握出来ていません。誤解なきように・・・。自分なりの目安は付けていますが・・・。
  • また、「フェーダーを Max(100%)」に固定し、レベルのコントロールにアナログボリュームを使った時には、「無効ビット」は無くなりますが「聴覚の閾値より小さい音」は聴こえません。
  • なお、iPhoneのデジタル出力では「フェーダーMax(100%)」時にフルビットが出力」されていたという記載をWebで目にしました。
  • レコードやテープなど既存メディアのダイナミックレンジを記した記事があったので紹介しておきます。[<引用資料-N22>](https://ja.wikipedia.org/wiki/ダイナミックレンジ)より抜粋。

      コンパクトカセット : およそ60dB

      FM放送 : およそ60dB

      レコード : およそ65dB

      オープンリールテープ : およそ70dB

      一般の音楽用コンパクトディスク : 96dB

      人間の聴覚 : およそ120dB
  • 下記の引用は、録音スタジオで基準音量を決める方法の一つです。<引用資料-N23>

SMPTE(米国映画テレビ技術者協会)が提案するSMPTE RP2000では、ピンクノイズ (-18 dB FS(rms))を再生した時のリスニング位置におけるスピーカ1本あたりの音圧レベルを下記のように調整するよう提案しています(dBC、SLOWフィルタを使用)。
 ◆ 映画ソース: 85dBC
 ◆ 音楽ソース: 83dBC

  • 他にもいくつかの設定方法があるようですが、提示した引用資料で確認してください。なお、本投稿では85と83の真ん中をとって「84dBC」を使って説明を進めます。
  • ピンクノイズによる音量設定と聴覚レベルの関係。

    ■ 図-N22. ピンクノイズと聴覚レベル (著者作成)

    fig_n_22.png

    図-N22の(1)は、ピンクノイズの波形、(2)がピンクノイズのFFT分析です。いずれも、フルスケールのピンクノイズのものです。帯域内の全ての周波数成分を含み、-3dB/Oct(周波数が2倍になるごとに3dBづつ低下していく)の周波数特性を持っています。ピンクノイズは、オーケストラのように楽器編成が多い音楽を長い時間幅でFFT分析した時の特性に近いとされています。

    (3)は、Cの周波数の重み付け(フィルター)の特性を記載しました。

    (4)は、黒実線の等ラウドネス曲線(10~100Phon)上に、-18dBのPinkNoiseを"C"で周波数の重み付けを行った信号の周波数特性を赤破線で、1kHzを84dB(SPL)に合わせて記したものです。さらに橙色で「上が102dB(SPL)、下が12dB(102-90)(SPL)のCDの規格が持つ90dBの表現可能範囲」を示しています。

    ただし、図は考え方を簡易的にイメージ化したものであることをご理解下さい。
  • 図-N22の(4)を見ると、「録音スタジオの大音量」から「最小可聴値近く」までをカバーしている。1979年前後にCDが開発された事を思うと、「CDの規格」が実に良く出来たものだったと敬服してしまいます。
  • 最大値100dBは、「古い等ラウドネス曲線で"100dB"あたりがフラットに近かったから選ばれた」との記載もWebで見たことがあります。
  • ただし、人間が常に90dBの可聴範囲を常に持っているとは思えなし、100dBの音圧の中に長居はしたくない大音量ではある。

    "C(周波数の重み付け)"と"SLOW(時間の重み付け)"は、<参考資料-N24>で確認して下さい。
  • iPhoneのDAC(デジタルをアナログに変換)の仕様をWeb検索したことが有るのですが、結果は「ICのメーカー名は特定出来たが、Appleの特注品のため仕様等の詳細は公開されていない」でした。<引用資料-N25>
  • 一応「ハイレゾ、iPhone、再生」でWeb検索をすると、すべてで外付けのDACが必要と説明されていることから、「iPhoneのDACは 16Bit 対応品」のようです。でも、聴こえる範囲はカバー出来ているから十分かな・・・。

N-3. 20dB小さい音を聴いてみる


  • 実験に使う曲は、マイケルジャクソン「THIS IS IT」の3曲目「They Don't Care About Us」の出だし部分です。

    ■ 図-N31. 実験用音楽ファイルの進行 (著者作成)

    fig_n_31.png

  • 図-N31は、曲の最初の60秒間部分で進行する曲の内容を時間経過で示しています。

  • 実験用音楽ファイルを分析する。
    ■ 図-N32. 実験用ファイルのFFT分析 (著者作成)
    fig_n_32.png

  • 図-N32の(1)は、曲の最初の60秒部分の波形です。紫色で囲った部分で演奏に「男性ナレーション」がミックスされています。(34~40秒の間)

  • (2)の緑色で囲った部分は、「男性ナレーション」のみの部分を拡大した波形です。

  • (3)は、紫色が(1)の紫色で囲った部分のFFT分析で、緑色が(2)の「男性ナレーション」の部分をFFT分析したものです。(画像処理で、重ねた)

  • 演奏音と「男性ナレーション」とでは、おおよそ20dBの差があります。いつも聴く音量で体感してみてください。また、Volumeを動かして20dBの音量差を確認してみてください。

  • 小生には、iPhoneの"私のApp"で「Volumeが44%」で、音楽は聞こえるが「男性ナレーション」の有無が判別できる程度です。あなたは、? ? ? 。

N-4. ビット不足を体感する


  • 下位のビットを消してビット不足を聴く実験。

    ■ 図-N41. ビットカット手順 (著者作成)

    fig_n_41.png

    この変換には、SoundEngine Free Ver4.51(Windows)を使用しました。なお、-54dBが一度で設定出来ない時は、-27dBを2回繰り返す等の工夫をして下さい。また、ファイルへの書き出しは必ず16bitで設定して下さい。ソフトによっては、上記変換をすると最後に変換前のファイルを読み出して来てしまいます(Audacityを含む)。簡単な機能のソフトがオススメです。ファイル名を変える等で、紐付きを切って処理する方法もあるかと思います(実験はしていません)。
  • 上図(1)から(6)の手順で、下位9ビットをカット(無信号、青い部分)にした音源を作ります。なお、前期したように最上位のビット(オレンジ色)は ± を表す「符号部」で位置は固定です。
  • 再生してみると、小さな音がある部分で「シャキシャキ」したようなノイズとして「下位ビット不足の音」を聴くことが出来ます。でも、本来の音楽が違和感無く聞けるのにビックリです。試してみて下さい。
  • JASのハイレゾ(96kHz/24bit)でも実験してみたいのですが、まだです。有効ビット数をどこまで減らしたら音質に変化が出て来るか聴いて見たいものです。
  • 何ビットから聞き分けられるかで、聴覚のダイナミックレンジが判明するかも・・・。加齢が進む小生の耳ではまともなデーターにならないので、聴力が正常な若者達による研究論文(卒論)に期待します。
  • マスキングやカクテルパーティー効果に影響されない信号を用いて、「一定量の音が在る中の最も小さい可聴音」ですよ ! ! ! 。「一定量の音」の大きさをいくつか選ぶことで聴覚の傾向が判明すると思慮します。どのみち、大きい音は「苦痛を伴ってでも」聞こえてしまうようですから・・・」。カクテルパーティー効果がマスキングに勝つことが有るかも ? 。

O. 聴覚の構造と聴こえる仕組みの不思議


  • この項は、「何故、等ラウドネス曲線がこんなに不思議なカーブになっているのか ? 」を知りたくて調べ始めました。が、最初に結果を明らかにすると「年寄りのにわか勉強では、明確には出来ません」でした。私の能力不足もありますが、残念なことに聴覚の全貌解明は途上のようです。ただし、ところどころでその片鱗が見えています。さ、本題へ・・・。
  • 私は、このテーマに出会うまでは「目は瞳孔の大きさで明るさに対応し、耳は鼓膜の張り具合で音の大小に対応している」程度の認識でした。調べてみてビックリです。何と複雑な構造とセンサー、制御機構を持っていることか。それが、すさましい数の神経を通じて脳に伝えられ、脳の中で再構築され「見る・聴く」の機能を我々に与えてくれていることか・・・、こんな方法でこんなに明瞭に聴きわけ出来るの、と思えるほど凄いですよ ! ! ! 。「音は脳で聴く」の意味がチョット解ったような気になっています。
  • なお、引用資料で「勝手な要約や画像の選択、色付けなどの加工を加えた」こと等を「引用元の方」にお詫び致します。また、お読み頂ける方には、「詳細や不明な点」は引用資料でご確認下さい。さらに、引用資料によって名称や数値が異なっているものがありますが、全体像を把握する事が目的であるため、そのまま記載しています。

O-1. 視覚の不思議


満月の月明かりと晴天では、照らされている面の明るさ(照度)は10万倍(100dB)以上違っています。そのために、目は明るさを感じて反応する二つ仕組みがあります。
一つは瞳孔反射といい、瞳孔の大 きさを変え、目に入る光の量そのものを調節するものです。瞳孔の直径は暗いときの約7mm(面積は 約40平方mm)から明るいときの約3mm(面積は約7平方mm)まてで変化します。しかし、面積の変化は10倍(20dB)以下程度ですので、これだけでは10万倍の明るさの変化に対処するのは困難です。
もう一つの仕組みが、網膜の感度を変化させるということで光順応といいます。網膜には光を感じる細胞が大きく分けて2種類あります。明るい場面で働き、色を区別することができる錐体という細胞と、暗い場面でごくごくわずかな光を感じることのできる杆体(かんたい)という細胞です。外の明るさの変化にともない、網膜ではこの2種類の細胞を自動的に切り替えて対応しているのです。
 なお、(100dB), (20dB)の記載は著者が追加しました。

  • あまりにも単純計算で恐縮ですが視覚の項をまとめると、2種類の照度幅50dBを持つ光センサーと20dBの光量調整をする瞳孔により構成される視覚を人間は持っている。ただし、2つのセンサーのオバーラップやセンサー自身にも感度を調整する機能がありそうですが、詳細は各自で・・・。ちなみに、著者の目は運転免許証ではメガネ不用ですが「明るい白壁を見ると小さな蚊が数匹飛んでいます」(病院で検査済み、加齢による飛蚊症、軽度なので経過を見る)です。

O-2. 聴覚の不思議 - 外耳と中耳


  • 耳(聴覚)の構造と音の入り口の仕組みを見てみます。

    ■ 図-O21. 耳(聴覚)の構造

    fig_o_21.png
  • 図-O21の(1)は、耳の主要器官を示している。[<引用資料-O21,p2>](https://www.jstage.jst.go.jp/article/jasj/66/9/66_KJ00006579569/_pdf)

    外側(左)から「耳介 → 外耳道 → 鼓膜 → 耳小骨(ツチ骨 → キヌタ骨 → アブミ骨) → 蝸牛(受音センサーの有毛細胞などを内臓)へと繋がっています。

    外耳道は、外耳道内の共振で約10dBのピークがあり「等ラウドネス曲線の3~4kHz辺りで下方に膨らんで感度が高くなっている部分」の特性を担っている。<引用資料-O22>](https://www.jstage.jst.go.jp/article/jasj/71/3/71_KJ00009813848/_pdf)、[<参考資料-O23>
  • (2)は、鼓膜とツチ骨、キヌタ骨、アブミ骨で構成された耳小骨の構造を示している。鼓膜が受けた空気振動を機械振動に変換し、蝸牛へと振動が伝わつていく。<引用資料-O24,/最後>
  • (3)の上側(筆者がカラー追加)は、耳小骨間の振動の伝わり方、下方は、耳小骨を経由して蝸牛内に伝わる振動の周波数特性を示しています。こんな所に「1kHzの少し上に約+20dBのピークを持つ周波数特性」があるとは・・・。<引用資料-O25,p2>
  • 耳小骨に付いている筋肉による調整もあった。<引用資料-O26,/後半>

耳小骨には筋肉がついていて、蝸牛に伝える振動の量を調整し、蝸牛に過剰な振動が伝わらない よう守る働きもあります。つまり、外部から入ってきた音を脳が正しく知覚するために重要な部分といえるでしょう。
ツチ骨(8~9mm)は頭部が球状で、関節のような動きをしており、キヌタ骨へとつながります。ツチ骨の頸部には鼓膜張筋という筋肉がついており、鼓膜の張力を調節しています。鼓膜が円錐形を保っているのもこの筋の働きによるものです。
キヌタ骨(全長はツチ骨よりも長い)は、その脚の先端からは豆状突起が出ており、アブミ骨頭への関節になっています。
アブミ骨(高さ4mm)にて鼓膜が受けた音の圧力が約30倍(+30dB)に 増幅され、内耳へとエネルギーが伝えられます。
アブミ骨にはアブミ骨筋という筋肉
がついていて、強大音が入ったときにアブミ骨の振動を制限し、大きな音から蝸牛を守る働きをしています。

  • 耳小骨の筋肉による調整で、特性の変化があるかをWeb検索しましたが具体的資料は見つかりませんでした。さらに、「膜と張力」で調べたら異業種なのですが <参考資料-O27,/後半> を見つけました。

    参考資料では、負荷を掛けることによって共振周波数が高い方に移動し、最大値が小さくなっています。

    この現象は、太鼓で中央を押して叩くのと離した時とでの違いに似ていて、鼓膜でも同様のことが起こっていると思慮します。知りたいのは、どの様に調整されるかとその時の感度と特性の変化ですが、そこまでは解りませんでした。

O-3. 聴覚の不思議 - 内耳の蝸牛(カギュウ)と有毛細胞


  • 蝸牛(カギュウ)の構造と有毛細胞(知覚)の働き。

    ■ 図-O31. 蝸牛の構造と有毛細胞

    fig_o_31.png

    図-O31は、<引用資料-O31>より引用しました。なお、(2)は見易くするため画像加工をしました。
  • 図-O31の(1)は、蝸牛の断面図です。文字が小さいのですが、有毛細胞が検知する周波数が最も太い入り口部分で20kHz、細い方に向かって次に7k, 5k, 4k, 3k, 2k, 1.5k, 1k, 800, 500, 400, 200と記載されています。基本的には、高音が入り口側で低音が奥であり、対数目盛で周波数を表すのに似た配置になっているようです。
  • (2)は、蝸牛を輪切りにした断面図です。図の左側(青ベース)は、蝸牛全体の断面を示しています。蝸牛の前庭階と中央階、鼓室階はリンパ液で満たされています。
    右側(白ベース)は、蝸牛中央で有毛細胞が有るコルチ器官の断面を拡大して、3個の外有毛細胞と1個の内有毛細胞の位置および周辺の様子を示しています。
  • 内有毛細胞は、センサーの役割で聴神経を通じ脳へデーターが送られます。外有毛細胞は、音振動を抑制(制御)する働きをします。
  • (3)は、有毛細胞(オレンジ色)と周辺の外観です。

O-4. 有毛細胞の詳細


  • 有毛細胞を含む聴覚の中枢部分を取り上げた論文からの抜粋です。<引用資料-O41>

有毛細胞と一次聴神経 : 基底膜の上には上部に固い毛が生えている有毛細胞が,内側に 1列,外側に 3列,整然と並んでいる。内側に並ぶものを内有毛細胞(IHC: inner hair cell),外側に並ぶものを外有毛細胞 (OHC:outer hair cell)と呼ぶ。
ヒトの内有毛細胞(IHC)は片耳に約3,500個ある。一つのIHCには複数個の一次聴神経(AN)が接続している(AN: primary auditory nerve)。
ヒトの外有毛細胞(OHC)は片耳に約12,000個ある。OHCにはほとんどANが接続されておらず,上位の神経核からの遠心性神経が接続している。OHCは基底膜振動系の能動的な制動器として機能している。
■ 遠心性神経 : 中枢からの興奮を末梢へ伝導する神経(goo国語辞書より)。これは、一本のラインでOHCからOHCへ順送り(多数のOHCを一つの信号で制御)していることのようです。(著者追加)
なお、OHCに接続する極少数の一次聴神経は、高い音圧レべルの刺激音には応答することが分かり,耳を大音量から保護する役目を果たしていると推測されている。
一次聴神経の応答特性 : ヒトの一次聴神経(AN)は片耳に約3万個ある。一つのIHCには10~20個のANが接続しているが、低域や高域を担当する場所にあるIHCには少数のANが,1~3kHz を担当する場所にあるIHCには多くのANが接続している。なお、ANの問で相互作用はない。
ANには発火感度の高いものと低いものとが混ざっている。最小聴閾値が低い周波数では,感度の高いANを発火させるのに必要な音圧レベルは0dB(20μPa),そのときの基底膜の変位幅は数nm程度である。

■ 発火 : 神経細胞に刺激が加わり、活動電位が生じること(goo国語辞書より)。(著者追加)

発火頻度情報と発火間隔情報 : 各ANのダイナミックレンジは高々数十dBである。 しかし一つのIHCには感度の異なるANが多数接続しているので,それらの出力をまとめると,入力音圧に対する広い ダイナミックレンジを確保できる。
ANのインパルス発火の間隔は、そのANが担当する周波数帯域に含まれる音信号波形の周期を表現している。ニューロン(神経細胞)は一度インパルス発火すると次のインパルス発火を起こせるようになるまで待たねばならない絶対不応期がある。
ANの絶対不応期は約1msで,一本のANでは1kHz以下の周期にしか同期発火できない。しかし,複数のANの活動をまとめると,4kHz 程度までは入力音の周期に同期した発火が認められる。
このように、人力した音は蝸牛内で周波数分析され、その 周波数スぺクトル情報と波形の周期情報がANのインパルス発火パターンとして符号化される
ただし,ANの発火頻度が表現する音のスペクトルは、離散フーリエ変換なドによって求められる「物理的」なスぺクトルと同じではない。それは,基底膜振動系の非線形な振る舞いが反映された聴覚系内スぺクトルで,周波数マスキングなどの効果が反映されている。
この聴覚系内スヘぺクトル上に表現される音の特徴を強調・抽出するのは聴覚中枢系の仕事である。ヒトを含む霊長類の聴覚皮質は側頭葉の上側頭回の上にあり,シルビウス溝の中に隠れている。

聴覚関連皮質 : 聴覚皮質から側頭葉及び前頭前野へ向かう経路は音源識別に係わる聴覚の"What”経路,聴覚皮質から後部頭頂野へ向かう経路は音源定位に係わる聴覚の"Where"経路であることが霊長類では確認されている。しかし,この"What"経路で,聴こえた音をどのよう識別しているのかについては分かっていない。皮質下の聴覚中枢系で,音の識別に係わるどのような特微が強調・抽出されているかさえ、定かではない。"Where"経路についても状況は同じである。
ニューロンについてはこちらで
<参考資料-O42>

  • ん~~~ん、聴覚は、なかなか難しいですね。鼓膜に入ってきた音を振動に変換し、蝸牛の中でアナログ的な方法で周波数毎に分離し、それぞれの強さを検知する、さらにセンサーそれぞれからの多数のデーターを脳に送り、再構築して・・・。音声認識はどうなっているんだろう ? ? ? 。
     大きな音で音楽を聴いていると、入り口に近い高音域の外有毛細胞(OHC)から壊れていくようですから若人はご用心を ! ! ! 、年寄りは、きっと手遅れですね。
  • 有毛細胞をイメージする。

    ■ 図-O41. 蝸牛内の有毛細胞の位置と数量 (著者作成)

    fig_o_41.png
  • 図-O41は、蝸牛と有毛細胞の関係をイメージし易くするためのものです。

    上部の緑ベースの部分に「20~20kHzを対数スケール」を用いて「88鍵盤の標準的なピアノの音域」をピアノ鍵盤風に記し、赤目盛線で「20~20kHzをオディオで使う標準的な1/3オクターブ」を表示した。

    中央の緑ベースの部分には、「約3,500個あるという内有毛細胞(IHC)を30分の1し、単純計算で求めた1/3オクターブに並ぶ115個のIHCの量を10本毎に色分けした線で表現した。

    下部には、「水平に引き伸ばした蝸牛に20Hzと20kHzの位置」を示し、IHCの周波数配列を表現した。
  • 基底膜の長さが約35mmで、そこに約3,500個の内有毛細胞が一列に整然と並んでいる。隙間を考慮すると単純計算で、有毛細胞の太さは「数μm」か「nm」オーダーである事になる。さらに、約12,000個の外有毛細胞が並んでいる。凄いでしょ、イメージ出来ます ? 。でも、きっと人体では普通にあることなんでしょうね。
  • 本当は、この図を使って「この内有毛細胞が一本一本が周波数特性を持っていて・・・」と進めるつもりでしたが、違いました。この項は忘れて、次に進みます・・・。

O-5. 聴覚フィルターの詳細


  • 蝸牛の構成とフィルター。
    ■ 図-O51. 蝸牛の構成とフィルター
    fig_o_51.png

  • 図-O51の(1)は、音振動が蝸牛内を伝わる構造を示したものです。<引用資料-O51, 図(1)含む>

蝸牛には、アブミ骨から音波振動が入力する卵円窓と蝸牛に加えられた圧を放出する正円窓、さらに前庭階、 鼓室階、中心階の三室がある。蝸牛に加えられた音波により卵円窓が押されると、基底膜は鼓室階へ向かって動かされ、正円窓は中耳腔へ向かって押し出される。
基底膜上には、聴覚受容器であるコルチ器が長軸方向にあり、感覚有毛細胞である内有毛細胞と外有毛細胞が並んでいる。これらの 有毛細胞の上部および下部は支持細胞や組織により基底膜上に支えられている。有毛細胞の上部には毛が生えている。
基底膜が被蓋膜に向かって動かされたとき、毛もそれにつれて動く。毛の動く方向に依存して、有毛細胞の膜電位が変化する。動く方向により膜電位は脱分極と過分極がある。この脱分極により、ニューロンより聴神経線維を伝播して脳へ伝えられる。
音波は、リンパ液に伝わり、長さ約35mmの基底膜を振動させる。それは進行波(約7m/s)で、入力音の周波数ごとに最大振幅となる場所が異なっており、周波数の情報を基底膜の場所に変換するフィルタとして動作する。
基底膜は、従来は受動的な振動系でフィルタとしての共振特性は固定と見なされていたが、音圧に依存してその共振特性が変化する能動的な非線形系であることが分かってきた。

図-O51の(2)は、振幅が最大となる周波数特性を6個(250, 500, 1,000, 2,000,4,000, 8,000Hz)の聴覚フィルタとして示している。六つのフィルタが,周波数に関わらず同じような形状を持つことと、中心周波数が高くなるにつれて帯域幅は広くなることが分かります。実際の聴覚フィルタは,外界の音環境や音圧に依存して、その特性が変化する非線形の時変フィルタです。
図-O51の(3)は、聴覚フィルタの音圧依存性です。音圧が低いとフィルタの利得が大きく,音圧上昇ともに 利得が減少する。30dBで中心周波数における利得が0dBと最も大きく,音圧上昇と共に利得が減少して,90dBでは利得が約-35dB になっていることが分かります。また,同時に,フィルタの帯域幅も音圧上昇と共に序々に広がる傾向があることが分かります。
この他にも,二音抑圧や耳音響放射などの蝸牛における非線形現象が知られています。

 著者追記 : 他の資料では、可聴範囲に聴覚フィルタが20個ぐらいあるようです。

  • 図-O51の(2)のフィルター曲線のすそ野を見ると、「-58dB以下ではフィルターとして機能しない」と読み取れるのではないでしょうか ? 。聴覚の可聴音圧範囲との関係はどうなんでしょう。答えは見つかりませんでした。

  • なお、図-O51の(3)の中心周波数2kHzのフィルタカーブの入力レベル(赤文字)は、上から30, 40, 50, 60,70, 80, 90dBです。また、同図内の薄青ベースのグラフは各フィルターの最大値を、X軸に入力、Y軸に出力レベルとしてグラフ化されたもので、黒破線が「 1 対 1 」の目安で、赤実線がこのフィルタのものを表しています。ここにも、非線形現象が見られますが「等ラウドネス曲線」の2kHzでの入出力は「 1 対 1 」に近く、更にいくつかの非線形現象による影響が加わっているのか、あるいは脳内プログラムによる補正か ? ? ? 。

  • 基底膜と共震位置による周波数解析。
    ■ 図-O52. 基底膜の共震位置
    fig_o_52.png

  • 図-O52の(1)に、入力周波数が0.5kHz、(2)に5kHzとした場合の進行波による基底板振動(共震)の様子を、(3)には基底板振幅が最大と成る部位と周波数の関係を示している。(1)~(3)のX軸は「基底板(膜)上の位置(左が入口)」を表しています。(1)と(2)のY軸は「振幅(変位量[nm])」で、「(1)の目盛が ±0.1、(2)の目盛が ±0.01」です。(3)のY軸は「周波数(一番上が100kHz,一番下が10Hzの対数目盛)」です。<引用資料-O53,p3>

基底板にはアブミ骨側から蝸牛孔側へ伝播する進行波が発生し, その振幅が最大と成る部位は, 入力周波数によって異なっている。これは, 蝸牛形状による基底板表裏のリンパ液圧差、および基底板幅の変化による固有周波数の違いによるものである。基底板が最大振幅となる部位で、有毛細胞の発火頻度も最大となることが予想される。すなわち,末梢の感覚器に於いて、既に音波の周波数解析が成されている事が分かる。

  • 出ましたね ! ! ! 「聴覚周波数解析の仕組み」。絶対音階を持つ人がいる事は知っていましたが、基本機能を皆んな持っていたんですね。でも、私は、ズボラな人生を送っていたのでmy脳にその為のブログラムが無いので、音の高低(周波数)を比較出来る相対周波数感覚しか持っていません。あなたは、? ? ? 。
  • でも、その奥がありました。情報だけです。深くは、各自で・・・。<引用資料-O54,/聴覚に関連する話題 → 聴覚皮質のトノトピー >

内耳の基底膜において音が周波数分解されているのと対応するように、聴覚皮質においても音の高低に対応する配列があることが以前から電気生理学的に知られており、近年の 脳機能イメージング研究でも確認されている。この周波数に対応する中枢 神経系の配列を「トノトピー」という。

O-6. 見つけた「耳の繊細な働き」の研究


  • 音の強さの変化は、「神経発火のタイミングの変化」としても脳に伝達される。
    「分かってきた耳の繊細な働き(NTT Communication Science Laboratories)」と題され、2016年の日付のあるものです。<引用資料-O61>

副題 : 内耳における振幅変調ー周波数変調変換システム
 私たちは、耳から出てくる音(耳音響放射)を使って、その特性を調べてきました。
[従来の考え方] 音の強さの変化は、「神経発火の反応強度の変化」として脳に伝達される。
[本研究の成果] 音の強さの変化は、「神経発火のタイミングの変化」としても脳に伝達される。
 本研究の成果は、加齢などで耳の機能が低下した場合に、どのような聞こえの困難が生じるのかを解明することに繋がります。

O の 項 ま と め


  • 大まかにとえると、「聴覚は、疎密波である音を振動に変換し、進行波の共振という現象を利用して「周波数と大きさ」の2つの要素に分解して脳に送り分析や認識をしている。その過程では、幾つもの非線形な特性を経由して、千差万別の音色を持つ楽器も全てを聞き分けることが出来る。さらに、飛行機のエンジンからの爆音から針が床に落ちる音までも聞くことが出来る。不思議ですね・・・、すごいですね・・・。
  • 聴覚器官の大部分が頭の骨の内側にあるため、その解明に困難が伴い「聴覚に付いては、完全に解明されている訳ではない」ようですが・・・。でも、凄いことになっているんですね ! ! ! 。
  • なお、引用資料の発表された年代が確認出来ていません。取り上げた理論には、その後新しい理論に置き換わっているものがあるかも知れません。また、私の解釈が間違っているものもあると思慮していますし、著者にご迷惑をお掛けするかも知れません、ご容赦下さい。
  • もろもろ、年寄りが頑張って畑(分野)違いの領域に踏み込んだ結果だと笑って許して下さい。ただ、オーデォと聴覚とを結びつけた議論から、両分野の研究が進展すれば幸いです。

P. 聴覚に関連するデーター


P-1. 聴覚障害者の聴覚周波数特性


  • 聴覚障害者の聴覚特性から学こと。

    ■ 図-P11. 聴覚障害者の可聴範囲 ((2)は著者作成)
    fig_p_11.png
    図-P11の(1)で、赤破線で示した新等ラウドネス曲線は著者が追記しました。ただし、90phon以上で発表規格に無い部分は著者が推定したものです。
  • 図-P11の(1)は、可聴レンジが狭小化した聴覚障害者の特性です。<引用資料-P11,p34>

引用資料の34ページの "図 3.3 "の説明として
リクルートメント現象による可聴レンジの狭小化。感音性難聴によってリクルートメント現象が生じると、聴覚障害者の可聴レンジが健聴者よりも狭くなる。狭小化の度合いとそれが現れる周波数には、症状によって個人差がある。
測定・評価方法として
繰り返し提示される様々な音圧レベルの刺激音に対して、「非常に大きい」から「聴こえない」までを5~7段階に分け、感じた大きさに対応する評価語を被験者に選択させる。

内耳障害(特に内耳有毛細胞障害)では、難聴であるにもかかわらず、ある一定の音量を超えた音が健常耳に比べ、より強く響き・また耳に刺激を感ずることがある。そのような内耳障害に伴う聴覚過敏症の症状を聴覚補充現象と言う。
感音性難聴を伴わない聴覚過敏症とは必ずしも同一ではないが、表面的な事象としては大部分で重なる。

  • 図-P11の(2)は、青線と赤線が(1)のグラフから聴覚障害者の不快レベル(青)と最小可聴レベル(赤)の測定値を読み取り、聴覚量に変換して、Y軸を聴覚量のグラフにしたものです。緑線は、下記の図-P21より「60代の最小可聴レベル」を聴覚量に変換して記しました。

    グラフの最小可聴レベルで赤線と緑線を比べると、聴覚障害者の赤線が明らかに異常だと判断出来ます。また、聴覚障害者の青線と赤線とを比べると低域が急激に低下(感度が高い)している。

    問題は、赤線と緑線に囲まれた区域であろう。40~60Phonには、会話やテレビの音声があるので不便だろうと思う。素人ですが・・・。

    青線と赤線は、どちらも水平に近い方がいいのではないだろうか ? ? ? 。

    また、Hearing Level(聴覚量)のスケールで表現することで、物理量で見るのとは違う景色が見えて来ますね ! 。

P-1 の事例から「聴覚障害者の特性」の分析を試みる


  • 著者はこの事例から、次のような要因を考えた。

    ■ 図-P12. 聴覚障害者の特性」の分析資料 (各転記元の引用資料を確認して下さい)
    fig_p_12.png
    図-P12の(1)は、Q-2の項の図-Q21の(1a)、(2)は、O-5の項の図-O51の(3)、(3)は、Q-2の項の図-Q21の(2a) より転記し、(1)と(3)に赤色破線で追加の記入をしました。
  • まず、図-P11の(2)の赤線(聴覚障害者の最小可聴レベル)と緑線(60代加齢症状者の最小可聴レベル)を比較して、その違いに付いて考察した。
     (a) 図-P11の(2)の赤線と緑線の両端(125Hzと8kHz)で双方が非常に近い位置にある。
     (b) 図-P11の(2)の赤線が全体的に緑線より感度が悪い。
     (c) 図-P11の(2)の赤線と緑線の1kHzから4kHz間が上下間隔が広い。
    ことから、図-P12の(1)の赤破線で示したように「中耳の特性が変形して、固まっている」と考えた。これは、入力音の「音圧感知」と「感度調整」の一方 又は 両方の機能が働かない、又は 制御する神経経路が断裂している。又は「中耳内の耳小骨の筋肉に異常がある」などと考える。
  • 次に、図-P11の(2)の赤線(聴覚障害者の最小可聴レベル)と青線(聴覚障害者の不快レベル)との間隔を比較して、その違いに付いて考察した。
     (d) 図-P11の(2)の赤線と青線の1kHzから4kHz間が上下間隔が狭い。
    ことからは、図-P12の(3)の赤破線で示したように、「基底膜の進行波共振の非線形特性に異常がある」可能性を考えた。
  • その他、「蝸牛内の調整機能である外有毛細胞(OHC)」も機能していない可能性もあり、いくつかの要因で「感度調整が特定の位置で固定状態にある」と仮定しました。(素人考えですが)
  • 結果、受音センサーである内有毛細胞(IHC)が機能していることで、聴覚の特性が素に近い状態で出てきているのではないかと考えました。
  • これらは、「Q.聴覚のダイナミックレンジを考える」に大きなヒントを与えてくれました。

P-2. 老化に伴う聴覚の周波数特性


  • 加齢による最小可聴レベルの変化。

    ■ 図-P21. 加齢と最小可聴レベル ((2)は著者作成)
    fig_p_21.png
  • 図-P21の(1)は、年齢別の最小可聴レベルを測定した一例です。参加者は、20代6人、30代11人、40代12人、50代22人、60代32人、70代7人(男女比は不明)と記載されています。また、測定にはヘッドホンを使用したと記してあります。<引用資料-P21,p2>
  • なお、一般的に知られている加齢の特性はこちらで確認して頂きたいのですが、次に示す記載にも注目しました。。<引用資料-P22,p2>

WHO(World Health Organization)の定義では、良聴耳における 500、 1000、2000、4000Hz の4周波数による平均聴力レべルにおいて、25dB 以内が正常と位置づけている。

  • 図-P21の(2)は、(1)のグラフから40~70代の測定値を読み取り、換算し、等ラウドネス曲線のグラフの上に重ねて記載したものです。なお、(1)のグラフの「20,30代がほぼ水平であることから(1)のY軸の"0dB"が等ラウドネス曲線の最小可聴レベルと推定」し、換算しました。
  • 図-P21の(2)からは、低音域は等ラウドネス曲線のカーブに従うように聴覚が減退していくのに比べ、高音域は加速度的に減退しているように読み取れる。
  • なお、私自身が「聴覚の加齢による現象」を体験していました。アナログ実証機を製作している頃にアナログ発振器を使ってスピーカーのチェックをしていた時です。周波数を徐々に上げていくと10kHzぐらいで音が聞こえなくなったのです。ところが、発振器の出力ボリュームをちょっと上げると普通に聞こえるではないですか、それもスイッチをON/OFFするように、あるレベルを越えると中低域の周波数の信号と同じように聞こえるのです ! ! ! 。この時は、加齢とは結びつけられませんでしたが、後日Web検索をしている時に同様の体験談を見つけ、「加齢による現象」だったと理解しました。
  • 聴覚の加齢による「最小可聴レベル(閾値)は、音が聞こえると聞こえないの境界線」です。境目は、徐々にではなく、スイッチをON/OFFするように変化しました。著者も、華麗に加齢になっていた・・・でした。若者には、大きな音量で音楽を聴いていると、音の怨霊(音量)から難聴という賞状(症状)が送られて来るそうですから、音(恐)ろしや、音(恐)ろしや、・・・。

P-3. マスキング現象とカクテルパーティー効果


  • マスキング現象とカクテルパーティー効果の概要。

    ■ 図-P31. マスキングとカクテルパーティー効果 ((3)は著者作成)
    fig_p_31.png
  • 図-P31の(1)は、「周波数が接近した強い音と弱い音が同時に発生した場合,弱い音が聴こえなくなる聴覚マスキング特性」のイメージ図です。<引用資料-P31>
  • 図-P31の(2)は、マスキングを発生させる音の周波数と強さを変えたときのマスキング範囲を示した図です(抜粋)。なお、グラフの目盛は共通しており、X軸は0~4kHzを400Hzステップで、Y軸が0~100dBで最小可聴眼(値)との音圧レべル差で表記されています。<引用資料-P32>

純音によるマスキングはすべての周波数に対して一様に生じるのではなく、その範囲は限られている。
マスクする音より高い音は広い範囲でマスクされやすく、低い音はマスクされにくい。
マスクする音のレベルが増加するとマスキング量が増加するとともに、マスクされる範囲が広がる。

  • 聴覚には、図の(1)(2)に示した「同時マスキング(周波数マスキングとも言う)」とは別に、「継時マスキング(経時or時間マスキングとも言う)」がある。<引用資料-P33>

聴覚における継時マスキングとは、突然大きな 音がしたとき、その前後の音が聞こえなくなること。
先行する音がマスクされる場合を逆向マスキング、後続の音がマスクされる場合を順向マスキングと呼ぶ。
逆向マスキングの場合は約20ミリ秒まで、順向マスキングの場合は約100ミリ秒までが限度である。

  • 図-P31の(3)は、「カクテルパーティー会場」の一場面をイメージするためのイラスト図です。「図では、パーティー会場に人々が集まり5っのグループで各々の会話が弾んでいます。通常、右下の5人グループで赤破線の人は自分のグループの会話のみを聞きますが、興味深い話を始めた上中央の4人グループの発言を聞き取ることができます。この現象を「カクテルパーティー効果」と呼びます。この効果は、マスキングとは相反する現象であり、脳が大きく関与しているようです。詳しくは、こちらで。<参考資料-P34>](https://swingroot.com/cocktail-party-effect)、[<参考資料-P35>
  • ちょっと余談ですが、「カクテルパーティー効果」では、日本人にわかりにくく、「飲み会効果」をイメージする。「ピンスポット効果」とか、「ガンマイク効果」、「盗み聞き効果」ではチョットダメか、望遠鏡(テレスコープ)をもじって「サウンドスコープ効果」は ? ・・・、何かダイレクトにイメージ出来る名前はないものだろうか ? 。日本語では「音声の選択的聴取」だそうで、命名の経緯を含めこちらで。<参考資料-P36>
  • ホーカルの近くに同じ帯域を持つ楽器などを定位させていないのは、この現象によるボーカルへの悪影響を避けるためなんでしょうね。逆に、ボーカルがいなくなると同じような帯域を持つサックスなどのソロ楽器が出てきますよね ! ! ! 。

P-4. 騒音の目安と距離による音圧の変化。


  • 代表的騒音源の騒音値と音源からの距離による音圧変化。
     ここで注意です。騒音値は、「Aカーブ」フィルターを用いた騒音計で測定する感覚量ですが、音圧は周波数に関係ない物理量です。測定数値は異なります。[<参考資料-P41>](http://svmeas.rion.co.jp/support/st_sound.aspx)

    ■ 図-P41. 騒音値と距離による音圧 ((2)は著者作成)
    fig_p_41.png
  • 図-P41の(1)は、全国環境研協議会 騒音調査小委員会が2009年に発表された「騒音の目安 (都心・近郊用)」です。項目が大きく変更になっているため古いもの(騒音値の基準と目安)との比較が難しいのですが、「騒音目盛の最大値が100から90へ」と「ガード下が100から80のチョット上に変更」になっています。<引用資料-P42>](http://tenbou.nies.go.jp/science/institute/region/journal/JELA_3404022_2009.pdf#search=%27全国環境研協議会+騒音基準%27)、[<参考資料-P43>
  • 図-P41の(2)は、点音源からの距離と音圧のグラフです。通常は距離を1mからそれ以上離れた場合を表現していますが、イヤホンを意識して10mmまでを記しました。外耳道の長さが 30 mm(0.03m)程度ですから、イヤホンを耳に押し込むのと軽く引っ掛けるのとで音量が違ってきます。<参考資料-P44>

P-5. その他の現象


無響室とは「 音がまったく響かない部屋」のことです。
騒音テストを行ったり、音響機器などの試験を行うために使われる特殊な部屋です。
普通 の空間ではありえないようなところで、声を出しても、手を叩いても、すべてが吸収され、消え てしまう、まさに「DEAD」な空間です。
入り口を閉じると、何も聞こえなくなる代わりに、自分の血が流れる音が聞こえてきてしまう、 ちょっと気味悪い空間です。

  • と書いていたら、裏付けるニュースが2018年4月1日に出ました。エイプリールフールによるフェイクニュースでなければいいのですが・・・。<引用資料-P52>

しばらくの間じっと立っていると、自分の心臓の鼓動が聞こえてくる。耳鳴りの音が耳をつんざく。動けば骨がきしむ音を立てる。やがて平衡感覚がなくなる。反響音の一切ない環境が、空間認識力を破壊するためだ。
この部屋は、米ワシントン州レドモンドのマイクロソフト本社内にある。外部の音は完全に遮断され、室内で発生する一切の物音を抑える。ここが「無響室」と呼ばれるのは、一切の反響を生じさせないことによる。拍手をしても、不気味なほど音が響かない。ここは世界一静かな場所だ。

  • 聴覚は、音が無い空間では極限まで感度を上げて音を探した結果、血流音まで聞こえるようになるようですね。この現象は、最小可聴値(スレッシュホールド)以下にまで可聴範囲が広がったことを意味するのでしょうか ? 。聴覚には、こんな現象を起こす機能もあるんですね。

Q. 聴覚のダイナミックレンジを考える


Q-1. 等ラウドネス曲線自身が持つ手掛り


  • 等ラウドネス曲線の非線形な中の線形な部分。

    ■ 図-Q11. 等ラウドネス曲線の非線形と線形 (図は著者作成)
    fig_q_11.png
  • 図-Q11は、(1)の「等ラウドネス曲線の下部4本(赤破線、30~60phon)の信号」と「(2)の特性を持つ1本(赤線)のフィルター」をプラス(フィルター処理)すると、(3)の「等ラウドネス曲線の上部4本(赤破線、70~100phon)の信号」にイコール(変換)となる「等ラウドネス曲線の非線形の中の線形な特性」を示しています。
  • なお、対象にした信号は変化が多い「20~1kHz」を用い、グレーの等ラウドネス曲線は見易くするためのガイドです。
  • 図-Q11の現象は、等ラウドネス曲線を周波数単位で表現すると、次図の図-Q21の(2b)や(3)のように30phon以上では線形な特性を持っているからです。
  • ここで示したかったのは、等ラウドネス曲線とHearing Level(聴覚量)の間に、1つのフィルターでこのようなコントロールが出来る特性が潜んでいることです。

Q-2. 等ラウドネス曲線の「不思議なカーブ」の手掛りを聴覚から探る


  • 等ラウドネス曲線の非線形部分の意味。

    ■ 図-Q21. 等ラウドネス曲線と聴覚の非線形 ((1b),(2b),(3)は著者作成)
    fig_q_21.png
  • 図-Q21の(1a)は、「O-2の項、図-O21の(3)」で提示した「中耳の鼓膜と耳小骨」による音波を振動に変換する時の周波数特性です。なお、グラフのピーク(中心周波数)は1.5kHz前後と読み取れます。

    中耳では、音圧に反応して筋肉の働きでゲインを調整する機能があることまでは解りました。しかし、ゲインやそれによる周波数特性がどのように変化するのかの資料は見つけられませんでした。ただし、この後の蝸牛内で共振による周波数分析があることから、中耳内では波形の変形(波形歪み)は無いと思慮します。

    高域の低下は、蝸牛内の内有毛細胞が中耳に近い方から奥に向かって高域から低域へと配置されていることで、振幅が大きい高音の振幅調整(低下)をする役割があるのではと思慮する。

    (1a)を見ると、「著者者がシャワーを浴びていて耳に水が入ると指を突っ込み水を出そうとして指を抜いた後にキーンと1kHzよりは高い音が聞こえることがあり、これが鼓膜の共振音なのかな ? 」と想像しています。とすると(1a)と合致するのかな ? 。

    < 注 目 > 著者が、(1a)の低域直線部分が変化する事を体感出来る事を見つけたのです。それは、「我が家のトイレに付いている換気扇にはキリキリという中高音のベアリングが擦れる音とヴウォーという空気(風)音が出ています。で、「うぅ〜ん と ふんばる」と、換気扇の「キリキリ音の音量は変わらず」、「ヴウォーという空気音は聞こえないぐらいに小さくなる」ことに気付いたのです。この現象は、息を止めて力む事により「血圧が上がることで特性が変化した」or「中耳内の気圧が上がり、鼓膜が低域で振動しにくく成った」、「筋肉の力みが耳小骨に付いている筋肉にも作用した」などと考えを巡らしたが確たる結論は得られなかった。でも、これって我々がドカンと大きな音がした時に、体中に力を込めて身構える動作に通じているのでは ! ? 。聴覚の周波数特性が変化する実例ではないか ? ? ? 。

    ■ 図-Q22. トイレの換気扇で気付いた聴覚の特性が変化する実例 (著者作成)
    fig_q_22.png
    そこで、気になったので録音してFFT分析してみました。
  • 図-Q22の(1)は、「Audacity」でFFT分析した結果です。図に書き加えた左の赤い楕円が「ヴウォーという空気音」で、右の赤い楕円が「キリキリとベアリングが擦れる音」だと思われます。
  • 図-Q22の(2)は、(1)に「新等ラウドネス曲線」を目盛スケールを合わせて重ねたものです。なお、録音したマイクの位置で簡易騒音計(A特性)により測定したところ50dB前後の値でしたので、FFT分析結果の1.5kHz辺りにあるピークを50dB(SPL)と仮定して配置してあります。実験・研究テーマが有るぞ ! ! !

    スピーカーから、2kHz前後のワーブルトーンとピンクノイズに100Hz辺りの高いQをもつバンドパスフィルターを通した音を出し、被験者が重い荷物を「踏ん張って持ち上げる」ことで簡易的な実験が出来るかも ! ? 。扉を開けられるかな ? 。

    なお、インピーダンスオージオメータと言う「鼓膜や耳小骨の可動性及び中耳腔の状態を調べる検査」が出来る測定器をWebで見つけましたが、手掛かりとなる「測定データーや解説」を探したのですが見つかりませんでした。[<参考資料-Q21>](http://www.kobayasi-riken.or.jp/news/No128/128_4.htm)

    図-Q21の(1b)は、「Fの項、図-F01の(3)」で提示した「「等ラウドネス曲線の80phonを基準で録音された信号を、1kHzを基準として10dBステッフで音量を下げて再生した場合に聴覚が感じる周波数特性」」です。なお、(1b)は、X軸とY軸の目盛を(1a)に合わせました。

    図-Q11を含めて低域のカーブ(直線)に共通点ありそうですが、これ以上は(1a)側のデーターが見つからなくてなくて解りません。
  • 図-Q21の(2a)の小さいグラフは、「O-5の項、図-O51の(3)」で提示した「蝸牛内の聴覚フィルターの中心周波数が2kHzの周波数特性」です。

    大きいグラフは聴覚フィルタが音圧に依存して変化して起こる非線形な「聴覚フィルタの中心周波数の入出力特性例」です。

    ここで注目するのは、普通に考えるとフィルターの入出力信号は破線で示す "1:1" の関係なのですが、グラフでは「音圧が低いとフィルタの利得が大きく,音圧上昇ともに利得が減少」する「約 "1:0.5" 」の不思議な聴覚フィルタの音圧依存性です。

    これは、「O-4の項」にあった「外有毛細胞(OHC)は、基底膜振動系の能動的な制動器として機能する」の作用によるものなのか ? 。もしかして、聴覚は圧縮したデーターを脳で処理しているのか ? 。あるいは、これを元にもどす他の特性があるのか、または等ラウドネス曲線で低域の間隔が狭まっていことに関係しているのか・・・判然としません。
  • 図-Q21の(2b)は、「等ラウドネス曲線の周波数ごとの入力(SPL)対出力(Hearing Level)」の30dB以上の「聴覚の入出力特性」です。

    グラフでは、1kHzより高い周波数は "1:1" に近い傾きなのですが、500Hzぐらいから低い周波数では徐々に(2a)とは逆方向に傾きはじめて31.5Hzで「約 "1:1.5" 」になっています。
  • 図-Q21の(2c)は、「O-5の項、図-O52の(3)」で提示した「基底板振幅が最大と成る部位と周波数の関係」をX軸とY軸を入り変えたグラフです。X軸が周波数、Y軸が蝸牛内の位置での位置で上が鼓膜に近い入り口側で、下が蝸牛の奥になっています。

    グラフは、1kHzより高い周波数は直線的(線形)で、500Hz以下では徐々に水平になる曲線(非線形)になっています。

    ここで注目したのは、もし内有毛細胞(IHC)が蝸牛全体に同じ密度で並んでいるとすると「10~100HzがIHCの "10%",100~1kHzが "30%"、1~10kHzで "44%"」の割合になっている。すなわち、高域ではIHCの密度が高く低域では密度が低くなっています。

    (2c)に見られる現象は、(2a)と(2b)の特性に影響を与えていると思慮するが・・・。
  • 図-Q21の(3)は、小さいグラフの「等ラウドネス曲線のグラフに記入した赤の縦線で示す」63Hzと125Hzの周波数ごとの入力(SPL)対出力(HL)の「聴覚の入出力特性」です。

    ここで注目するのは、63Hzと125Hzの曲線が共に「30phonの少し下のレベルから上部の線形(赤直線で近似)から外れて非線形になって行く」ことです。

    このレベルあたりから、「無響室の様な特別な聴覚の領域」に入るための感度調整が始まるのではないかと考えました。しかし、「中耳の鼓膜と耳小骨に付いた筋肉の作用」なのか、脳が特別な処理を始めるのか、原理は判然としませんが・・・。
  • でも、段々と等ラウドネス曲線と聴覚の特性が近づいて来たように感じませんか ? 。

Q-3. 「聴覚のダイナミックレンジ」に大胆な独自仮説を立てた


  • 以下では、一般的に認知されている「人間が可聴できる音の大きさの範囲である"聴覚のダイナミックレンジ(120dB)"」を次に示す2つのタイプに分けて説明します。

    (1)カバードレンジ(Covered range、カバーされた範囲)
    これは、一般的に使われている聴覚のダイナミックレンジに相等します。

    (2)フィクスドレンジ(Fixed range、固定された範囲)
    これは、カバードレンジ内に位置し、下記の「フィクスドレンジを定義する」で示す特徴を持つものとします。

    なお、(1),(2)の関係は下記の「図-Q41」で確認してください。
  • フィクスドレンジを定義する。

    「フィクスドレンジ」は、上下の範囲(幅)が一定で、「聞こえる音の大きさによる刺激や聞こうとする意思」によってカバードレンジ内を上下に移動すると仮定します。なお、上とは「大きい音を聞く時の状態」、下は「小さい音を聞く時の状態」を意味します。

    「フィクスドレンジ」の上部は、「上部より大きい音は、刺激を伴って聞こえる性質を持つ」と仮定します。さらに、「刺激が継続することや聞こうとする意思」で「フィクスドレンジ」全体を上方向に移動させます。

    「フィクスドレンジ」の下部は、「下部より小さい音は聞こえない性質を持つ」と仮定します。さらに、「聞こえない状態が継続することや聞こうとする意思」で「フィクスドレンジ」全体を下方向に移動させます。

    「フィクスドレンジ」は、「適度の騒音と大きな音による刺激がない時には、特定の位置にもどる性質を持つ」と仮定します。
  • 聴覚正常者の「フィクスドレンジ」を読み取ってみる。

    前記聴覚の項で記載があるように我々の聴覚には感度を調整をする機能が幾つもあるし、先に記した「大音量のコンサートホールでの例や無響室」のように実際に体感も出来る。

    聴覚が音圧変化のない期間(一定音圧状態)の「フィクスドレンジ」を先に示したデーターで、推定すると。

    (1)「図-N21の(1)のフェーダーレベル "-36dB" での有効ビット数 "9 bit" 」
    からは、(6 X 9 = 54)で、約54dB 。

    (2)「図-O51の(2)の聴覚フィルタの周波数特性」からは、約58dB。

    (3)「図-P11の(1)のグラフの "250,500,1kHz"での最小可聴レベルと不快レベルの差」の平均からは、約54dB(Hearing Level)。
    これにより、「フィクスドレンジ」は、54dB程度となるのではないか ! ! !
  • 次に、フィクスドレンジの移動範囲を推定すると。

    (4)最小可聴レベルが、「等ラウドネス曲線の最小可聴閾値」から 0dB(Phon)。

    (5)最大可聴レベル(不快閾値)が、「図-P11の(1)のグラフの記載から120dB(Phon)。

    ここからは、「0~120dB(Phon)の範囲」を「フィクスドレンジ」が移動する
  • さらに、フィクスドレンジの常置位置(Home Position)を推定すると。

    (6)通常の最小可聴レベルが、「図-Q21の(3)の曲線が非線形になる」26dB(Phon)。

    (7)「P-2の項、引用資料-P22」のWHO定義「平均聴力レべルにおいて、25dB以内が正常」による 25dB(Phon)。

    これらにより、暗騒音などを考慮すると通常時の「フィクスドレンジ」常置位置は、下方レベルが26dB(Phon)で上方が80dB(Phon, 26+54)と推定した。
  • 以上(1)~(7)から、通常状態では54dBの幅を持った「フィクスドレンジ」が、聴覚が感じた音量に従い「26dB~120dB(Phon)の範囲」を移動していると推定出来るのではないか ! ! ! 。なお、26dB(Phon)以下は非日常であり、無響室での現象は異常な状態と分類した。
  • フィクスドレンジの正体・特性を想像する。

    「フィクスドレンジ」の移動は「聴覚に危険がある場合は素早く、通常は分単位のゆっくりしたスピード」で徐々に移動する。また、状況によって、周波数範囲も含めて「聴く意思による脳の指示」に大きく影響されて移動すると思慮する。

    聴覚にとって楽(安定)な位置があり、それは下図の「Home Position」であり、必要が無くなればこの位置にもどると考える。

    ただし、移動に反応するレベルが音波のピーク値によるのか、平均値、実効値(RMS)、または他のレヘルなのかわからない。一案として、「平均値が可聴範囲の70%あたり」が聞きやすいはどうだろう。また、単発より継続する刺激に反応するように思う。

    もう一つ、音を聞き分けるのはリニアスケールで、音の大きさの感じ方が対数的か、さらに圧縮した量として感じているのではないかと思う。それは、120dB(10の6乘)の幅に対する感じ方にそれ程の大小差を感じないからです。また、可聴範囲が移動すると「移動量も含めて音の大きさを感じている」と思われる。

    いずれにせよ、「常時120dBの可聴範囲が維持されている」とするのは、「O-1. 視覚の不思議」の視覚の仕組みからの類推を含め合理性に欠けると思慮する。
  • しかしながら、著者がmyAppで出力レベルを「50%から徐々上げて行くと「可聴範囲(フィクスドレンジ)が広がって行き、聞こえる楽器が増えていく」ように感じることから、「フィクスドレンジの位置によって上下幅が多少変化する」のではないかとも感じる。もっとも、著者の加齢による最小可聴閾値のせいなのかもしれないのですが、残念ながら裏付けるような手掛りはありませんでした。数値的なものを含めて、将来の解明待ちとさせて頂きます。

Q-4. 「カバードレンジとフィクスドレンジ」を図で具体的に表現する


  • カバードレンジとフィクスドレンジを図で確認する。

    ■ 図-Q41. カバードレンジとフィクスドレンジの推定 (著者作成)
    fig_q_41.png
    図-Q41は、著者の推定を説明するためのイメージです。また、図-Q41の(1)で、グレー破線の等ラウドネス曲線で90phon以上で発表規格に無い部分は著者が推定したものです。
  • 図-Q41の(1)は、推定したフィクスドレンジ(赤色部分)とカバードレンジ(白ベース部分)をY軸に聴覚量(感覚量、Hearing Level、HL)として表現したものです。
  • 図-Q41の(2)は、(1)の要件をY軸に音圧レベル(物理量、Sound Pressure Level、SPL)として表現したものです。なお、背景に等ラウドネス曲線を破線で表記しました。
  • フィクスドレンジの場面に応じた移動。

    ■ 図-Q42. 推定したフィクスドレンジの移動 (著者作成)

    fig_q_42.png

    図-Q42は、著者がフィクスドレンジの移動の推定を説明するためのイメージです。
  • 図-Q42の(1)は、極端な例です。

    上部の青色で示しているのは、「ロックコンサートの客席前方でスピーカー前に陣取った場合」をイメージしています。ここでは、通常の会話は出来ず耳元で大声を出します。

    下部の赤色で示しているのは、「無響室に入った場合」をイメージしています。聴覚にとっては、音を探す極限状態にあると思われます。
  • 図-Q42の(2)は、聴くことに集中した時の「カクテルパーティー効果」状態での例です。

    上部の青色で示しているのは、「ベースを勉強中の人がコンサートで、ベースの演奏とそのテクニックを聴き逃すまいと集中している場合」をイメージしています。ここでは、他の楽器の音は耳に入らない状態です。

    中央の緑色で示しているのは、「パーティーで、隣のグループにいる大先輩の発言を聴き逃すまいと集中している場合」をイメージしています。ここでは、自分のグループや周りの雑多な会話が耳に入らない状態です。

    下方の赤色で示しているのは、「子供を産んで間もない母親が、少し離れたところで作業している時に、赤ん坊の泣き声を聴き逃すまいと集中(聞き耳を立てている)している場合」をイメージしています。

    この図の可聴範囲が狭くなる現象は、「テレビでサッカー観戦をしている時に地震を知らせるテロップが表示され、文字を読んでいる間に得点シーンを見逃してしまう」経験に似ている。視覚では、視野の中に画面全体が入っているのに、「脳が文字を読むことに集中することで、文字以外の部分を無視する脳の機能」が働いた結果だと考える。
    聴覚でも脳の働きにより、同様な機能があるだろうと推察する。それが、「カクテルパーティー効果」であり、PA(ステージ音響)に関わっていると経験する現象であり、楽器を演奏する方も同様だと思し、みんなが意識せずに使っていると考える。
  • 図-Q42の(3)は、フィクスドレンジがホームポジションにある時の加齢による影響です。

    図では、青色破線が40代、緑色破線が60代の最小可聴レベルを示しています。推定した「ホームポジション」では、60代が高音域で「緑破線より下のレベルの音が聞こえない」という影響を受けます。

    なお、図-Q21の(1)で示した加齢に関するグラフのデーターが125~8kHzの範囲しか無いため、本図では高低両サイドの直線をそのままの角度で延長してあります。多分、もう少し影響が大きいと思われます。

Q-5. 「フィクスドレンジ」の移動を裏付ける現象


  • 代表的な現象として「E.等ラウドネス曲線とその歴史」の項でも紹介したが、大音量のコンサートホールに扉を開けて入ると、しばらくは「うるさい」と感じるが、すぐに慣れてしまう。逆に外に出てすぐの会話は大声だが、いつしか普通の声量による会話にもどっている。
  • 音響効果として「音にメリハリをつける」場合。

    大きな音として音を出す場合には、事前に少しづつ音量を下げて行き、お客を小さい音に慣れさせてから、元の送出レベルにもどして音を出して大きな音として印象付ける。

    同様なことは、コンサートで客入れが始まると「客席内がざわついてBGMもほとんど聞こえないが、「まもなく開演を知らせるベルやアナウンス」が流れると、客席は静まりBGMも十分に認識出来るようになる。この状態を暫くキープして、少し大きめの音量で演奏を始めると華々しくコンサートが始まった印象をお客に与えることが出来る。

Q-6. 使っていた「フィクスドレンジ」とその移動量の考え方


  • みなさん、気付かれました ? 。この考え方を既に使い、本稿でも記載していました。

    「Q.聴覚のダイナミックレンジを考える」の「N-1. 量子化のビット構成に付いて」に記した「32bit-float(符号付き、32bit浮動小数点数)」での「指数部と仮数部」の関係にそっくりではないか ! ! ! 。ただ、移動するスピードは大きく異なりますが・・・。

    小数点の位置を指定する「指数部」が「フィクスドレンジの移動量」、小数点の位置が指定されていない数値本体を表す「仮数部」に「フィクスドレンジ」を当てはめられるのではないか ? 。ちなみに、聴覚レベルでのビット構成に当てはめると「符号部」に1bit、「指数部」には10bit、「仮数部」が9bitで、合計20bitとなる。

Q-7. 可聴音圧範囲を感覚と絡めて考える


  • 「O-5」の後半「基底膜と共振による周波数解析」の項で、人間の聴覚での周波数に対する「絶対音階と相対周波数感覚」に付いて記しました。ここでは、音の大きさで「絶対音圧感覚」と「相対音圧感覚」があるのかを検証します。もちろん、「O-1.視覚の不思議」の項も参考に考えます。
  • 「Q-3.聴覚のダイナミックレンジに大胆な仮説を立てた」の項で示したように、聴覚が「フィクスドレンジ」と「カバードレンジ」という仕組みを持っていると仮説を立てました。また、「カバードレンジ」は、「フィクスドレンジ」と「フィクスドレンジの移動量」の要素で表せるとの考えにも辿り着きました。
  • 結果、「フィクスドレンジ内の大きさ」と「フィクスドレンジの移動量」の要素を加算すると「音圧」を感知出来るのではないでしょうか ! ? 。
  • 周波数感覚は、周波数への感覚を「ピアノの音程」という対比する相手があり「周波数と感覚」を結びつけて記憶することが出来ます。
  • しかし、音圧感覚は騒音計を所持して測っていないと「音圧と感覚」を結びつけて記憶することが簡単には出来ません。
  • でも、いますね ! 。職人さんです。彼らは、機械の調子を「機械から出る音の音質や大きさ」で判断してくれます。
  • ここでは、人間には、「絶対音圧感覚」と「相対音圧感覚」もあると結論させて頂きます。凡人は、どちらも「相対感覚」です。「絶対感覚」は、脳を鍛える必要があります。

Q-8. Q の 項 ま と め


  • 結局、オーディオ技術から考察した結果としての「図-N22の(4)」と、聴覚を分析し推定した結果である「図-Q41の(2)」は同じような結果となった。もちろん、最大値を「図-N22の(4)」では102dB(SPL)と設定し、「図-Q41の(2)」で120dB(SPL)とした違いはあります。
  • これらを総合的に考えると、音楽再生に必要な量子化は下位の信号を余裕を持ってに表現するために「9bit + 3bit」の12bit程度あれば十分なのではないかと感じました。
  • しかし、超高音域のためではなく1kHzあたりから上の帯域に対する情報量を増やす目的の工夫が必要なのではないだろうか ! ! !
  • それは、次の理由です。
    (1)等ラウドネス曲線で示されているように、高域は低域より音圧が小さいので使うbit数
    が少ない。→ 量子化案件(聴覚と音圧(物理量)の周波数特性の違いを補間する量子化技術)
    (2)「図-Q21の2c」で示したように、蝸牛内で1kHz以上で音のセンサーである内有毛細胞(IHC)がより多く割り当てられている。→ サンプリング案件(可聴範囲内で1波長あたりのサンプリング数を聴覚に近づける)。
  • 聴覚とオーディオのデジタル技術の間には、まだまだ解決すべき案件があるようですね。人間の聴覚の改造は出来ませんので、オーディオ技術が進化しなければならないのでしょうね。単純に量子化とサンプリングの数を増やすだけではなく・・・。音源制作プロセスではなく、販売メディアに対してです。
  • こんな技術も出て来ましたね。「MQAコーデックは「ハイレゾ音源が持つ膨大な情報量を、CD並みのコンパクトなサイズに限りなくロスレスで圧縮する「オーディオ折り紙」技術が特徴だ」とありました。詳細は理解出来ていないのですが、「MQAとAACと合わせた」あるいは「新たな圧縮方法」が考え出されることで、解決してくれる日が来るでしょう。<参考資料-Q81>

R. 音の定位と広がりに付いて


  • ここでの「音の定位や広がり」は、市販のCDに録音された2チャンネルの音源をヘッドホンやイヤホンで聴くこと対して付加するための技術に関するものです。マルチチャンネル録音やその編集などの制作段階やマルチスピーカーによる「音の定位や広がり」を加える方法、「聴覚の定位に関する理論」に付いては、以下の参考資料などで確認して下さい。<参考資料-R01>](http://isospace.sakura.ne.jp/03_world_of_3dsound/world_of_3dsound.html)、[<参考資料-R02>](http://eto.com/2000/intermusic/chapter6.htm)、[<参考資料-R03>
  • 耳に届く音の違いと聴覚の定位に関わる要件を考察する。

    ■ 図-R01. 耳に届く音の経路と定位要件 ((1),(2)は著者作成)
    fig_r_01.png
    図-R01の(3)は、「視聴覚情報概論」(昭晃堂発行、昭和62年発行、現在は絶版になったと思われる)の「11.量耳聴と方向知覚、125ページの図11.5 (Mills,1960による)」で記載されているものより引用しました。図中の赤と青は著者が色付け加工しました。なお、引用資料は国会図書館で正規手続きによりコピーを入手していたものです。
  • 図-R01の(1)は、スピーカーを使った場合、(2)はヘッドホンやイヤホンでの耳への音の伝わり方をイメージで示しています。

    大きな違いは、スピーカーでは両チャンネルの音が両方の耳に入力されますが、イヤホンやヘッドホンでは、L-chの音はL側のみ、R-chの音はR側のみに入力されます。

    我々が聴くほとんどの音楽CDでは、スピーカーを用いてモニターする環境で調整や編集作業が行われています。

    結果、我々はスピーカーで聴く時に感じられる「音がする方向」や「音の広がり」を、イヤホンやヘッドホンでは聞き取れなくなると共に、頭内で左右の耳を結んだ線上に音が並ぶ現象が発生します。この現象は、聴覚が「自然界ではあり得ない状況」に置かれることにより起こるとされ、「違和感や聴き疲れ」を感じてしまいます。
  • 図-R01の(3)は、スピーカーとヘッドホンそれぞれによる「両耳間位相差の検知閾と両耳間強度差の検知閾」のグラフで、「破線が位相差(左側の目盛を使用)、実線が強度差(音量差、右側の目盛を使用)」です。なお、線の色はスピーカーが黒色で、ヘッドホンの位相差を青色、強度差を赤色により示しています。

    グラフからは、位相差(時間差)ではスピーカーとヘッドホン共に1kHzを越えると急激に聞き分け出来なくなり、強度差(音の大きさの差、音量差)は精度の違いはあるが可聴周波数範囲内は聞き分けが出来る特性となっています。このように、聴覚自体は大差なく定位を感じることが出来るのです。なお、位相差(時間差)は「O-4の項」に記載の「一次聴神経(AN)の絶対不応期は約1msで,一本のANでは1kHz以下の周期にしか同期発火できない」ことが原因とされています。

    これらから、イヤホンやヘッドホンで聴く時には「中央近くに定位するもの以外は、それぞれの耳だけにしか入力されない」=>「聴覚は比較する相手が居ない」=>「位相差や強度差を知覚出来ない」となる負のスパイラルを解消する必要があるのです。
  • そこで考え出されたのが「音像定位の補正」と言われる手法です。
    (1)強度差(音量差)を知覚出来るように、右の音を左に、左の音を右にクロスしてミックスする。
    (2)位相差(時間差)を知覚出来るように、(1)の信号にディレー処理を加える。
    (3)反射音や残響を表現する、エコーやリバーブ、ディレーなどのエフェクトを加える。
    (4)耳や肩などの構造に影響される特性や効果を、イコライザーなどを挿入して加工する。
    などを行います。
  • しかし、これらの信号処理は、

    (a)「中央に配置されたボーカルやソロ楽器」の音質に影響を与える。

    (b)制作者サイドが意図したイメージとは、異なる雰囲気や音楽表現になる。

    (c)元の音源にある「音の広がりや動きを表現している効果音」が埋没し、聞き取れない。
    などの逆効果も発生します。
  • "私のApp"では、「音像定位の補正」の要件に対し試聴と考察を繰り返した結果、

    「頭内で左右の耳を結んだ線上に音が並ぶ」現象を回避することを最優先とし、最小限の補正に抑えた「DSP処理」を組み込みました。

    これにより、「音質への影響や制作者のサウンドデザインに対する自由度を狭くする」ことを最小限に留めることが出来ました。

    出来上がった補正には、派手な変化はありませんが「音像定位を頭の外側に広げたい」や、「音の広がりを感じる」、「分解能が高まる」、「聴き疲れしないで楽しめる」などの特徴・機能を持ったAppとして仕上がりました。

    もちろん、前記した「ラウドネス周波数特性補正」による相乗効果もあり、その効果を聴き取り体感することが出来ます。
  • なお、Webで見つけた論文の中に「音像定位」関するものもありました。結論としては、「人間の聴覚が音がする方向を検知する精度はそれほど高くなく、視覚や記憶に影響される」でした。これは、「映画鑑賞でスクリーン中央から音(声)が出ていても、声の主がスクリーンの右端に映っていると右端から聞こえるように感じる」などの現象で確認できるようです。
  • この項では、<参考資料-R04>](http://www.jas-audio.or.jp/jas-cms/wp-content/uploads/2013/11/012-019.pdf#search=%27ヘッドホン再生における音場再生とは+亀川+徹%27)、[<参考資料-R05>](http://www.asj.gr.jp/qanda/answer/126.html)、[<参考資料-R06>などを参考にしました。

S. 楽器(発音体)の特性と聴く人間の事情


S-1. 楽器の特性


  • 楽器、スピーカー、声、など音を発する全てのものが指向性を持っている。また、低音と高音でその指向性は異なっており、「普通は高音の指向性は狭く、低音が広くなる」傾向の特性です。ここでは、楽器の指向性と周波数帯域幅について触れてみます。
  • 楽器の指向性と周波数帯域幅を見る。

    ■ 図-S01. 楽器の指向性と周波数帯域幅 (著者によるイメージ加工あり)
    fig_s_01.png
    図-S01の(1)は、奏者の上面図(Top View)を90度回転させ、横姿の向きに正面を合わせました。また、(2)と(3)に元グラフに目盛を合わせた等ラウドネス曲線を背景に加えました。横軸の周波数範囲は、63~8kHzで、縦軸の音圧は、40~120dB(SPL)です。
  • 図-S01の(1)は、2013/11/3「NHKスぺシャル 至高のバイオリンストラディヴァリウスの謎」に「楽器演奏分析第一人者として紹介されていた牧勝弘先生」の「名前とストラディヴァリウス」で検索をかけて見つけた[<引用資料-S01>](https://www.jstage.jst.go.jp/article/jacc/60/0/60_8/_pdf/-char/ja)から一部を引用したものです。なお、比較し易いものを選びました。

    このデーターは、無響室で「バイオリン演奏者の周囲に球状に多数のマイクを配置し、楽器からの音を全周にわたって立体的に収録・分析した」もので、楽器から発する音の広がり方(音響空間放射特性)が明確に読み取れます。

    (1)で特徴的なのは、側面(Side View)で「約550Hzでは下方に放射され、1.2kHzでは上方に放射される」ことです。さらに、この資料の図には「異なる熟練度の奏者(楽器も異なる)のデーター」も記載されていて、その違いの大きさには驚かせられます。

    このことは、楽器、演奏者そしてマイクの位置によって音量や音質が違うことを想像させます。もっとも、このようなデーターが無いだけでバイオリンに限ったことではなさそうです。トランペットやトロンボーンを代表に、正面と側面などで明確に異なっています。
  • 図-S01の(2)は、ヴァイオリンとチェロ、(3)ではトランペット、ホルン、トロンボーン、ユーホニュームとチューバの周波数対音響パワーレベル(原理的には拡散音場に属する置換音源法を適用した音圧レベルでの周波数特性)を示しています。<引用資料-S02>](https://www.jstage.jst.go.jp/article/souonseigyo1977/20/1/20_1_29/_pdf)、その他にも[<参考資料-S03>などです。

S-2. 人間の事情に合わせる


  • また、上記の様な楽器自体が持つ音質(音色)と共に、聴取者が持っている楽器の音色に対するイメージ(記憶)があります。人間は、長い年月を掛けてテレビやステレオ、コンサート、あるいは自分で楽器を演奏してみることなどで脳にしっかり記録されています。それは、楽器の音を聴くだけで楽器の名前を云い当てられることでも確認出来ます。
  • そのため、録音制作やPA作業では、イメージを合わせる為や演出としてイコライザーを代表に多くのエフエクター(音響効果装置)を用いています。
  • 極端な例として、バイオリンのコマにピンマイクをつけてピックアップした信号を「200Hzから上を-6dB/Octでハイカットするフィルターで処理し、リバーブをタップリ加える」こともあります。
  • いずれにしろ、マイクで拾った音をそのままミックスする訳ではないのです。ま、「いろいろ」ありですが・・・。面白いですね。<参考資料-S04>](http://www.unipex.co.jp/seihin/story/pdfdata/pa_story10.pdf#search=%27グラフィクイコライザー+周波数%27)、[<参考資料-S05>

S の 項 ま と め


  • このように、いろんな条件や目的があってマイクでピックアッフされ、記録されたものは、現在のアナログとデジタル技術を駆使して加工されています。
  • ましてや、マルチチャンネルで録音した素材からのミックスダウンであれば、「定位や広がり」までも自由に変えることが出来ます。
  • もちろん、iOSで使えるAudioUnitにも、多数のエフエクターが用意されています。
  • ただし、2チャンネルにトラックダウンされてしまった音源の加工には限界があります。でも、聴きたい曲のほとんどは2チャンネル音源で提供されています。

T. 開発作業で使った音源


  • 開発作業で使った音源の一部を羅列します。人間が古いので最新の作品はありません。また、ボーカルは絶頂期の録音を選んで聴いています。よりメジャーな作品を記しました。なお、下記の「緑色文は著者よりの感想や情報」です。
  • クラッシック

    (1)THE FOUR SEASONS (ANTONIO VIVALDI、IMUSICI PINA CARMIRELLI)

    (2)サンサーンス 交響曲第3番ハ短調作品78<オルガン付> (ダニエル・コンゼンバ(オルガン)、ベルリン・フィルハーモニー管弦楽団、指揮:ズービン・メータ)

    (3)ベートーヴェン第九(ベルリン・シュターツカベレ&ベルリン放送合唱団)

    (4)ベートーヴェン第五「運命」(シモン・ボリバル・ユース・オーケストラ)

    (5)2CELLOS (LUKA SULIC & STJEPAN HAUSER)
  • ジャズとR & B (海外)

    (1)BASS ON TOP plus 1・ PAUL CHAMBERS 古い録音だが、いつ聴いても好き。

    (2)SUPER BASS (RAY BROWN,JOHN CLAYTON)

    (3)JAZZ Millennium (WES MONGOMERY,MILES DAVIS,JOHN COLTRANN,等々)

    (4)Essential Standards Best - Venus Jazz Piano Trio

    (5)Venus Jazz Lounge - Relaxin Afternoon Tea Time

    (6)Manhattan Records Label Compilation_Vol.1 R&Bの曲がグルプ違いで11曲入っている。
  • 古き良き時代のボーカル(海外)

    (1)Jazz The Best - THE BEST VOCAL (ルイ・アームストロング、他、3枚組のDisc-1)

    (2)THE BEST OF CHANSON (愛の讃歌~ベスト・オブ・シャンソン)(ジュリエット・グレコ、他)

    (3)S.O.S. THE BEST OF ABBA (アバ)
  • 外せない(海外)

    (1)MEGA ELVIS (エルヴィス・プレスリー)

    (2)NOTHING BUT THE BEST (フランク・シナトラ)

    (3)NO.1 DIANA ROSS & SUPREMES(ダイアナ・ロス & シュープリームス)

    (4)THE BEATLES 1 (ビートルズ)

    (5)THIS IS IT (マイケル・ジャクソン) 人、金、時間、時代などの全てのクリエィティブ要素をフルに投入した最高位のアルバムだと思う。

    (6)THE FAME (レディー・ガガ)

    (7)THE VERY BEST ENYA (エンヤ) 低域があって初めて分かる、音空間の世界観がある。

    (8)アナと雪の女王(Disney、Disc-1/Track11,15,23 と Disc-2/日本語吹替曲<)
  • 古き良き時代(日本)

    (1)美空ひばり三回忌に寄せて、美空ひばり オン・ステージ (美空ひばり、昭和48(1973)年1月19日、東京厚生年金大ホール、Disk2)、「美空ひばり」を聴くならこれ。

    <参考>資料によれば、この日の「美空ひばりストーリー・ワンマンショー」をニッポン放送が放送し、同時に「世界最初の歌謡曲のPCM/デジタル録音」が行われた。その他,「1985年5月に原因不明の腰痛を訴える」とある。元気に美空ひばりらしさを聞かせてくれる貴重な録音(CD)だと思う。何故か、CDを買って持っていた。調べたが、このCDの音源がどれなのかは不明でした。LPも発売されたらしい。

    (2)THE BEST 山口百恵(山口百恵)、イヤホンなら、堂々と聴ける。

    (3)こころね (イルカ)

    (4)TAKURO YOSHIDA -THE LIVE BEST- (吉田拓郎)

    (5)PINK LADY MEGA HITS!! (ピンクレディ、Disc1/Track13,メガ・ヒット!!・メドレー) 大胆で面白い追加編集がされていて、編集技術の一面が聴けて、楽しく元気にしてくれる。

    (6)Stories All Songs Requests (高橋真梨子)

    (7)加山雄三 OriginalTheBest (加山雄三)

    (8)小椋佳・自分史 (小椋 佳) 朗読や「しおさいの詩」に短いが海岸の効果音がある。エコーの使いがチョツト ? かな。
  • 外せない(日本)

    (1)日本の恋とユーミン(松任谷由実)、ユーミンとこのアルバムは、外せない。

    (2)海のYeah!! (サザンオールスターズ、Disc1/Track15/忘れられたBIG WAVE) こういうコーラス曲も、好きです。

    (3)Singles II (中島みゆき) // 愛すべきものすべてに(尾崎豊) ようやく、この二人の曲を楽しめるように成った。低域の大切さを感じる。

    (4)どーも (小田和正 Track-9 / 今日も どこかで) 後半での大コーラス(客席?)が加わる演出が大好き。さらに、最後にバンドにもどる雰囲気がナイス。

    (5)井上陽水GoldenBest(井上陽水) 曲ごとの変化とドラマティクさ、独特なあじわいが楽しい。一部の意味不明歌詞も彼の世界観の一つ ? 。

    (6)スペクトラム スーパー・リミックス 1991 (スペクトラム)
  • その他 (ベストヒットや全集的な異なる歌手やバンドの曲を集めたアルバム。この中から好みの曲をピックアップし、個人的なアルバムにして「昭和」を聴いている。)

    (1)演歌 ; クラウン歌う王冠50 // 走れ歌謡曲 // 有線ヒット全曲集//・・・。

    (2)フォークソング ; ForkHitsBestSelection // 日本のBestNewMusic100 // 日本のフォーク アンド ポップス // フォーク黄金時代40 //・・・。
  • 見つけたミステイク

    (1)前記「美空ひばり オン・ステージ 」Disc2/Track3/母/最後の最後でVocalが歪む。// おそらく、ひばりさんが声を張る時にはマイクを口から離していたのに、気持ちが入って逆に口に近づけたためにヘッドアンプかリミッターでレベルオーバーが発生したかな ? ? ? 。レベルを下げて目立たなくしてある。一発勝負だったのかな ? 。

    (2)前記「THE BEST 山口百恵」Disc1/Track11/赤い絆 / ベースがダラダラと連続して鳴っている。 // 演出かな ? とも思ったが、別のビックな有名歌手の曲でも見つけたので、おそらくリミッター/エキスパンダーの掛け過ぎとモニターSPの低域が帯域不足で聞き逃したのかな ? 。アルバム中の1曲だけなので、演出だったら、ごめんなさい。

U. 大音量を控えて耳を大切に


  • イヤホンやヘッドホンを愛用する方に、大音量で聴く事によって耳に障害が発生する危険があるとの注意喚起が出されています。フランスでは、規制する法律もあるようです。耳寄りな情報ですので、下記参考資料にアクセスし記事に目を通して注意しましょう。

    「耳を大切にしましょう」へ < 参考資料-U01 >

    「ヘッドホン難聴」にご注意、感覚毛を破壊。へ < 参考資料-U02 >
  • もう一つ、「あなたは縄文人・弥生人? 自分のルーツが一瞬でわかる方法」の記事です。興味があれば、ご一読ください。ここでのポイントは、「耳たぶ : 大きい、耳あか : べトべト」or 「耳たぶ : 小さい、耳あか : 乾いている」です。< 参考資料-U03 >
  • さらに、イヤホンやヘッドホンで音楽を聴くことの目的が「世俗からの逃避」にならないように注意しましょう。

V. 用語解説で確認する


  • Webでオーディオ(or音響)用語集を検索すると、日本オーディオ協会をはじめとして、各オーディオメーカーや販売店、輸入代理店、・・・等々で公開する沢山の「用語集」が出てきます。それぞれの目的に合わせて調べて下さい。ここでは、電気オーディオ分野の著者にとって珍しい分野からのものを参考資料としてご紹介します。

    「日本聴覚医学会用語集」へ は、御迷惑をお掛けしたようで「アクセス出来ない」状態に成っていました。URLを削除させて頂きます。URL元に御迷惑をお掛けした様でしたら、申し訳ありませんでした。2019-03-17 by Try-Jizy

    「情報システム・講義ノート」へ < 参考資料-V02 >

W. おまけの情報


  • 長々と開発作業を続けている中で、見つけた事。

    ■ 図-W01
    fig_w_01.png
  • 図-W01の(1)は、EarPodsで音楽を聴きながら机に向かっている時に、どうもイヤホーンコードが顔や首筋に触れて集中出来ない時に行うケーブル処理です。本来の使い方だと思いますが、使っているのを見かけないので記します。シャツの第2ボタンあたりに(1)の写真の様に絡めると楽に成ります。
  • (2)は、大事なEarPodsをバラしてしまったという話です。実は、< 参考資料-W01 >
    を見つけて、断線して使えないものを著者もバラしてみた時の写真です。資料の記事には、「製作施工してるのは日本のOEM大手フォスター社だと予想しています」と記載がありますがそれっぽい感じではあります。音質を含めて「信じる者は救われる」かな ! ? 。
  • (3)は、小生がコンビニで買った「貼ってはがせる、養生用テープ(白)」(コクヨ S2TG-450)をA4のプリンター用紙に貼って、マウスパッドとして使っているものの紹介です。机面との段差が無くなり、形に制約されない、安価が魅力です。用紙に貼る時にコツが必要ですが、少しの隙間は問題なしです。著者は用紙の両面に、外側にはみ出して貼って、ハサミで余分を切り取り、小ちゃく切った同じ養生テープで四隅を机に止めています。手汗などで表面が湿気るとチョツト動きが悪くなりますが、テッシュで拭きとればOKです。意外に長持ちします。ちなみに著者は、Macでは「親指ボールマウス」、WinPCには「普通のマウス」を使っています。きっと、商品化したら最新のMacBookあたりを・・・だろうな〜〜 ! ! !

XYZ. 最後に


  • ここに到達された皆さんに、長文と乱文にお付き合い頂いき「有り難う御座いました」と「御苦労様でした」を申し上げさせて頂きます。
  • 著者としては、若い技術者の皆さんに「アプリ開発」という一言の中に「プログラミング技術」以外に、多くの技術や理論の分野を横断的に含んで、新しい発想や技術を具現化する「アプリ作り」もあることを少しでも知って頂けたとすれば幸いです。分業では、分かりにくいと思います。
  • そして、こんな「ジジーでも出来る」ということを知って、「大志に情熱をプラスし、天狗にならず、コツコツと、やり遂げる」ことの大切さを知って頂ければと記しました。
  • 以上、有難う御座いました。なお、"私のApp" に少しだけでも興味をお持ち頂いた方には、下記の「参考」からアクセス出来ます。

    ■ 著者 : Try-Jizy (トライ・ジジー) / (2018-07-25 脱稿)

    ■ 参考 : < AppStore内 "私のApp" == "dddAFPlayer" へ >
163
119
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
163
119

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?