官能評価のグループワークにも、独⽴した評価にも⼀⽯⼆⿃なセンサリーテーブル

官能評価を⾏いたくても設備がない・・・そんな悩みに応えるポータブルセンサリーブースを以前ご紹介しました。
https://blog.alpha-mos.co.jp/?p=26

完全個室タイプから、卓上モデルまで用途に応じていずれも使いたいときに、どこででも組み立てることができます。今回は、テーブルごとブースに早変わりするTable Labをご紹介します。

QDAでは、用語出しはグループでの話し合いによって行われ、そのあとパネリストごとで独立した試験を行います。つまり、施設にはグループディスカッション用のテーブルと、個別の官能評価ブースが必要となります。


Table Labの使用例(フランス)
Table Labの使用例(グループワーク)- フランス

Table Labは、柔らかいデザインの木製テーブルでグループワークに、そして天板を開いてブースをセットすれば、個々の独立した試験に使えます。照明や隣接するブース間のパーティションも追加することもできます。

Table Labの使用例(官能評価ブース) - フランス
Table Labの使用例(官能評価ブース) – フランス

⼀般的なミーティングに、そして独⽴した試験に、両⽅の⽤途を満たす便利なセンサリーテーブルは、狭い⽇本で官能評価を行うためのニーズにマッチしています。

QDAデータの解析と解釈(最終章)

久しく更新が滞ってしまいましたが、2016年の最後でこれまで続けていたQDAプロセスに関する連載をまとめたいと思います。

前回は、パネルのパフォーマンスの評価について書きましたが、サンプル間の差の有効性を結論づける際、交互作用の効果を知ることが大切です。交互作用は、繰り返し試験をした二元配置分散分析によって誤差項から分離することができます。つまり、1回だけの試験では明らかにできません(繰り返しの試験が、QDAの本質です!)

交互作用には、相殺効果と相乗効果の2つのタイプ(下図)があり、パネリスト間の感度、または尺度の使い方に違いがあることを考えれば相乗効果に有意差が出ることはそれほど問題ではありません。もし相乗効果の交互作用があるときは、スコアを順位に変換して解析することもひとつの手段です。それに対して、相殺効果はサンプル間の順位の違いを反映するのでより解釈に注意が必要です。

qda7-1

一般的なQDAデータの二元配置分散分析の一例を下表に示します。
qda7-2

分散分析でサンプルの効果に有意差が見つかったとき、どのサンプルに差があるかを確認するために多重比較検定を行います。多重比較検定には、Duncan、Newman-Keuls、Scheffe、Tukey (a)、Tukey (b)、LSD、Dunnettなど多くの手法がありますが、主に第1種の過誤と第2種の過誤のどちらを重点的に保護するかを考慮し、選択することになります。前者ではTukeyが、後者ではDuncanがよく利用されています。

また、サンプル間の違いを視覚化するために利用されるのが、主成分分析です。属性間の相関を利用してQDAデータに含まれる多くの情報を抽出、集約する方法で、新しい2軸上にサンプルを分類し属性との関係をよりよく理解することができます。

qda7-3

最後に・・・製品の官能的特徴を日常用語で記述し数値化した記述分析データは、消費者の嗜好、購買意欲、用途、イメージなどの市場調査データと関連付けて用いることで、製品の強み・弱みを明らかにし、マーケティング部門と開発部門との橋渡しに貢献します。もちろん、機器分析データの相関づけにも最適です。

さて、今年も一年間お世話になりありがとうございました。
来年は、これまで度々紹介してきました「官能評価と機器分析のデータの活用」から、少し触れていきたいと思っています。

では、2017年が皆様にとって実りのある年となりますように。。。

QDAデータの解析と解釈(1)

先日、Dr. Herbert StoneによるQDAワークショップを開催致しました。Stone先生と一緒に仕事をし始めて10年以上になりますが、官能評価の認知や向上に懸ける強い思いは相変わらずで、精力的な活動に大変頭が下がります。今回も多くの皆様にご参加頂き、ありがとうございました。QDAに関して、より理解を深めて頂ければ幸いです。

さて、QDA法のデータをとったあとの解析は、一般的に難関のようです。今回のワークショップのアンケートでも、難しいという声が多かったです。

QDAデータの解析には、基本記述統計のほか、分散分析と多重比較検定、それに多変量解析(主成分分析など)が行われます。機器分析データがあれば、各属性との相関を求めたり、あるいはQDAデータと分析データを組み合わせ、回帰分析で消費者の受容度の予測モデルを構築したりすることも可能です。それによって、官能評価の負担を軽減させられ、さらに客観性が高まるので、企業にとっては大いにチャレンジする価値があります。

とはいえ、QDAデータの解析のコアとなるのは、何と言っても分散分析です。まず、一元配置分散分析で、パネリストのパフォーマンスを評価します。下図のグラフ(FIZZにより出力)は、属性「つや」に関して、パネリストの識別感度を示すp値(横軸)と、繰り返し評価の変動を示すCV Anova(縦軸)をプロットしたもので、右下にプロットされるパネリストほど製品間のつやの違いを識別しており、かつ評価の再現性が良いことを示します。識別の目安をp値で最大0.5としたとき、つやを識別できていないパネリストが3名いることが分かります。

分散分析

しかし、パネリスト一人がすべての属性に関する違いを検出できることは期待されません!そのために、約12名ものパネリストを使うのです。また、すべての属性で、サンプル間の違いが検出されることも期待されません。属性は十分理解されていたのか、サンプル間に本来差があったのかについて、次の試験前に再度ディスカッションを行うことが現実的です。

QDA法(6)準備ができたらデータ収集!

QDA試験前にすべきことは、これまで出現した用語の整理や、セッションで用いるサンプル数(食品であれば6〜8検体)、サンプル量、提示間隔など試験プロトコルの確立です。

パネルリーダーが、評価の仕方に関して統制を図ります。また、用語の定義を完成させることは重要です。もし、重複する意味の複数の用語をひとつにまとめるときは、除かれた用語を残された用語の定義に加えることができます。

そして、いよいよ本試験です。
QDAのトレーニング後は、できるだけ期間をあけないでデータ収集を行うことが望ましいです。人の記憶は覚えるのに時間がかかる割に、忘れるのはあっという間ですから。本試験では、モナディック(単一のサンプルのみを試験する)法でデータを収集します。

ひとつのサンプルとスコアカードを提示し、その評価後に両方回収してから次のサンプルとスコアカードを渡します。最近では、FIZZのような官能評価ソフトウェアがあるので、利用することでペーパーレスで試験が行えますし、回答漏れを防ぐこともできます。

サンプルの提示順序は、複数刺激の順序効果を防ぐためにパネル内でランダマイズ化します。そして、試験は必ず繰り返し(通常3回〜4回)行います。その分、時間はかかるため省略されがちですが、分散分析での誤差と交互作用(サンプルxパネル)を分離するために必須です。

QDAtest

QDA法(5)感覚尺度の使い方

これまで、QDA法の用語開発について書いてきましたが、そのプロセスの一部でもあるラインスケールについて今回は取り上げます。

ラインスケールの種類は様々です。

アンカーがないスケールであったり、
QDA5-1
アンカーをスケールの両端につけたものであったり、
QDA5-2
アンカーをスケールの内側につけたものであったり・・・。
QDA5-3

QDA法では、一番最後のアンカーを内側につけた長さ約15cmのスケールを使用します。スケールは、それより長くしても感度が上がらないことが確認されており、また逆に短くすると感度が下がってしまうことが経験的に分かっています。

ラインスケールに、目盛りを振ることはどうでしょう?パネリストの目安のために、つけたくなりますが、QDAにおいては推奨されません。たとえば、真ん中に3つのアンカーをつけた場合では、応答の変動が10〜15%大きくなり、結果的に感度が減少してしまいました。

また、数値をスケールにつけるのも推奨されません。数値は、パネリストにとってのバイアスとなり、たいていは、自らの感覚を覚えるより、数値を覚えることに一生懸命になります。そして、マイナスの数値があれば、誰もがそれをネガティブなものをとらえてしまうでしょう。

このような理由で、現在のラインスケールが誕生しました。

qda5-4

アンカーの上には、各用語について尺度の方向性を示す用語をつけます。色の濃さであれば「暗い, 明るい」、香りの強さであれば「弱い, 強い」均一性であれば「不均一, 均一」などです。そして、パネリストは各評価用語について、感じた強度の位置にマークをつけます。

データ解析で用いられるスコアは、スケールの左端からの距離を算出したものです。紙での試験だと、物差しで測る手間と人為的ミスを考慮しないとならないですが、最近では便利なソフトウェアも発売されています。

ところで、どのようにこのラインスケールを使うのでしょう?パネリストは、用語開発中に評価する多くのサンプルを通じて、試験するサンプルカテゴリーが呈する強度に慣れます。クッキーの甘さであれば、このくらいの範囲か・・・など。そして、その範囲の中で、自らの感覚を基準化し、同じようにスケールを使うことに集中します。

周囲のパネリストがつける位置を気にする必要はありません。なぜなら、“正しい位置”は存在しないからです。とにかく、反復して評価する中で、自らの感覚強度に基づいて再現良くマークすることを心がけるだけです。パネルの中で、“位置合わせ”をすることで、感度の低下が起こります。また、それに費やすトレーニングは莫大なものです。

QDA法では、反復の評価を行い、パネル全体の平均を分散分析で評価します。そして、個人で強度の差があるのは自然と考え、むしろサンプルのスコアを順位に置き換えたとき、パネリスト間でその順位が逆転しないことをより重視するのです。

QDA法(4)用語開発2

用語開発のつづきです。

ここまでで、食品がサンプルであれば、12名のパネル全体で最初は70〜100個くらいの用語が出てきます。似たような用語が出てきたら、パネル内でまとめるべきか、それとも別々に用いるべきか、相談してもらいます。

また、意味が分かりにくい用語が出てきたら、それを出したパネリストに説明してもらいます。ここで、それを示すリファレンスサンプルがあれば、出してもらうのも良いです。

ただし、リファレンスサンプルは、その感覚だけを呈するものではないので、いずれにしても正しく伝わらないかもしれません。あまりにリファレンスサンプルの提示にこだわり過ぎる必要はありません。

用語を整理して30個前後くらいまで絞ることができたら、パネル全体で各用語に解釈をつけます。これは、パネル内の認識を共通にする目的もありますし、次にパネルのメンバーが交代して、新しく参加する人がいたとしても、できるだけ用語を引き継いでもらいやすくするためです。

また、2つの異なる特徴のサンプルを提示して、それぞれの用語の強く感じる方を挙手してもらいます。その際、12名のうち全員が同じ片方のサンプルを強いと感じれば素晴らしいですが、たいていは、もう一方のサンプルを指す人が出てきます。そのとき、その用語が理解されていないか、またはそもそも差が少なかったか、違う感覚を示したパネリストに意見を求めます。

こうした繰り返しのワークを通じて、用語が揃ったら、スコアシート(ラインスケール)を作ります。評価する順に(食品であれば、見て、嗅いで、口にして・・・)用語を並べるようにします。これでQDAの準備はできました。

この用語開発のプロセスは、PLのファシリテーション能力が重要です。いかに、パネルから気分良く用語を出させるか、いつも決まった一人に発言させるのではなく、できるだけ全員からの発言を引き出すか・・・。そう、会社の会議の進行とまったく同じなんです!

ミーティング風景

QDA法(3)用語開発1

官能評価に用いる「用語」の選択は難しいですね。単に、基本五味を並べればいいわけでもないですし、開発者メンバーで出した言葉だけでも客観性を欠きます。

QDA法では、選抜されたパネルによって、試験品のグループから特徴の異なる複数のペアを使って、表現する用語を出していきます。外観、香り、風味、食感、後味・・・などそれぞれの属性に分けて、A4の白紙にでも書き記していくと整理が簡単です。

ペアの違いを入れ替えて、何度か繰り返し、パネリストごとに自由に提示してもらいます。繰り返し出現した用語は、正の字で表したらわかりやすいです。つまり、用語の開発は、グループワークです。

この作業は、サンプルのことを良く理解しているパネルリーダー(PL)によってマネージメントされることが多いですが、PLは決してパネルの用語開発を自らの理想に近づくよう誘導してはいけません。

例え、開発コンセプトと違う用語が出てきたり、表現力に欠けるものが出てきても、勝手に削除してはいけません。用語の削除は、パネル内の同意が必要です。

PLがパネルに注意してもらわなければならないことは、“専門的な用語を使わない”ことと、“好みに関する用語”を使わないことです。

用語出しイメージ

QDA法(2)パネルの選抜

QDA法に関する初回の投稿からすっかり間が空いてしまいました。なかなか筆が進まず、申し訳ありません。さて、今回は商品開発におけるQDA法のパネル選抜方法について、要点をまとめることにしました。

まず、パネルを構築するとき、商品の知識をもたない社外の人で構成することが理想とされます。期待や経験に基づいて回答するといったバイアスが、評価に影響することをできるだけ防ぐことためです。

それでも、パネルのコストの問題や商品開発情報が外部に漏れるリスクを考えると、できれば社員の中から、という声が少なくありません。その場合、せめて開発に直接関連しない部署から募るのがいいですね。

その選抜方法ですが、食品の場合、基本五味の識別や閾値試験が採用されることが多いようです。識別ができて、感度が良い人を探そうという目的なのでしょうが、そこで選ばれた人は、果たしてこれから評価する食品そのものにも十分な感度を有する人なのでしょうか?

どんな食品にも一様の感度がある万能な人は、なかなかいません。Dr.Herbert Stoneは、閾値試験の結果と実際の試験に供する食品に対する感度との相関は、50%以下だと言っています。これらは、すでに1950年代のいくつかの論文に報告されています。

それに加えて、五味試験の経験が、次の用語開発においてバイアスになるという危惧もあります(例えば、その食品からは塩味を感じないにも関わらず、「塩味」という用語が出てくる)。つまり、識別試験は、実際に評価するもの、またはそれに準ずるもので行ったほうが良いということです。

試験には、1対2点識別法を用います。外観や香り、風味、食感などが異なるペアのサンプルを複数準備します。このときのサンプル選択には、開発部門や技術部門などの専門家のアイデアを入れると良いですね。他社品や、原料などの一部をわずかに変更したものを加えたり・・・。

しかし、ここで評価が難しいペアばかり用意するのは禁物です。はじめてパネルの選抜試験に参加する人は、最初は不安かもしれません。誰でも当てることができるような簡単なペアも用意して、最初の段階で自信をつけて、やる気にさせるのも重要です。

この識別試験は、最低2回以上繰り返します。偶然で正解しているのか、識別できているのか、を確認するためです。そして、最終的な正解率の上位から(例えば70%以上)パネルに必要な人数を確保します。これらの結果はデータベース化しておくと、将来的なパネルの補充、または選抜の再試験を行う際に役立ちます。

さあ、ここまででパネルの準備ができました。次は、QDAに用いる用語の開発です・・・。

官能評価イメージ

QDA法(1)

Dr. Herbert Stone ― 官能評価を専門に勉強された方であれば、一度は聞いたことがある名前ではないでしょうか?
Dr. Herbert Stone
1974年に米国で市場調査会社TRAGON CORPORATIONを設立し、定量的記述分析法(QDA)を開発した人物です。150本以上の論文を発表し、IFT(Institute of Food Technologists)の会長も歴任しました。

今ではそれなりに歳を重ね、TRAGON社の代表職を去りましたが、それでも官能評価のコンサルタントとして、様々な国に存在するクライアント企業で、パネルトレーニングやQDA手法の確立に力を注いでいます。

私たちは、彼から官能評価(特にQDA)に関するレクチャーを長年受けていますが、そのアグレッシブさはまったく衰えることがなく、感服してしまいます。

彼の哲学、論理は、評価者である「ヒト」の変えることができない本質を汲んだものです。彼の経験は、時間や予算が限られた中で行われる商品開発に用いられる官能評価手法としてきっと役立つものでしょう。

官能評価の主要な目的のひとつは、ある製品を購入する大きな消費者集団にとって推定可能な製品情報を提供することです。この種の情報を得るための方法は、数多くあります。QDA法は、その中の分析的手法です。

感度など適格性が確認された約12(±2)名の被験者で小さなパネルを構成します。試験結果は、プロセスや配合原料、競合製品などの違いに由来する差に関して定量的に求まります。そしてこれらは、配合率の変更や消費者の嗜好評価とのズレを結びつけるための基礎を提供します。

多くの食品、飲料会社では、製品の特徴を評価するために、記述分析プロセスが使われていますが、そのプロセスにおいて、いくつかの混乱があるようです。

このあと、何回かに分けて、パネルの選抜方法、評価用語の作成手順、評価・解析などについてまとめていきたいと思います。