2.3. Формирование
категорий контент-анализа
После того как сформирован текстовый массив, нужно определить, по каким переменным информация будет анализироваться.
Если используется метод анкетного опроса и респонденту предлагаются закрытые вопросы (содержащие варианты ответа), число переменных конечно и обычно равно числу вопросов. Текст же, даже относительно короткий – это кладовая информации; число потенциальных переменных в нем может приближаться к бесконечности. Все зависит от количества предложенных гипотез, т.е. от умения исследователя работать с информацией.
В самом простом случае переменной может быть слово. Если слово встречается в тексте, значение переменной будет равно единице, если не встречается – нулю. Если немного усложнить задачу, вместо единицы может указываться число, соответствующее количеству данных слов в тексте.
Приведенный случай легок в обработке, но сложен в интерпретации. Первая трудность – в структуре языка. Так, слово «хороший» в сравнительной степени – это слово «лучше»; прошедшее время глагола «идти» – «шел», будущее время – «пойду». Даже если гипотеза связана с одним словом, анализироваться должно наличие совокупности слов, или, точнее, словоформ.
Словоформа – это последовательность символов между пробелами или знаками препинания. Если автоматизированная система недостаточно интеллектуальна, вводить все формы слова придется вручную, правда, часто можно ограничиться лишь неизменным корнем.
Например: ДЕНЬГИ – денег, денеж, деньг. Формы «деньгами», «деньгах» не вводим.
Словоформа может представлять собой не только часть слова, но и группу слов, если это фразеологизм или устойчивое выражение. Например, в публицистической статье В.В. Жириновский может быть обозначен как «сын юриста».
Вторая трудность – в содержании языка. Если мы ищем некоторое слово, той же самой гипотезе в большинстве случаев будут отвечать все синонимы этого слова, его жаргонные наименования, а также связанные слова.
Понятие «связанные слова» достаточно расплывчато, поскольку может широко трактоваться. Так, нельзя однозначно ответить на следующий вопрос: если мы ищем слово «деньги», нужно ли искать слово «банк» и значение «1» присваивать переменной безотносительно того, какое из этих слов находится в данном текстовом фрагменте?
В отличие от анкетного опроса, в рамках которого субъективизм исследователя может присутствовать лишь на этапе составления анкеты, в контент-анализе опасность субъективизма намного выше.
Существуют способы уменьшить долю субъективизма, однако они не универсальны. В ходе составления анкеты можно провести беседу с экспертами, посредством чего будут выявлены главные полюса мнений, которые затем отразятся в вариантах ответа. Также можно предложить заполнить небольшое количество анкет с открытыми вопросами, а затем, при массовом тиражировании анкеты, эти вопросы закрыть по наиболее типичным вариантам. В случае контент-анализа можно использовать словари синонимов и ассоциативные словари.
В любом случае, исследователю приходится иметь дело с совокупностью слов, которую он рассматривает как цельную единицу. Такая единица как раз и называется категорией контент-анализа.
Одна категория обычно соответствует одной переменной. По терминологии контент-анализа «категория» и «переменная» – это одно и то же, только категория имеет философские корни, относится к качественной стороне метода, а переменная – математическое понятие, обладающее количественным признаком.
Состав категории контент-анализа тесно связан с гипотезой. Так, если мы противопоставляем «семью» и «работу», слово «дети» и «родители» войдут в категорию СЕМЬЯ, а если говорим о проблемах отцов и детей, это будут разные категории.
Как правило, посредством контент-анализа выясняется наличие в тексте нескольких категорий, и слова должны быть отнесены к категориям так, чтобы различные категории не были сходны по смыслу друг с другом.
В ходе формирования категориальных систем необходимо опираться на логику языка, т.е. использовать логические операторы.
Самый частотный оператор – ИЛИ. Это оператор сложения. Так, можно сделать вывод о наличии в тексте категории «духовность», если в нем встречается слово «дух» или «религия» или «высоконравственный».
Одно и то же слово часто относится к различным областям, а значит, компьютеру нужно разъяснить правила определения того, к какой области относится это слово в конкретном случае. Для этого служит оператор НЕ.
Например, если ищем категорию ДЕНЬГИ в жаргонных текстах, можно ввести слово «капуста» НЕ «огород», «еда», «кочан» и т.д.
При поиске возможны ошибки, поскольку всех слов мы не предусмотрим. Чтобы снизить нежелательный эффект, необходимо увеличивать текстовый массив, а также пройти определенную его часть вручную, имитируя действия программы.
Оператор И также бывает полезен: наличие категории будет засчитано только в том случае, если во фрагменте имеется два и более заданных слова.
Единицами анализа, входящими в состав категорий, могут быть не только слова, но и грамматические образования. Так, обилие слов с отрицательной частицей «не» может свидетельствовать об интересном явлении – «отрицательной идентичности», которое иногда имеет место в пропаганде. Выражения «не боялись проходить через трудности» и «смело проходили через трудности» с позиции психологии неодинаковы, поскольку «не» – слабая частица, не усваиваемая на подсознательном уровне. Если вариант «не боялись» и подобные ему проходят в пиар-текстах фирмы, это может свидетельствовать о начале ее краха.
Свидетельством определенного типа менталитета может быть доля употребления глаголов в активном и пассивном залогах, а также присутствие безличных конструкций.
Уже из вышеприведенных примеров видно, что «категория» и «слово» – это не одно и то же. Обозначение категории не обязательно присутствует в тексте. Так, в эмоциональных текстах наверняка не будет слова «эмоциональность».
Категории контент-анализа можно подразделить на 1) специфические, 2) общие для нескольких тем и 3) универсальные. Любительский контент-анализ связан со специфическими категориями, которые создаются под определенный массив текстов. При многочисленном использовании метода становится ясно, что отдельные категории более или менее постоянны и не зависят от темы исследования. Существует и еще одна группа категорий, которые являются универсальными, т.е. «вечными». Эти категории не зависят от языка и эпохи.
Понятие категории известно со времен античности. Платон обозначил пять основных категорий: сущее, движение, покой, тождество, различие. Стройную категориальную систему, актуальную и на сегодняшний день, создал Аристотель, выделивший десять категорий, которые сводятся к трем: сущность, состояние, отношение. Эти же категории, хотя и несколько видоизмененные (например, «вещи», «свойства» и «отношения») признаются наиболее общими и в философских работах ХХ века (см.: Уемов А.И. Вещи, свойства и отношения. – М., 1963. – С.47.).
С позиции процедуры контент-анализа «вещи» определяются по признакам существительных, «свойства» – по признакам прилагательных. Отношения – это гораздо более сложная категория, для их выявления в тексте нужно создавать специальные правила из набора лексических и грамматических словоформ, а также логических операторов.
В то же время, именно через отношения определяется смысл текстового фрагмента, который как раз и должен быть раскрыт посредством контент-анализа.
Приведем примеры типов отношений, которые можно найти практически в каждом предложении: место (в том числе включенность, рядоположенность), время, причина-следствие, цель, степень, принадлежность, условие, связь, сравнение, долженствование
Если сюда добавить номинацию («вещь») и атрибуцию («свойства»), получим инструмент для создания модели текста, на основе которой легче формулируются гипотезы.
Учитывая сложность формального описания данных категорий, все же обратим внимание на то, что удобными индикаторами наличия в тексте определенного отношения между вещами являются союзы сложноподчиненных предложений. Так, об условии можно судить по союзу ЕСЛИ, о времени – по союзу КОГДА, о месте – по союзу ГДЕ.
Поскольку категории контент-анализа – логические единицы, над ними можно производить различные операции:
- Сложение категорий – две категории могут быть объединены в одну;
- Вычитание категории – часть слов одной категории образуют другую категорию;
- Объединение отдельных слов, входящих в разные категории.
Выделение категорий для анализа должно происходить двумя встречными путями: от идеи, воплощенной в задачу (например, «оценить уровень агрессивности текста») и от материала (читаем некоторую часть текстового массива и собираем интересные предположения). В первом случае возможна перегрузка категорий словами, которых не будет ни в одном тексте. Во втором случае можно упустить из виду значимые слова, которые наверняка встретятся в большом массиве текстов.
В ходе выделения категорий могут возникать следующие ошибки:
- сложные абстрактные категории нерасчленимы на составляющие;
- нарушается логика, в частности, отнесение слов к категории идет по двум и более логическим основаниям;
- завышается уровень абстракции;
- за родовое отношение принимается одно из видовых;
- неполная номенклатура категорий.
Простое выявление факта наличия в тексте некоторой категории само по себе не может быть достаточным для грамотного научного вывода. Использование операций над категориями, рассмотренными как соотносящиеся друг с другом, позволяет осуществлять следующие разновидности контент-аналитических процедур:
- Оппозиционный анализ – изучаются пары категорий, противоположных по смыслу (добро – зло, прекрасное – безобразное). На выходе мы имеем выделение текстов с положительным, отрицательным полюсом и смешением полюсов.
- Анализ ординальной категории – изучается совокупность близких по смыслу, но различающихся по степени субкатегорий. В результате получаем переменную, значения которой можно выстроить в определенном порядке. Например, категория «масштаб проблемы» может фигурировать на различных уровнях: глобальном, федеральном, региональном, локальном. Использование ординальных категорий позволяет получить на выходе содержательные диаграммы.
- Анализ ядерно-периферийной структуры категории. Отдельные категории можно группировать не линейно, а концентрически. Если в категорию входит множество словоформ, данный тип анализа позволяет определить текстовые фрагменты, в которых эта категория выражена сильнее. Например, если анализируется категория СЕМЬЯ, может возникнуть необходимость определить, в каких текстах говорится о семье в целом, в каких упоминаются отдельные члены семьи, а в каких – атрибуты (дом, брак).