Харченко К.В. Контент-анализ

.........

Харченко К.В. Компьютерный контент-анализ текстовой информации

Курс для студентов 1 курса специальности "Государственное и муниципальное управление" Белгородского государственного университета

....

Вернуться на сайт автора

На сайт дисциплины

Материалы к теме

Статья о логико-содержательном анализе целевых программ

Тема 2. Процедура контент-анализа

2.3. Формирование категорий контент-анализа

После того как сформирован текстовый массив, нужно определить, по каким переменным информация будет анализироваться.

Если используется метод анкетного опроса и респонденту предлагаются закрытые вопросы (содержащие варианты ответа), число переменных конечно и обычно равно числу вопросов. Текст же, даже относительно короткий – это кладовая информации; число потенциальных переменных в нем может приближаться к бесконечности. Все зависит от количества предложенных гипотез, т.е. от умения исследователя работать с информацией.

В самом простом случае переменной может быть слово. Если слово встречается в тексте, значение переменной будет равно единице, если не встречается – нулю. Если немного усложнить задачу, вместо единицы может указываться число, соответствующее количеству данных слов в тексте.

Приведенный случай легок в обработке, но сложен в интерпретации. Первая трудность – в структуре языка. Так, слово «хороший» в сравнительной степени – это слово «лучше»; прошедшее время глагола «идти» – «шел», будущее время – «пойду». Даже если гипотеза связана с одним словом, анализироваться должно наличие совокупности слов, или, точнее, словоформ.

Словоформа – это последовательность символов между пробелами или знаками препинания. Если автоматизированная система недостаточно интеллектуальна, вводить все формы слова придется вручную, правда, часто можно ограничиться лишь неизменным корнем.

Например: ДЕНЬГИ – денег, денеж, деньг. Формы «деньгами», «деньгах» не вводим.

Словоформа может представлять собой не только часть слова, но и группу слов, если это фразеологизм или устойчивое выражение. Например, в публицистической статье В.В. Жириновский может быть обозначен как «сын юриста».

Вторая трудность – в содержании языка. Если мы ищем некоторое слово, той же самой гипотезе в большинстве случаев будут отвечать все синонимы этого слова, его жаргонные наименования, а также связанные слова.

Понятие «связанные слова» достаточно расплывчато, поскольку может широко трактоваться. Так, нельзя однозначно ответить на следующий вопрос: если мы ищем слово «деньги», нужно ли искать слово «банк» и значение «1» присваивать переменной безотносительно того, какое из этих слов находится в данном текстовом фрагменте?

В отличие от анкетного опроса, в рамках которого субъективизм исследователя может присутствовать лишь на этапе составления анкеты, в контент-анализе опасность субъективизма намного выше.

Существуют способы уменьшить долю субъективизма, однако они не универсальны. В ходе составления анкеты можно провести беседу с экспертами, посредством чего будут выявлены главные полюса мнений, которые затем отразятся в вариантах ответа. Также можно предложить заполнить небольшое количество анкет с открытыми вопросами, а затем, при массовом тиражировании анкеты, эти вопросы закрыть по наиболее типичным вариантам. В случае контент-анализа можно использовать словари синонимов и ассоциативные словари.

В любом случае, исследователю приходится иметь дело с совокупностью слов, которую он рассматривает как цельную единицу. Такая единица как раз и называется категорией контент-анализа.

Одна категория обычно соответствует одной переменной. По терминологии контент-анализа «категория» и «переменная» – это одно и то же, только категория имеет философские корни, относится к качественной стороне метода, а переменная – математическое понятие, обладающее количественным признаком.

Состав категории контент-анализа тесно связан с гипотезой. Так, если мы противопоставляем «семью» и «работу», слово «дети» и «родители» войдут в категорию СЕМЬЯ, а если говорим о проблемах отцов и детей, это будут разные категории.

Как правило, посредством контент-анализа выясняется наличие в тексте нескольких категорий, и слова должны быть отнесены к категориям так, чтобы различные категории не были сходны по смыслу друг с другом.

В ходе формирования категориальных систем необходимо опираться на логику языка, т.е. использовать логические операторы.

Самый частотный оператор – ИЛИ. Это оператор сложения. Так, можно сделать вывод о наличии в тексте категории «духовность», если в нем встречается слово «дух» или «религия» или «высоконравственный».

Одно и то же слово часто относится к различным областям, а значит, компьютеру нужно разъяснить правила определения того, к какой области относится это слово в конкретном случае. Для этого служит оператор НЕ.

Например, если ищем категорию ДЕНЬГИ в жаргонных текстах, можно ввести слово «капуста» НЕ «огород», «еда», «кочан» и т.д.

При поиске возможны ошибки, поскольку всех слов мы не предусмотрим. Чтобы снизить нежелательный эффект, необходимо увеличивать текстовый массив, а также пройти определенную его часть вручную, имитируя действия программы.

Оператор И также бывает полезен: наличие категории будет засчитано только в том случае, если во фрагменте имеется два и более заданных слова.

Единицами анализа, входящими в состав категорий, могут быть не только слова, но и грамматические образования. Так, обилие слов с отрицательной частицей «не» может свидетельствовать об интересном явлении – «отрицательной идентичности», которое иногда имеет место в пропаганде. Выражения «не боялись проходить через трудности» и «смело проходили через трудности» с позиции психологии неодинаковы, поскольку «не» – слабая частица, не усваиваемая на подсознательном уровне. Если вариант «не боялись» и подобные ему проходят в пиар-текстах фирмы, это может свидетельствовать о начале ее краха.

Свидетельством определенного типа менталитета может быть доля употребления глаголов в активном и пассивном залогах, а также присутствие безличных конструкций.

Уже из вышеприведенных примеров видно, что «категория» и «слово» – это не одно и то же. Обозначение категории не обязательно присутствует в тексте. Так, в эмоциональных текстах наверняка не будет слова «эмоциональность».

Категории контент-анализа можно подразделить на 1) специфические, 2) общие для нескольких тем и 3) универсальные. Любительский контент-анализ связан со специфическими категориями, которые создаются под определенный массив текстов. При многочисленном использовании метода становится ясно, что отдельные категории более или менее постоянны и не зависят от темы исследования. Существует и еще одна группа категорий, которые являются универсальными, т.е. «вечными». Эти категории не зависят от языка и эпохи.

Понятие категории известно со времен античности. Платон обозначил пять основных категорий: сущее, движение, покой, тождество, различие. Стройную категориальную систему, актуальную и на сегодняшний день, создал Аристотель, выделивший десять категорий, которые сводятся к трем: сущность, состояние, отношение. Эти же категории, хотя и несколько видоизмененные (например, «вещи», «свойства» и «отношения») признаются наиболее общими и в философских работах ХХ века (см.: Уемов А.И. Вещи, свойства и отношения. – М., 1963. – С.47.).

С позиции процедуры контент-анализа «вещи» определяются по признакам существительных, «свойства» – по признакам прилагательных. Отношения – это гораздо более сложная категория, для их выявления в тексте нужно создавать специальные правила из набора лексических и грамматических словоформ, а также логических операторов.

В то же время, именно через отношения определяется смысл текстового фрагмента, который как раз и должен быть раскрыт посредством контент-анализа.

Приведем примеры типов отношений, которые можно найти практически в каждом предложении: место (в том числе включенность, рядоположенность), время, причина-следствие, цель, степень, принадлежность, условие, связь, сравнение, долженствование

Если сюда добавить номинацию («вещь») и атрибуцию («свойства»), получим инструмент для создания модели текста, на основе которой легче формулируются гипотезы.

Учитывая сложность формального описания данных категорий, все же обратим внимание на то, что удобными индикаторами наличия в тексте определенного отношения между вещами являются союзы сложноподчиненных предложений. Так, об условии можно судить по союзу ЕСЛИ, о времени – по союзу КОГДА, о месте – по союзу ГДЕ.

Поскольку категории контент-анализа – логические единицы, над ними можно производить различные операции:

Сложение категорий – две категории могут быть объединены в одну;
Вычитание категории – часть слов одной категории образуют другую категорию;
Объединение отдельных слов, входящих в разные категории.

Выделение категорий для анализа должно происходить двумя встречными путями: от идеи, воплощенной в задачу (например, «оценить уровень агрессивности текста») и от материала (читаем некоторую часть текстового массива и собираем интересные предположения). В первом случае возможна перегрузка категорий словами, которых не будет ни в одном тексте. Во втором случае можно упустить из виду значимые слова, которые наверняка встретятся в большом массиве текстов.

В ходе выделения категорий могут возникать следующие ошибки:

сложные абстрактные категории нерасчленимы на составляющие;
нарушается логика, в частности, отнесение слов к категории идет по двум и более логическим основаниям;
завышается уровень абстракции;
за родовое отношение принимается одно из видовых;
неполная номенклатура категорий.

Простое выявление факта наличия в тексте некоторой категории само по себе не может быть достаточным для грамотного научного вывода. Использование операций над категориями, рассмотренными как соотносящиеся друг с другом, позволяет осуществлять следующие разновидности контент-аналитических процедур:

Оппозиционный анализ – изучаются пары категорий, противоположных по смыслу (добро – зло, прекрасное – безобразное). На выходе мы имеем выделение текстов с положительным, отрицательным полюсом и смешением полюсов.
Анализ ординальной категории – изучается совокупность близких по смыслу, но различающихся по степени субкатегорий. В результате получаем переменную, значения которой можно выстроить в определенном порядке. Например, категория «масштаб проблемы» может фигурировать на различных уровнях: глобальном, федеральном, региональном, локальном. Использование ординальных категорий позволяет получить на выходе содержательные диаграммы.
Анализ ядерно-периферийной структуры категории. Отдельные категории можно группировать не линейно, а концентрически. Если в категорию входит множество словоформ, данный тип анализа позволяет определить текстовые фрагменты, в которых эта категория выражена сильнее. Например, если анализируется категория СЕМЬЯ, может возникнуть необходимость определить, в каких текстах говорится о семье в целом, в каких упоминаются отдельные члены семьи, а в каких – атрибуты (дом, брак).