2.2. Формирование текстового массива
Контент-анализ предназначен для обработки текстовой информации, а значит, от качества текстового массива будут зависеть итоговые результаты.
Формируя базу текстовых фрагментов, исследователь должен решить для себя вопрос о том, что будет являться единицей текста («физической единицей»).
Методологии контент-анализа не противоречит возможность выбора в качестве объекта отдельно взятого текста. В то же время, если областью использование метода является не источниковедение, а социальная наука, анализ массива текстов обнаруживает ряд преимуществ перед анализом единичного образца:
- Большой объем выборки лучше обеспечивает репрезентативность данных: случайные отступления от закономерности дают невысокую погрешность;
- Большой объем данных позволяет обнаружить более явные статистические закономерности;
- По итогам контент-анализа, как правило, затруднительно интерпретировать единичные факты (например: «данное слово встречалось в 19% фрагментов»), однако гораздо проще делать выводы на основе сопоставлений (в частности, сравнение различных периодических изданий за одно время либо выпусков одного издания в различных временных срезах).
После того, как мы определились с тем, что работаем с текстовым массивом, необходимо уточнить, какие элементы данный массив будет включать. Если анализируются СМИ либо иная печатная продукция, в качестве текстовых фрагментов могут выступать следующие:
- текст целиком;
- главы (параграфы);
- абзацы;
- предложения;
- фрагменты с одинаковым числом знаков;
- заглавия.
Как правило, величина текстового фрагмента в массиве несет для контент-аналитика определенную смысловую нагрузку и, следовательно, не может не учитываться. Чем больше текстовый фрагмент, чем чаще будут встречаться в нем искомые категории, тем больше вероятность появления категорий, характеризующихся низкой частотностью.
Учитывать размер фрагмента можно двумя путями:
1. Усечение текста до определенного размера (например, можно взять первые 10 тыс. знаков, первые три абзаца и т.д.);
2. Указание в итоговой матрице (случай * переменная) числа слов для каждого случая, чтобы можно было соотнести это значение с частотой встречаемости категорий.
Формирование текстового массива может происходить следующими способами:
1. Составление транскриптов интервью
Возможно два варианта записи интервью: вручную либо на диктофон. При записи вручную преимущество состоит в том, что, если все мысли переданы корректно, такую запись достаточно просто внести в текстовый массив. Напротив, запись на диктофон позволяет предельно точно воспроизвести фразы, однако для формирования текстовых массивов требуется дополнительное время и навыки работы с программами обработки звука.
Для контент-анализа диктофонные записи будут тем более ценными, чем более совершенна категориальная структура, разработанная для конкретного исследования. Так, незначимые слова, например междометия, могут соответствовать категориям «эмоциональность», «неуверенность». Повторы могут говорить о взволнованности автора текста, паузы – о степени прочности позиции. Также по речи можно определить степень желания отвечать на вопросы, а при наличии специального умения – об искренности говорящего. Все эти экстралингвистические параметры могут быть сразу же переданы значениями переменных.
В ходе транскрибирования интервью необходимо подумать над условными обозначениями экстралингвистических параметров. Например, можно использовать квадратные скобки [Смех], либо обозначать эти параметры специльными значками, либо, если текст русскоязычный, английскими словами, например [Laughing]. В последнем случае можно быть уверенным в том, что компьютер не отнесет это слово к иной категории.
Информация, полученная посредством интервью, обладает одним неоспоримым преимуществом – адекватностью теме исследования. Интервью, проведенные намеренно с исследовательской целью, относятся к искусственно созданным источникам, в отличие от источников естественного происхождения. Искусственно созданные источники лучше подходят к теме, но могут недостаточно правдиво отражать взгляды и установки автора.
2. Подбор информации в Интернете
В отличие от интервью, в Интернете имеется информация естественного происхождения, т.е. созданная безотносительно знания о конкретном исследовании. С позиции контент-аналитика такая информация не лишена недостатка: достаточно сложно производить ее отбор, особенно если придерживаться установленных принципов.
Наиболее простой способ сформировать базу текстовых фрагментов с помощью Интернета – ввести искомое слово в поисковых системах и скачать требуемое количество Веб-страничек.
Поскольку Интернет с каждым днем расширяется, может быть полезным сужение объекта исследования. Например, объектом может быть изображение заявленной темы в следующих типах ресурсов:
Процесс скачивания Веб-страничек, соответствующих заданному условию, может быть автоматизирован. Так, существует программа VISpy, позволяющая за несколько минут загрузить содержимое десятков и сотен страничек Интернета.
При загрузке материалов Интернета в базу текстовых фрагментов необходима дополнительная обработка ресурсов, удаление графики и лишних символов.
3. Сканирование текстов
Данный способ является наиболее традиционным для контент-анализа, возникшего как метод изучения средств массовой информации. Сканирование текстов – трудоемкий процесс, особенно если имеешь дело с подшивками газет. Трудности имеют как формальный характер, так и содержательный. В первом случае имеется в виду мелкий шрифт, наличие продолжений статей на других страницах газеты и в других выпусках. Что касается содержания, дело осложняется неизбежным субъективизмом отбора статей для занесения их в базу. Критерий отбора текстов оказывается достаточно субъективным. Так, можно по-разному ответить на вопрос, какие материалы относятся к «статьям по экономической проблематике».
Обратим внимание на одну техническую деталь. При подготовке к анализу содержания из массива текстов, как правило, убираются знаки препинания; слова разделяются только лишь пробелами. При использовании систем автоматизированной обработки необходимо уточнять, как работает данная функция.
В некоторых случаях отдельные знаки препинания следует оставить в тексте, особенно если с ними связана гипотеза. Так, восклицательный знак – свидетельство эмоциональности, многоточие – недосказанности, кавычки – иронии и сарказма.
Сами слова необходимо привести в унифицированный вид – избавиться от сокращений, возможно, заменить редкие словоупотребления более частотными.
Грамотно сформированный текстовый массив позволяет хотя бы на интуитивном уровне предположить результаты проверки гипотез.