Харченко К.В. Контент-анализ

.........

Харченко К.В. Компьютерный контент-анализ текстовой информации

Курс для студентов 1 курса специальности "Государственное и муниципальное управление" Белгородского государственного университета

....

Вернуться на сайт автора

На сайт дисциплины

Материалы к теме

Статья о логико-содержательном анализе целевых программ

Тема 2. Процедура контент-анализа

2.2. Формирование текстового массива

Контент-анализ предназначен для обработки текстовой информации, а значит, от качества текстового массива будут зависеть итоговые результаты.

Формируя базу текстовых фрагментов, исследователь должен решить для себя вопрос о том, что будет являться единицей текста («физической единицей»).

Методологии контент-анализа не противоречит возможность выбора в качестве объекта отдельно взятого текста. В то же время, если областью использование метода является не источниковедение, а социальная наука, анализ массива текстов обнаруживает ряд преимуществ перед анализом единичного образца:

Большой объем выборки лучше обеспечивает репрезентативность данных: случайные отступления от закономерности дают невысокую погрешность;
Большой объем данных позволяет обнаружить более явные статистические закономерности;
По итогам контент-анализа, как правило, затруднительно интерпретировать единичные факты (например: «данное слово встречалось в 19% фрагментов»), однако гораздо проще делать выводы на основе сопоставлений (в частности, сравнение различных периодических изданий за одно время либо выпусков одного издания в различных временных срезах).

После того, как мы определились с тем, что работаем с текстовым массивом, необходимо уточнить, какие элементы данный массив будет включать. Если анализируются СМИ либо иная печатная продукция, в качестве текстовых фрагментов могут выступать следующие:

текст целиком;
главы (параграфы);
абзацы;
предложения;
фрагменты с одинаковым числом знаков;
заглавия.

Как правило, величина текстового фрагмента в массиве несет для контент-аналитика определенную смысловую нагрузку и, следовательно, не может не учитываться. Чем больше текстовый фрагмент, чем чаще будут встречаться в нем искомые категории, тем больше вероятность появления категорий, характеризующихся низкой частотностью.

Учитывать размер фрагмента можно двумя путями:
1. Усечение текста до определенного размера (например, можно взять первые 10 тыс. знаков, первые три абзаца и т.д.);
2. Указание в итоговой матрице (случай * переменная) числа слов для каждого случая, чтобы можно было соотнести это значение с частотой встречаемости категорий.

Формирование текстового массива может происходить следующими способами:

1. Составление транскриптов интервью
Возможно два варианта записи интервью: вручную либо на диктофон. При записи вручную преимущество состоит в том, что, если все мысли переданы корректно, такую запись достаточно просто внести в текстовый массив. Напротив, запись на диктофон позволяет предельно точно воспроизвести фразы, однако для формирования текстовых массивов требуется дополнительное время и навыки работы с программами обработки звука.

Для контент-анализа диктофонные записи будут тем более ценными, чем более совершенна категориальная структура, разработанная для конкретного исследования. Так, незначимые слова, например междометия, могут соответствовать категориям «эмоциональность», «неуверенность». Повторы могут говорить о взволнованности автора текста, паузы – о степени прочности позиции. Также по речи можно определить степень желания отвечать на вопросы, а при наличии специального умения – об искренности говорящего. Все эти экстралингвистические параметры могут быть сразу же переданы значениями переменных.

В ходе транскрибирования интервью необходимо подумать над условными обозначениями экстралингвистических параметров. Например, можно использовать квадратные скобки [Смех], либо обозначать эти параметры специльными значками, либо, если текст русскоязычный, английскими словами, например [Laughing]. В последнем случае можно быть уверенным в том, что компьютер не отнесет это слово к иной категории.

Информация, полученная посредством интервью, обладает одним неоспоримым преимуществом – адекватностью теме исследования. Интервью, проведенные намеренно с исследовательской целью, относятся к искусственно созданным источникам, в отличие от источников естественного происхождения. Искусственно созданные источники лучше подходят к теме, но могут недостаточно правдиво отражать взгляды и установки автора.

2. Подбор информации в Интернете

В отличие от интервью, в Интернете имеется информация естественного происхождения, т.е. созданная безотносительно знания о конкретном исследовании. С позиции контент-аналитика такая информация не лишена недостатка: достаточно сложно производить ее отбор, особенно если придерживаться установленных принципов.

Наиболее простой способ сформировать базу текстовых фрагментов с помощью Интернета – ввести искомое слово в поисковых системах и скачать требуемое количество Веб-страничек.

Поскольку Интернет с каждым днем расширяется, может быть полезным сужение объекта исследования. Например, объектом может быть изображение заявленной темы в следующих типах ресурсов:

новости (например, Вести);
форумы;
электронные СМИ;
блоги;
книги электронных библиотек (например, библиотеки Максима Мошкова).

Процесс скачивания Веб-страничек, соответствующих заданному условию, может быть автоматизирован. Так, существует программа VISpy, позволяющая за несколько минут загрузить содержимое десятков и сотен страничек Интернета.

При загрузке материалов Интернета в базу текстовых фрагментов необходима дополнительная обработка ресурсов, удаление графики и лишних символов.

3. Сканирование текстов

Данный способ является наиболее традиционным для контент-анализа, возникшего как метод изучения средств массовой информации. Сканирование текстов – трудоемкий процесс, особенно если имеешь дело с подшивками газет. Трудности имеют как формальный характер, так и содержательный. В первом случае имеется в виду мелкий шрифт, наличие продолжений статей на других страницах газеты и в других выпусках. Что касается содержания, дело осложняется неизбежным субъективизмом отбора статей для занесения их в базу. Критерий отбора текстов оказывается достаточно субъективным. Так, можно по-разному ответить на вопрос, какие материалы относятся к «статьям по экономической проблематике».

Обратим внимание на одну техническую деталь. При подготовке к анализу содержания из массива текстов, как правило, убираются знаки препинания; слова разделяются только лишь пробелами. При использовании систем автоматизированной обработки необходимо уточнять, как работает данная функция.

В некоторых случаях отдельные знаки препинания следует оставить в тексте, особенно если с ними связана гипотеза. Так, восклицательный знак – свидетельство эмоциональности, многоточие – недосказанности, кавычки – иронии и сарказма.

Сами слова необходимо привести в унифицированный вид – избавиться от сокращений, возможно, заменить редкие словоупотребления более частотными.

Грамотно сформированный текстовый массив позволяет хотя бы на интуитивном уровне предположить результаты проверки гипотез.