Original size 3720x5262

Анализ контента английского сегмента Википедии

Спарсенные данные с английского сегмента Википедии

Интерес представляла проверка активности юзеров Википедии с целью понять, насколько актуальные данные она предоставляет.
А также визуализация словесного наполнения различных текстовых сегментов статей. Построение статистики по частоте использования слов и по структуре статей с точки зрения сегментации.

Виды использованных графиков
1. Линейный график для корректного и читаемого отображения временного ряда.
2. Столбчатая диаграмма для понятной визуализации распределения дискретной величины.
3. Гистограмма для отображения распределения непрерывной случайной величины.
4. Облако слов для наглядного отображения самых часто используемых слов в различных сегментах статей. Средство отображения частоты на графике — размер слова.

Цветовое решение

В основе палитры лежат классические цвета Википедии.

Original size 1600x758

Цветовая палитра

Original size 1845x352

Параметры стилизации графиков

Подгрузка данных в датасет

Original size 1831x772

Исследование датасета на пропущенные значения

Original size 4161x1770

Original size 1840x695

Распределение правок по годам

Original size 3567x1651

Original size 1849x463

Распределение количества правок по времени дня

Original size 3541x1677

Original size 1848x474

Распределение описаний по количеству символов

Original size 3567x1651

Original size 1848x353

Словесное облако заголовков

Original size 2832x1516

Original size 1845x811

Словесное облако описаний

Original size 2832x1516

Original size 1850x734

Анализ разбивки статей на сегменты

Original size 3567x1852

Original size 1849x721

Заключение

Анализ на пропущенные значения показал, что данный датасет пригоден для использования с целью построения инфографики и проверки различных гипотез. Количество пропусков по ключевым для анализа колонкам (за исключением даты создания статьи) оказалось нулевым.
Далее с целью ответа на вопрос об актуальности и применимости информации с Википедии был построен график, отображающий распределение правок статей по годам. Согласно ему, юзеры достаточно активно редактируют статьи последние несколько лет, что говорит о том, что информация с Википедии актуальна и постоянно поддерживается, соответственно её использование в различных исследованиях вполне целесообразно.
Затем был построен график распределения внесения правок по различным часам дня, который показал, что активность юзеров английской Википедии имеет вполне себе колебательный характер (очень похожий на гармоническую функцию) — есть явные просадки и пики активности.
После этого был выполнен количественный анализ наполнения описаний статей. Было построено распределение описаний по их размеру и найдено его среднее значение, которое оказалось равным 29 символам (казалось бы, могло быть и больше).
Далее была выполнена на мой взгляд самая концептуально интересная часть работы — словесный анализ заголовков и описаний. Мною были построены графики, отображающие слова и количество их появлений (чем чаще встречается, тем больше размер слова). Результат оказался интересным — на удивление в нём присутствуют много англоязычных имён.
В завершение был проведён анализ названий сегментов статей, в ходе которого было установлено, что наиболее часто встречающимся абзацем является «Abstract», что было вполне ожидаемо, поскольку Википедия известна своим научным стилем изложения и строгими требованиями к оформлению статей.

Ссылка на блокнот с кодом и датасет: https://drive.google.com/drive/folders/1Sq5IMa-5-Lh20sPkrN0uCHtTMy5nXK9U?usp=share_link

Используемые инструменты и ИИ

ChatGPT — генерация палитры [https://chatgpt.com]

Анализ контента английского сегмента Википедии

Mariya Nemuhina

data visualization

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...