
Спарсенные данные с английского сегмента Википедии
Интерес представляла проверка активности юзеров Википедии с целью понять, насколько актуальные данные она предоставляет.
А также визуализация словесного наполнения различных текстовых сегментов статей. Построение статистики по частоте использования слов и по структуре статей с точки зрения сегментации.
Виды использованных графиков
1. Линейный график для корректного и читаемого отображения временного ряда.
2. Столбчатая диаграмма для понятной визуализации распределения дискретной величины.
3. Гистограмма для отображения распределения непрерывной случайной величины.
4. Облако слов для наглядного отображения самых часто используемых слов в различных сегментах статей. Средство отображения частоты на графике — размер слова.
Цветовое решение
В основе палитры лежат классические цвета Википедии.

Цветовая палитра

Параметры стилизации графиков
Подгрузка данных в датасет
Исследование датасета на пропущенные значения
Распределение правок по годам
Распределение количества правок по времени дня
Распределение описаний по количеству символов
Словесное облако заголовков
Словесное облако описаний
Анализ разбивки статей на сегменты
Заключение
Анализ на пропущенные значения показал, что данный датасет пригоден для использования с целью построения инфографики и проверки различных гипотез. Количество пропусков по ключевым для анализа колонкам (за исключением даты создания статьи) оказалось нулевым.
Далее с целью ответа на вопрос об актуальности и применимости информации с Википедии был построен график, отображающий распределение правок статей по годам. Согласно ему, юзеры достаточно активно редактируют статьи последние несколько лет, что говорит о том, что информация с Википедии актуальна и постоянно поддерживается, соответственно её использование в различных исследованиях вполне целесообразно.
Затем был построен график распределения внесения правок по различным часам дня, который показал, что активность юзеров английской Википедии имеет вполне себе колебательный характер (очень похожий на гармоническую функцию) — есть явные просадки и пики активности.
После этого был выполнен количественный анализ наполнения описаний статей. Было построено распределение описаний по их размеру и найдено его среднее значение, которое оказалось равным 29 символам (казалось бы, могло быть и больше).
Далее была выполнена на мой взгляд самая концептуально интересная часть работы — словесный анализ заголовков и описаний. Мною были построены графики, отображающие слова и количество их появлений (чем чаще встречается, тем больше размер слова). Результат оказался интересным — на удивление в нём присутствуют много англоязычных имён.
В завершение был проведён анализ названий сегментов статей, в ходе которого было установлено, что наиболее часто встречающимся абзацем является «Abstract», что было вполне ожидаемо, поскольку Википедия известна своим научным стилем изложения и строгими требованиями к оформлению статей.
Ссылка на блокнот с кодом и датасет: https://drive.google.com/drive/folders/1Sq5IMa-5-Lh20sPkrN0uCHtTMy5nXK9U?usp=share_link
Используемые инструменты и ИИ
ChatGPT — генерация палитры [https://chatgpt.com]