По всем вопросам звоните:

+7 495 274-22-22

УДК: 311, 004.432, ВАК 5.2.3.11 DOI:10.33920/sel-11-2212-05

Кластерный анализ на основе многомерных средних по результатам ВСХП-2016 с использованием Python

Быков Д. В. ассистент кафедры статистики и кибернетики, ФГБОУ ВО «Российский государственный аграрный университет — МСХА имени К. А. Тимирязева», 127550, г. Москва, ул. Тимирязевская, д. 49, Е-mail: bykovdv@rgau-msha.ru, https://orcid.org/0000-0001-6287-3462
Уколова А.В. канд. экон. наук, доцент, и. о. заведующего кафедры статистики и кибернетики, ФГБОУ ВО «Российский государственный аграрный университет — МСХА имени К. А. Тимирязева», 127550, г. Москва, ул. Тимирязевская, д. 49, Е-mail: statmsha@rgau-msha.ru, https://orcid.org/0000-0002-2806-6365

В статье описываются этапы и результаты многомерной классификации личных подсобных хозяйств (ЛПХ) по данным Всероссийской сельскохозяйственной переписи 2016 г. (ВСХП-2016). Указанная классификация была проведена на основе четырех подготовленных наборов исходных данных, два из которых представляют собой синтетические показатели в виде многомерных средних, и реализована с помощью средств языка программирования Python, включая библиотеку skit-learn для проведения кластеризации и библиотеку matplotlib для графической визуализации полученного разбиения домохозяйств на однородные группы. Исходные данные нормализуются методом L2 Normalization, также известным как Spatial Sign Preprocessing. Кластерный анализ осуществляется методом k-средних на основе алгоритма Ллойда (Lloyd algorithm), число кластеров определяется с помощью коэффициента Silhouette Coefficient. Результаты визуализируются посредством столбчатых диаграмм, а также двумерных и трехмерных точечных диаграмм.

Литература:

1. Александровская Ю.П. Информационные технологии статистического анализа данных: учебно-методическое пособие. — Казань: КНИТУ, 2019. — 152 с. — ISBN 978-57882-2636-1. — Текст: электронный // Лань: электронно-библиотечная система. — URL: https://e.lanbook.com/book/166149. — Режим доступа: для авториз. пользователей.

2. Гречишкина, О.С. Изучение генофонда рабочей коллекции яровой мягкой пшеницы по урожайности и структурным элементам урожая с использованием кластерного анализа / О.С. Гречишкина, Р.Д. Хутамбирдина, М.П. Мордвинцев // Известия Оренбургского государственного аграрного университета. — 2021. — №6. — С. 24–30. — ISSN 2073-0853. — Текст: электронный // Лань: электронно-библиотечная система. — URL: https://e.lanbook.com/journal/issue/316568. — Режим доступа: для авториз. пользователей.

3. Дашиева, Б.Ш. Анализ трудовых ресурсов личных подсобных хозяйств по данным похозяйственного учета / А.В. Уколова, Б.Ш. Дашиева // Бухучет в сельском хозяйстве. — 2020. — №9. — С. 63–72.

4. Дашиева, Б.Ш. Анализ трудовых ресурсов на основе типологии крестьянских (фермерских) хозяйств и сельскохозяйственных организаций // Экономический анализ, теория и практика. — 2021. — Т. 20. — Вып. 11. — С. 2113–2133.

5. Дашиева, Б.Ш. Типология личных подсобных хозяйств по данным ВСХП-2016 / А.В. Уколова, Б.Ш. Дашиева // Экономика и управление: проблемы, решения. — 2022. — №4-2. — С. 155–165.

6. Завиваев, Н.С. Кластерный анализ эффективности использования элементов точного сельского хозяйства / Н.С. Завиваев, О.Ю. Якимова, А.П. Мансуров // Вестник НГИЭИ. — 2021. — №12. — С. 82–94. — ISSN 2227-9407. — Текст: электронный // Лань: электронно-библиотечная система. — URL: https://e.lanbook.com/journal/ issue/316460. — Режим доступа: для авториз. пользователей.

7. Зинченко, А.П. Математическая статистика: учебник / А.П. Зинченко, М.В. Кагирова, Ю.Н. Романцева [и др.]. — М.: РГАУ-МСХА имени К. А. Тимирязева, 2018. — 199 с.

8. Кузьмина, С.П. Применение кластерного анализа в селекции гороха овощного / С.П. Кузьмина, Н.Г. Казыдуб, Е.В. Бондаренко // Вестник НГАУ. — 2018. — №1. — С. 35–42. — ISSN 2504-1406. — Текст: электронный // Лань: электронно-библиотечная система. — URL: https://e.lanbook.com/journal/issue/308047. — Режим доступа: для авториз. пользователей.

9. Литарная, М.А. Применение кластерного анализа для разделения образцов коллекции льна-долгунца по признакам качества волокна // Вестник Белорусской государственной сельскохозяйственной академии. — 2019. — №1. — С. 139–142. — ISSN 2076-5215. — Текст: электронный // Лань: электронно-библиотечная система. — URL: https://e.lanbook.com/journal/issue/310625. — Режим доступа: для авториз. пользователей.

10. Макшанов, А.В. Технологии интеллектуального анализа данных: учебное пособие / А.В. Макшанов, А.Е. Журавлев. — 2-е изд., стер. — Санкт-Петербург: Лань, 2022. — 212 с. — ISBN 978-5-8114-4493-9. — Текст: электронный // Лань: электронно-библиотечная система. — URL: https://e.lanbook.com/book/206711. — Режим доступа: для авториз. пользователей.

11. Никитина, Л.М. Применение кластерного анализа для оценки развития цифровой экономики регионов России / Л.М. Никитина, В.А. Куркин // Регион: системы, экономика, управление. — 2020. — №3. — С. 28–38. — ISSN 1997-4469. — Текст: электронный // Лань: электронно-библиотечная система. — URL: https://e.lanbook.com/journal/issue/322466. — Режим доступа: для авториз. пользователей.

12. Пигуль, М.Л. Подбор исходного материала с комплексом признаков методом кластерного анализа для селекции Lonicera caeruleae L. / М.Л. Пигуль, М.С. Шалкевич // Вестник Белорусской государственной сельскохозяйственной академии. — 2019. — №1. — С. 131–134. — ISSN 2076-5215. — Текст: электронный // Лань: электронно-библиотечная система. — URL: https://e.lanbook.com/journal/ issue/310625. — Режим доступа: для авториз. пользователей.

13. Попова, В.Б. Статистический анализ и прогнозирование с использованием пакетов прикладных программ: учебное пособие / В.Б. Попова, И.В. Фецкович. — Воронеж: Мичуринский ГАУ, 2021. — 147 с. — ISBN 978-5-94664-432-7. — Текст: электронный // Лань: электронно-библиотечная система. — URL: https://e.lanbook.com/book/253565. — Режим доступа: для авториз. пользователей.

14. Чураков, Е.П. Введение в многомерные статистические методы: учебное пособие для вузов / Е.П. Чураков. — 2-е изд., стер. — Санкт-Петербург: Лань, 2022. — 148 с. — ISBN 978-5-507-44731-2. — Текст: электронный // Лань: электронно-библиотечная система. — URL: https://e.lanbook.com/book/254732. — Режим доступа: для авториз. пользователей.

15. Шегельман, И.Р. Типизация лесных территорий по природно-производственным условиям на основе кластерного анализа / И.Р. Шегельман, П.В. Будник, Э.Ф. Герц // Известия высших учебных заведений. Лесной журнал. — 2021. — №1. — С. 120–137. — ISSN 0536-1036. — Текст: электронный // Лань: электронно-библиотечная система. — URL: https://e.lanbook.com/journal/issue/314703. — Режим доступа: для авториз. пользователей.

16. Kuhn, M. Applied Predictive Modeling / M. Kuhn, K. Johnson. — New York: Springer Science + Business Media, 2013. — 613 p.

17. Phillips, Jeff M. Mathematical Foundations for Data Analysis / Jeff M. Phillips. — Springer Nature Switzerland AG, 2021. — 304 p.

18. Preprocessing data. — Текст: электронный // scikit-learn: библиотека машинного обучения для Python: сайт. — URL: https://scikit-learn.org/stable/modules/ preprocessing.html#preprocessing-normalization

19. sklearn.cluster.KMeans: K-Means clustering. — Текст: электронный // scikit-learn: библиотека машинного обучения для Python: сайт. — URL: https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans

20. sklearn.metrics.silhouette_score. — Текст: электронный // scikit-learn: библиотека машинного обучения для Python: сайт. — URL: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.silhouette_score.html

1. Alexandrovskaya, Yu.P. Information technologies for statistical data analysis: teaching aid / Yu.P. Alexandrovskaya. — Kazan: KNRTU, 2019. — 152 p. — ISBN 978-5-78822636-1. — Text: electronic // Lan: electronic library system. — URL: https://e.lanbook.com/book/166149. — Access mode: for authorization users.

2. Grechishkina O.S. Study of the gene pool of the working collection of spring soft wheat in terms of yield and structural elements of the crop using cluster analysis / O.S. Grechishkina, R.D. Khutambirdina, M.P. Mordvintsev // Bulletin of the Orenburg State Agrarian University. — 2021. — No. 6. — Р. 24–30. — ISSN 2073-0853. — Text: electronic // Lan: electronic library system. — URL: https://e.lanbook.com/journal/issue/316568. — Access mode: for authorization users.

3. Dashieva, B.Sh. Analysis of labor resources of personal subsidiary farms according to household accounting / A.V. Ukolova, B.Sh. Dashieva // Accounting in agriculture. — 2020. — No. 9. — P. 63–72.

4. Dashieva, B.Sh. Analysis of labor resources based on the typology of peasant (fermer’s) households and agricultural organizations / B.Sh. Dashieva // Economic analysis, theory and practice. — 2021. — T. 20. — Issue. 11. — Р. 2113–2133.

5. Dashieva, B.Sh. Typology of personal subsidiary plots according to the data of the All-Union Agricultural Program-2016 / A.V. Ukolova, B.Sh. Dashieva // Economics and management: problems, solutions. — 2022. — No. 4-2. — Р. 155–165.

6. Zavivaev, N.S. Cluster analysis of the effectiveness of the use of elements of precision agriculture / N.S. Zavivaev, O.Yu. Yakimova, A.P. Mansurov // Vestnik NGIEI. — 2021. — No. 12. — P. 82–94. — ISSN 2227-9407. — Text: electronic // Lan: electronic library system. — URL: https://e.lanbook.com/journal/issue/316460. — Access mode: for authorization users.

7. Zinchenko, A.P. Mathematical statistics: textbook / A.P. Zinchenko, M.V. Kagirova, Yu.N. Romantseva [and others]. — Moscow: Russian State Agrarian University — Moscow Timiryazev Agricultural Academy, 2018. — 199 p.

8. Kuzmina, S.P. Application of cluster analysis in the selection of vegetable peas / S.P. Kuzmina, N.G. Kazydub, E.V. Bondarenko // Vestnik NSAU. — 2018. — No. 1. — P. 35–42. — ISSN 2504-1406. — Text: electronic // Lan: electronic library system. — URL: https://e. lanbook.com/journal/issue/308047. — Access mode: for authorization users.

9. Litarnaya, M.A. Application of cluster analysis to separate samples of the fiber flax collection according to the characteristics of fiber quality / M.A. Litarnaya // Bulletin of the Belarusian State Agricultural Academy. — 2019. — No. 1. — P. 139–142. — ISSN 2076-5215. — Text: electronic // Lan: electronic library system. — URL: https://e.lanbook.com/journal/issue/310625. — Access mode: for authorization users.

10. Makshanov, A.V. Data Mining Technologies: textbook / A.V. Makshanov, A.E. Zhuravlev. — 2nd ed., erased. — St. Petersburg: Lan, 2022. — 212 p. — ISBN 978-5-81144493-9. — Text: electronic // Lan: electronic library system. — URL: https://e.lanbook. com/book/206711. — Access mode: for authorization. users.

11. Nikitina, L.M. Application of cluster analysis to assess the development of the digital economy of Russian regions / L.M. Nikitina, V.A. Kurkin // Region: systems, economics, management. — 2020. — No. 3. — Р. 28–38. — ISSN 1997-4469. — Text: electronic // Lan: electronic library system. — URL: https://e.lanbook.com/journal/ issue/322466. — Access mode: for authorization users.

12. Pigul, M.L. Selection of source material with a complex of features by cluster analysis for breeding Lonicera caeruleae L. / M.L. Pigul, M.S. Shalkevich // Bulletin of the Belarusian State Agricultural Academy. — 2019. — No. 1. — P. 131–134. — ISSN 20765215. — Text: electronic // Lan: electronic library system. — URL: https://e.lanbook.com/journal/issue/310625. — Access mode: for authorization users.

13. Popova, V.B. Statistical analysis and forecasting using application packages: a tutorial / V.B. Popova, I.V. Fetskovich. — Voronezh: Michurinsky GAU, 2021. — 147 p. — ISBN 978-5-94664-432-7. — Text: electronic // Lan: electronic library system. — URL: https://e.lanbook.com/book/253565. — Access mode: for authorization users.

14. Churakov, E.P. Introduction to multivariate statistical methods: textbook for universities / E.P. Churakov. — 2nd ed., erased. — St. Petersburg: Lan, 2022. — 148 p. — ISBN 978-5-507-44731-2. — Text: electronic // Doe: electronic library system. — URL: https://e.lanbook.com/book/254732. — Access mode: for authorization users.

15. Shegelman, I.R. Typification of forest areas according to natural and production conditions based on cluster analysis / I.R. Shegelman, P.V. Budnik, E.F. Herts // Izvestiya vysshikh obshchestvennykh zavedenii. Forest magazine. — 2021. — No. 1. — P. 120–137. — ISSN 0536-1036. — Text: electronic // Lan: electronic library system. — URL: https://e.lanbook.com/journal/issue/314703. — Access mode: for authorization users.

16. Kuhn, M. Applied Predictive Modeling / M. Kuhn, K. Johnson. — New York: Springer Science + Business Media, 2013. — 613 p.

17. Phillips, Jeff M. Mathematical Foundations for Data Analysis / Jeff M. Phillips. — Springer Nature Switzerland AG, 2021. — 304 p.

18. Preprocessing data. — Text: electronic // scikit-learn: machine learning library for Python: website. — URL: https://scikit-learn.org/stable/modules/preprocessing.html#preprocessing-normalization

19. sklearn.cluster.KMeans: K-Means clustering. — Text: electronic // scikit-learn: machine learning library for Python: website. — URL: https://scikit-learn.org/stable/ modules/generated/sklearn.cluster.KMeans

20. sklearn.metrics.silhouette_score. — Text: electronic // scikit-learn: machine learning library for Python: website. — URL: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.silhouette_score.html

Домохозяйства как единицы статистической совокупности могут быть охарактеризованы множеством признаков, поэтому можно отнести их к категории многомерных объектов. Разбиение многомерных объектов на группы по объективному критерию возможно только при учете совокупного взаимодействия всех основных признаков [13].

Кластерный анализ представляет собой наиболее распространенный метод многомерной классификации [7, 13], который применяется для построения кластеров как групп объектов, получаемых в результате разбиения. Причем предполагается, что объекты внутри кластера обладают определенной общностью [14] или являются однородными. Другими словами, объекты внутри кластера должны иметь большее сходство между собой, чем с объектами других кластеров [10].

Для решения задачи снижения размерности признаков перед процедурой кластерного анализа может быть проведен факторный анализ, в данном исследовании используется подход, основанный на использовании многомерных средних. Предварительный расчет многомерных средних позволяет также включить в анализ признаки с альтернативной изменчивостью, проводить визуализацию данных.

Кластерный анализ широко применяется в сельскохозяйственных исследованиях, например в селекции гороха овощного [8], для разделения образцов коллекции льна-долгунца по признакам качества волокна [9], при изучении генофонда рабочей коллекции яровой мягкой пшеницы по урожайности и структурным элементам урожая [2], при подборе исходного материала с комплексом признаков для селекции Lonicera caeruleae L. [12], при исследовании эффективности использования элементов точного сельского хозяйства [6], для типизации лесных территорий по природно-производственным условиям [15] и сельскохозяйственных товаропроизводителей [3–5].

Данный метод также актуален и для экономических исследований, связанных, в частности, с оценкой развития цифровой экономики регионов России [11].

Результаты многомерной классификации личных подсобных хозяйств могут быть применены для проведения более эффективной политики по поддержке сельского хозяйства, базирующейся на выявленных группах объектов с низкими показателями оснащенности, растениеводства и животноводства.

Для Цитирования:
Быков Д. В., Уколова А.В., Кластерный анализ на основе многомерных средних по результатам ВСХП-2016 с использованием Python. Бухучет в сельском хозяйстве. 2022;12.
Полная версия статьи доступна подписчикам журнала
Язык статьи:
Действия с выбранными: