16. Matplotlib кітапханасы. Бағанды және дөңгелек диаграммалар. Шашырау диаграммалары.
Matplotlib - Python-да ең көп қолданылатын деректерді визуализациялау кітапханаларының бірі. Қарапайымнан күрделі визуализацияға дейін бұл көпшілік үшін кітапхана. Бағандық диаграммалар категориялық деректерді визуализациялау үшін өте қолайлы. белгілі бір дискретті элементтер жиынтығы арасында белгілі бір шаманың өзгергіштігін көрсету қажет болған жағдайда жақсы жұмыс істейді. Оларды құру үшін келесі функциялар қолданылады:bar() – тік диаграмма құру үшін,barh() - көлденең диаграмма құру.Диаграмманы жақсарту үшін жасауға болатын көптеген басқа операциялар бар. Олардың әрқайсысы bar () - ге нақты аталған аргументті қосу арқылы орындалады. Стандартты ауытқу шамаларын тиісті мәндермен бірге yerr аргументі арқылы қосуға болады. Көбінесе бұл дәлел қателерді ұсынуға жауап беретін басқа дәлелдерді қабылдайтын error_kw-мен бірге қолданылады. Олардың екеуі-қате бағандарының түстерін анықтайтын eColor және capsize — осы бағандардың ұштарын белгілейтін көлденең сызықтардың ені.
Мысалы, аталған фильмдердің әрқайсысы американдық киноакадемияның жыл сайынғы қанша Оскар сыйлығын жеңіп алғаны көрсетілген: Егерbar() функциясынbarh() дегенменауыстырсақ, көлденеңдиаграммааламыз:
importmatplotlib.pyplotasplt
importnumpyasnp
np.random.seed(123)
groups = [f'P{i}'for i inrange(7)]
counts = np.random.randint(3, 10, len(groups))
plt.barh(groups, counts)
plt.show()
Дөңгелек диаграмма нақты мысалдағы әртүрлі мәндердің пропорцияларын көрнекі түрде көрсетуге мүмкіндік береді. Пирогтың пішініне ие болғандықтан, ол сандардың мағынасын тамаша жеткізеді.Matplotlib дөңгелек диаграммаларды салу үшін pie() функциясын пайдаланады.Диаграмма мінсіз дөңгелек болуы үшін соңында дәлел ретінде тең жолымен axis() функциясына equal қосу керек.
Бұл графикте, мысалы, Nokia-ны бөлектеу үшін. Ол үшін explode аргументі қолданылады.
importmatplotlib.pyplotasplt
vals = [24, 17, 53, 21, 35]
labels = ['Ford', 'Toyota', 'BMW', 'AUDI', 'Jaguar']
fig, ax = plt.subplots()
ax.pie(vals, labels=labels)
ax.axis('equal')
plt.show()
Шашыраудиаграммасыбасқанақтысандаркеңістігіндегікейбірнақтысандардыңкеңістігінкөрсетеді. Басқашаайтқанда, біратрибуттыңәрбірнүктесіекіншісініңәрбірнүктесінесәйкескеледі. Matplotlib-те олscatterдепаталады:
xlabel және ylabel сәйкесінше x және y осьтерін белгілеу үшін қолданылады.
17. Деректер жиынтығының статистикалық сипаттамасы. Орталық тенденциялар, вариация, корреляция.
Бізде бақылаулар жинағы болғаннан кейін, деректеріміздің ерекшеліктерін бір анықтамаға жинақтау пайдалы. Бұл сипаттама статистикасы жасайды. Атауынан көрініп тұрғандай, сипаттамалық статистика ол қорытындылайтын деректердің белгілі бір қасиетін сипаттайды. Мұндай статистиканы екі категорияға бөлуге болады: орталық тенденция өлшемдері және дисперсия өлшемдері.Орталық тренд өлшемдері «Деректердің ортасы қалай көрінеді?» деген сұраққа жауап беретін көрсеткіштер болып табылады.Оны есептеу өте қарапайым: барлық мәндерді қосыңыз және алынған соманы мәндер санына бөліңіз.
Медиана деректер жиынының ортасы болып табылатын мән болады. Егер мәндер саны жұп болса, онда ортаны «қоршап тұрған» екі мәннің орташа мәні алынады.
Мода деректер жиынында жиі болатын мән ретінде анықталады.
Біздің дисперсияның бірінші өлшемі - бұл аралық(размах). Әрі қарай қарастыратын барлық өлшемдердің ішінде оны есептеу оңай. Ол үшін деректер жиынындағы ең үлкен мәннен ең кіші мәнді алып тастау керек.
Стандартты ауытқу сонымен қатар деректердің таралуының өлшемі болып табылады. Бұлдеректердіңәдеттегімәнненқаншалықтыерекшеленетінінанықтауғакөмектеседі. Басқашаайтқанда, олдеректердіңорташаарифметикалықмәнненқаншалықтыерекшеленетінінайтады.
Summary()функциясынәтижелер мен регрессиякоэффициенттеріншығаруғамүмкіндікбереді.
Екіайнымалыарасындағыбайланыстысандықбағалаудыңбіржолы - екіайнымалыарасындағысызықтыққатынастыңөлшеміболыптабылатын Пирсон корреляция коэффициентінпайдалану.Python тіліндегі екі айнымалылар арасындағы корреляцияны есептеу үшін Numpy функциясын corrcoef() пайдалана аламыз.