💖 🙊 💃🏽 Who should live well on a budget? 🤚 👻 💄

INTRODUCTION

   — ,
   — ,
  
  :
 ,
 ,
 ,
 ,
  :
, ,
, .
,  —
 ,
 —  :
  ,
  ?

.

A couple of months ago, at an IT event, I happened to see the work of Pandas. The guy who worked with him did nothing particularly surprising. But simple addition of values, calculation of averages, groupings were carried out so masterly that, even with all my bias towards Python, I was fascinated. Manipulations were carried out on fairly decent datasets according to capital repairs for the period it seems from 2004 to 2019. Hundreds of thousands of lines, but everything worked very fast.

- , Pandas. , Excel . .

. , , . , , . , , , , . - "barchart race" - " ". , barchart race. , . Barchart race , , , - , . , .

"" , , . , , . , , . . , , - . :

, .
, , - . .

. .

: " ". . . - . .

— 20- , , . , - , (, ), , , , .

- , . , 7 , 3 — ( ) 4, 5 — , 6, 7 — . , , , .

- —
- —
- —
- —
  - —
  - —
  - —
  - —
- —

, , .

, . , . . . , , . 3 10 , . . . . 164. .

.

. 0507011, 2002 2019. - 2007 .

, , 2002 2019 .

, 0501 2003 " ", 2006 " ". 01 . 0103 2002 " ", 2005 " () ".

, . , , . 02 , 03 . . , .

. , , 1986 A Manual on Government Finance Statistics (GFSM 1986). https://www.imf.org/external/pubs/ft/gfs/manual/1986/eng/index.htm
, : 2001 2014 . GFSM 2014 .

4 "Functional classification", . Classicifation of the Functions of Government COFOG. - (). , . 4 : 2 — , 3 4 . , . 2002 . , , .

, .
COFOG, COFOG.

, , COFOG , . . , . . , , , " " , 01 ( ) . , , . , . . - . .

: " , -!"

. -

. , outer join . :

. , . . , . 2002 2019 240 , , . 95 . 2002 240, 17 8 . .

html :
https://vneberu.ru/

, , . . .

. ?

1 . 01 , . 0101.

17 , . , 01 , .. " " 01. , 01, . , GFSM 2014, - . , 70310 , , , , , ;

01 , - . . - . - . Pandas, . levenshtein_merge(). join Pandas DataFrame , . , . , , , , pip install Pandas DataFrame. , prepack.

2 , jupyter notebook .

#    
import pandas as pd
import numpy as np
import os, sys

#    
from prepack import prepack as pp

#      
pd.options.display.max_rows = 2000
pd.options.display.max_columns = 200
pd.options.display.max_colwidth = 500
pd.options.display.min_rows = 40

prepack. zip . file-like ,
. pd.read_excel(), excel.

names, files = pp.read_zip("raw_data.zip")

pd.read_excel() , excel .

read_excel excel , .

, . . , .

pp.read_excel(files[0]).iloc[8:13,:]

	0	1	2	3	4	5	6	7	8	9	10	11	12
8										(. .)			(. .)
9		\n				« 2002 »						,%
10
11	1	2	3	4	5	6	7	8	8	9	10	10
12		020				10443678.700000001	10823452	10307275.3		10259178.000000002	95.23094203217238	94.78656162562555

, . . excel, 1 DataFrame, , .

3 : files, columns, fltr. excel , — , . — , , . 4 . .

, , 0 11 , , , . , . 3 :
8,9,10

#      1  DataFrame
df = pp.parse_excels(files, columns=[0,12], fltr={0: 'istext',1: 'isnum'}, header=[8,9,10])

#,  
df.head(5)

					« 2002 »			(. .)		,%	src_filename
0	020				10443678.700000001	10823452	10307275.3	10259178.000000002	95.23094203217238	94.78656162562555	2002
1	020	0100			158826.9	153149.8	153149.8	150806.5	100	98.46992944163166	2002
2	020	0103			158826.9	153149.8	153149.8	150806.5	100	98.46992944163166	2002
3	020	0103	037		147458.5	141865	141865	140224.4	100	98.84354844394319	2002
4	020	0103	037	027	80921.6	75448.3	75448.3	74517.7	100	98.76657260667237	2002

1 , pickle, prepack 0.4.2 pkl.gz

#   
df.to_csv('raw_data.csv.gz')
pp.save(df, 'raw_data.pkl.gz')

prepack. DataFrame, .

DataFrame, , , . , 3 iloc=True.

, , " " " ", . .

#         
f = pp.df_filter_and(df, {0: 'istext', 1: 'isnum', 2: 'isblank', 3: 'isblank'}, iloc=True)
ppp = df[f]
idx = ppp[' '].index
ppp = ppp.loc[idx,:]

, DataFrame , .

#        ,   
def df_filter(df, fltr):
    f = pp.df_filter_and(df, fltr)
    res = df[f]
    df.drop(res.index, axis=0, inplace=True)
    return res

, DataFrame .

, , . , . label . , ,
, .

def df_filter_post_proc(df, fltr, rzpr, label):
    df_ = df_filter(df, fltr)
    codes = df_['    '].unique()
    names = df_[' '].unique()
    return {'name': list(names), 'ppp': list(codes), 'rzpr': list(rzpr), 'label': list(label)}

, . , , 1 . . df . , , , . . . , : 1 , . . , .

#              
def groups_fill(df, groups):
    res = pd.DataFrame([])
    for g in groups:
        el = groups[g]

        ppp = el['ppp']
        rzpr = el['rzpr']
        label = el['label']

        #  ppp ,    -  
        if len(ppp) == 0:
            continue

        # 1   
        f1 = {'    ': ppp}
        # 2    ,      
        f2 = {'  ': rzpr}
        # 3 ,       
        f3 = {'  ': 'isblank'}
        # 3 ,       
        f4 = {'  ': 'isblank'}

        #  
        m1 = pp.df_filter_or(df, f1)
        m2 = pp.df_filter_or(df, f2)
        m3 = pp.df_filter_or(df, f3)
        m4 = pp.df_filter_or(df, f4)
        #       
        df1 = df[m1 & m2 & m3 & m4]

        #     ppp,    label ( )
        #  ppp      
        df_ = df[m1 & m4]
        f5 = {' ': label}
        m5 = pp.df_filter_or(df_, f5)
        df2 = df_[m5].copy()

        #          label (df2), / 
        #   /  rzpr (df1).      label   ,
        # / ,     /     ,      .
        #       3 : , ,  (src_filename)

        #   df1  df2
        #     df2,   
        df2['idx'] = df2.index
        intersect = pd.merge(df1.loc[:,['    ','  ', 'src_filename']],
                             df2.loc[:,['    ','  ', 'src_filename','idx']],
                             on=['    ','  ', 'src_filename'], how='inner')

        #    df2  
        df2_filtered = df2.drop(intersect['idx'], axis=0)

        # ,    df1  df2   1 ,   
        df3 = pd.concat([df1, df2_filtered], axis=0)
        v = df3[[' ',
                 '    ',
                 '  ',
                 '(. .) ',
                 'src_filename']].copy()
        #  
        v['name'] = g
        #    
        res = pd.concat([res, v], axis=0)
    return res

, .
0101 0107 2002 2019 .
, 0101 0107 . , .


lst = {}

#        
rzpr_base = ['0101','0102','0103','0104','0105','0106','0107']

#      
label_base = ['      ',
              r'contains=.*(?:.*).*',
              r'contains=.*(?:   ).*',
              r'contains=.*(?:  .*).*'
             ]

#           
f = {' ': r'contains=.*(?: ).*'}
rzpr = ['isblank']
df_slice = df_filter_post_proc(ppp, f, rzpr, label_base)
lst[''] = df_slice

rzpr = ['0101','0102','0103','0104','0105','0106','0107','0201']
f = {' ': r'contains=.*(?:|| |||).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[''] = df_slice

rzpr = ['0101','0102','0103','0104','0105','0106','0107','0201']
f = {' ': r'contains=.*(?:|-| ).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[' '] = df_slice

f = {' ': r'contains=.*(?:||).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst['  '] = df_slice

f = {' ': r'contains=.*(?:|).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[''] = df_slice

f = {' ': r'contains=.*(?: | ).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[' '] = df_slice

f = {' ': r'contains=.*(?: ).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[' '] = df_slice

f = {' ': r'contains=.*(?:|||| || ).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[''] = df_slice 

f = {' ': r'contains=.*(?:|| | |||).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst['  '] = df_slice 

f = {' ': r'contains=.*(?:).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[''] =df_slice

f = {' ': r'contains=.*(?:).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[''] =df_slice

f = {' ': r'contains=.*(?:|| |).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[''] =df_slice

f = {' ': r'contains=.*(?:|||).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[',   '] =df_slice

f = {' ': r'contains=.*(?:| | |||||| | | | | ).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[', , , '] = df_slice

f = {' ': r'contains=.*(?:|).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[''] = df_slice

f = {' ': r'contains=.*(?:||).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst['  '] = df_slice

f = {' ': r'contains=.*(?:||||).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst['  '] = df_slice

f = {' ': r'contains=.*(?:||).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[''] = df_slice

f = {' ': r'contains=.*(?:||| | |).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[''] = df_slice

f = {' ': r'contains=.*(?:).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[''] = df_slice

f = {' ': r'contains=.*(?:).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[''] = df_slice

f = {' ': r'contains=.*(?:| | || | | ).*'}
label = label_base.copy()
label = label + [' ',' ']
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[',   '] = df_slice

f = {' ': r'contains=.*(?:| | | ).*'}
label = label_base.copy()
label = label + [' ']
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label)
lst[''] = df_slice

f = {' ': r'contains=.*(?:).*'}
label = label_base.copy()
label = label + [r'contains=.* .*']
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label)
lst[' '] = df_slice

f = {' ': r'contains=.*(?:| ).*'}
label = label_base.copy()
label = label + ['- ']
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label)
lst[''] = df_slice

f = {' ': r'contains=.*(?:|).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[' '] = df_slice

f = {' ': r'contains=.*(?: |||| |).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[', , , '] = df_slice

f = {' ': r'contains=.*(?:| |).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[''] = df_slice

f = {' ': r'contains=.*(?:||| | ).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst['  '] = df_slice

f = {' ': r'contains=.*(?:).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[''] = df_slice

f = {' ': r'contains=.*(?:[]|).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[''] = df_slice

f = {' ': r'contains=.*(?: |  ).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst['    '] = df_slice

f = {' ': r'contains=.*(?: ).*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[''] = df_slice

#    
f = {' ': r'contains=.*.*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[' '] = df_slice

f = {' ': r'contains=.*.*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[' '] = df_slice

f = {' ': r'contains=.*.*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[' '] = df_slice

#   
f = {' ': r'contains=.*'}
df_slice = df_filter_post_proc(ppp, f, rzpr_base, label_base)
lst[''] = df_slice

, , .

# ,      
for group in lst:
    el = lst[group]
    print(len(el['name']), group, 'ppp:', '|'.join(el['ppp']))
print('', len(ppp))

1  ppp: 308
11  ppp: 125|126|177|464|722|184|187|186|721|185
3   ppp: 160|171|388
23    ppp: 083|316|497|204|048|059|060|077|079|081|093|106|141|151|498|587|086|085|087|096
3  ppp: 258|259|730
2   ppp: 330|333
1   ppp: 305
20  ppp: 056|164|166|409|424|425|591|597|057|058|167|175|054
35    ppp: 075|139|190|226|319|386|401|423|486|494|573|589|677|693|073|074|144|385|595|384|007
3  ppp: 181|205|182
3  ppp: 163|166|167
7  ppp: 092|520|720|723|521|724|100
6 ,    ppp: 149|154|159|155|157|172
13 , , ,  ppp: 140|162|165|197|263|161|168|307|142|139|160
1  ppp: 153
6    ppp: 071|156|072|173|321
10    ppp: 020|099|129|306|021|023|101|143|022|725
7  ppp: 029|104|103|107|108|109|110|179
12  ppp: 078|089|128|134|397|201|070|084|088|135|071
0  ppp: 
6  ppp: 206|303|352|588|304
10 ,    ppp: 153|188|415|189|202|192|416|417|180
4  ppp: 434|436|437|438
1   ppp: 322
2  ppp: 318|320
4   ppp: 076|082|080|085
7 , , ,  ppp: 050|158|049|052|053|169|051
6  ppp: 133|279|132|309|360|069
7    ppp: 054|148|387|055|061|064|056|149
2  ppp: 777
1  ppp: 150
2      ppp: 392|393
1  ppp: 310
5   ppp: 022|350|340|370
5   ppp: 174|091|095|260|380
0   ppp: 
3  ppp: 152|302|090
 0

#           ,   
lst[' ']

{'name': ['   ',
  '    ',
  '      , ,   ,     ',
  '       ',
  '    '],
 'ppp': ['174', '091', '095', '260', '380'],
 'rzpr': ['0101', '0102', '0103', '0104', '0105', '0106', '0107'],
 'label': ['      ',
  'contains=.*(?:.*).*',
  'contains=.*(?:   ).*',
  'contains=.*(?:  .*).*']}

, .

#   ,             
df2 = groups_fill(df,lst)

# ,  
df2

				(. .)	src_filename	name
3220		308		1518661.7000000002	2002
7896		308		9827426.6	2003
13252		308		727006.7	2004
18372		308		2315399.80987	2005
24253		308		2450335.73052	2006
30681		308		11218927.1657	2007
40626		308		4199158.0443899995	2008
52179		308		3063409.77061	2009
62733		308		3042519.67003	2010
72953		308		11343783.96668	2011
91622		308		13596252.48087	2012
111864		308		3329199.29163	2013
131099		308		4392301.7968500005	2014
149219		308		3237166.95	2015
170925		308		15800336.160000002	2016
195070		308		6073661.12	2017
221000		308		18414539.61	2018
247026		308		2237048.2	2019
18375		308	0107	709851.8584799999	2005
24256		308	0107	776471.9299999999	2006
...	...	...	...	...	...	...
3035		302	0105	57201.7	2002
7723		302	0105	63374.3	2003
13055		302	0105	70769.9	2004
18205		302	0115	96531.57899	2005
24063		302	0115	114431.64898	2006
26993		090	0115	2614.72679	2007
30479		302	0115	137220.76789999998	2007
35246		090	0114	0	2008
40281		302	0114	166654.65854	2008
51820		302	0114	176770.48262000002	2009
62366		302	0114	173045.54285	2010
72563		302	0113	167953.68991000002	2011
90966		302	0113	178229.35486999998	2012
111207		302	0113	227229.21458	2013
130549	, , ' ' ' '	302	0113	42004.586409999996	2014
148654	, , ' ' ' '	302	0113	49886.67	2015
170236	,	302	0113	53390.83	2016
194281	,	302	0113	56313.880000000005	2017
220127	,	302	0113	72847.51000000001	2018
246185	,	302	0113	46021.01	2019

2970 rows × 6 columns

#         
df3 = df2.loc[:,['(. .) ', 'src_filename', 'name']]
#  
df3.columns = ['value', 'year', 'name']

#  ,  
idx = df3[df3.loc[:,'value'] == ''].index

#  0
df3.loc[idx, 'value'] = '0.0'

#  float64
df3 = df3.astype({'value': 'float64'})

#       
df4 = df3.groupby(['year','name']).sum().reset_index()

#         
def manuscript(df):
    res = pd.DataFrame([])
    for i in df.index:
        n = df.loc[i,'name']
        y = df.loc[i,'year']
        v = df.loc[i,'value']
        res.loc[n,y] = v
    res['name'] = res.index
    #      
    last_idx = res.shape[1] - 1
    order = [last_idx]
    order = order + list(range(0, last_idx))
    res = res.iloc[:,order]
    return res

#       
df5 = manuscript(df4)
df5

	name	2002	2003	2004	2005	2006	2007	2008	2009	2010	2011	2012	2013	2014	2015	2016	2017	2018	2019
		55118.3	69206.0	174787.2	3.179523e+05	4.059359e+05	6.988135e+05	8.693810e+05	1.227829e+06	1.197151e+06	1.499655e+06	1.472361e+06	1.485361e+06	1.113370e+06	8.331200e+05	1.149470e+06	1.293278e+06	1.228704e+06	7.812578e+05
		738567.6	937116.8	1655342.4	1.473230e+07	1.436403e+07	2.029405e+07	2.347219e+07	3.066014e+07	3.164116e+07	3.242956e+07	3.368836e+07	3.491896e+07	3.741200e+07	6.415048e+07	5.411862e+07	3.814101e+07	3.722678e+07	2.967170e+07
		199462.9	291924.9	468451.0	4.028164e+06	4.184440e+06	1.308096e+07	5.179386e+07	2.047398e+07	2.367009e+07	2.389663e+07	2.879189e+07	3.625769e+07	4.483317e+06	3.927149e+05	1.936604e+07	1.814460e+07	1.823454e+07	1.212784e+07
		1518661.7	9827426.6	727006.7	3.025252e+06	3.226808e+06	1.215190e+07	5.344751e+06	4.289653e+06	4.252440e+06	1.255509e+07	1.480231e+07	4.778233e+06	5.448697e+06	3.489300e+06	2.632606e+07	6.440813e+06	3.324976e+07	2.636338e+06
		6888901.5	5191349.3	496970.0	5.117778e+05	7.624081e+05	9.944042e+05	1.535074e+06	2.527582e+06	2.513591e+06	3.070057e+06	3.095424e+06	3.213713e+06	2.043384e+06	1.630418e+06	1.984821e+06	2.008460e+06	2.020177e+06	6.730164e+05
		794096.1	943669.8	1236022.8	1.143905e+06	1.359334e+06	1.644650e+06	2.372177e+06	4.427220e+06	4.299786e+06	6.742122e+06	5.628042e+06	5.303888e+06	1.711631e+06	1.495427e+06	1.285239e+06	1.296881e+06	1.219905e+06	6.484055e+05
		604832.7	779822.5	930441.0	9.573190e+06	1.463692e+07	1.815751e+07	2.795691e+07	2.301704e+07	2.195236e+07	2.351573e+07	3.705156e+07	2.353878e+07	1.119027e+07	1.172543e+07	1.373801e+07	1.051243e+07	1.111666e+07	5.087854e+06
		56971.8	70000.6	98668.3	1.181241e+05	1.383519e+05	1.828012e+05	2.497096e+05	3.089730e+05	3.540486e+05	3.443083e+05	3.396623e+05	3.611192e+05	1.789257e+06	2.145743e+06	7.194247e+06	1.714675e+06	1.333223e+06	2.213795e+05
		244286.1	251179.4	1125325.4	1.436764e+06	1.773667e+06	2.067159e+06	2.920725e+06	4.878187e+06	4.813045e+06	7.640206e+06	8.280279e+06	7.615266e+06	3.322063e+06	2.750865e+06	2.331090e+06	2.500820e+06	2.482645e+06	1.073571e+06
		856340.8	1027204.1	6176704.0	1.717242e+07	2.367843e+07	2.996330e+07	3.597592e+07	3.839959e+07	3.769431e+07	3.900493e+07	3.809575e+07	3.996433e+07	1.205323e+07	1.187536e+07	8.373596e+06	8.764745e+06	9.350644e+06	5.261310e+06
		24294501.9	29965687.1	34938483.1	4.267415e+07	6.058325e+07	9.738464e+07	1.066937e+08	1.017134e+08	9.750056e+07	1.020170e+08	1.049288e+08	1.095579e+08	1.235494e+08	1.183094e+08	1.295426e+08	1.401987e+08	1.641590e+08	1.168560e+08
		256746.5	314463.2	320622.2	3.843661e+05	4.614256e+05	5.944249e+05	4.372921e+06	6.078403e+06	5.492050e+06	6.231623e+06	6.255479e+06	6.830796e+06	4.332645e+06	7.610444e+06	7.112033e+06	5.669845e+06	6.670268e+06	2.440637e+06
		3982138.7	5450851.3	7313133.0	7.295283e+06	8.261189e+06	8.996543e+06	1.216107e+07	1.526446e+07	1.395581e+07	1.139751e+07	1.736144e+07	2.546027e+07	2.338378e+07	2.420630e+07	2.255378e+07	2.530381e+07	2.881064e+07	1.958996e+07
,	,	29356.9	NaN	NaN	4.086273e+07	5.955347e+07	8.714469e+07	1.112304e+08	1.190517e+08	1.188130e+08	1.355925e+08	1.447262e+08	1.695464e+08	8.024443e+07	7.469808e+07	7.097024e+07	7.359769e+07	8.050007e+07	5.685519e+07
		374737.2	581511.9	920630.1	1.025631e+06	1.291313e+06	1.679555e+06	2.112708e+06	2.495217e+06	2.507740e+06	2.548311e+06	2.392012e+06	4.119598e+06	1.153400e+07	1.049128e+07	4.193052e+07	3.526767e+07	3.388927e+07	2.525769e+07
		57201.7	63374.3	70769.9	9.653158e+04	1.144316e+05	1.398355e+05	1.666547e+05	1.767705e+05	1.730455e+05	1.679537e+05	1.782294e+05	2.272292e+05	4.200459e+04	4.988667e+04	5.339083e+04	5.631388e+04	7.284751e+04	4.602101e+04
		102794.5	170606.0	NaN	NaN	NaN	NaN	4.746758e+05	9.010814e+05	8.974934e+05	8.749721e+05	8.920889e+05	1.951463e+06	2.274708e+06	2.492276e+06	5.389089e+06	3.413066e+06	3.802542e+06	2.572781e+06
		775849.6	1007700.0	243261.2	4.159233e+05	4.419006e+05	5.578016e+05	7.366907e+05	1.017874e+06	1.062586e+06	1.503976e+06	1.438637e+07	2.216447e+06	3.794126e+06	4.711565e+06	8.426905e+06	4.390055e+06	3.707722e+06	1.053583e+06
		242701.7	216446.7	400336.1	4.992449e+05	6.603246e+05	1.115254e+06	4.911316e+06	3.458776e+06	3.272414e+06	3.271444e+06	3.727729e+06	7.070989e+06	6.109341e+06	2.636282e+06	2.762238e+06	4.253678e+06	4.969401e+06	2.624879e+06
,	,	5428673.4	3463846.8	4047470.7	6.130480e+06	9.678373e+06	7.989950e+06	9.796944e+06	1.252393e+07	2.076566e+07	1.356919e+07	1.250955e+07	1.375976e+07	3.484282e+06	3.883531e+06	5.191875e+06	5.138944e+06	4.397301e+06	2.012586e+06
		19461752.1	25119241.4	33012562.4	4.236063e+07	5.965057e+07	7.893130e+07	9.276448e+07	1.073020e+08	1.090315e+08	1.170127e+08	1.206795e+08	1.317020e+08	1.437869e+08	1.518439e+08	1.671576e+08	1.726870e+08	1.770484e+08	1.262668e+08
		514159.2	578396.5	686709.5	1.047412e+06	1.106151e+06	1.273900e+06	1.691962e+06	1.817420e+06	1.945046e+06	1.995006e+06	2.159396e+06	2.443649e+06	2.903754e+06	3.565171e+06	3.454455e+06	3.484411e+06	3.780981e+06	2.791526e+06
		29356.9	NaN	NaN	1.952272e+07	3.177810e+07	5.183096e+07	5.701153e+07	5.431895e+07	5.355175e+07	6.228234e+07	5.793620e+07	6.371512e+07	6.195291e+07	5.720779e+07	5.445615e+07	5.600562e+07	5.757791e+07	4.080228e+07
		997293.2	1259272.4	526374.2	6.916618e+05	9.645825e+05	1.386756e+06	1.745424e+06	2.676544e+06	2.677625e+06	2.834927e+06	3.045155e+06	3.773597e+06	2.172722e+06	2.443524e+06	2.937038e+06	2.856930e+06	3.673195e+06	2.140081e+06
		33821966.6	45644003.1	48200940.5	4.939072e+06	6.193123e+06	7.251381e+06	1.059864e+07	1.989783e+07	9.343257e+06	1.005613e+07	1.879268e+07	2.570202e+07	9.172114e+05	1.345042e+06	7.543578e+05	7.162469e+05	9.785970e+05	4.562662e+05
		2453820.2	2629797.7	3197238.2	4.181236e+06	4.659688e+06	5.362667e+06	6.895839e+06	7.361260e+06	7.344989e+06	7.554316e+06	9.326065e+06	1.053433e+07	1.131073e+07	1.242822e+07	1.333192e+07	1.376513e+07	1.475574e+07	1.075951e+07
		9795825.7	12659262.1	12562536.2	1.846512e+07	2.636404e+07	3.143353e+07	3.908707e+07	4.227111e+07	4.224021e+07	4.577294e+07	4.783098e+07	4.669822e+07	4.723468e+07	4.649914e+07	5.315978e+07	5.486682e+07	5.314100e+07	3.516734e+07
, , ,	, , ,	1414479.3	1648065.4	790980.7	1.769120e+06	2.288039e+06	2.148871e+06	2.325598e+06	2.668416e+06	2.607731e+06	3.113915e+06	2.991145e+06	3.765731e+06	2.026427e+06	2.593518e+06	2.144792e+06	2.022290e+06	2.086581e+06	1.043217e+06
, , ,	, , ,	1097438.7	1623486.0	1329962.8	2.610266e+06	2.771028e+06	4.104223e+06	7.108139e+06	8.975361e+06	7.927798e+06	8.869630e+06	9.727466e+06	1.045263e+07	6.037323e+06	8.090558e+06	8.451552e+06	7.718410e+06	8.110111e+06	4.289423e+06
		NaN	179252.0	235819.3	3.320298e+05	7.943606e+05	9.523479e+05	1.196923e+06	1.920132e+06	2.167992e+06	2.569884e+06	2.851141e+06	3.595451e+06	2.266321e+06	2.925800e+06	2.474541e+06	2.691113e+06	2.724423e+06	3.500916e+06
		NaN	NaN	1770603.2	1.932432e+06	2.208957e+06	1.519598e+06	1.871774e+06	2.332351e+06	2.251716e+06	2.253084e+06	2.228262e+06	2.336381e+06	1.148488e+06	1.224942e+06	1.309529e+06	1.352477e+06	1.331878e+06	6.551340e+05
		NaN	NaN	NaN	4.959079e+04	8.257997e+04	8.007811e+04	3.208375e+05	1.905577e+06	2.141823e+06	2.734147e+06	2.566841e+06	3.105008e+06	4.561860e+06	5.291365e+06	4.921941e+06	3.635852e+06	3.703932e+06	2.351683e+06
		NaN	NaN	NaN	2.114784e+07	2.847243e+07	4.374566e+07	5.803671e+07	6.700059e+07	6.942675e+07	7.403237e+07	8.238733e+07	8.780665e+07	5.812453e+07	5.460078e+07	5.271739e+07	5.339494e+07	5.971298e+07	4.166289e+07
		NaN	NaN	NaN	NaN	NaN	NaN	1.449746e+05	5.344759e+05	4.945119e+05	4.737492e+05	5.309736e+05	8.497661e+05	8.696530e+05	4.209008e+05	3.525698e+05	3.390244e+05	3.446490e+05	1.438859e+05

#        d3.js    
def prep_data(df):
    lst = []
    size = df.shape[0]
    for i in range(0, size):
        row = df.iloc[i,:]
        name = row['name']

        #skip first column
        row_ = row[1:]
        for k, y in enumerate(row_.index):
            begin = float(row_[k]) # current year
            try:
                end = float(row_[k + 1]) # next year
            except:
                end = float(row_[k]) 

            range_ = end - begin
            step = range_ / 10

            cur = begin
            for n in range(0,10):
                last = cur
                cur = begin + step * (n+1)
                if cur < 0:
                    cur = 0.0
                lst.append({'name': name,
                            'value': round(cur, 2),
                            'year': float(str(y) + '.' + str(n)),
                            'lastValue': round(last, 2),
                            'rank': 0})

    df2 = pd.DataFrame(lst)
    df2 = df2.sort_values(by=['year','value'])
    df2.reset_index(drop=True, inplace = True)
    df2['rank'] = range(1,df2.shape[0]+1)
    return df2

#  
data = prep_data(df5)

data

	name	value	year	lastValue	rank
0		5.652707e+04	2002.0	5.511830e+04	1
1		5.781896e+04	2002.0	5.720170e+04	2
2		5.827468e+04	2002.0	5.697180e+04	3
3		1.095756e+05	2002.0	1.027945e+05	4
4		2.087091e+05	2002.0	1.994629e+05	5
5		2.400762e+05	2002.0	2.427017e+05	6
6		2.449754e+05	2002.0	2.442861e+05	7
7		2.625182e+05	2002.0	2.567465e+05	8
8		3.954147e+05	2002.0	3.747372e+05	9
9		5.205829e+05	2002.0	5.141592e+05	10
10		6.223317e+05	2002.0	6.048327e+05	11
11		7.584225e+05	2002.0	7.385676e+05	12
12		7.990346e+05	2002.0	7.758496e+05	13
13		8.090535e+05	2002.0	7.940961e+05	14
14		8.734271e+05	2002.0	8.563408e+05	15
15		1.023491e+06	2002.0	9.972932e+05	16
16	, , ,	1.150043e+06	2002.0	1.097439e+06	17
17	, , ,	1.437838e+06	2002.0	1.414479e+06	18
18		2.349538e+06	2002.0	1.518662e+06	19
19		2.471418e+06	2002.0	2.453820e+06	20
...	...	...	...	...	...
6100		2.440637e+06	2019.9	2.440637e+06	6101
6101		2.572781e+06	2019.9	2.572781e+06	6102
6102		2.624879e+06	2019.9	2.624879e+06	6103
6103		2.636338e+06	2019.9	2.636338e+06	6104
6104		2.791526e+06	2019.9	2.791526e+06	6105
6105		3.500916e+06	2019.9	3.500916e+06	6106
6106	, , ,	4.289423e+06	2019.9	4.289423e+06	6107
6107		5.087854e+06	2019.9	5.087854e+06	6108
6108		5.261310e+06	2019.9	5.261310e+06	6109
6109		1.075951e+07	2019.9	1.075951e+07	6110
6110		1.212784e+07	2019.9	1.212784e+07	6111
6111		1.958996e+07	2019.9	1.958996e+07	6112
6112		2.525769e+07	2019.9	2.525769e+07	6113
6113		2.967170e+07	2019.9	2.967170e+07	6114
6114		3.516734e+07	2019.9	3.516734e+07	6115
6115		4.080228e+07	2019.9	4.080228e+07	6116
6116		4.166289e+07	2019.9	4.166289e+07	6117
6117	,	5.685519e+07	2019.9	5.685519e+07	6118
6118		1.168560e+08	2019.9	1.168560e+08	6119
6119		1.262668e+08	2019.9	1.262668e+08	6120

6120 rows × 5 columns

#    csv    d3.js
data.to_csv('data_groups.csv', index=False)

Next, you need to write the contents from the resulting csv file to the file https://github.com/legale/d3.js-portable/blob/master/barchart-race-ppp-bundle2.html in the variable csv_string.

We look at the received race. The race results speak for themselves.

Here in html:
https://vneberu.ru/barchart-race2.html

Here is a video on youtube:

Thank you for your attention, welcome to comment.

LINKS

You can see the prepack library here: https://github.com/legale/prepack
The collected bundles with races can be downloaded from the links above, but here .

Who should live well on a budget?

INTRODUCTION

.

. -

. ?

LINKS

More articles: