Також існує набір скриптів, який дозволяє завантажити дані у форматі, придатному для подальшого аналізу - https://github.com/petewarden/crunchcrawl
Чим ми власне і зайнялися цієї неділі. Результати більш професійного аналізу з допомогою R будуть пізніше в блозі моєї дружини (ми вирішили провести два незалежних дослідження і пізніше порівняти висновки).
Одже, для дослідження я вибрав з повної бази в 60 тисяч проектів ті, які отримали хоч якесь фінансування, і проаналізувати саме їх. Крім того вибірку було обмежено групами, в які потрапило не меншще 50 проектів
crunchbase=# select country_code, count(*), min(amount_raised::float) / 1000 as min, max(amount_raised::float) / 1000 as max, median(amount_raised::float::int8)::int8 / 1000 as median, stddev(amount_raised::float) from org where amount_raised::float > 0 group by country_code having count(*) > 49 order by median desc;
country_code | count | min | max | median | stddev
--------------+-------+-----+---------+--------+------------------
CHN | 162 | 7 | 478000 | 12000 | 54822859.7331082
USA | 7936 | 1 | 5620000 | 6972 | 81810808.5188822
IND | 162 | 6 | 300000 | 6555 | 30929815.0756823
CHE | 77 | 10 | 515000 | 5600 | 69345180.8354862
CAN | 345 | 1.2 | 350000 | 5000 | 24191815.1134509
ISR | 282 | 20 | 115000 | 4300 | 14798301.8257697
IRL | 64 | 70 | 50250 | 3900 | 8616604.81320482
DNK | 58 | 10 | 160400 | 3865 | 28943480.142572
DEU | 154 | 15 | 158700 | 3185 | 18653788.5816171
GBR | 526 | 10 | 1275000 | 3035 | 63979428.8180331
FRA | 306 | 50 | 149000 | 2935 | 12570166.9277194
SWE | 104 | 35 | 79960 | 2595 | 9937558.03216955
ESP | 83 | 15 | 218400 | 1930 | 25105973.5354224
AUS | 67 | 7 | 90000 | 1800 | 14347652.0292516
(14 rows)
Одже:
- за найвищою ціною продано американський проект (5 млрд долларів - цікаво що це було??? - треба порити)
- в загальному більші кошти отримують китайські (медіана 12 мільйонів доларів) і американські (медіана 7 мільйонів доларів) проекти
- в той самий час середнє відхилення (хаотичність оцінки проектів) найвища в америці.
crunchbase=# select category_code, count(*), min(amount_raised::float) / 1000 as min, max(amount_raised::float) / 1000 as max, median(amount_raised::float::int8)::int8 / 1000 as median from org where amount_raised::float > 0 group by category_code having count(*) > 49 order by 5 desc;
category_code | count | min | max | median
------------------+-------+-------+------------+--------
semiconductor | 335 | 35 | 540000 | 13500
biotech | 1300 | 10 | 598000 | 12086
cleantech | 516 | 10 | 1200000 | 12000
network_hosting | 277 | 10 | 300000 | 9400
security | 158 | 25 | 565000 | 8050
hardware | 451 | 1.1 | 409900 | 7650
enterprise | 429 | 5 | 217930 | 7000
mobile | 638 | 1 | 5620000 | 6000
advertising | 424 | 1.5 | 248000 | 5750
public_relations | 372 | 10 | 283000 | 5735
software | 2219 | 5 | 1275000 | 5387
consulting | 131 | 3 | 100000 | 4575
| 597 | 2.667 | 260000 | 4000
other | 501 | 1 | 495000 | 4000
games_video | 580 | 5 | 519000 | 4000
search | 137 | 2 | 223000 | 4000
web | 1443 | 1.2 | 2335700 | 3000
ecommerce | 407 | 2.5 | 503751.458 | 2520
(18 rows)
- Не дивно, що "піднятися" найвища імовірність на напівпровідниках і біотехнологіях.
- Найтяжче заробити на є-комерсі. Але саме там відбулася найдорожча продажа.
В голові крутиться кілька більш цікавих досліджень. Спробую їх реалізувати ближчим часом, якщо поточні справи не закрутять...