Spaces:

AliUsama98
/

datasummer

Runtime error

App Files Files Community

AliUsama98 commited on Nov 22, 2023

Commit

27900ad

1 Parent(s): e474dfc

Upload summarizingdata.py

Browse files

Files changed (1) hide show

summarizingdata.py +80 -0

summarizingdata.py ADDED Viewed

	@@ -0,0 +1,80 @@

+# -*- coding: utf-8 -*-
+"""SummarizingData.ipynb
+Automatically generated by Colaboratory.
+Original file is located at
+    https://colab.research.google.com/drive/1Wo7aUHTjFTRVpiK4efjRHI2gsA6fRip5
+"""
+# Import pandas
+import pandas as pd
+# Use pandas to read in recent_grads_url
+recent_grads = pd.read_csv("/content/recent_grads.csv")
+# Print the shape
+print(recent_grads.shape)
+from google.colab import drive
+drive.mount('/content/drive')
+# Print .dtypes
+print(recent_grads.dtypes)
+# Output summary statistics
+print(recent_grads.describe())
+# Exclude data of type object
+print(recent_grads.describe(exclude=["object"]))
+# Names of the columns we're searching for missing values
+columns = ['median', 'p25th', 'p75th']
+# Take a look at the dtypes
+print(recent_grads[columns].dtypes)
+# Find how missing values are represented
+print(recent_grads["median"].unique())
+# Replace missing values with NaN
+for column in columns:
+    recent_grads.loc[recent_grads[column] == 'UN', column] = np.nan
+import numpy as np
+import pandas as pd
+# Assuming 'recent_grads' is your DataFrame and 'columns' is a list of columns needing correction
+# Replace missing values with NaN
+for column in columns:
+    recent_grads.loc[recent_grads[column] == 'UN', column] = np.nan
+# Select sharewomen column
+sw_col = recent_grads['sharewomen']
+# Output first five rows
+print(sw_col.head())
+# Import numpy
+import numpy as np
+# Use max to output maximum values
+max_sw = recent_grads['sharewomen'].max()
+# Print column max
+print(max_sw)
+# Output the row containing the maximum percentage of women
+#print(sw_col)
+print(recent_grads[(recent_grads['sharewomen']==max_sw)])
+# Convert to numpy array
+import numpy as np
+recent_grads_np=np.array(recent_grads[['unemployed', 'low_wage_jobs']])
+# Print the type of recent_grads_np
+print(type(recent_grads_np))
+print(np.corrcoef(recent_grads_np[:,0], recent_grads_np[:,1]))