Spaces:

clr
/

length-contrast-data-isl

Sleeping

length-contrast-data-isl / vowel_length.py

catiR

densities

ecd5f69 2 months ago

7.39 kB

	import os, json
	import numpy as np
	from collections import defaultdict
	import pandas as pd
	import matplotlib
	matplotlib.use('Agg')
	import matplotlib.pyplot as plt
	from scipy.stats import gaussian_kde
	#from scipy.spatial import KDTree
	#from sklearn.neighbors import NearestNeighbors

	# make subsets of words for convenience
	def make_sets(db,shorts,longs):

	def _wspec(wd,l1,l2):
	if (wd in l1) and (wd in l2):
	return(wd,wd)
	elif wd in l1:
	return(f'{wd} [L1]',wd)
	elif wd in l2:
	return(f'{wd} [L2]',wd)
	else:
	return ('','')

	def _ksrt(k):
	if ' ' in k:
	return((k[0],1/len(k)))
	else:
	return (k.replace(':',''),k[-1] )

	words = set([(t['word'],t['speaker_lang']) for t in db])
	l1 = [w for w,l in words if l == 'L1']
	l2 = [w for w,l in words if l == 'L2']
	words = set([w for w,l in words])

	wdict = defaultdict(list)
	for w in words:
	if 'agg' in w:
	wdict['AG:'].append(_wspec(w,l1,l2))
	elif 'all' in w:
	wdict['AL:'].append(_wspec(w,l1,l2))
	elif 'egg' in w:
	wdict['EG:'].append(_wspec(w,l1,l2))
	elif 'eki' in w:
	wdict['E:G'].append(_wspec(w,l1,l2))
	elif 'aki' in w:
	wdict['A:G'].append(_wspec(w,l1,l2))
	elif 'ala' in w:
	wdict['A:L'].append(_wspec(w,l1,l2))
	elif w in shorts:
	wdict['OTHER - SHORT'].append(_wspec(w,l1,l2))
	elif w in longs:
	wdict['OTHER - LONG'].append(_wspec(w,l1,l2))
	else:
	print(f'something should not have happened: {w}')


	sets = [(k, sorted(wdict[k])) for k in sorted(list(wdict.keys()),key = _ksrt)]

	return sets


	# compile data for a token record
	def get_tk_data(tk,shorts,longs):

	# merge intervals
	# from list of phones
	# to word part
	def _merge_intervals(plist):
	if not plist:
	return np.nan
	tot_start, tot_end = plist[0]['start'],plist[-1]['end']
	tot_dur = tot_end-tot_start
	return tot_dur

	tkdat = {}
	tkdat['word'] = tk['word']
	tkdat['speaker_lang'] = tk['speaker_lang']
	tkdat['n_pre_phone'] = len(tk['gold_annotation']['prevowel'])
	tkdat['n_post_phone'] = len(tk['gold_annotation']['postvowel'])

	if tk['word'] in longs:
	tkdat['vlen'] = 1
	else:
	assert tk['word'] in shorts
	tkdat['vlen'] = 0

	for s in ['gold','mfa']:
	tkdat[f'{s}_pre_dur'] = _merge_intervals(tk[f'{s}_annotation']['prevowel'])
	tkdat[f'{s}_v_dur'] = _merge_intervals(tk[f'{s}_annotation']['vowel'])
	tkdat[f'{s}_post_dur'] = _merge_intervals(tk[f'{s}_annotation']['postvowel'])
	tkdat[f'{s}_word_dur'] = tk[f'{s}_annotation']['target_word_end'] -\
	tk[f'{s}_annotation']['target_word_start']

	return tkdat


	# code short vowels 0, long 1
	def prep_dat(d):
	df = d.copy()
	for s in ['gold','mfa']:
	df[f'{s}_ratio'] = df[f'{s}_v_dur'] / (df[f'{s}_v_dur']+df[f'{s}_post_dur'])
	df[f'{s}_pre_dur'] = df[f'{s}_pre_dur'].fillna(0) # set absent onsets dur zero
	df = df.convert_dtypes()
	return df


	def setup(annot_json):

	longs = set(['aki', 'ala', 'baki', 'bera', 'betri', 'blaki', 'breki',
	'brosir', 'dala', 'dreki', 'dvala', 'fala', 'fara', 'færa',
	'færi', 'gala', 'hausinn', 'jónas', 'katrín', 'kisa', 'koma',
	'leki', 'leyfa', 'maki', 'muna', 'nema', 'raki', 'sama',
	'speki', 'svala', 'sækja', 'sömu', 'taki', 'tala', 'tvisvar',
	'vala', 'veki', 'vinur', 'ása', 'þaki'])

	shorts = set(['aggi', 'baggi', 'balla', 'beggi', 'eggi', 'farðu', 'fossinn',
	'færði', 'galla', 'hausnum', 'herra', 'jónsson', 'kaggi', 'kalla',
	'lalla', 'leggi', 'leyfðu', 'maggi', 'malla', 'mamma', 'missa',
	'mömmu', 'nærri', 'palla', 'raggi', 'skeggi', 'snemma', 'sunna',
	'tommi', 'veggi','vinnur', 'ásta'])

	# very basic remove about 5 outliers > 350ms
	cut=0.35

	with open(annot_json, 'r') as handle:
	db = json.load(handle)

	sets = make_sets(db,shorts,longs)

	db = [get_tk_data(tk,shorts,longs) for tk in db]
	db = [t for t in db if ((t['gold_v_dur'] <=cut) and (t['gold_post_dur'] <=cut))]
	dat = pd.DataFrame.from_records(db)
	dat = prep_dat(dat)

	return sets,dat


	def kldiv(s1,s2):
	_log = lambda x: np.log2(x) if x != 0 else 0
	_log = np.vectorize(_log)

	n, m = len(s1), len(s2)
	d = s1.shape[1]
	assert d == 2 == s2.shape[1]

	k = 1
	while True:
	knn1 = NearestNeighbors(n_neighbors = k+1).fit(s1)
	nnDist1 = knn1.kneighbors(s1)[0][:, k]
	if not nnDist1.all():
	k += 1
	else:
	break
	knn2 = NearestNeighbors(n_neighbors = k).fit(s2)
	nnDist2 = knn2.kneighbors(s1)[0][:, k-1]
	kl = (d/n) * sum(_log(nnDist2/nnDist1)) + _log((m/(n-1)))
	return kl



	def vgraph(dat1,l1,src1,lab1,dat2,l2,src2,lab2):

	def _gprep(df,l,s):

	# color by length + speaker group
	ccs = { "lAll" : (0.0, 0.749, 1.0),
	"lL1" : (0.122, 0.467, 0.706),
	"lL2" : (0.282, 0.82, 0.8),
	"sAll" :(0.89, 0.467, 0.761),
	"sL1" : (0.863, 0.078, 0.235),
	"sL2" : (0.859, 0.439, 0.576),
	"xAll" : (0.988, 0.69, 0.004),
	"xL1" : (0.984, 0.49, 0.027),
	"xL2" : (0.969, 0.835, 0.376)}

	vdurs = np.array(df[f'{s}_v_dur'])*1000
	cdurs = np.array(df[f'{s}_post_dur'])*1000
	rto = np.mean(df[f'{s}_ratio'])

	if sum(df['vlen']) == 0:
	vl = 's'
	elif sum(df['vlen']) == df.shape[0]:
	vl = 'l'
	else:
	vl = 'x'

	cc = ccs[f'{vl}{l}']

	return vdurs, cdurs, rto, cc

	plt.close()

	vd1,cd1,ra1,cl1 = _gprep(dat1,l1,src1)
	lab1 += f'\n Ratio: {ra1:.3f}'
	if src1 == 'gold':
	mk1 = '^'
	else:
	mk1 = '<'


	fig, ax = plt.subplots(figsize=(9,7))
	#ax.set_xlim(0.0, 350)
	#ax.set_ylim(0.0, 350)

	ax.scatter(vd1,cd1,marker = mk1, label = lab1,
	c = [cl1 + (.7,)], edgecolors = [cl1] )

	marginals = [(vd1, 'x', l1, cl1),
	(cd1, 'y', l1, cl1)]

	#kld = None
	if lab2:
	vd2,cd2,ra2,cl2 = _gprep(dat2,l2,src2)
	lab2 += f'\n Ratio: {ra2:.3f}'
	if src2 == 'gold':
	mk2 = 'v'
	else:
	mk2 = '>'
	ax.scatter(vd2,cd2, marker = mk2, label = lab2,
	c = [cl2 + (.05,)], edgecolors = [cl2] )
	#s1 = np.transpose(np.array([vd1,cd1]))
	#s2 = np.transpose(np.array([vd2,cd2]))
	#klda = kldiv(s1,s2)
	#if klda:
	# kldb = kldiv(s2,s1)
	# kldsym = np.mean([klda,kldb])
	# if not np.isnan(kldsym):
	# ax.scatter([-300],[-300],c = 'white',label = f'\nKLDiv: {kldsym:.2f}')

	marginals += [(vd2, 'x', l2, cl2),
	(cd2, 'y', l2, cl2)]

	#fig.legend(loc=8,ncols=2)
	leg = fig.legend(loc=7,frameon=False)
	for t in leg.get_texts():
	t.set_verticalalignment("center_baseline")

	ax.axline((0,0),slope=1,color="darkgray")

	marginals = [m for m in marginals if len(m[0])>9]
	lsts = {'L1': 'solid' , 'L2': 'dashed' , 'All': 'dashdot'}
	for values, axt, lng, lcl in marginals:
	kde = gaussian_kde(values, bw_method='scott')
	pts = np.linspace(np.min(values), np.max(values))
	dens = kde.pdf(pts)
	scf=2500
	lst = lsts[lng]
	#l2dat = ax.plot(pts, [350-(scf*i) for i in dens], linestyle=lst, color = lcl)
	l2dat = ax.plot(pts, [350+(scf*i) for i in dens], linestyle=lst, color = lcl, clip_on=False)
	if axt == 'y':
	for l2d in l2dat:
	xln = l2d.get_xdata()
	yln = l2d.get_ydata()
	l2d.set_xdata(yln)
	l2d.set_ydata(xln)
	fig.canvas.draw()
	#ax.draw_artist(l2d)


	ax.set_xlim(0.0, 350)
	ax.set_ylim(0.0, 350)

	ax.set_title("Stressed vowel & following consonant(s) duration" , fontsize=16, y=-.155)
	ax.set_xlabel("Vowel duration (ms)")
	ax.set_ylabel("Consonant duration (ms)")

	fig.tight_layout()
	fig.subplots_adjust(bottom=0.13)
	fig.subplots_adjust(right=0.72)

	#plt.xticks(ticks=[50,100,150,200,250,300],labels=[])
	#plt.yticks(ticks=[100,200,300],labels=[])

	return fig