Blame - target-arm/neon_helper.c - qemu

blob: 002a9c11a63f2581bcd9000cf1bfda29bf96ccca [file] [log] [blame]

pbrook	e677137	2008-03-31 03:49:05 +0000	[diff] [blame]	1	/*
				2	* ARM NEON vector operations.
				3	*
				4	* Copyright (c) 2007, 2008 CodeSourcery.
				5	* Written by Paul Brook
				6	*
				7	* This code is licenced under the GNU GPL v2.
				8	*/
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	9	#include <stdlib.h>
				10	#include <stdio.h>
				11
				12	#include "cpu.h"
				13	#include "exec-all.h"
				14	#include "helpers.h"
				15
				16	#define SIGNBIT (uint32_t)0x80000000
				17	#define SIGNBIT64 ((uint64_t)1 << 63)
				18
				19	#define SET_QC() env->vfp.xregs[ARM_VFP_FPSCR] = CPSR_Q
				20
				21	static float_status neon_float_status;
				22	#define NFS &neon_float_status
				23
				24	/* Helper routines to perform bitwise copies between float and int. */
				25	static inline float32 vfp_itos(uint32_t i)
				26	{
				27	union {
				28	uint32_t i;
				29	float32 s;
				30	} v;
				31
				32	v.i = i;
				33	return v.s;
				34	}
				35
				36	static inline uint32_t vfp_stoi(float32 s)
				37	{
				38	union {
				39	uint32_t i;
				40	float32 s;
				41	} v;
				42
				43	v.s = s;
				44	return v.i;
				45	}
				46
				47	#define NEON_TYPE1(name, type) \
				48	typedef struct \
				49	{ \
				50	type v1; \
				51	} neon_##name;
Juan Quintela	e2542fe	2009-07-27 16:13:06 +0200	[diff] [blame]	52	#ifdef HOST_WORDS_BIGENDIAN
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	53	#define NEON_TYPE2(name, type) \
				54	typedef struct \
				55	{ \
				56	type v2; \
				57	type v1; \
				58	} neon_##name;
				59	#define NEON_TYPE4(name, type) \
				60	typedef struct \
				61	{ \
				62	type v4; \
				63	type v3; \
				64	type v2; \
				65	type v1; \
				66	} neon_##name;
				67	#else
				68	#define NEON_TYPE2(name, type) \
				69	typedef struct \
				70	{ \
				71	type v1; \
				72	type v2; \
				73	} neon_##name;
				74	#define NEON_TYPE4(name, type) \
				75	typedef struct \
				76	{ \
				77	type v1; \
				78	type v2; \
				79	type v3; \
				80	type v4; \
				81	} neon_##name;
				82	#endif
				83
				84	NEON_TYPE4(s8, int8_t)
				85	NEON_TYPE4(u8, uint8_t)
				86	NEON_TYPE2(s16, int16_t)
				87	NEON_TYPE2(u16, uint16_t)
				88	NEON_TYPE1(s32, int32_t)
				89	NEON_TYPE1(u32, uint32_t)
				90	#undef NEON_TYPE4
				91	#undef NEON_TYPE2
				92	#undef NEON_TYPE1
				93
				94	/* Copy from a uint32_t to a vector structure type. */
				95	#define NEON_UNPACK(vtype, dest, val) do { \
				96	union { \
				97	vtype v; \
				98	uint32_t i; \
				99	} conv_u; \
				100	conv_u.i = (val); \
				101	dest = conv_u.v; \
				102	} while(0)
				103
				104	/* Copy from a vector structure type to a uint32_t. */
				105	#define NEON_PACK(vtype, dest, val) do { \
				106	union { \
				107	vtype v; \
				108	uint32_t i; \
				109	} conv_u; \
				110	conv_u.v = (val); \
				111	dest = conv_u.i; \
				112	} while(0)
				113
				114	#define NEON_DO1 \
				115	NEON_FN(vdest.v1, vsrc1.v1, vsrc2.v1);
				116	#define NEON_DO2 \
				117	NEON_FN(vdest.v1, vsrc1.v1, vsrc2.v1); \
				118	NEON_FN(vdest.v2, vsrc1.v2, vsrc2.v2);
				119	#define NEON_DO4 \
				120	NEON_FN(vdest.v1, vsrc1.v1, vsrc2.v1); \
				121	NEON_FN(vdest.v2, vsrc1.v2, vsrc2.v2); \
				122	NEON_FN(vdest.v3, vsrc1.v3, vsrc2.v3); \
				123	NEON_FN(vdest.v4, vsrc1.v4, vsrc2.v4);
				124
				125	#define NEON_VOP_BODY(vtype, n) \
				126	{ \
				127	uint32_t res; \
				128	vtype vsrc1; \
				129	vtype vsrc2; \
				130	vtype vdest; \
				131	NEON_UNPACK(vtype, vsrc1, arg1); \
				132	NEON_UNPACK(vtype, vsrc2, arg2); \
				133	NEON_DO##n; \
				134	NEON_PACK(vtype, res, vdest); \
				135	return res; \
				136	}
				137
				138	#define NEON_VOP(name, vtype, n) \
				139	uint32_t HELPER(glue(neon_,name))(uint32_t arg1, uint32_t arg2) \
				140	NEON_VOP_BODY(vtype, n)
				141
				142	#define NEON_VOP_ENV(name, vtype, n) \
				143	uint32_t HELPER(glue(neon_,name))(CPUState *env, uint32_t arg1, uint32_t arg2) \
				144	NEON_VOP_BODY(vtype, n)
				145
				146	/* Pairwise operations. */
				147	/* For 32-bit elements each segment only contains a single element, so
				148	the elementwise and pairwise operations are the same. */
				149	#define NEON_PDO2 \
				150	NEON_FN(vdest.v1, vsrc1.v1, vsrc1.v2); \
				151	NEON_FN(vdest.v2, vsrc2.v1, vsrc2.v2);
				152	#define NEON_PDO4 \
				153	NEON_FN(vdest.v1, vsrc1.v1, vsrc1.v2); \
				154	NEON_FN(vdest.v2, vsrc1.v3, vsrc1.v4); \
				155	NEON_FN(vdest.v3, vsrc2.v1, vsrc2.v2); \
				156	NEON_FN(vdest.v4, vsrc2.v3, vsrc2.v4); \
				157
				158	#define NEON_POP(name, vtype, n) \
				159	uint32_t HELPER(glue(neon_,name))(uint32_t arg1, uint32_t arg2) \
				160	{ \
				161	uint32_t res; \
				162	vtype vsrc1; \
				163	vtype vsrc2; \
				164	vtype vdest; \
				165	NEON_UNPACK(vtype, vsrc1, arg1); \
				166	NEON_UNPACK(vtype, vsrc2, arg2); \
				167	NEON_PDO##n; \
				168	NEON_PACK(vtype, res, vdest); \
				169	return res; \
				170	}
				171
				172	/* Unary operators. */
				173	#define NEON_VOP1(name, vtype, n) \
				174	uint32_t HELPER(glue(neon_,name))(uint32_t arg) \
				175	{ \
				176	vtype vsrc1; \
				177	vtype vdest; \
				178	NEON_UNPACK(vtype, vsrc1, arg); \
				179	NEON_DO##n; \
				180	NEON_PACK(vtype, arg, vdest); \
				181	return arg; \
				182	}
				183
				184
				185	#define NEON_USAT(dest, src1, src2, type) do { \
				186	uint32_t tmp = (uint32_t)src1 + (uint32_t)src2; \
				187	if (tmp != (type)tmp) { \
				188	SET_QC(); \
				189	dest = ~0; \
				190	} else { \
				191	dest = tmp; \
				192	}} while(0)
				193	#define NEON_FN(dest, src1, src2) NEON_USAT(dest, src1, src2, uint8_t)
				194	NEON_VOP_ENV(qadd_u8, neon_u8, 4)
				195	#undef NEON_FN
				196	#define NEON_FN(dest, src1, src2) NEON_USAT(dest, src1, src2, uint16_t)
				197	NEON_VOP_ENV(qadd_u16, neon_u16, 2)
				198	#undef NEON_FN
				199	#undef NEON_USAT
				200
Christophe Lyon	7290267	2011-02-04 15:17:51 +0100	[diff] [blame]	201	uint32_t HELPER(neon_qadd_u32)(CPUState *env, uint32_t a, uint32_t b)
				202	{
				203	uint32_t res = a + b;
				204	if (res < a) {
				205	SET_QC();
				206	res = ~0;
				207	}
				208	return res;
				209	}
				210
				211	uint64_t HELPER(neon_qadd_u64)(CPUState *env, uint64_t src1, uint64_t src2)
				212	{
				213	uint64_t res;
				214
				215	res = src1 + src2;
				216	if (res < src1) {
				217	SET_QC();
				218	res = ~(uint64_t)0;
				219	}
				220	return res;
				221	}
				222
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	223	#define NEON_SSAT(dest, src1, src2, type) do { \
				224	int32_t tmp = (uint32_t)src1 + (uint32_t)src2; \
				225	if (tmp != (type)tmp) { \
				226	SET_QC(); \
				227	if (src2 > 0) { \
				228	tmp = (1 << (sizeof(type) * 8 - 1)) - 1; \
				229	} else { \
				230	tmp = 1 << (sizeof(type) * 8 - 1); \
				231	} \
				232	} \
				233	dest = tmp; \
				234	} while(0)
				235	#define NEON_FN(dest, src1, src2) NEON_SSAT(dest, src1, src2, int8_t)
				236	NEON_VOP_ENV(qadd_s8, neon_s8, 4)
				237	#undef NEON_FN
				238	#define NEON_FN(dest, src1, src2) NEON_SSAT(dest, src1, src2, int16_t)
				239	NEON_VOP_ENV(qadd_s16, neon_s16, 2)
				240	#undef NEON_FN
				241	#undef NEON_SSAT
				242
Christophe Lyon	7290267	2011-02-04 15:17:51 +0100	[diff] [blame]	243	uint32_t HELPER(neon_qadd_s32)(CPUState *env, uint32_t a, uint32_t b)
				244	{
				245	uint32_t res = a + b;
				246	if (((res ^ a) & SIGNBIT) && !((a ^ b) & SIGNBIT)) {
				247	SET_QC();
				248	res = ~(((int32_t)a >> 31) ^ SIGNBIT);
				249	}
				250	return res;
				251	}
				252
				253	uint64_t HELPER(neon_qadd_s64)(CPUState *env, uint64_t src1, uint64_t src2)
				254	{
				255	uint64_t res;
				256
				257	res = src1 + src2;
				258	if (((res ^ src1) & SIGNBIT64) && !((src1 ^ src2) & SIGNBIT64)) {
				259	SET_QC();
				260	res = ((int64_t)src1 >> 63) ^ ~SIGNBIT64;
				261	}
				262	return res;
				263	}
				264
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	265	#define NEON_USAT(dest, src1, src2, type) do { \
				266	uint32_t tmp = (uint32_t)src1 - (uint32_t)src2; \
				267	if (tmp != (type)tmp) { \
				268	SET_QC(); \
				269	dest = 0; \
				270	} else { \
				271	dest = tmp; \
				272	}} while(0)
				273	#define NEON_FN(dest, src1, src2) NEON_USAT(dest, src1, src2, uint8_t)
				274	NEON_VOP_ENV(qsub_u8, neon_u8, 4)
				275	#undef NEON_FN
				276	#define NEON_FN(dest, src1, src2) NEON_USAT(dest, src1, src2, uint16_t)
				277	NEON_VOP_ENV(qsub_u16, neon_u16, 2)
				278	#undef NEON_FN
				279	#undef NEON_USAT
				280
Christophe Lyon	7290267	2011-02-04 15:17:51 +0100	[diff] [blame]	281	uint32_t HELPER(neon_qsub_u32)(CPUState *env, uint32_t a, uint32_t b)
				282	{
				283	uint32_t res = a - b;
				284	if (res > a) {
				285	SET_QC();
				286	res = 0;
				287	}
				288	return res;
				289	}
				290
				291	uint64_t HELPER(neon_qsub_u64)(CPUState *env, uint64_t src1, uint64_t src2)
				292	{
				293	uint64_t res;
				294
				295	if (src1 < src2) {
				296	SET_QC();
				297	res = 0;
				298	} else {
				299	res = src1 - src2;
				300	}
				301	return res;
				302	}
				303
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	304	#define NEON_SSAT(dest, src1, src2, type) do { \
				305	int32_t tmp = (uint32_t)src1 - (uint32_t)src2; \
				306	if (tmp != (type)tmp) { \
				307	SET_QC(); \
				308	if (src2 < 0) { \
				309	tmp = (1 << (sizeof(type) * 8 - 1)) - 1; \
				310	} else { \
				311	tmp = 1 << (sizeof(type) * 8 - 1); \
				312	} \
				313	} \
				314	dest = tmp; \
				315	} while(0)
				316	#define NEON_FN(dest, src1, src2) NEON_SSAT(dest, src1, src2, int8_t)
				317	NEON_VOP_ENV(qsub_s8, neon_s8, 4)
				318	#undef NEON_FN
				319	#define NEON_FN(dest, src1, src2) NEON_SSAT(dest, src1, src2, int16_t)
				320	NEON_VOP_ENV(qsub_s16, neon_s16, 2)
				321	#undef NEON_FN
				322	#undef NEON_SSAT
				323
Christophe Lyon	7290267	2011-02-04 15:17:51 +0100	[diff] [blame]	324	uint32_t HELPER(neon_qsub_s32)(CPUState *env, uint32_t a, uint32_t b)
				325	{
				326	uint32_t res = a - b;
				327	if (((res ^ a) & SIGNBIT) && ((a ^ b) & SIGNBIT)) {
				328	SET_QC();
				329	res = ~(((int32_t)a >> 31) ^ SIGNBIT);
				330	}
				331	return res;
				332	}
				333
				334	uint64_t HELPER(neon_qsub_s64)(CPUState *env, uint64_t src1, uint64_t src2)
				335	{
				336	uint64_t res;
				337
				338	res = src1 - src2;
				339	if (((res ^ src1) & SIGNBIT64) && ((src1 ^ src2) & SIGNBIT64)) {
				340	SET_QC();
				341	res = ((int64_t)src1 >> 63) ^ ~SIGNBIT64;
				342	}
				343	return res;
				344	}
				345
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	346	#define NEON_FN(dest, src1, src2) dest = (src1 + src2) >> 1
				347	NEON_VOP(hadd_s8, neon_s8, 4)
				348	NEON_VOP(hadd_u8, neon_u8, 4)
				349	NEON_VOP(hadd_s16, neon_s16, 2)
				350	NEON_VOP(hadd_u16, neon_u16, 2)
				351	#undef NEON_FN
				352
				353	int32_t HELPER(neon_hadd_s32)(int32_t src1, int32_t src2)
				354	{
				355	int32_t dest;
				356
				357	dest = (src1 >> 1) + (src2 >> 1);
				358	if (src1 & src2 & 1)
				359	dest++;
				360	return dest;
				361	}
				362
				363	uint32_t HELPER(neon_hadd_u32)(uint32_t src1, uint32_t src2)
				364	{
				365	uint32_t dest;
				366
				367	dest = (src1 >> 1) + (src2 >> 1);
				368	if (src1 & src2 & 1)
				369	dest++;
				370	return dest;
				371	}
				372
				373	#define NEON_FN(dest, src1, src2) dest = (src1 + src2 + 1) >> 1
				374	NEON_VOP(rhadd_s8, neon_s8, 4)
				375	NEON_VOP(rhadd_u8, neon_u8, 4)
				376	NEON_VOP(rhadd_s16, neon_s16, 2)
				377	NEON_VOP(rhadd_u16, neon_u16, 2)
				378	#undef NEON_FN
				379
				380	int32_t HELPER(neon_rhadd_s32)(int32_t src1, int32_t src2)
				381	{
				382	int32_t dest;
				383
				384	dest = (src1 >> 1) + (src2 >> 1);
				385	if ((src1 \| src2) & 1)
				386	dest++;
				387	return dest;
				388	}
				389
				390	uint32_t HELPER(neon_rhadd_u32)(uint32_t src1, uint32_t src2)
				391	{
				392	uint32_t dest;
				393
				394	dest = (src1 >> 1) + (src2 >> 1);
				395	if ((src1 \| src2) & 1)
				396	dest++;
				397	return dest;
				398	}
				399
				400	#define NEON_FN(dest, src1, src2) dest = (src1 - src2) >> 1
				401	NEON_VOP(hsub_s8, neon_s8, 4)
				402	NEON_VOP(hsub_u8, neon_u8, 4)
				403	NEON_VOP(hsub_s16, neon_s16, 2)
				404	NEON_VOP(hsub_u16, neon_u16, 2)
				405	#undef NEON_FN
				406
				407	int32_t HELPER(neon_hsub_s32)(int32_t src1, int32_t src2)
				408	{
				409	int32_t dest;
				410
				411	dest = (src1 >> 1) - (src2 >> 1);
				412	if ((~src1) & src2 & 1)
				413	dest--;
				414	return dest;
				415	}
				416
				417	uint32_t HELPER(neon_hsub_u32)(uint32_t src1, uint32_t src2)
				418	{
				419	uint32_t dest;
				420
				421	dest = (src1 >> 1) - (src2 >> 1);
				422	if ((~src1) & src2 & 1)
				423	dest--;
				424	return dest;
				425	}
				426
				427	#define NEON_FN(dest, src1, src2) dest = (src1 > src2) ? ~0 : 0
				428	NEON_VOP(cgt_s8, neon_s8, 4)
				429	NEON_VOP(cgt_u8, neon_u8, 4)
				430	NEON_VOP(cgt_s16, neon_s16, 2)
				431	NEON_VOP(cgt_u16, neon_u16, 2)
				432	NEON_VOP(cgt_s32, neon_s32, 1)
				433	NEON_VOP(cgt_u32, neon_u32, 1)
				434	#undef NEON_FN
				435
				436	#define NEON_FN(dest, src1, src2) dest = (src1 >= src2) ? ~0 : 0
				437	NEON_VOP(cge_s8, neon_s8, 4)
				438	NEON_VOP(cge_u8, neon_u8, 4)
				439	NEON_VOP(cge_s16, neon_s16, 2)
				440	NEON_VOP(cge_u16, neon_u16, 2)
				441	NEON_VOP(cge_s32, neon_s32, 1)
				442	NEON_VOP(cge_u32, neon_u32, 1)
				443	#undef NEON_FN
				444
				445	#define NEON_FN(dest, src1, src2) dest = (src1 < src2) ? src1 : src2
				446	NEON_VOP(min_s8, neon_s8, 4)
				447	NEON_VOP(min_u8, neon_u8, 4)
				448	NEON_VOP(min_s16, neon_s16, 2)
				449	NEON_VOP(min_u16, neon_u16, 2)
				450	NEON_VOP(min_s32, neon_s32, 1)
				451	NEON_VOP(min_u32, neon_u32, 1)
				452	NEON_POP(pmin_s8, neon_s8, 4)
				453	NEON_POP(pmin_u8, neon_u8, 4)
				454	NEON_POP(pmin_s16, neon_s16, 2)
				455	NEON_POP(pmin_u16, neon_u16, 2)
				456	#undef NEON_FN
				457
				458	#define NEON_FN(dest, src1, src2) dest = (src1 > src2) ? src1 : src2
				459	NEON_VOP(max_s8, neon_s8, 4)
				460	NEON_VOP(max_u8, neon_u8, 4)
				461	NEON_VOP(max_s16, neon_s16, 2)
				462	NEON_VOP(max_u16, neon_u16, 2)
				463	NEON_VOP(max_s32, neon_s32, 1)
				464	NEON_VOP(max_u32, neon_u32, 1)
				465	NEON_POP(pmax_s8, neon_s8, 4)
				466	NEON_POP(pmax_u8, neon_u8, 4)
				467	NEON_POP(pmax_s16, neon_s16, 2)
				468	NEON_POP(pmax_u16, neon_u16, 2)
				469	#undef NEON_FN
				470
				471	#define NEON_FN(dest, src1, src2) \
				472	dest = (src1 > src2) ? (src1 - src2) : (src2 - src1)
				473	NEON_VOP(abd_s8, neon_s8, 4)
				474	NEON_VOP(abd_u8, neon_u8, 4)
				475	NEON_VOP(abd_s16, neon_s16, 2)
				476	NEON_VOP(abd_u16, neon_u16, 2)
				477	NEON_VOP(abd_s32, neon_s32, 1)
				478	NEON_VOP(abd_u32, neon_u32, 1)
				479	#undef NEON_FN
				480
				481	#define NEON_FN(dest, src1, src2) do { \
				482	int8_t tmp; \
				483	tmp = (int8_t)src2; \
Juha Riihimäki	50f67e9	2009-10-26 09:01:07 +0200	[diff] [blame]	484	if (tmp >= (ssize_t)sizeof(src1) * 8 \|\| \
				485	tmp <= -(ssize_t)sizeof(src1) * 8) { \
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	486	dest = 0; \
				487	} else if (tmp < 0) { \
				488	dest = src1 >> -tmp; \
				489	} else { \
				490	dest = src1 << tmp; \
				491	}} while (0)
				492	NEON_VOP(shl_u8, neon_u8, 4)
				493	NEON_VOP(shl_u16, neon_u16, 2)
				494	NEON_VOP(shl_u32, neon_u32, 1)
				495	#undef NEON_FN
				496
				497	uint64_t HELPER(neon_shl_u64)(uint64_t val, uint64_t shiftop)
				498	{
				499	int8_t shift = (int8_t)shiftop;
				500	if (shift >= 64 \|\| shift <= -64) {
				501	val = 0;
				502	} else if (shift < 0) {
				503	val >>= -shift;
				504	} else {
				505	val <<= shift;
				506	}
				507	return val;
				508	}
				509
				510	#define NEON_FN(dest, src1, src2) do { \
				511	int8_t tmp; \
				512	tmp = (int8_t)src2; \
Juha Riihimäki	50f67e9	2009-10-26 09:01:07 +0200	[diff] [blame]	513	if (tmp >= (ssize_t)sizeof(src1) * 8) { \
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	514	dest = 0; \
Juha Riihimäki	50f67e9	2009-10-26 09:01:07 +0200	[diff] [blame]	515	} else if (tmp <= -(ssize_t)sizeof(src1) * 8) { \
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	516	dest = src1 >> (sizeof(src1) * 8 - 1); \
				517	} else if (tmp < 0) { \
				518	dest = src1 >> -tmp; \
				519	} else { \
				520	dest = src1 << tmp; \
				521	}} while (0)
				522	NEON_VOP(shl_s8, neon_s8, 4)
				523	NEON_VOP(shl_s16, neon_s16, 2)
				524	NEON_VOP(shl_s32, neon_s32, 1)
				525	#undef NEON_FN
				526
				527	uint64_t HELPER(neon_shl_s64)(uint64_t valop, uint64_t shiftop)
				528	{
				529	int8_t shift = (int8_t)shiftop;
				530	int64_t val = valop;
				531	if (shift >= 64) {
				532	val = 0;
				533	} else if (shift <= -64) {
				534	val >>= 63;
				535	} else if (shift < 0) {
				536	val >>= -shift;
				537	} else {
				538	val <<= shift;
				539	}
				540	return val;
				541	}
				542
				543	#define NEON_FN(dest, src1, src2) do { \
				544	int8_t tmp; \
				545	tmp = (int8_t)src2; \
Peter Maydell	0670a7b	2011-02-15 13:44:42 +0000	[diff] [blame]	546	if ((tmp >= (ssize_t)sizeof(src1) * 8) \
				547	\|\| (tmp <= -(ssize_t)sizeof(src1) * 8)) { \
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	548	dest = 0; \
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	549	} else if (tmp < 0) { \
				550	dest = (src1 + (1 << (-1 - tmp))) >> -tmp; \
				551	} else { \
				552	dest = src1 << tmp; \
				553	}} while (0)
				554	NEON_VOP(rshl_s8, neon_s8, 4)
				555	NEON_VOP(rshl_s16, neon_s16, 2)
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	556	#undef NEON_FN
				557
Christophe Lyon	4bd4ee0	2011-02-15 13:44:41 +0000	[diff] [blame]	558	/* The addition of the rounding constant may overflow, so we use an
				559	* intermediate 64 bits accumulator. */
				560	uint32_t HELPER(neon_rshl_s32)(uint32_t valop, uint32_t shiftop)
				561	{
				562	int32_t dest;
				563	int32_t val = (int32_t)valop;
				564	int8_t shift = (int8_t)shiftop;
				565	if ((shift >= 32) \|\| (shift <= -32)) {
				566	dest = 0;
				567	} else if (shift < 0) {
				568	int64_t big_dest = ((int64_t)val + (1 << (-1 - shift)));
				569	dest = big_dest >> -shift;
				570	} else {
				571	dest = val << shift;
				572	}
				573	return dest;
				574	}
				575
				576	/* Handling addition overflow with 64 bits inputs values is more
				577	* tricky than with 32 bits values. */
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	578	uint64_t HELPER(neon_rshl_s64)(uint64_t valop, uint64_t shiftop)
				579	{
				580	int8_t shift = (int8_t)shiftop;
				581	int64_t val = valop;
Peter Maydell	0670a7b	2011-02-15 13:44:42 +0000	[diff] [blame]	582	if ((shift >= 64) \|\| (shift <= -64)) {
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	583	val = 0;
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	584	} else if (shift < 0) {
Christophe Lyon	4bd4ee0	2011-02-15 13:44:41 +0000	[diff] [blame]	585	val >>= (-shift - 1);
				586	if (val == INT64_MAX) {
				587	/* In this case, it means that the rounding constant is 1,
				588	* and the addition would overflow. Return the actual
				589	* result directly. */
				590	val = 0x4000000000000000LL;
				591	} else {
				592	val++;
				593	val >>= 1;
				594	}
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	595	} else {
				596	val <<= shift;
				597	}
				598	return val;
				599	}
				600
				601	#define NEON_FN(dest, src1, src2) do { \
				602	int8_t tmp; \
				603	tmp = (int8_t)src2; \
Juha Riihimäki	50f67e9	2009-10-26 09:01:07 +0200	[diff] [blame]	604	if (tmp >= (ssize_t)sizeof(src1) * 8 \|\| \
				605	tmp < -(ssize_t)sizeof(src1) * 8) { \
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	606	dest = 0; \
Juha Riihimäki	50f67e9	2009-10-26 09:01:07 +0200	[diff] [blame]	607	} else if (tmp == -(ssize_t)sizeof(src1) * 8) { \
Christophe Lyon	b6c63b9	2011-02-15 13:44:43 +0000	[diff] [blame]	608	dest = src1 >> (-tmp - 1); \
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	609	} else if (tmp < 0) { \
				610	dest = (src1 + (1 << (-1 - tmp))) >> -tmp; \
				611	} else { \
				612	dest = src1 << tmp; \
				613	}} while (0)
				614	NEON_VOP(rshl_u8, neon_u8, 4)
				615	NEON_VOP(rshl_u16, neon_u16, 2)
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	616	#undef NEON_FN
				617
Christophe Lyon	4bd4ee0	2011-02-15 13:44:41 +0000	[diff] [blame]	618	/* The addition of the rounding constant may overflow, so we use an
				619	* intermediate 64 bits accumulator. */
				620	uint32_t HELPER(neon_rshl_u32)(uint32_t val, uint32_t shiftop)
				621	{
				622	uint32_t dest;
				623	int8_t shift = (int8_t)shiftop;
				624	if (shift >= 32 \|\| shift < -32) {
				625	dest = 0;
				626	} else if (shift == -32) {
				627	dest = val >> 31;
				628	} else if (shift < 0) {
				629	uint64_t big_dest = ((uint64_t)val + (1 << (-1 - shift)));
				630	dest = big_dest >> -shift;
				631	} else {
				632	dest = val << shift;
				633	}
				634	return dest;
				635	}
				636
				637	/* Handling addition overflow with 64 bits inputs values is more
				638	* tricky than with 32 bits values. */
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	639	uint64_t HELPER(neon_rshl_u64)(uint64_t val, uint64_t shiftop)
				640	{
				641	int8_t shift = (uint8_t)shiftop;
Christophe Lyon	51e3930	2011-02-15 13:44:44 +0000	[diff] [blame]	642	if (shift >= 64 \|\| shift < -64) {
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	643	val = 0;
				644	} else if (shift == -64) {
				645	/* Rounding a 1-bit result just preserves that bit. */
				646	val >>= 63;
Christophe Lyon	4bd4ee0	2011-02-15 13:44:41 +0000	[diff] [blame]	647	} else if (shift < 0) {
				648	val >>= (-shift - 1);
				649	if (val == UINT64_MAX) {
				650	/* In this case, it means that the rounding constant is 1,
				651	* and the addition would overflow. Return the actual
				652	* result directly. */
				653	val = 0x8000000000000000ULL;
				654	} else {
				655	val++;
				656	val >>= 1;
				657	}
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	658	} else {
				659	val <<= shift;
				660	}
				661	return val;
				662	}
				663
				664	#define NEON_FN(dest, src1, src2) do { \
				665	int8_t tmp; \
				666	tmp = (int8_t)src2; \
Juha Riihimäki	50f67e9	2009-10-26 09:01:07 +0200	[diff] [blame]	667	if (tmp >= (ssize_t)sizeof(src1) * 8) { \
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	668	if (src1) { \
				669	SET_QC(); \
				670	dest = ~0; \
				671	} else { \
				672	dest = 0; \
				673	} \
Juha Riihimäki	50f67e9	2009-10-26 09:01:07 +0200	[diff] [blame]	674	} else if (tmp <= -(ssize_t)sizeof(src1) * 8) { \
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	675	dest = 0; \
				676	} else if (tmp < 0) { \
				677	dest = src1 >> -tmp; \
				678	} else { \
				679	dest = src1 << tmp; \
				680	if ((dest >> tmp) != src1) { \
				681	SET_QC(); \
				682	dest = ~0; \
				683	} \
				684	}} while (0)
				685	NEON_VOP_ENV(qshl_u8, neon_u8, 4)
				686	NEON_VOP_ENV(qshl_u16, neon_u16, 2)
				687	NEON_VOP_ENV(qshl_u32, neon_u32, 1)
				688	#undef NEON_FN
				689
				690	uint64_t HELPER(neon_qshl_u64)(CPUState *env, uint64_t val, uint64_t shiftop)
				691	{
				692	int8_t shift = (int8_t)shiftop;
				693	if (shift >= 64) {
				694	if (val) {
				695	val = ~(uint64_t)0;
				696	SET_QC();
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	697	}
				698	} else if (shift <= -64) {
				699	val = 0;
				700	} else if (shift < 0) {
				701	val >>= -shift;
				702	} else {
				703	uint64_t tmp = val;
				704	val <<= shift;
				705	if ((val >> shift) != tmp) {
				706	SET_QC();
				707	val = ~(uint64_t)0;
				708	}
				709	}
				710	return val;
				711	}
				712
				713	#define NEON_FN(dest, src1, src2) do { \
				714	int8_t tmp; \
				715	tmp = (int8_t)src2; \
Juha Riihimäki	50f67e9	2009-10-26 09:01:07 +0200	[diff] [blame]	716	if (tmp >= (ssize_t)sizeof(src1) * 8) { \
Peter Maydell	a5d88f3	2010-12-07 14:13:45 +0000	[diff] [blame]	717	if (src1) { \
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	718	SET_QC(); \
Peter Maydell	a5d88f3	2010-12-07 14:13:45 +0000	[diff] [blame]	719	dest = (uint32_t)(1 << (sizeof(src1) * 8 - 1)); \
				720	if (src1 > 0) { \
				721	dest--; \
				722	} \
				723	} else { \
				724	dest = src1; \
				725	} \
Juha Riihimäki	50f67e9	2009-10-26 09:01:07 +0200	[diff] [blame]	726	} else if (tmp <= -(ssize_t)sizeof(src1) * 8) { \
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	727	dest = src1 >> 31; \
				728	} else if (tmp < 0) { \
				729	dest = src1 >> -tmp; \
				730	} else { \
				731	dest = src1 << tmp; \
				732	if ((dest >> tmp) != src1) { \
				733	SET_QC(); \
Peter Maydell	a5d88f3	2010-12-07 14:13:45 +0000	[diff] [blame]	734	dest = (uint32_t)(1 << (sizeof(src1) * 8 - 1)); \
				735	if (src1 > 0) { \
				736	dest--; \
				737	} \
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	738	} \
				739	}} while (0)
				740	NEON_VOP_ENV(qshl_s8, neon_s8, 4)
				741	NEON_VOP_ENV(qshl_s16, neon_s16, 2)
				742	NEON_VOP_ENV(qshl_s32, neon_s32, 1)
				743	#undef NEON_FN
				744
				745	uint64_t HELPER(neon_qshl_s64)(CPUState *env, uint64_t valop, uint64_t shiftop)
				746	{
				747	int8_t shift = (uint8_t)shiftop;
				748	int64_t val = valop;
				749	if (shift >= 64) {
				750	if (val) {
				751	SET_QC();
Peter Maydell	eb7a3d7	2010-12-07 14:13:43 +0000	[diff] [blame]	752	val = (val >> 63) ^ ~SIGNBIT64;
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	753	}
Juha Riihimäki	4c9b70a	2010-12-07 14:13:42 +0000	[diff] [blame]	754	} else if (shift <= -64) {
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	755	val >>= 63;
				756	} else if (shift < 0) {
				757	val >>= -shift;
				758	} else {
				759	int64_t tmp = val;
				760	val <<= shift;
				761	if ((val >> shift) != tmp) {
				762	SET_QC();
				763	val = (tmp >> 63) ^ ~SIGNBIT64;
				764	}
				765	}
				766	return val;
				767	}
				768
Juha Riihimäki	4ca4502	2011-01-08 16:01:15 +0000	[diff] [blame]	769	#define NEON_FN(dest, src1, src2) do { \
				770	if (src1 & (1 << (sizeof(src1) * 8 - 1))) { \
				771	SET_QC(); \
				772	dest = 0; \
				773	} else { \
				774	int8_t tmp; \
				775	tmp = (int8_t)src2; \
				776	if (tmp >= (ssize_t)sizeof(src1) * 8) { \
				777	if (src1) { \
				778	SET_QC(); \
				779	dest = ~0; \
				780	} else { \
				781	dest = 0; \
				782	} \
				783	} else if (tmp <= -(ssize_t)sizeof(src1) * 8) { \
				784	dest = 0; \
				785	} else if (tmp < 0) { \
				786	dest = src1 >> -tmp; \
				787	} else { \
				788	dest = src1 << tmp; \
				789	if ((dest >> tmp) != src1) { \
				790	SET_QC(); \
				791	dest = ~0; \
				792	} \
				793	} \
				794	}} while (0)
				795	NEON_VOP_ENV(qshlu_s8, neon_u8, 4)
				796	NEON_VOP_ENV(qshlu_s16, neon_u16, 2)
				797	#undef NEON_FN
				798
				799	uint32_t HELPER(neon_qshlu_s32)(CPUState *env, uint32_t valop, uint32_t shiftop)
				800	{
				801	if ((int32_t)valop < 0) {
				802	SET_QC();
				803	return 0;
				804	}
				805	return helper_neon_qshl_u32(env, valop, shiftop);
				806	}
				807
				808	uint64_t HELPER(neon_qshlu_s64)(CPUState *env, uint64_t valop, uint64_t shiftop)
				809	{
				810	if ((int64_t)valop < 0) {
				811	SET_QC();
				812	return 0;
				813	}
				814	return helper_neon_qshl_u64(env, valop, shiftop);
				815	}
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	816
				817	/* FIXME: This is wrong. */
				818	#define NEON_FN(dest, src1, src2) do { \
				819	int8_t tmp; \
				820	tmp = (int8_t)src2; \
Peter Maydell	33ebc29	2011-02-15 13:44:49 +0000	[diff] [blame]	821	if (tmp >= (ssize_t)sizeof(src1) * 8) { \
				822	if (src1) { \
				823	SET_QC(); \
				824	dest = ~0; \
				825	} else { \
				826	dest = 0; \
				827	} \
				828	} else if (tmp < -(ssize_t)sizeof(src1) * 8) { \
				829	dest = 0; \
				830	} else if (tmp == -(ssize_t)sizeof(src1) * 8) { \
				831	dest = src1 >> (sizeof(src1) * 8 - 1); \
				832	} else if (tmp < 0) { \
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	833	dest = (src1 + (1 << (-1 - tmp))) >> -tmp; \
				834	} else { \
				835	dest = src1 << tmp; \
				836	if ((dest >> tmp) != src1) { \
				837	SET_QC(); \
				838	dest = ~0; \
				839	} \
				840	}} while (0)
				841	NEON_VOP_ENV(qrshl_u8, neon_u8, 4)
				842	NEON_VOP_ENV(qrshl_u16, neon_u16, 2)
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	843	#undef NEON_FN
				844
Christophe Lyon	4bd4ee0	2011-02-15 13:44:41 +0000	[diff] [blame]	845	/* The addition of the rounding constant may overflow, so we use an
				846	* intermediate 64 bits accumulator. */
				847	uint32_t HELPER(neon_qrshl_u32)(CPUState *env, uint32_t val, uint32_t shiftop)
				848	{
				849	uint32_t dest;
				850	int8_t shift = (int8_t)shiftop;
Peter Maydell	33ebc29	2011-02-15 13:44:49 +0000	[diff] [blame]	851	if (shift >= 32) {
				852	if (val) {
				853	SET_QC();
				854	dest = ~0;
				855	} else {
				856	dest = 0;
				857	}
				858	} else if (shift < -32) {
				859	dest = 0;
				860	} else if (shift == -32) {
				861	dest = val >> 31;
				862	} else if (shift < 0) {
Christophe Lyon	4bd4ee0	2011-02-15 13:44:41 +0000	[diff] [blame]	863	uint64_t big_dest = ((uint64_t)val + (1 << (-1 - shift)));
				864	dest = big_dest >> -shift;
				865	} else {
				866	dest = val << shift;
				867	if ((dest >> shift) != val) {
				868	SET_QC();
				869	dest = ~0;
				870	}
				871	}
				872	return dest;
				873	}
				874
				875	/* Handling addition overflow with 64 bits inputs values is more
				876	* tricky than with 32 bits values. */
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	877	uint64_t HELPER(neon_qrshl_u64)(CPUState *env, uint64_t val, uint64_t shiftop)
				878	{
				879	int8_t shift = (int8_t)shiftop;
Peter Maydell	33ebc29	2011-02-15 13:44:49 +0000	[diff] [blame]	880	if (shift >= 64) {
				881	if (val) {
				882	SET_QC();
				883	val = ~0;
				884	}
				885	} else if (shift < -64) {
				886	val = 0;
				887	} else if (shift == -64) {
				888	val >>= 63;
				889	} else if (shift < 0) {
Christophe Lyon	4bd4ee0	2011-02-15 13:44:41 +0000	[diff] [blame]	890	val >>= (-shift - 1);
				891	if (val == UINT64_MAX) {
				892	/* In this case, it means that the rounding constant is 1,
				893	* and the addition would overflow. Return the actual
				894	* result directly. */
				895	val = 0x8000000000000000ULL;
				896	} else {
				897	val++;
				898	val >>= 1;
				899	}
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	900	} else { \
				901	uint64_t tmp = val;
				902	val <<= shift;
				903	if ((val >> shift) != tmp) {
				904	SET_QC();
				905	val = ~0;
				906	}
				907	}
				908	return val;
				909	}
				910
				911	#define NEON_FN(dest, src1, src2) do { \
				912	int8_t tmp; \
				913	tmp = (int8_t)src2; \
Peter Maydell	7b6ecf5	2011-02-15 13:44:48 +0000	[diff] [blame]	914	if (tmp >= (ssize_t)sizeof(src1) * 8) { \
				915	if (src1) { \
				916	SET_QC(); \
				917	dest = (1 << (sizeof(src1) * 8 - 1)); \
				918	if (src1 > 0) { \
				919	dest--; \
				920	} \
				921	} else { \
				922	dest = 0; \
				923	} \
				924	} else if (tmp <= -(ssize_t)sizeof(src1) * 8) { \
				925	dest = 0; \
				926	} else if (tmp < 0) { \
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	927	dest = (src1 + (1 << (-1 - tmp))) >> -tmp; \
				928	} else { \
				929	dest = src1 << tmp; \
				930	if ((dest >> tmp) != src1) { \
				931	SET_QC(); \
Peter Maydell	960e623	2011-02-15 13:44:45 +0000	[diff] [blame]	932	dest = (uint32_t)(1 << (sizeof(src1) * 8 - 1)); \
				933	if (src1 > 0) { \
				934	dest--; \
				935	} \
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	936	} \
				937	}} while (0)
				938	NEON_VOP_ENV(qrshl_s8, neon_s8, 4)
				939	NEON_VOP_ENV(qrshl_s16, neon_s16, 2)
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	940	#undef NEON_FN
				941
Christophe Lyon	4bd4ee0	2011-02-15 13:44:41 +0000	[diff] [blame]	942	/* The addition of the rounding constant may overflow, so we use an
				943	* intermediate 64 bits accumulator. */
				944	uint32_t HELPER(neon_qrshl_s32)(CPUState *env, uint32_t valop, uint32_t shiftop)
				945	{
				946	int32_t dest;
				947	int32_t val = (int32_t)valop;
				948	int8_t shift = (int8_t)shiftop;
Peter Maydell	7b6ecf5	2011-02-15 13:44:48 +0000	[diff] [blame]	949	if (shift >= 32) {
				950	if (val) {
				951	SET_QC();
				952	dest = (val >> 31) ^ ~SIGNBIT;
				953	} else {
				954	dest = 0;
				955	}
				956	} else if (shift <= -32) {
				957	dest = 0;
				958	} else if (shift < 0) {
Christophe Lyon	4bd4ee0	2011-02-15 13:44:41 +0000	[diff] [blame]	959	int64_t big_dest = ((int64_t)val + (1 << (-1 - shift)));
				960	dest = big_dest >> -shift;
				961	} else {
				962	dest = val << shift;
				963	if ((dest >> shift) != val) {
				964	SET_QC();
				965	dest = (val >> 31) ^ ~SIGNBIT;
				966	}
				967	}
				968	return dest;
				969	}
				970
				971	/* Handling addition overflow with 64 bits inputs values is more
				972	* tricky than with 32 bits values. */
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	973	uint64_t HELPER(neon_qrshl_s64)(CPUState *env, uint64_t valop, uint64_t shiftop)
				974	{
				975	int8_t shift = (uint8_t)shiftop;
				976	int64_t val = valop;
				977
Peter Maydell	7b6ecf5	2011-02-15 13:44:48 +0000	[diff] [blame]	978	if (shift >= 64) {
				979	if (val) {
				980	SET_QC();
				981	val = (val >> 63) ^ ~SIGNBIT64;
				982	}
				983	} else if (shift <= -64) {
				984	val = 0;
				985	} else if (shift < 0) {
Christophe Lyon	4bd4ee0	2011-02-15 13:44:41 +0000	[diff] [blame]	986	val >>= (-shift - 1);
				987	if (val == INT64_MAX) {
				988	/* In this case, it means that the rounding constant is 1,
				989	* and the addition would overflow. Return the actual
				990	* result directly. */
				991	val = 0x4000000000000000ULL;
				992	} else {
				993	val++;
				994	val >>= 1;
				995	}
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	996	} else {
Christophe Lyon	4bd4ee0	2011-02-15 13:44:41 +0000	[diff] [blame]	997	int64_t tmp = val;
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	998	val <<= shift;
				999	if ((val >> shift) != tmp) {
				1000	SET_QC();
Christophe Lyon	4bd4ee0	2011-02-15 13:44:41 +0000	[diff] [blame]	1001	val = (tmp >> 63) ^ ~SIGNBIT64;
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	1002	}
				1003	}
				1004	return val;
				1005	}
				1006
				1007	uint32_t HELPER(neon_add_u8)(uint32_t a, uint32_t b)
				1008	{
				1009	uint32_t mask;
				1010	mask = (a ^ b) & 0x80808080u;
				1011	a &= ~0x80808080u;
				1012	b &= ~0x80808080u;
				1013	return (a + b) ^ mask;
				1014	}
				1015
				1016	uint32_t HELPER(neon_add_u16)(uint32_t a, uint32_t b)
				1017	{
				1018	uint32_t mask;
				1019	mask = (a ^ b) & 0x80008000u;
				1020	a &= ~0x80008000u;
				1021	b &= ~0x80008000u;
				1022	return (a + b) ^ mask;
				1023	}
				1024
				1025	#define NEON_FN(dest, src1, src2) dest = src1 + src2
				1026	NEON_POP(padd_u8, neon_u8, 4)
				1027	NEON_POP(padd_u16, neon_u16, 2)
				1028	#undef NEON_FN
				1029
				1030	#define NEON_FN(dest, src1, src2) dest = src1 - src2
				1031	NEON_VOP(sub_u8, neon_u8, 4)
				1032	NEON_VOP(sub_u16, neon_u16, 2)
				1033	#undef NEON_FN
				1034
				1035	#define NEON_FN(dest, src1, src2) dest = src1 * src2
				1036	NEON_VOP(mul_u8, neon_u8, 4)
				1037	NEON_VOP(mul_u16, neon_u16, 2)
				1038	#undef NEON_FN
				1039
aurel32	1654b2d	2008-04-11 04:55:07 +0000	[diff] [blame]	1040	/* Polynomial multiplication is like integer multiplication except the
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	1041	partial products are XORed, not added. */
				1042	uint32_t HELPER(neon_mul_p8)(uint32_t op1, uint32_t op2)
				1043	{
				1044	uint32_t mask;
				1045	uint32_t result;
				1046	result = 0;
				1047	while (op1) {
				1048	mask = 0;
				1049	if (op1 & 1)
				1050	mask \|= 0xff;
				1051	if (op1 & (1 << 8))
				1052	mask \|= (0xff << 8);
				1053	if (op1 & (1 << 16))
				1054	mask \|= (0xff << 16);
				1055	if (op1 & (1 << 24))
				1056	mask \|= (0xff << 24);
				1057	result ^= op2 & mask;
				1058	op1 = (op1 >> 1) & 0x7f7f7f7f;
				1059	op2 = (op2 << 1) & 0xfefefefe;
				1060	}
				1061	return result;
				1062	}
				1063
Peter Maydell	e5ca24c	2011-02-10 19:07:55 +0000	[diff] [blame]	1064	uint64_t HELPER(neon_mull_p8)(uint32_t op1, uint32_t op2)
				1065	{
				1066	uint64_t result = 0;
				1067	uint64_t mask;
				1068	uint64_t op2ex = op2;
				1069	op2ex = (op2ex & 0xff) \|
				1070	((op2ex & 0xff00) << 8) \|
				1071	((op2ex & 0xff0000) << 16) \|
				1072	((op2ex & 0xff000000) << 24);
				1073	while (op1) {
				1074	mask = 0;
				1075	if (op1 & 1) {
				1076	mask \|= 0xffff;
				1077	}
				1078	if (op1 & (1 << 8)) {
				1079	mask \|= (0xffffU << 16);
				1080	}
				1081	if (op1 & (1 << 16)) {
				1082	mask \|= (0xffffULL << 32);
				1083	}
				1084	if (op1 & (1 << 24)) {
				1085	mask \|= (0xffffULL << 48);
				1086	}
				1087	result ^= op2ex & mask;
				1088	op1 = (op1 >> 1) & 0x7f7f7f7f;
				1089	op2ex <<= 1;
				1090	}
				1091	return result;
				1092	}
				1093
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	1094	#define NEON_FN(dest, src1, src2) dest = (src1 & src2) ? -1 : 0
				1095	NEON_VOP(tst_u8, neon_u8, 4)
				1096	NEON_VOP(tst_u16, neon_u16, 2)
				1097	NEON_VOP(tst_u32, neon_u32, 1)
				1098	#undef NEON_FN
				1099
				1100	#define NEON_FN(dest, src1, src2) dest = (src1 == src2) ? -1 : 0
				1101	NEON_VOP(ceq_u8, neon_u8, 4)
				1102	NEON_VOP(ceq_u16, neon_u16, 2)
				1103	NEON_VOP(ceq_u32, neon_u32, 1)
				1104	#undef NEON_FN
				1105
				1106	#define NEON_FN(dest, src, dummy) dest = (src < 0) ? -src : src
				1107	NEON_VOP1(abs_s8, neon_s8, 4)
				1108	NEON_VOP1(abs_s16, neon_s16, 2)
				1109	#undef NEON_FN
				1110
				1111	/* Count Leading Sign/Zero Bits. */
				1112	static inline int do_clz8(uint8_t x)
				1113	{
				1114	int n;
				1115	for (n = 8; x; n--)
				1116	x >>= 1;
				1117	return n;
				1118	}
				1119
				1120	static inline int do_clz16(uint16_t x)
				1121	{
				1122	int n;
				1123	for (n = 16; x; n--)
				1124	x >>= 1;
				1125	return n;
				1126	}
				1127
				1128	#define NEON_FN(dest, src, dummy) dest = do_clz8(src)
				1129	NEON_VOP1(clz_u8, neon_u8, 4)
				1130	#undef NEON_FN
				1131
				1132	#define NEON_FN(dest, src, dummy) dest = do_clz16(src)
				1133	NEON_VOP1(clz_u16, neon_u16, 2)
				1134	#undef NEON_FN
				1135
				1136	#define NEON_FN(dest, src, dummy) dest = do_clz8((src < 0) ? ~src : src) - 1
				1137	NEON_VOP1(cls_s8, neon_s8, 4)
				1138	#undef NEON_FN
				1139
				1140	#define NEON_FN(dest, src, dummy) dest = do_clz16((src < 0) ? ~src : src) - 1
				1141	NEON_VOP1(cls_s16, neon_s16, 2)
				1142	#undef NEON_FN
				1143
				1144	uint32_t HELPER(neon_cls_s32)(uint32_t x)
				1145	{
				1146	int count;
				1147	if ((int32_t)x < 0)
				1148	x = ~x;
				1149	for (count = 32; x; count--)
				1150	x = x >> 1;
				1151	return count - 1;
				1152	}
				1153
				1154	/* Bit count. */
				1155	uint32_t HELPER(neon_cnt_u8)(uint32_t x)
				1156	{
				1157	x = (x & 0x55555555) + ((x >> 1) & 0x55555555);
				1158	x = (x & 0x33333333) + ((x >> 2) & 0x33333333);
				1159	x = (x & 0x0f0f0f0f) + ((x >> 4) & 0x0f0f0f0f);
				1160	return x;
				1161	}
				1162
				1163	#define NEON_QDMULH16(dest, src1, src2, round) do { \
				1164	uint32_t tmp = (int32_t)(int16_t) src1 * (int16_t) src2; \
				1165	if ((tmp ^ (tmp << 1)) & SIGNBIT) { \
				1166	SET_QC(); \
				1167	tmp = (tmp >> 31) ^ ~SIGNBIT; \
Juha Riihimäki	46eece9	2011-01-27 19:18:35 +0000	[diff] [blame]	1168	} else { \
				1169	tmp <<= 1; \
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	1170	} \
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	1171	if (round) { \
				1172	int32_t old = tmp; \
				1173	tmp += 1 << 15; \
				1174	if ((int32_t)tmp < old) { \
				1175	SET_QC(); \
				1176	tmp = SIGNBIT - 1; \
				1177	} \
				1178	} \
				1179	dest = tmp >> 16; \
				1180	} while(0)
				1181	#define NEON_FN(dest, src1, src2) NEON_QDMULH16(dest, src1, src2, 0)
				1182	NEON_VOP_ENV(qdmulh_s16, neon_s16, 2)
				1183	#undef NEON_FN
				1184	#define NEON_FN(dest, src1, src2) NEON_QDMULH16(dest, src1, src2, 1)
				1185	NEON_VOP_ENV(qrdmulh_s16, neon_s16, 2)
				1186	#undef NEON_FN
				1187	#undef NEON_QDMULH16
				1188
				1189	#define NEON_QDMULH32(dest, src1, src2, round) do { \
				1190	uint64_t tmp = (int64_t)(int32_t) src1 * (int32_t) src2; \
				1191	if ((tmp ^ (tmp << 1)) & SIGNBIT64) { \
				1192	SET_QC(); \
				1193	tmp = (tmp >> 63) ^ ~SIGNBIT64; \
				1194	} else { \
				1195	tmp <<= 1; \
				1196	} \
				1197	if (round) { \
				1198	int64_t old = tmp; \
				1199	tmp += (int64_t)1 << 31; \
				1200	if ((int64_t)tmp < old) { \
				1201	SET_QC(); \
				1202	tmp = SIGNBIT64 - 1; \
				1203	} \
				1204	} \
				1205	dest = tmp >> 32; \
				1206	} while(0)
				1207	#define NEON_FN(dest, src1, src2) NEON_QDMULH32(dest, src1, src2, 0)
				1208	NEON_VOP_ENV(qdmulh_s32, neon_s32, 1)
				1209	#undef NEON_FN
				1210	#define NEON_FN(dest, src1, src2) NEON_QDMULH32(dest, src1, src2, 1)
				1211	NEON_VOP_ENV(qrdmulh_s32, neon_s32, 1)
				1212	#undef NEON_FN
				1213	#undef NEON_QDMULH32
				1214
				1215	uint32_t HELPER(neon_narrow_u8)(uint64_t x)
				1216	{
				1217	return (x & 0xffu) \| ((x >> 8) & 0xff00u) \| ((x >> 16) & 0xff0000u)
				1218	\| ((x >> 24) & 0xff000000u);
				1219	}
				1220
				1221	uint32_t HELPER(neon_narrow_u16)(uint64_t x)
				1222	{
				1223	return (x & 0xffffu) \| ((x >> 16) & 0xffff0000u);
				1224	}
				1225
				1226	uint32_t HELPER(neon_narrow_high_u8)(uint64_t x)
				1227	{
				1228	return ((x >> 8) & 0xff) \| ((x >> 16) & 0xff00)
				1229	\| ((x >> 24) & 0xff0000) \| ((x >> 32) & 0xff000000);
				1230	}
				1231
				1232	uint32_t HELPER(neon_narrow_high_u16)(uint64_t x)
				1233	{
				1234	return ((x >> 16) & 0xffff) \| ((x >> 32) & 0xffff0000);
				1235	}
				1236
				1237	uint32_t HELPER(neon_narrow_round_high_u8)(uint64_t x)
				1238	{
				1239	x &= 0xff80ff80ff80ff80ull;
				1240	x += 0x0080008000800080ull;
				1241	return ((x >> 8) & 0xff) \| ((x >> 16) & 0xff00)
				1242	\| ((x >> 24) & 0xff0000) \| ((x >> 32) & 0xff000000);
				1243	}
				1244
				1245	uint32_t HELPER(neon_narrow_round_high_u16)(uint64_t x)
				1246	{
				1247	x &= 0xffff8000ffff8000ull;
				1248	x += 0x0000800000008000ull;
				1249	return ((x >> 16) & 0xffff) \| ((x >> 32) & 0xffff0000);
				1250	}
				1251
Juha Riihimäki	af1bbf3	2011-02-09 15:42:32 +0000	[diff] [blame]	1252	uint32_t HELPER(neon_unarrow_sat8)(CPUState *env, uint64_t x)
				1253	{
				1254	uint16_t s;
				1255	uint8_t d;
				1256	uint32_t res = 0;
				1257	#define SAT8(n) \
				1258	s = x >> n; \
				1259	if (s & 0x8000) { \
				1260	SET_QC(); \
				1261	} else { \
				1262	if (s > 0xff) { \
				1263	d = 0xff; \
				1264	SET_QC(); \
				1265	} else { \
				1266	d = s; \
				1267	} \
				1268	res \|= (uint32_t)d << (n / 2); \
				1269	}
				1270
				1271	SAT8(0);
				1272	SAT8(16);
				1273	SAT8(32);
				1274	SAT8(48);
				1275	#undef SAT8
				1276	return res;
				1277	}
				1278
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	1279	uint32_t HELPER(neon_narrow_sat_u8)(CPUState *env, uint64_t x)
				1280	{
				1281	uint16_t s;
				1282	uint8_t d;
				1283	uint32_t res = 0;
				1284	#define SAT8(n) \
				1285	s = x >> n; \
				1286	if (s > 0xff) { \
				1287	d = 0xff; \
				1288	SET_QC(); \
				1289	} else { \
				1290	d = s; \
				1291	} \
				1292	res \|= (uint32_t)d << (n / 2);
				1293
				1294	SAT8(0);
				1295	SAT8(16);
				1296	SAT8(32);
				1297	SAT8(48);
				1298	#undef SAT8
				1299	return res;
				1300	}
				1301
				1302	uint32_t HELPER(neon_narrow_sat_s8)(CPUState *env, uint64_t x)
				1303	{
				1304	int16_t s;
				1305	uint8_t d;
				1306	uint32_t res = 0;
				1307	#define SAT8(n) \
				1308	s = x >> n; \
				1309	if (s != (int8_t)s) { \
				1310	d = (s >> 15) ^ 0x7f; \
				1311	SET_QC(); \
				1312	} else { \
				1313	d = s; \
				1314	} \
				1315	res \|= (uint32_t)d << (n / 2);
				1316
				1317	SAT8(0);
				1318	SAT8(16);
				1319	SAT8(32);
				1320	SAT8(48);
				1321	#undef SAT8
				1322	return res;
				1323	}
				1324
Juha Riihimäki	af1bbf3	2011-02-09 15:42:32 +0000	[diff] [blame]	1325	uint32_t HELPER(neon_unarrow_sat16)(CPUState *env, uint64_t x)
				1326	{
				1327	uint32_t high;
				1328	uint32_t low;
				1329	low = x;
				1330	if (low & 0x80000000) {
				1331	low = 0;
				1332	SET_QC();
				1333	} else if (low > 0xffff) {
				1334	low = 0xffff;
				1335	SET_QC();
				1336	}
				1337	high = x >> 32;
				1338	if (high & 0x80000000) {
				1339	high = 0;
				1340	SET_QC();
				1341	} else if (high > 0xffff) {
				1342	high = 0xffff;
				1343	SET_QC();
				1344	}
				1345	return low \| (high << 16);
				1346	}
				1347
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	1348	uint32_t HELPER(neon_narrow_sat_u16)(CPUState *env, uint64_t x)
				1349	{
				1350	uint32_t high;
				1351	uint32_t low;
				1352	low = x;
				1353	if (low > 0xffff) {
				1354	low = 0xffff;
				1355	SET_QC();
				1356	}
				1357	high = x >> 32;
				1358	if (high > 0xffff) {
				1359	high = 0xffff;
				1360	SET_QC();
				1361	}
				1362	return low \| (high << 16);
				1363	}
				1364
				1365	uint32_t HELPER(neon_narrow_sat_s16)(CPUState *env, uint64_t x)
				1366	{
				1367	int32_t low;
				1368	int32_t high;
				1369	low = x;
				1370	if (low != (int16_t)low) {
				1371	low = (low >> 31) ^ 0x7fff;
				1372	SET_QC();
				1373	}
				1374	high = x >> 32;
				1375	if (high != (int16_t)high) {
				1376	high = (high >> 31) ^ 0x7fff;
				1377	SET_QC();
				1378	}
				1379	return (uint16_t)low \| (high << 16);
				1380	}
				1381
Juha Riihimäki	af1bbf3	2011-02-09 15:42:32 +0000	[diff] [blame]	1382	uint32_t HELPER(neon_unarrow_sat32)(CPUState *env, uint64_t x)
				1383	{
				1384	if (x & 0x8000000000000000ull) {
				1385	SET_QC();
				1386	return 0;
				1387	}
				1388	if (x > 0xffffffffu) {
				1389	SET_QC();
				1390	return 0xffffffffu;
				1391	}
				1392	return x;
				1393	}
				1394
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	1395	uint32_t HELPER(neon_narrow_sat_u32)(CPUState *env, uint64_t x)
				1396	{
				1397	if (x > 0xffffffffu) {
				1398	SET_QC();
				1399	return 0xffffffffu;
				1400	}
				1401	return x;
				1402	}
				1403
				1404	uint32_t HELPER(neon_narrow_sat_s32)(CPUState *env, uint64_t x)
				1405	{
				1406	if ((int64_t)x != (int32_t)x) {
				1407	SET_QC();
Peter Maydell	cc2212c	2011-02-09 15:42:33 +0000	[diff] [blame]	1408	return ((int64_t)x >> 63) ^ 0x7fffffff;
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	1409	}
				1410	return x;
				1411	}
				1412
				1413	uint64_t HELPER(neon_widen_u8)(uint32_t x)
				1414	{
				1415	uint64_t tmp;
				1416	uint64_t ret;
				1417	ret = (uint8_t)x;
				1418	tmp = (uint8_t)(x >> 8);
				1419	ret \|= tmp << 16;
				1420	tmp = (uint8_t)(x >> 16);
				1421	ret \|= tmp << 32;
				1422	tmp = (uint8_t)(x >> 24);
				1423	ret \|= tmp << 48;
				1424	return ret;
				1425	}
				1426
				1427	uint64_t HELPER(neon_widen_s8)(uint32_t x)
				1428	{
				1429	uint64_t tmp;
				1430	uint64_t ret;
				1431	ret = (uint16_t)(int8_t)x;
				1432	tmp = (uint16_t)(int8_t)(x >> 8);
				1433	ret \|= tmp << 16;
				1434	tmp = (uint16_t)(int8_t)(x >> 16);
				1435	ret \|= tmp << 32;
				1436	tmp = (uint16_t)(int8_t)(x >> 24);
				1437	ret \|= tmp << 48;
				1438	return ret;
				1439	}
				1440
				1441	uint64_t HELPER(neon_widen_u16)(uint32_t x)
				1442	{
				1443	uint64_t high = (uint16_t)(x >> 16);
				1444	return ((uint16_t)x) \| (high << 32);
				1445	}
				1446
				1447	uint64_t HELPER(neon_widen_s16)(uint32_t x)
				1448	{
				1449	uint64_t high = (int16_t)(x >> 16);
				1450	return ((uint32_t)(int16_t)x) \| (high << 32);
				1451	}
				1452
				1453	uint64_t HELPER(neon_addl_u16)(uint64_t a, uint64_t b)
				1454	{
				1455	uint64_t mask;
				1456	mask = (a ^ b) & 0x8000800080008000ull;
				1457	a &= ~0x8000800080008000ull;
				1458	b &= ~0x8000800080008000ull;
				1459	return (a + b) ^ mask;
				1460	}
				1461
				1462	uint64_t HELPER(neon_addl_u32)(uint64_t a, uint64_t b)
				1463	{
				1464	uint64_t mask;
				1465	mask = (a ^ b) & 0x8000000080000000ull;
				1466	a &= ~0x8000000080000000ull;
				1467	b &= ~0x8000000080000000ull;
				1468	return (a + b) ^ mask;
				1469	}
				1470
				1471	uint64_t HELPER(neon_paddl_u16)(uint64_t a, uint64_t b)
				1472	{
				1473	uint64_t tmp;
				1474	uint64_t tmp2;
				1475
				1476	tmp = a & 0x0000ffff0000ffffull;
				1477	tmp += (a >> 16) & 0x0000ffff0000ffffull;
				1478	tmp2 = b & 0xffff0000ffff0000ull;
				1479	tmp2 += (b << 16) & 0xffff0000ffff0000ull;
				1480	return ( tmp & 0xffff)
				1481	\| ((tmp >> 16) & 0xffff0000ull)
				1482	\| ((tmp2 << 16) & 0xffff00000000ull)
				1483	\| ( tmp2 & 0xffff000000000000ull);
				1484	}
				1485
				1486	uint64_t HELPER(neon_paddl_u32)(uint64_t a, uint64_t b)
				1487	{
				1488	uint32_t low = a + (a >> 32);
				1489	uint32_t high = b + (b >> 32);
				1490	return low + ((uint64_t)high << 32);
				1491	}
				1492
				1493	uint64_t HELPER(neon_subl_u16)(uint64_t a, uint64_t b)
				1494	{
				1495	uint64_t mask;
				1496	mask = (a ^ ~b) & 0x8000800080008000ull;
				1497	a \|= 0x8000800080008000ull;
				1498	b &= ~0x8000800080008000ull;
				1499	return (a - b) ^ mask;
				1500	}
				1501
				1502	uint64_t HELPER(neon_subl_u32)(uint64_t a, uint64_t b)
				1503	{
				1504	uint64_t mask;
				1505	mask = (a ^ ~b) & 0x8000000080000000ull;
				1506	a \|= 0x8000000080000000ull;
				1507	b &= ~0x8000000080000000ull;
				1508	return (a - b) ^ mask;
				1509	}
				1510
				1511	uint64_t HELPER(neon_addl_saturate_s32)(CPUState *env, uint64_t a, uint64_t b)
				1512	{
				1513	uint32_t x, y;
				1514	uint32_t low, high;
				1515
				1516	x = a;
				1517	y = b;
				1518	low = x + y;
				1519	if (((low ^ x) & SIGNBIT) && !((x ^ y) & SIGNBIT)) {
				1520	SET_QC();
				1521	low = ((int32_t)x >> 31) ^ ~SIGNBIT;
				1522	}
				1523	x = a >> 32;
				1524	y = b >> 32;
				1525	high = x + y;
				1526	if (((high ^ x) & SIGNBIT) && !((x ^ y) & SIGNBIT)) {
				1527	SET_QC();
				1528	high = ((int32_t)x >> 31) ^ ~SIGNBIT;
				1529	}
				1530	return low \| ((uint64_t)high << 32);
				1531	}
				1532
				1533	uint64_t HELPER(neon_addl_saturate_s64)(CPUState *env, uint64_t a, uint64_t b)
				1534	{
				1535	uint64_t result;
				1536
				1537	result = a + b;
				1538	if (((result ^ a) & SIGNBIT64) && !((a ^ b) & SIGNBIT64)) {
				1539	SET_QC();
				1540	result = ((int64_t)a >> 63) ^ ~SIGNBIT64;
				1541	}
				1542	return result;
				1543	}
				1544
				1545	#define DO_ABD(dest, x, y, type) do { \
				1546	type tmp_x = x; \
				1547	type tmp_y = y; \
				1548	dest = ((tmp_x > tmp_y) ? tmp_x - tmp_y : tmp_y - tmp_x); \
				1549	} while(0)
				1550
				1551	uint64_t HELPER(neon_abdl_u16)(uint32_t a, uint32_t b)
				1552	{
				1553	uint64_t tmp;
				1554	uint64_t result;
				1555	DO_ABD(result, a, b, uint8_t);
				1556	DO_ABD(tmp, a >> 8, b >> 8, uint8_t);
				1557	result \|= tmp << 16;
				1558	DO_ABD(tmp, a >> 16, b >> 16, uint8_t);
				1559	result \|= tmp << 32;
				1560	DO_ABD(tmp, a >> 24, b >> 24, uint8_t);
				1561	result \|= tmp << 48;
				1562	return result;
				1563	}
				1564
				1565	uint64_t HELPER(neon_abdl_s16)(uint32_t a, uint32_t b)
				1566	{
				1567	uint64_t tmp;
				1568	uint64_t result;
				1569	DO_ABD(result, a, b, int8_t);
				1570	DO_ABD(tmp, a >> 8, b >> 8, int8_t);
				1571	result \|= tmp << 16;
				1572	DO_ABD(tmp, a >> 16, b >> 16, int8_t);
				1573	result \|= tmp << 32;
				1574	DO_ABD(tmp, a >> 24, b >> 24, int8_t);
				1575	result \|= tmp << 48;
				1576	return result;
				1577	}
				1578
				1579	uint64_t HELPER(neon_abdl_u32)(uint32_t a, uint32_t b)
				1580	{
				1581	uint64_t tmp;
				1582	uint64_t result;
				1583	DO_ABD(result, a, b, uint16_t);
				1584	DO_ABD(tmp, a >> 16, b >> 16, uint16_t);
				1585	return result \| (tmp << 32);
				1586	}
				1587
				1588	uint64_t HELPER(neon_abdl_s32)(uint32_t a, uint32_t b)
				1589	{
				1590	uint64_t tmp;
				1591	uint64_t result;
				1592	DO_ABD(result, a, b, int16_t);
				1593	DO_ABD(tmp, a >> 16, b >> 16, int16_t);
				1594	return result \| (tmp << 32);
				1595	}
				1596
				1597	uint64_t HELPER(neon_abdl_u64)(uint32_t a, uint32_t b)
				1598	{
				1599	uint64_t result;
				1600	DO_ABD(result, a, b, uint32_t);
				1601	return result;
				1602	}
				1603
				1604	uint64_t HELPER(neon_abdl_s64)(uint32_t a, uint32_t b)
				1605	{
				1606	uint64_t result;
				1607	DO_ABD(result, a, b, int32_t);
				1608	return result;
				1609	}
				1610	#undef DO_ABD
				1611
				1612	/* Widening multiply. Named type is the source type. */
				1613	#define DO_MULL(dest, x, y, type1, type2) do { \
				1614	type1 tmp_x = x; \
				1615	type1 tmp_y = y; \
				1616	dest = (type2)((type2)tmp_x * (type2)tmp_y); \
				1617	} while(0)
				1618
				1619	uint64_t HELPER(neon_mull_u8)(uint32_t a, uint32_t b)
				1620	{
				1621	uint64_t tmp;
				1622	uint64_t result;
				1623
				1624	DO_MULL(result, a, b, uint8_t, uint16_t);
				1625	DO_MULL(tmp, a >> 8, b >> 8, uint8_t, uint16_t);
				1626	result \|= tmp << 16;
				1627	DO_MULL(tmp, a >> 16, b >> 16, uint8_t, uint16_t);
				1628	result \|= tmp << 32;
				1629	DO_MULL(tmp, a >> 24, b >> 24, uint8_t, uint16_t);
				1630	result \|= tmp << 48;
				1631	return result;
				1632	}
				1633
				1634	uint64_t HELPER(neon_mull_s8)(uint32_t a, uint32_t b)
				1635	{
				1636	uint64_t tmp;
				1637	uint64_t result;
				1638
				1639	DO_MULL(result, a, b, int8_t, uint16_t);
				1640	DO_MULL(tmp, a >> 8, b >> 8, int8_t, uint16_t);
				1641	result \|= tmp << 16;
				1642	DO_MULL(tmp, a >> 16, b >> 16, int8_t, uint16_t);
				1643	result \|= tmp << 32;
				1644	DO_MULL(tmp, a >> 24, b >> 24, int8_t, uint16_t);
				1645	result \|= tmp << 48;
				1646	return result;
				1647	}
				1648
				1649	uint64_t HELPER(neon_mull_u16)(uint32_t a, uint32_t b)
				1650	{
				1651	uint64_t tmp;
				1652	uint64_t result;
				1653
				1654	DO_MULL(result, a, b, uint16_t, uint32_t);
				1655	DO_MULL(tmp, a >> 16, b >> 16, uint16_t, uint32_t);
				1656	return result \| (tmp << 32);
				1657	}
				1658
				1659	uint64_t HELPER(neon_mull_s16)(uint32_t a, uint32_t b)
				1660	{
				1661	uint64_t tmp;
				1662	uint64_t result;
				1663
				1664	DO_MULL(result, a, b, int16_t, uint32_t);
				1665	DO_MULL(tmp, a >> 16, b >> 16, int16_t, uint32_t);
				1666	return result \| (tmp << 32);
				1667	}
				1668
				1669	uint64_t HELPER(neon_negl_u16)(uint64_t x)
				1670	{
				1671	uint16_t tmp;
				1672	uint64_t result;
				1673	result = (uint16_t)-x;
				1674	tmp = -(x >> 16);
				1675	result \|= (uint64_t)tmp << 16;
				1676	tmp = -(x >> 32);
				1677	result \|= (uint64_t)tmp << 32;
				1678	tmp = -(x >> 48);
				1679	result \|= (uint64_t)tmp << 48;
				1680	return result;
				1681	}
				1682
pbrook	ad69471	2008-03-31 03:48:30 +0000	[diff] [blame]	1683	uint64_t HELPER(neon_negl_u32)(uint64_t x)
				1684	{
				1685	uint32_t low = -x;
				1686	uint32_t high = -(x >> 32);
				1687	return low \| ((uint64_t)high << 32);
				1688	}
				1689
				1690	/* FIXME: There should be a native op for this. */
				1691	uint64_t HELPER(neon_negl_u64)(uint64_t x)
				1692	{
				1693	return -x;
				1694	}
				1695
				1696	/* Saturnating sign manuipulation. */
				1697	/* ??? Make these use NEON_VOP1 */
				1698	#define DO_QABS8(x) do { \
				1699	if (x == (int8_t)0x80) { \
				1700	x = 0x7f; \
				1701	SET_QC(); \
				1702	} else if (x < 0) { \
				1703	x = -x; \
				1704	}} while (0)
				1705	uint32_t HELPER(neon_qabs_s8)(CPUState *env, uint32_t x)
				1706	{
				1707	neon_s8 vec;
				1708	NEON_UNPACK(neon_s8, vec, x);
				1709	DO_QABS8(vec.v1);
				1710	DO_QABS8(vec.v2);
				1711	DO_QABS8(vec.v3);
				1712	DO_QABS8(vec.v4);
				1713	NEON_PACK(neon_s8, x, vec);
				1714	return x;
				1715	}
				1716	#undef DO_QABS8
				1717
				1718	#define DO_QNEG8(x) do { \
				1719	if (x == (int8_t)0x80) { \
				1720	x = 0x7f; \
				1721	SET_QC(); \
				1722	} else { \
				1723	x = -x; \
				1724	}} while (0)
				1725	uint32_t HELPER(neon_qneg_s8)(CPUState *env, uint32_t x)
				1726	{
				1727	neon_s8 vec;
				1728	NEON_UNPACK(neon_s8, vec, x);
				1729	DO_QNEG8(vec.v1);
				1730	DO_QNEG8(vec.v2);
				1731	DO_QNEG8(vec.v3);
				1732	DO_QNEG8(vec.v4);
				1733	NEON_PACK(neon_s8, x, vec);
				1734	return x;
				1735	}
				1736	#undef DO_QNEG8
				1737
				1738	#define DO_QABS16(x) do { \
				1739	if (x == (int16_t)0x8000) { \
				1740	x = 0x7fff; \
				1741	SET_QC(); \
				1742	} else if (x < 0) { \
				1743	x = -x; \
				1744	}} while (0)
				1745	uint32_t HELPER(neon_qabs_s16)(CPUState *env, uint32_t x)
				1746	{
				1747	neon_s16 vec;
				1748	NEON_UNPACK(neon_s16, vec, x);
				1749	DO_QABS16(vec.v1);
				1750	DO_QABS16(vec.v2);
				1751	NEON_PACK(neon_s16, x, vec);
				1752	return x;
				1753	}
				1754	#undef DO_QABS16
				1755
				1756	#define DO_QNEG16(x) do { \
				1757	if (x == (int16_t)0x8000) { \
				1758	x = 0x7fff; \
				1759	SET_QC(); \
				1760	} else { \
				1761	x = -x; \
				1762	}} while (0)
				1763	uint32_t HELPER(neon_qneg_s16)(CPUState *env, uint32_t x)
				1764	{
				1765	neon_s16 vec;
				1766	NEON_UNPACK(neon_s16, vec, x);
				1767	DO_QNEG16(vec.v1);
				1768	DO_QNEG16(vec.v2);
				1769	NEON_PACK(neon_s16, x, vec);
				1770	return x;
				1771	}
				1772	#undef DO_QNEG16
				1773
				1774	uint32_t HELPER(neon_qabs_s32)(CPUState *env, uint32_t x)
				1775	{
				1776	if (x == SIGNBIT) {
				1777	SET_QC();
				1778	x = ~SIGNBIT;
				1779	} else if ((int32_t)x < 0) {
				1780	x = -x;
				1781	}
				1782	return x;
				1783	}
				1784
				1785	uint32_t HELPER(neon_qneg_s32)(CPUState *env, uint32_t x)
				1786	{
				1787	if (x == SIGNBIT) {
				1788	SET_QC();
				1789	x = ~SIGNBIT;
				1790	} else {
				1791	x = -x;
				1792	}
				1793	return x;
				1794	}
				1795
				1796	/* NEON Float helpers. */
				1797	uint32_t HELPER(neon_min_f32)(uint32_t a, uint32_t b)
				1798	{
				1799	float32 f0 = vfp_itos(a);
				1800	float32 f1 = vfp_itos(b);
				1801	return (float32_compare_quiet(f0, f1, NFS) == -1) ? a : b;
				1802	}
				1803
				1804	uint32_t HELPER(neon_max_f32)(uint32_t a, uint32_t b)
				1805	{
				1806	float32 f0 = vfp_itos(a);
				1807	float32 f1 = vfp_itos(b);
				1808	return (float32_compare_quiet(f0, f1, NFS) == 1) ? a : b;
				1809	}
				1810
				1811	uint32_t HELPER(neon_abd_f32)(uint32_t a, uint32_t b)
				1812	{
				1813	float32 f0 = vfp_itos(a);
				1814	float32 f1 = vfp_itos(b);
				1815	return vfp_stoi((float32_compare_quiet(f0, f1, NFS) == 1)
				1816	? float32_sub(f0, f1, NFS)
				1817	: float32_sub(f1, f0, NFS));
				1818	}
				1819
				1820	uint32_t HELPER(neon_add_f32)(uint32_t a, uint32_t b)
				1821	{
				1822	return vfp_stoi(float32_add(vfp_itos(a), vfp_itos(b), NFS));
				1823	}
				1824
				1825	uint32_t HELPER(neon_sub_f32)(uint32_t a, uint32_t b)
				1826	{
				1827	return vfp_stoi(float32_sub(vfp_itos(a), vfp_itos(b), NFS));
				1828	}
				1829
				1830	uint32_t HELPER(neon_mul_f32)(uint32_t a, uint32_t b)
				1831	{
				1832	return vfp_stoi(float32_mul(vfp_itos(a), vfp_itos(b), NFS));
				1833	}
				1834
				1835	/* Floating point comparisons produce an integer result. */
				1836	#define NEON_VOP_FCMP(name, cmp) \
				1837	uint32_t HELPER(neon_##name)(uint32_t a, uint32_t b) \
				1838	{ \
				1839	if (float32_compare_quiet(vfp_itos(a), vfp_itos(b), NFS) cmp 0) \
				1840	return ~0; \
				1841	else \
				1842	return 0; \
				1843	}
				1844
				1845	NEON_VOP_FCMP(ceq_f32, ==)
				1846	NEON_VOP_FCMP(cge_f32, >=)
				1847	NEON_VOP_FCMP(cgt_f32, >)
				1848
				1849	uint32_t HELPER(neon_acge_f32)(uint32_t a, uint32_t b)
				1850	{
				1851	float32 f0 = float32_abs(vfp_itos(a));
				1852	float32 f1 = float32_abs(vfp_itos(b));
				1853	return (float32_compare_quiet(f0, f1,NFS) >= 0) ? ~0 : 0;
				1854	}
				1855
				1856	uint32_t HELPER(neon_acgt_f32)(uint32_t a, uint32_t b)
				1857	{
				1858	float32 f0 = float32_abs(vfp_itos(a));
				1859	float32 f1 = float32_abs(vfp_itos(b));
				1860	return (float32_compare_quiet(f0, f1, NFS) > 0) ? ~0 : 0;
				1861	}
Peter Maydell	02acedf	2011-02-14 10:22:48 +0000	[diff] [blame]	1862
				1863	#define ELEM(V, N, SIZE) (((V) >> ((N) * (SIZE))) & ((1ull << (SIZE)) - 1))
				1864
				1865	void HELPER(neon_qunzip8)(CPUState *env, uint32_t rd, uint32_t rm)
				1866	{
				1867	uint64_t zm0 = float64_val(env->vfp.regs[rm]);
				1868	uint64_t zm1 = float64_val(env->vfp.regs[rm + 1]);
				1869	uint64_t zd0 = float64_val(env->vfp.regs[rd]);
				1870	uint64_t zd1 = float64_val(env->vfp.regs[rd + 1]);
				1871	uint64_t d0 = ELEM(zd0, 0, 8) \| (ELEM(zd0, 2, 8) << 8)
				1872	\| (ELEM(zd0, 4, 8) << 16) \| (ELEM(zd0, 6, 8) << 24)
				1873	\| (ELEM(zd1, 0, 8) << 32) \| (ELEM(zd1, 2, 8) << 40)
				1874	\| (ELEM(zd1, 4, 8) << 48) \| (ELEM(zd1, 6, 8) << 56);
				1875	uint64_t d1 = ELEM(zm0, 0, 8) \| (ELEM(zm0, 2, 8) << 8)
				1876	\| (ELEM(zm0, 4, 8) << 16) \| (ELEM(zm0, 6, 8) << 24)
				1877	\| (ELEM(zm1, 0, 8) << 32) \| (ELEM(zm1, 2, 8) << 40)
				1878	\| (ELEM(zm1, 4, 8) << 48) \| (ELEM(zm1, 6, 8) << 56);
				1879	uint64_t m0 = ELEM(zd0, 1, 8) \| (ELEM(zd0, 3, 8) << 8)
				1880	\| (ELEM(zd0, 5, 8) << 16) \| (ELEM(zd0, 7, 8) << 24)
				1881	\| (ELEM(zd1, 1, 8) << 32) \| (ELEM(zd1, 3, 8) << 40)
				1882	\| (ELEM(zd1, 5, 8) << 48) \| (ELEM(zd1, 7, 8) << 56);
				1883	uint64_t m1 = ELEM(zm0, 1, 8) \| (ELEM(zm0, 3, 8) << 8)
				1884	\| (ELEM(zm0, 5, 8) << 16) \| (ELEM(zm0, 7, 8) << 24)
				1885	\| (ELEM(zm1, 1, 8) << 32) \| (ELEM(zm1, 3, 8) << 40)
				1886	\| (ELEM(zm1, 5, 8) << 48) \| (ELEM(zm1, 7, 8) << 56);
				1887	env->vfp.regs[rm] = make_float64(m0);
				1888	env->vfp.regs[rm + 1] = make_float64(m1);
				1889	env->vfp.regs[rd] = make_float64(d0);
				1890	env->vfp.regs[rd + 1] = make_float64(d1);
				1891	}
				1892
				1893	void HELPER(neon_qunzip16)(CPUState *env, uint32_t rd, uint32_t rm)
				1894	{
				1895	uint64_t zm0 = float64_val(env->vfp.regs[rm]);
				1896	uint64_t zm1 = float64_val(env->vfp.regs[rm + 1]);
				1897	uint64_t zd0 = float64_val(env->vfp.regs[rd]);
				1898	uint64_t zd1 = float64_val(env->vfp.regs[rd + 1]);
				1899	uint64_t d0 = ELEM(zd0, 0, 16) \| (ELEM(zd0, 2, 16) << 16)
				1900	\| (ELEM(zd1, 0, 16) << 32) \| (ELEM(zd1, 2, 16) << 48);
				1901	uint64_t d1 = ELEM(zm0, 0, 16) \| (ELEM(zm0, 2, 16) << 16)
				1902	\| (ELEM(zm1, 0, 16) << 32) \| (ELEM(zm1, 2, 16) << 48);
				1903	uint64_t m0 = ELEM(zd0, 1, 16) \| (ELEM(zd0, 3, 16) << 16)
				1904	\| (ELEM(zd1, 1, 16) << 32) \| (ELEM(zd1, 3, 16) << 48);
				1905	uint64_t m1 = ELEM(zm0, 1, 16) \| (ELEM(zm0, 3, 16) << 16)
				1906	\| (ELEM(zm1, 1, 16) << 32) \| (ELEM(zm1, 3, 16) << 48);
				1907	env->vfp.regs[rm] = make_float64(m0);
				1908	env->vfp.regs[rm + 1] = make_float64(m1);
				1909	env->vfp.regs[rd] = make_float64(d0);
				1910	env->vfp.regs[rd + 1] = make_float64(d1);
				1911	}
				1912
				1913	void HELPER(neon_qunzip32)(CPUState *env, uint32_t rd, uint32_t rm)
				1914	{
				1915	uint64_t zm0 = float64_val(env->vfp.regs[rm]);
				1916	uint64_t zm1 = float64_val(env->vfp.regs[rm + 1]);
				1917	uint64_t zd0 = float64_val(env->vfp.regs[rd]);
				1918	uint64_t zd1 = float64_val(env->vfp.regs[rd + 1]);
				1919	uint64_t d0 = ELEM(zd0, 0, 32) \| (ELEM(zd1, 0, 32) << 32);
				1920	uint64_t d1 = ELEM(zm0, 0, 32) \| (ELEM(zm1, 0, 32) << 32);
				1921	uint64_t m0 = ELEM(zd0, 1, 32) \| (ELEM(zd1, 1, 32) << 32);
				1922	uint64_t m1 = ELEM(zm0, 1, 32) \| (ELEM(zm1, 1, 32) << 32);
				1923	env->vfp.regs[rm] = make_float64(m0);
				1924	env->vfp.regs[rm + 1] = make_float64(m1);
				1925	env->vfp.regs[rd] = make_float64(d0);
				1926	env->vfp.regs[rd + 1] = make_float64(d1);
				1927	}
				1928
				1929	void HELPER(neon_unzip8)(CPUState *env, uint32_t rd, uint32_t rm)
				1930	{
				1931	uint64_t zm = float64_val(env->vfp.regs[rm]);
				1932	uint64_t zd = float64_val(env->vfp.regs[rd]);
				1933	uint64_t d0 = ELEM(zd, 0, 8) \| (ELEM(zd, 2, 8) << 8)
				1934	\| (ELEM(zd, 4, 8) << 16) \| (ELEM(zd, 6, 8) << 24)
				1935	\| (ELEM(zm, 0, 8) << 32) \| (ELEM(zm, 2, 8) << 40)
				1936	\| (ELEM(zm, 4, 8) << 48) \| (ELEM(zm, 6, 8) << 56);
				1937	uint64_t m0 = ELEM(zd, 1, 8) \| (ELEM(zd, 3, 8) << 8)
				1938	\| (ELEM(zd, 5, 8) << 16) \| (ELEM(zd, 7, 8) << 24)
				1939	\| (ELEM(zm, 1, 8) << 32) \| (ELEM(zm, 3, 8) << 40)
				1940	\| (ELEM(zm, 5, 8) << 48) \| (ELEM(zm, 7, 8) << 56);
				1941	env->vfp.regs[rm] = make_float64(m0);
				1942	env->vfp.regs[rd] = make_float64(d0);
				1943	}
				1944
				1945	void HELPER(neon_unzip16)(CPUState *env, uint32_t rd, uint32_t rm)
				1946	{
				1947	uint64_t zm = float64_val(env->vfp.regs[rm]);
				1948	uint64_t zd = float64_val(env->vfp.regs[rd]);
				1949	uint64_t d0 = ELEM(zd, 0, 16) \| (ELEM(zd, 2, 16) << 16)
				1950	\| (ELEM(zm, 0, 16) << 32) \| (ELEM(zm, 2, 16) << 48);
				1951	uint64_t m0 = ELEM(zd, 1, 16) \| (ELEM(zd, 3, 16) << 16)
				1952	\| (ELEM(zm, 1, 16) << 32) \| (ELEM(zm, 3, 16) << 48);
				1953	env->vfp.regs[rm] = make_float64(m0);
				1954	env->vfp.regs[rd] = make_float64(d0);
				1955	}
Peter Maydell	d68a6f3	2011-02-14 10:22:49 +0000	[diff] [blame]	1956
				1957	void HELPER(neon_qzip8)(CPUState *env, uint32_t rd, uint32_t rm)
				1958	{
				1959	uint64_t zm0 = float64_val(env->vfp.regs[rm]);
				1960	uint64_t zm1 = float64_val(env->vfp.regs[rm + 1]);
				1961	uint64_t zd0 = float64_val(env->vfp.regs[rd]);
				1962	uint64_t zd1 = float64_val(env->vfp.regs[rd + 1]);
				1963	uint64_t d0 = ELEM(zd0, 0, 8) \| (ELEM(zm0, 0, 8) << 8)
				1964	\| (ELEM(zd0, 1, 8) << 16) \| (ELEM(zm0, 1, 8) << 24)
				1965	\| (ELEM(zd0, 2, 8) << 32) \| (ELEM(zm0, 2, 8) << 40)
				1966	\| (ELEM(zd0, 3, 8) << 48) \| (ELEM(zm0, 3, 8) << 56);
				1967	uint64_t d1 = ELEM(zd0, 4, 8) \| (ELEM(zm0, 4, 8) << 8)
				1968	\| (ELEM(zd0, 5, 8) << 16) \| (ELEM(zm0, 5, 8) << 24)
				1969	\| (ELEM(zd0, 6, 8) << 32) \| (ELEM(zm0, 6, 8) << 40)
				1970	\| (ELEM(zd0, 7, 8) << 48) \| (ELEM(zm0, 7, 8) << 56);
				1971	uint64_t m0 = ELEM(zd1, 0, 8) \| (ELEM(zm1, 0, 8) << 8)
				1972	\| (ELEM(zd1, 1, 8) << 16) \| (ELEM(zm1, 1, 8) << 24)
				1973	\| (ELEM(zd1, 2, 8) << 32) \| (ELEM(zm1, 2, 8) << 40)
				1974	\| (ELEM(zd1, 3, 8) << 48) \| (ELEM(zm1, 3, 8) << 56);
				1975	uint64_t m1 = ELEM(zd1, 4, 8) \| (ELEM(zm1, 4, 8) << 8)
				1976	\| (ELEM(zd1, 5, 8) << 16) \| (ELEM(zm1, 5, 8) << 24)
				1977	\| (ELEM(zd1, 6, 8) << 32) \| (ELEM(zm1, 6, 8) << 40)
				1978	\| (ELEM(zd1, 7, 8) << 48) \| (ELEM(zm1, 7, 8) << 56);
				1979	env->vfp.regs[rm] = make_float64(m0);
				1980	env->vfp.regs[rm + 1] = make_float64(m1);
				1981	env->vfp.regs[rd] = make_float64(d0);
				1982	env->vfp.regs[rd + 1] = make_float64(d1);
				1983	}
				1984
				1985	void HELPER(neon_qzip16)(CPUState *env, uint32_t rd, uint32_t rm)
				1986	{
				1987	uint64_t zm0 = float64_val(env->vfp.regs[rm]);
				1988	uint64_t zm1 = float64_val(env->vfp.regs[rm + 1]);
				1989	uint64_t zd0 = float64_val(env->vfp.regs[rd]);
				1990	uint64_t zd1 = float64_val(env->vfp.regs[rd + 1]);
				1991	uint64_t d0 = ELEM(zd0, 0, 16) \| (ELEM(zm0, 0, 16) << 16)
				1992	\| (ELEM(zd0, 1, 16) << 32) \| (ELEM(zm0, 1, 16) << 48);
				1993	uint64_t d1 = ELEM(zd0, 2, 16) \| (ELEM(zm0, 2, 16) << 16)
				1994	\| (ELEM(zd0, 3, 16) << 32) \| (ELEM(zm0, 3, 16) << 48);
				1995	uint64_t m0 = ELEM(zd1, 0, 16) \| (ELEM(zm1, 0, 16) << 16)
				1996	\| (ELEM(zd1, 1, 16) << 32) \| (ELEM(zm1, 1, 16) << 48);
				1997	uint64_t m1 = ELEM(zd1, 2, 16) \| (ELEM(zm1, 2, 16) << 16)
				1998	\| (ELEM(zd1, 3, 16) << 32) \| (ELEM(zm1, 3, 16) << 48);
				1999	env->vfp.regs[rm] = make_float64(m0);
				2000	env->vfp.regs[rm + 1] = make_float64(m1);
				2001	env->vfp.regs[rd] = make_float64(d0);
				2002	env->vfp.regs[rd + 1] = make_float64(d1);
				2003	}
				2004
				2005	void HELPER(neon_qzip32)(CPUState *env, uint32_t rd, uint32_t rm)
				2006	{
				2007	uint64_t zm0 = float64_val(env->vfp.regs[rm]);
				2008	uint64_t zm1 = float64_val(env->vfp.regs[rm + 1]);
				2009	uint64_t zd0 = float64_val(env->vfp.regs[rd]);
				2010	uint64_t zd1 = float64_val(env->vfp.regs[rd + 1]);
				2011	uint64_t d0 = ELEM(zd0, 0, 32) \| (ELEM(zm0, 0, 32) << 32);
				2012	uint64_t d1 = ELEM(zd0, 1, 32) \| (ELEM(zm0, 1, 32) << 32);
				2013	uint64_t m0 = ELEM(zd1, 0, 32) \| (ELEM(zm1, 0, 32) << 32);
				2014	uint64_t m1 = ELEM(zd1, 1, 32) \| (ELEM(zm1, 1, 32) << 32);
				2015	env->vfp.regs[rm] = make_float64(m0);
				2016	env->vfp.regs[rm + 1] = make_float64(m1);
				2017	env->vfp.regs[rd] = make_float64(d0);
				2018	env->vfp.regs[rd + 1] = make_float64(d1);
				2019	}
				2020
				2021	void HELPER(neon_zip8)(CPUState *env, uint32_t rd, uint32_t rm)
				2022	{
				2023	uint64_t zm = float64_val(env->vfp.regs[rm]);
				2024	uint64_t zd = float64_val(env->vfp.regs[rd]);
				2025	uint64_t d0 = ELEM(zd, 0, 8) \| (ELEM(zm, 0, 8) << 8)
				2026	\| (ELEM(zd, 1, 8) << 16) \| (ELEM(zm, 1, 8) << 24)
				2027	\| (ELEM(zd, 2, 8) << 32) \| (ELEM(zm, 2, 8) << 40)
				2028	\| (ELEM(zd, 3, 8) << 48) \| (ELEM(zm, 3, 8) << 56);
				2029	uint64_t m0 = ELEM(zd, 4, 8) \| (ELEM(zm, 4, 8) << 8)
				2030	\| (ELEM(zd, 5, 8) << 16) \| (ELEM(zm, 5, 8) << 24)
				2031	\| (ELEM(zd, 6, 8) << 32) \| (ELEM(zm, 6, 8) << 40)
				2032	\| (ELEM(zd, 7, 8) << 48) \| (ELEM(zm, 7, 8) << 56);
				2033	env->vfp.regs[rm] = make_float64(m0);
				2034	env->vfp.regs[rd] = make_float64(d0);
				2035	}
				2036
				2037	void HELPER(neon_zip16)(CPUState *env, uint32_t rd, uint32_t rm)
				2038	{
				2039	uint64_t zm = float64_val(env->vfp.regs[rm]);
				2040	uint64_t zd = float64_val(env->vfp.regs[rd]);
				2041	uint64_t d0 = ELEM(zd, 0, 16) \| (ELEM(zm, 0, 16) << 16)
				2042	\| (ELEM(zd, 1, 16) << 32) \| (ELEM(zm, 1, 16) << 48);
				2043	uint64_t m0 = ELEM(zd, 2, 16) \| (ELEM(zm, 2, 16) << 16)
				2044	\| (ELEM(zd, 3, 16) << 32) \| (ELEM(zm, 3, 16) << 48);
				2045	env->vfp.regs[rm] = make_float64(m0);
				2046	env->vfp.regs[rd] = make_float64(d0);
				2047	}