[bcn-pm] Duda con arrays

Verónica Olmos González volmosg.bt a gmail.com
dim feb 3 02:47:24 PST 2015


Muchísimas gracias por las respuestas.

De momento, he probado lo de la máscara que me ha sugerido Salvador (no
tenía ni idea de que se podía hacer eso) y, salvo porque los elementos del
array no recuperan so longitud original después de la eliminación (no sé si
esto es la consecuencia lógica esperable; pero seguiré echándole un ojo),
me soluciona bastante bien el problema que tenía :)

Lo dicho, muchas gracias, y seguiré investigando con las cosillas que me
habéis ido diciendo!

El 3 de febrero de 2015, 8:17, H. Daniel Cesario <maneta en gmail.com>
escribió:

> Igual podrías mirar la funcion grep de perl:http://
> perlmaven.com/filtering-values-with-perl-grep
> Y filtrar la array de entrada quitando los elementos que no te interesan.
> Ej:
> my @arr2 = grep { $_ =~ /(?!N)/ } @arr1;
>
> No estoy seguro de la regex(dont shoot the messenger)
>
> Pero el grep igual te ayuda!
>
> Salut y Perl
>
> Sent from my iPhone
>
> On 3/2/2015, at 8:00, JJ Merelo <jjmerelo en gmail.com> wrote:
>
> Madre mía, qué hack. Aplausos.
>
> El 2 de febrero de 2015, 22:42, Salvador Fandiño <sfandino en gmail.com>
> escribió:
>
>>  On 02/02/2015 08:58 PM, Verónica Olmos González wrote:
>>
>>   ¡Hola a todos!
>>
>> Bueno, ante todo, como decía en mi presentación, soy bastante (muy)
>> novata en Perl, así que es bastante probable que la esté liando con algo
>> muy básico... pero me gustaría compartir mi problema con vosotros, por si
>> alguno supiera darme alguna orientación (aunque sea simplemente remitirme a
>> alguna página concreta de documentación).
>>
>>  El contexto de mi problema es el siguiente: parto de un array que
>> contiene secuencias de nucleótidos (o sea, strings que deben estar formados
>> por "A", "C", "G" o "T"). La cosa es que estos strings pueden contener,
>> cualquiera de ellos, en determinada posición, el carácter "N", que no es
>> "válido". Lo que hace el resto de mi programa es hacer comparaciones dos a
>> dos entre cada elemento del array. Lo que quiero hacer, y el quid de mi
>> duda: si en "x" posición de cualquier elemento encuentro una "N", debo
>> borrar esa "x-ésima" posición en TODOS los elementos del array. Un ejemplo:
>> si tengo @arr = ("AATN", "AATG", "TATG") debo quedarme con @arr2 = ("AAT",
>> "AAT", "TAT").
>>
>>  Sin enrollarme con más explicaciones, os enseño el código con mi
>> planteamiento:
>>
>>  @sequences = ("AATGTCAACGAN", "AATGTCAACGNA", "ATTGTCAACGTN",
>>> "ATTGTGATCGTT");
>>> for ($i = 0; $i <= scalar(@sequences); $i++) {
>>>     if ($sequences[$i] =~ "N") {
>>>
>>        # Localizo las "N" y guardo su posición en un array
>>
>>          push(@pos,index($sequences[$i], "N"));
>>     }
>> }
>>
>>  # Elimino posiciones repetidas y ordeno los valores
>>  my @pos = do { my %seen; grep { !$seen{$_}++ } @pos };
>> @pos = sort @pos;
>>
>>  # Mi idea era, mediante expresiones regulares, poner "N" en todos los
>> elementos de los arrays, en las posiciones guardadas, para luego eliminarlo
>> todo evitando "corrimientos" en las posiciones
>>
>>  for ($i = 0; $i <= scalar(@sequences); $i++) {
>>     for ($j = 0; $j <= scalar(@pos); $j++) {
>>         substr($sequences[$i],$pos[$j],1) =~ s/\D/N/;
>>     }
>> }
>>
>>  Ahora bien, en el último bucle se me va todo de madre, permanece
>> iterando continuamente.
>>
>>  La verdad es que seguro que estoy haciendo fatal algo tontísimo, pero
>> no soy capaz de ver el origen del error, por lo que agradecería enormemente
>> cualquier tipo de orientación.
>>
>>
>>  Un saludo,
>>  Verónica
>>
>>
>> Para esto de la N hay un truco.
>>
>> Si te fijas, de todos los caracteres AGCTN solo la N tiene un 1 en el bit
>> 3 (0x08) asi que puedes detectar donde hay Ns haciendo un OR de todas las
>> sequencias y luego buscando los caracteres que tienen ese bit a uno en el
>> resultado.
>>
>> A partir de ahi es fácil generar una mascara que al hacer AND con las
>> secuencias originales ponga a cero las posiciones con N, y luego solo hay
>> que borrar los ceros:
>>
>>   @sequences = ("AATGTCAACGAN",
>>                 "AATGTCAACGNA",
>>                 "ATTGTCAACGTN",
>>                 "ATTGTGATCGTT");
>>
>>   my $mask = '';
>>   $mask |= $_ for @sequences;
>>   $mask =~ s/(.)/(ord($1) & 8) ? "\0" : "\xFF"/ge;
>>
>>   for (@sequences) {
>>       $_ &= $mask;
>>       tr/\0//;
>>   }
>>
>>   use Data::Dumper;
>>   print Dumper \@sequences;
>>
>>
>>
>> _______________________________________________
>> llista dels Barcelona-pm
>> Barcelona-pm en pm.org
>> http://mail.pm.org/mailman/listinfo/barcelona-pm
>> BCN Perl Mongers: http://barcelona.pm.org
>>
>
>
>
> --
> JJ
>
> _______________________________________________
> llista dels Barcelona-pm
> Barcelona-pm en pm.org
> http://mail.pm.org/mailman/listinfo/barcelona-pm
> BCN Perl Mongers: http://barcelona.pm.org
>
>
> _______________________________________________
> llista dels Barcelona-pm
> Barcelona-pm en pm.org
> http://mail.pm.org/mailman/listinfo/barcelona-pm
> BCN Perl Mongers: http://barcelona.pm.org
>



-- 
Verónica Olmos González
Skype: v.olmosg
Teléfono/Phone: +34 666 68 16 01
------------ pr�a parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://mail.pm.org/pipermail/barcelona-pm/attachments/20150203/317c21c8/attachment-0001.html>


Més informació sobre la llista de correu Barcelona-pm