data mining: técnicas y procedimientos

No Comments
técnicas de data mining

@pedroruizhidalg― A principios de 2002, el director del FBI, John Aschcroft, anunciaba que el Departamento de Justicia comenzaría a analizar las bases de datos comerciales referentes a los hábitos de consumo y preferencias de compra de los consumidores estadounidenses. Expertos aseguran que la intención del FBI es aunar toda la información que dispongan en una mega base de datos con el fin de poder hacer el seguimiento ―en USA es casi sospechoso pagar con efectivo repetidas veces, siempre lo hacen con tarjeta― del reguero de información que vamos dejando en nuestro día a día.

Permitidme ilustrarlo con un ejemplo. Fulano de Tal se levanta un sábado y mira su Facebook, contesta a lo que le ha llamado la atención. Consulta su cuenta de Twitter y retuitea la cosa tan graciosa que ha visto. Luego mira su email. Tras esto desayuna, se ducha y se va en moto hacia una gasolinera para poner 10€ de carburante. Va a unos grandes almacenes, en la búsqueda mira una gorra, la fotografía y la envía a su novia a ver qué le parece; se compra un pantalón vaquero y una camiseta para la playa. En la esquina de siempre, le espera su novia, con la que van a tomar algo a un bar de moda. Fotografían ambos la tapa, la mandan a sus redes sociales, algunos amigos contestan con un «like» otros retwitean. Aquí paramos el ejemplo. Ahora vamos a verlo desde el punto de vista de las redes sociales y quien tenga acceso a ellas.

Cuando accedemos a una de nuestras redes sociales, se graba todo, se graba, por ejemplo, si accedemos con móvil, tablet u ordenador de sobremesa, la hora y el lugar desde el que accedemos, el sistema operativo que usamos, el tipo de navegador, el ancho de nuestra página, la última página que hemos visitado, y, desde luego, nuestra IP, por tanto, también se está grabando si accedemos desde wifi o por conexión directa 3 ó 4G. Así que puede reconstruirse la historia que antes he descrito desde la siguiente óptica:

Nuestro protagonista se conecta el sábado a las 8:35 desde una ubicación determinada ―su casa― accedió mediante la aplicación de Facebook que tenía en el móvil, contestó a su amigo de la primo ―nosotros somos quienes describimos las relaciones en facebook― algo relacionado con Messi ―sí, esto también es catalogado, pues es muy importante para los gurús del márketing―, en Twitter se hace eco del chiste del presidente de gobierno ―ya conocemos su tendencia política―, conocemos quienes le han escrito a su cuenta de Google y cuál ha sido su reacción ante ese mail. Ha puesto 10€ de gasolina 98 a las 9:43 ―llegado el caso la gasolinera tiene cámaras― y lo ha pagado con la tarjeta de crédito de su banco número tal. No ha ido al centro comercial por el camino más corto, lo sabemos por el GPS de su móvil, aparca en la puerta de un bar. Usa la talla XXL de camiseta y de pantalón la XL en lo que ha invertido 44.54€ en total, pero con su tarjeta de crédito ―que caduca el próximo enero― lo pagará el mes que viene. En la puerta del bar donde tiene aparcada la moto, se encuentra con su novia a las 11:17 horas, y tomaron unas patatas bravas con cerveza ―ellos mismos lo tuitearon― a su amigo, Fran ―el de Huelva― le gusta la foto de las patatas bravas.

Y así… podíamos seguir hasta obtener un perfil completo de ese Don Nadie, que si bien no nos aporta nada especial, sí que unido al ejército de «donnadies» que, es verdad, llevan vidas grises aburridas y previsibles, sí podemos coleccionar todos esos datos porque a las empresas de márketing les interesa muchísimo.

Clave pública @pedroruizhidalg.pub.key
#aboutpedroruizhidalgo
[polldaddy poll=9120832]
♻ miotroblogsite ahorra papel

el primer día de un hacker

No Comments

@pedroruizhidalg― Si Internet fuera un iceberg, la parte visible ―por muy grande que parezca― sería la web que todos usamos. A esto le llamaremos la «web clara». Pero hay otra. En esa otra web nos encontramos absolutamente de todo. Ahí se venden drogas, armas, prostitución, servicios de información gubernamentales y privados, ejércitos, banca…  lo mejor de cada casa.

Todos tenemos en nuestra ciudad un barrio en el que no entraríamos. Bienvenidos a la «deep web», que es como se denomina a este otro barrio de Internet, donde no es fácil entrar. Donde es peligroso estar. Donde una vez descubiertos es difícil salir. Mi consejo: No entres. No obstante, he leído por ahí que se usan las siguientes herramientas.

Navegador: No, no nos sirve el navegador que usamos normalmente en la web clara. Si lo hiciéramos así estaríamos localizados en el primer segundo de la primera transmisión. Es conveniente usar un navegador que ofusque nuestra posición e identidad.  Onion Tor, es bastante bueno.

Identidad: Tienes que crearte una identidad, por supuesto falsa. De la que nunca, insisto: nunca, debes hacer uso en tus navegadores de la web clara. Has de actuar como si fueras dos personas distintas y una persona no sabe nada de la otra.

Email: Necesitas un email. Pero uno que habrás de obtener en la deep web. No se te ocurra jamás, usar un mail de la web clara. Si no entiendes esto lee el párrafo anterior y tu mano derecha jamás sabrá lo que hace tu mano izquierda.

Obviamente, no debes confiar jamás en un servidor de correo de la deep web. Todo lo que forme parte de la deep web no es confiable. Así que tendrás que encriptar todos los correos que envíes y comunicar la clave por algún medio que no sea electrónico al receptor del correo. Cuando digo que no sea un medio electrónico, me refiero a fax, teléfono, móvil, email, etcétera.

Cómo encriptar: Una vez que has buscado la forma en quien envía el mensaje y quien lo recibe puedan compartir una clave en común, tendrás que tener presente que con cada uno de tus contactos a quienes envíes correos usarán una clave distinta. No se te ocurra usar la misma clave siempre. Encriptas el mensaje usando PGP (que en linux se llama gpg). Con la información que quieres compartir habrás de crear un archivo.

gpg -ca archivo

Esto va a generar un archivo con el mismo nombre y la extensión .asc, copia el texto así:

-----BEGIN PGP MESSAGE-----
Version: GnuPG v1

jA0EAwMCDYZWvgRbCKdgyUFRrfzQJSy36SgCOQEGJsT4aZl6mmQjRvpCIhgDj8TC
yAnfl+Owq6sbTy2uEhVDTVo29Kd2G+io+0rFZrYtnSwyYA==
=kGwV
—–END PGP MESSAGE—–

El mensaje anterior contiene “el perro de san roque no tiene rabo” con la clave 12345. Puedes probarlo.

Y esto es lo que envías.

Cómo desencriptar: Lo haces al revés, pegas lo que encuentres en tu correo y desencriptas así (te pedirá la contraseña):
gpg -d archivo

Información  comprometida: Créeme, los servicios secretos de Rusia están volviendo a la máquina de escribir y a los archivos de papel y las hojas de calco. Con un buen protocolo se ha demostrado que es lo más seguro. No obstante, si tienes información comprometida debes mantenerla suficientemente encriptada. Hay herramientas para mantener la información comprometida.

Borrado: El borrado de archivos debe ser una tarea muy cuidadosa. Existen técnicas que te podrían interesar. La situación ideal sería procesar todo en un ordenador que no esté conectado, y nunca vaya a estarlo, a Internet.

Según he leído por ahí…

#aboutpedroruizhidalgo
[polldaddy poll=9120832]
♻ miotroblogsite ahorra papel

duckduckgo el buscador que no te rastrea

No Comments

@pedroruizhidalg― En esa especie de cruzada que mantengo contra el abuso de captura de información contra las grandes empresas de Internet me encuentro el buscador duckduckgo.com que promete hacer búsquedas sin rastrear al usuario. Además es configurable, dejando al criterio del usuario si desea pasar los datos por GET  o bien pasarlos por POST.

Implicaciones

Pasar los datos por GET significa que todos los parámetros de la búsqueda se van añadiendo como variables a la dirección de la web que estemos consultado, siendo mucho más indiscreto. Cuando los datos son pasados por POST los datos son enviados por otro «canal» quedando fuera de la URL y, aunque también susceptible de ser interceptada la consulta, da un poco de más trabajo.

Un ejemplo de datos GET en Google sería cómo queda la url para buscar «el perro de san roque», donde en la URL puede observarse las distintas variables que usa google separadas por un andpersand (&).

Desde la resolución de tu pantalla, el ancho del navegador, la página anterior, la dirección y ubicación, nuestra IP, si estamos navegando mediante un proxi o no, el sistema operativo, el tipo de dispositivo son informaciones que TODO buscador indexa en su base de datos por cada una de las búsquedas. Asegura no hacerlo duckduckgo.com.

#aboutpedroruizhidalgo
[polldaddy poll=9120832]
♻ miotroblogsite ahorra papel

tu casa sin muros ni cortinas

No Comments

Si crees que tú aún eres una persona anónima con cierta privacidad no leas este artículo

Pedro Ruiz Hidalgo― El día 29 de septiembre Eduard Snowden se unía a Twitter provocando, según Twitter, en unas horas el siguiente resultado:

Desde el punto de vista de Twitter, pueden conocerse todos y cada unos de los usuarios de esta red, en tiempo real, que se han unido a la cuenta del señor Snowden ¿Qué importancia puede tener? Bueno, Twitter también puede conocer qué seguidores de Snowden se conocen entre sí, quienes a través de seguir a Snowden se empiezan a enviar mensajes y más. Pero aún más: mediante la geolocalización que todos activamos en Twitter, ellos pueden averiguar cuántos de los usuarios de Snowden se reúnen. Obviamente, una persona que siga a Snowden puede también ser seguidor de Cristiano Ronaldo, Anna Netrebko o los Mojinos Escocíos, eso también. Dicho de otra forma para una empresa a la que le suministremos datos de geolocalización puede ver cuándo vamos a una reunión, o una manifestación, y tratando estos datos como BIG DATA, ver mediante un algoritmo desde dónde vas a la manifestación, concierto, partido de fútbol o simplemente dónde tomas café, con quién, y a qué hora, si te desplazas andando, en bus en bici y el recorrido que has elegido para tal desplazamiento. Y esto solo Twitter. Pero nosotros pertenecemos a muchas redes sociales donde motu propio enviamos dónde estamos, qué comemos, si estamos enfermos, lo que nos gusta de la tele, los libros que hemos leído y los amigos que tenemos de la infancia, qué «amigos» son de Internet, qué comentamos con ellos, etcétera.

Alguno puede pensar, que miren lo que quieran, no tengo nada que ocultar. Posiblemente lleve razón, sea una persona que no tenga nada que ocultar, pero eso no va a impedir a las empresas que nos suministran programas gratuitos en el móvil que accedan a nuestra lista de contactos, archivos multimedia ―es decir: fotos, vídeos, grabaciones, sonidos, canciones― con los que crear patrones de conducta que son vendidos ―espero que anónimamente― otras empresas que se dedican a estudiar los comportamientos mediante algoritmos para predecir, tal vez, anticipar nuestros comportamientos. Y es que hemos dejado de ser anónimos, somos nosotros quienes suministramos voluntariamente la información para que sea estudiada.

Permitidme la insistencia, quizá la persona que lee este artículo, no tenga nada que ocultar y sea la quintaesencia de la eucaristía de la rectitud y honradez, pero también estamos proporcionando los contactos de los amigos. Veamos esto desde un plano superior, e intentemos trazar un mapa de quiénes son, y cómo se relacionan, las personas en España o Alemania, todo ello sin necesidad de espiar, tan solo viendo los datos que pública y voluntariamente suministramos. Algo así.

Captura de pantalla de 2015-10-02 16:00:10

Que efectúa la empresa OpenDataCity para todas las personas físicas o jurídicas que estén interesadas en sus servicios.

Durante muchísimos años la mayor base de datos del mundo la poseía el supermercado Wallmart en Estados Unidos ¿Cómo? Simple, mediante las tarjetas de puntos que ofrecían a los clientes. Una base de datos superior a la que pudieran tener la NSA y CIA juntos. En España, la de Campsa tampoco debe ser despreciable. Se trata, como todos sabéis, de sellar en cada gasolinera donde ponemos carburante, luego es muy fácil para la gasolinera no sólo saber dónde has puesto gasolina, sino qué carburante, con qué frecuencia y a qué hora has hecho servicio de esto ¿A cambio de qué? De que si consumes mucho, pero mucho, te regalan una gorra ―de propaganda―. Igual ocurre en Carrefour y en tantos establecimientos de consumo más o menos diario. Seguro que algunos estáis pensando que por ejemplo para la adquisición de una tarjeta, digamos de Campsa, no es necesario suministrar nuestros datos personales. Es igual, no se trata de identificar al cliente, sino de obtener ―a cambio de una gorra de propaganda― sus hábitos de consumo.

Ahora, contemplemos el supuesto en el que a alguna empresa ―o peor, a una autoridad― le dé por mirar los datos de nuestros comportamientos pero con identificación de nuestra personalidad contrastándola con los hábitos de navegación de web, suponiendo que consumimos pornografía, y que nos encontramos en un aeropuerto en cuya patria estén penados tales consumos. Ya estamos en un brete.

Hasta ahora hemos hablado de las entidades externas, no de fabricantes de nuestros móviles, nuestros sistemas operativos, nuestros ordenadores… !No quiero pensar!

Somos nosotros quienes con nuestros smartphones enviamos una señal a la antena más cercana cada cinco minutos para descargarnos lo nuevo que haya ocurrido en el mundo, nuestro correo, Twitter, noticias de Facebook, Pinterest… Pero ¿cómo eludir las comunicación instantánea que nos proporciona un móvil? ¿cómo renunciar a la comodidad de solicitar a google maps una dirección a la que nos dirigimos y no conocemos? Nos hemos acostumbrado a conocer el camino antes de llegar. A que nos indiquen por qué ruta es más rápido dependiendo de las condiciones del tráfico ¿alguno de ustedes duda que los radares de carretera fotografían más que a los que infringen la velocidad? ¿Algunos de ustedes duda que en aras de una pretendida seguridad estamos siendo fotografiados/filmados constantemente cuando vamos a un aparcamiento, una calle, una gran superficie o el chino de la esquina?

Empleemos sistema de criptografía en nuestros smartphones, en nuestros ordenadores, naveguemos con proxy o navegar con Tor. Esto no evitará la vigilancia, pero seremos un poco más anónimos. Como si pusiéramos un visillo en nuestra casa, que si bien de cerca se puede ver, desde lejos quedamos más o menos en el anonimato que, como ciudadanos, nos merecemos.